Đánh giá đầu ra FM và Agents for Amazon Bedrock
Evaluating FM Outputs and Agents for Amazon Bedrock
Sau khi xây ứng dụng FM, bạn cần đánh giá chất lượng đầu ra và đôi khi cần để FM thực hiện hành động nhiều bước thông qua agent. Bài này khép lại Domain 3 với hai chủ đề: đánh giá và Agents for Amazon Bedrock.
Vì sao phải đánh giá đầu ra FM
Đầu ra FM mang tính xác suất — cùng một prompt có thể cho kết quả khác nhau, và mô hình có thể bịa (hallucinate). Đánh giá có hệ thống giúp so sánh các mô hình/prompt, phát hiện hồi quy chất lượng, và quyết định có triển khai hay không.
Chỉ số đánh giá tự động
Mỗi chỉ số gắn với một loại tác vụ — câu hỏi hay bắt bạn ghép đúng chỉ số với tác vụ:
| Chỉ số | Dùng cho tác vụ | Ý tưởng |
|---|---|---|
| ROUGE ROUGE | Tóm tắt (summarization) | Đo mức trùng lặp (recall) giữa bản tóm tắt máy và bản tham chiếu. |
| BLEU BLEU | Dịch máy (translation) | Đo mức trùng khớp n-gram giữa bản dịch máy và bản tham chiếu. |
| BERTScore BERTScore | Tương đồng ngữ nghĩa | So sánh ý nghĩa bằng embeddings, không chỉ trùng từ. |
Trọng tâm thi
Mẹo nhớ: ROUGE → tóm tắt (Summarization), BLEU → dịch (Translation/Bilingual). BERTScore đo tương đồng ngữ nghĩa nên bắt được trường hợp diễn đạt khác nhau nhưng cùng nghĩa — điều mà ROUGE/BLEU (dựa trên trùng từ/n-gram) có thể bỏ sót.
Đánh giá bằng con người (human evaluation)
Chỉ số tự động không bắt được mọi khía cạnh (tính hữu ích, an toàn, giọng văn, đúng sự thật). Đánh giá bởi con người Human evaluation cho phép người thật chấm điểm theo các tiêu chí như độ chính xác, mức độ liên quan, tính mạch lạc, an toàn. Tốn thời gian/chi phí hơn nhưng cần thiết cho các use case nhạy cảm.
Amazon Bedrock model evaluation
Amazon Bedrock model evaluation Amazon Bedrock model evaluation là tính năng được quản lý giúp so sánh và chấm điểm các FM cho use case của bạn. Nó hỗ trợ:
- Automatic evaluation: dùng các chỉ số/bộ dữ liệu dựng sẵn để chấm tự động.
- Human evaluation: dùng đội ngũ của bạn hoặc lực lượng do AWS quản lý để chấm theo tiêu chí tùy chỉnh.
Đây là đáp án khi đề hỏi "cách được quản lý trên AWS để đánh giá/so sánh các foundation model".
Agents for Amazon Bedrock
Agents for Amazon Bedrock Agents for Amazon Bedrock cho phép một FM không chỉ trả lời mà còn hành động: lập kế hoạch nhiều bước, gọi API/AWS Lambda, và truy xuất tri thức (qua Knowledge Bases) để hoàn thành một tác vụ thay người dùng.
Agent hoạt động ra sao
- Nhận yêu cầu của người dùng (vd "Đặt phòng họp và gửi lời mời").
- FM phân rã yêu cầu thành các bước.
- Agent gọi công cụ/API phù hợp ở mỗi bước (vd Lambda truy vấn lịch, tạo sự kiện).
- Có thể truy xuất tài liệu liên quan qua Knowledge Bases (RAG).
- Tổng hợp kết quả và trả lời.
Ghi chú
Phân biệt rõ: RAG chỉ truy xuất thông tin để trả lời; Agent còn thực hiện hành động (gọi API, chạy nhiều bước). Khi đề nói "tự động hoàn thành một quy trình nhiều bước", "gọi các API/hệ thống bên ngoài" → đó là Agents for Amazon Bedrock.
Phân biệt với các dịch vụ an toàn/khác
| Dịch vụ | Vai trò |
|---|---|
| Agents for Amazon Bedrock | Điều phối FM gọi công cụ/API cho tác vụ nhiều bước. |
| Knowledge Bases for Amazon Bedrock | Cung cấp RAG (truy xuất tri thức) cho FM/agent. |
| Amazon Bedrock Guardrails | Lọc nội dung độc hại, chủ đề bị cấm, che PII. |
| Amazon Bedrock model evaluation | Đánh giá/so sánh các FM. |
Trọng tâm thi
Bốn dịch vụ Bedrock dễ bị nhầm: Agents (hành động), Knowledge Bases (truy xuất/RAG), Guardrails (an toàn nội dung), model evaluation (đánh giá). Đề thường mô tả một nhu cầu và bắt bạn chọn đúng dịch vụ.
Tóm tắt
- Đầu ra FM mang tính xác suất và có thể bịa → cần đánh giá có hệ thống.
- Chỉ số tự động: ROUGE → tóm tắt, BLEU → dịch, BERTScore → tương đồng ngữ nghĩa.
- Human evaluation cần cho chất lượng/an toàn mà chỉ số tự động không bắt được.
- Amazon Bedrock model evaluation = cách được quản lý để đánh giá/so sánh FM (tự động + con người).
- Agents for Amazon Bedrock điều phối FM gọi API/Lambda cho tác vụ nhiều bước; khác với RAG (chỉ truy xuất) và Guardrails (an toàn).