Rủi ro của Generative AI và cách giảm thiểu

Generative AI mang lại giá trị lớn nhưng đi kèm các rủi ro đặc thù mà ML truyền thống ít gặp. Đề AIF-C01 hay hỏi: "rủi ro này là gì?" và "biện pháp giảm thiểu phù hợp nào?".

Các rủi ro đặc thù của Generative AI

Hallucination (Bịa đặt)

Hallucination Hallucination là khi mô hình sinh ra nội dung nghe rất hợp lý nhưng sai sự thật hoặc hoàn toàn bịa đặt (ví dụ trích dẫn một nghiên cứu không tồn tại). Đây là rủi ro nguy hiểm vì mô hình thể hiện sự "tự tin" khiến người dùng dễ tin nhầm.

Toxicity / Harmful content (Nội dung độc hại)

Mô hình có thể sinh nội dung thù ghét, bạo lực, phân biệt đối xử hoặc hướng dẫn nguy hiểm — do dữ liệu huấn luyện chứa nội dung như vậy hoặc do bị "dụ" qua prompt.

Intellectual property & copyright (Sở hữu trí tuệ & bản quyền)

Đầu ra có thể tái tạo nội dung có bản quyền, hoặc mô hình được huấn luyện trên dữ liệu chưa được phép, gây rủi ro pháp lý. Quyền sở hữu nội dung do AI tạo ra cũng còn nhiều tranh cãi.

Data privacy leakage (Rò rỉ dữ liệu)

Mô hình có thể vô tình lộ thông tin cá nhân PII hoặc dữ liệu nhạy cảm xuất hiện trong dữ liệu huấn luyện, hoặc người dùng dán dữ liệu mật vào prompt rồi bị lưu/lộ.

Prompt-based misuse (Lạm dụng qua prompt)

Kẻ xấu có thể dùng prompt injection prompt injection hoặc jailbreak để vượt qua rào chắn, ép mô hình làm việc không được phép hoặc tiết lộ system prompt.

Environmental cost (Chi phí môi trường)

Huấn luyện và chạy mô hình lớn tiêu tốn nhiều năng lượng và tài nguyên tính toán, kéo theo lượng phát thải carbon đáng kể — một cân nhắc về tính bền vững.

Lưu ý

Hallucination, toxicity và rò rỉ dữ liệu là ba rủi ro bị hỏi nhiều nhất. Hãy gắn mỗi rủi ro với biện pháp giảm thiểu của nó.

Các biện pháp giảm thiểu

Rủi ro	Biện pháp giảm thiểu chính
Hallucination	RAG RAG grounding (gắn câu trả lời vào nguồn đáng tin), human-in-the-loop
Toxicity / harmful content	Bedrock Guardrails (content filters), kiểm duyệt dữ liệu huấn luyện
IP / bản quyền	Kiểm duyệt nguồn dữ liệu, công bố/disclosure, dùng mô hình có giấy phép rõ ràng
Rò rỉ dữ liệu	Guardrails che PII, kiểm soát truy cập, không huấn luyện trên dữ liệu nhạy cảm
Prompt misuse	Guardrails, kiểm tra đầu vào, denied topics
Chi phí môi trường	Chọn mô hình vừa đủ, fine-tune thay vì huấn luyện lại từ đầu, dùng hạ tầng hiệu quả

RAG grounding

RAG Retrieval-Augmented Generation truy xuất tài liệu liên quan từ nguồn đáng tin rồi đưa vào ngữ cảnh để mô hình trả lời dựa trên dữ kiện thật, giảm mạnh hallucination và tăng veracity — mà không cần huấn luyện lại mô hình.

Guardrails

Như đã học ở bài trước, Bedrock Guardrails lọc nội dung độc hại, chặn denied topics và che PII — xử lý đồng thời toxicity, privacy và một phần prompt misuse.

Human-in-the-loop

Đưa con người vào duyệt (qua Amazon A2I hoặc quy trình review) trong các tình huống rủi ro cao, đảm bảo controllability trước khi kết quả được dùng.

Dataset curation (Kiểm duyệt dữ liệu)

Làm sạch, cân bằng và loại nội dung độc hại/nhạy cảm/bản quyền khỏi dữ liệu huấn luyện hoặc fine-tune — phòng bệnh từ gốc.

Disclosure (Công bố)

Minh bạch với người dùng rằng họ đang tương tác với AI và nêu rõ giới hạn — phục vụ transparency và giảm rủi ro hiểu lầm.

Đánh đổi: minh bạch vs hiệu năng

Có một đánh đổi quan trọng giữa độ minh bạch/giải thích của mô hình và hiệu năng:

Mô hình lớn, phức tạp (deep learning, foundation models) thường cho hiệu năng cao nhưng là "hộp đen", khó giải thích.
Mô hình đơn giản, minh bạch hơn dễ giải thích nhưng có thể kém chính xác ở các bài toán phức tạp.

Trong lĩnh vực rủi ro cao (y tế, tài chính, pháp lý), nhiều tổ chức chấp nhận hy sinh một phần hiệu năng để có mô hình dễ giải thích và kiểm toán hơn. Đây là quyết định cân bằng giữa giá trị kinh doanh và yêu cầu tuân thủ/đạo đức.

Tóm tắt

Rủi ro GenAI đặc thù: hallucination, toxicity, IP/bản quyền, rò rỉ dữ liệu, lạm dụng prompt, chi phí môi trường.
Ghép biện pháp: hallucination → RAG; toxicity/PII → Guardrails; rủi ro cao → human-in-the-loop; gốc rễ → dataset curation; minh bạch với người dùng → disclosure.
Có đánh đổi giữa minh bạch/giải thích và hiệu năng — chọn theo mức rủi ro của bài toán.

Các rủi ro đặc thù của Generative AI#

Hallucination (Bịa đặt)#

Toxicity / Harmful content (Nội dung độc hại)#

Intellectual property & copyright (Sở hữu trí tuệ & bản quyền)#

Data privacy leakage (Rò rỉ dữ liệu)#

Prompt-based misuse (Lạm dụng qua prompt)#

Environmental cost (Chi phí môi trường)#

Các biện pháp giảm thiểu#

RAG grounding#

Guardrails#

Human-in-the-loop#

Dataset curation (Kiểm duyệt dữ liệu)#

Disclosure (Công bố)#

Đánh đổi: minh bạch vs hiệu năng#

Tóm tắt#