Bảo mật hệ thống AI/ML và Generative AI
Securing AI/ML and Generative AI Systems
Một hệ thống AI/ML chỉ thực sự đáng tin khi dữ liệu và quyền truy cập được kiểm soát chặt chẽ. Trong AIF-C01, bạn cần nắm các trụ cột bảo mật của AWS áp dụng cho các dịch vụ như Amazon Bedrock Amazon Bedrock và Amazon SageMaker Amazon SageMaker: quản lý danh tính, mã hóa, bảo vệ dữ liệu nhạy cảm và cô lập mạng.
Kiểm soát truy cập với AWS IAM
AWS Identity and Access Management (IAM) AWS IAM là dịch vụ trung tâm để xác định ai (danh tính) được làm gì (hành động) trên tài nguyên nào. Đây là lớp phòng thủ đầu tiên cho mọi workload AI.
- Least privilege (đặc quyền tối thiểu): chỉ cấp đúng quyền cần thiết, không nhiều hơn. Ví dụ một
ứng dụng chỉ cần gọi mô hình Bedrock thì chỉ nên có quyền
bedrock:InvokeModel, không cần quyền xóa hay cấu hình. - IAM roles (vai trò): nên dùng role cho ứng dụng/dịch vụ thay vì nhúng khóa truy cập cố định (access key) vào code. Ví dụ một SageMaker notebook hay một hàm Lambda gọi Bedrock sẽ "đảm nhận" (assume) một role để lấy thông tin xác thực tạm thời.
- IAM policies (chính sách): tài liệu JSON mô tả quyền cho phép (Allow) hoặc từ chối (Deny) trên các hành động và tài nguyên cụ thể, có thể kèm điều kiện (condition).
Trọng tâm thi
Khi câu hỏi nói về "kiểm soát ai được gọi Bedrock/SageMaker", "phân quyền chi tiết", hay "least privilege" → đáp án gần như luôn là IAM. IAM trả lời câu hỏi xác thực và phân quyền, không phải mã hóa hay giám sát.
Mã hóa với AWS KMS
Bảo vệ dữ liệu phải có ở hai trạng thái:
- Mã hóa khi lưu trữ (at rest): dữ liệu trên S3, EBS, hay artifact mô hình trong SageMaker được mã hóa bằng khóa quản lý qua AWS Key Management Service (KMS) AWS KMS.
- Mã hóa khi truyền (in transit): dữ liệu di chuyển qua mạng được bảo vệ bằng TLS/HTTPS.
AWS KMS cho phép tạo và quản lý khóa do khách hàng quản lý customer managed keys, kiểm soát chính sách khóa và ghi nhật ký mọi lần sử dụng khóa. Nhờ tích hợp KMS với IAM, bạn có thể giới hạn ai được phép dùng khóa để giải mã dữ liệu huấn luyện hay đầu ra mô hình.
| Nhu cầu | Dịch vụ/giải pháp |
|---|---|
| Quản lý khóa mã hóa | AWS KMS |
| Mã hóa dữ liệu khi lưu trữ | KMS + dịch vụ lưu trữ (S3, EBS...) |
| Mã hóa dữ liệu khi truyền | TLS/HTTPS |
| Phân quyền dùng khóa | KMS key policy + IAM |
Phát hiện dữ liệu nhạy cảm với Amazon Macie
Amazon Macie Amazon Macie là dịch vụ dùng machine learning để tự động phát hiện, phân loại và bảo vệ dữ liệu nhạy cảm — đặc biệt là thông tin định danh cá nhân (PII) PII — được lưu trong Amazon S3. Trước khi đưa dữ liệu vào pipeline huấn luyện hay vào kho tri thức cho RAG, Macie giúp bạn biết liệu trong đó có chứa số thẻ tín dụng, số an sinh xã hội, email hay thông tin nhạy cảm khác hay không.
Mẹo
Mẹo phân biệt: Macie = khám phá/phân loại dữ liệu nhạy cảm trong S3. Bedrock Guardrails = lọc/che PII trong prompt và phản hồi của GenAI (xem bài d5-03). Hai dịch vụ này bổ sung cho nhau chứ không thay thế nhau.
Cô lập mạng: VPC, PrivateLink, Security Groups
Để dữ liệu không phải đi ra Internet công cộng, AWS cung cấp các lớp cô lập mạng:
- Amazon VPC (Virtual Private Cloud): mạng ảo riêng nơi bạn đặt các tài nguyên như SageMaker notebook, endpoint mô hình.
- AWS PrivateLink / VPC endpoints: cho phép truy cập các dịch vụ như Amazon Bedrock hay SageMaker qua đường mạng riêng của AWS mà không đi qua Internet công cộng, giảm rủi ro lộ dữ liệu.
- Security groups (nhóm bảo mật): tường lửa ảo ở cấp tài nguyên, kiểm soát lưu lượng vào/ra theo cổng và nguồn/đích.
Vì sao cô lập mạng quan trọng cho AI
Dữ liệu huấn luyện và prompt thường chứa thông tin kinh doanh nhạy cảm. Dùng PrivateLink để gọi Bedrock giữ toàn bộ luồng dữ liệu trong mạng riêng, tránh phơi bày ra Internet.
Cách Amazon Bedrock xử lý dữ liệu khách hàng
Đây là điểm thường xuất hiện trong đề thi và rất quan trọng cho việc tin tưởng dịch vụ:
- Dữ liệu của bạn KHÔNG được dùng để huấn luyện mô hình nền (base model) của Bedrock hay được chia sẻ với nhà cung cấp mô hình bên thứ ba.
- Prompt, dữ liệu tinh chỉnh (fine-tuning) và phản hồi ở lại trong tài khoản và region của bạn.
- Khi bạn tinh chỉnh fine-tune một mô hình, bản sao tinh chỉnh là riêng tư, thuộc về bạn, và được mã hóa.
- Mọi truy cập đến Bedrock đều đi qua IAM, có thể mã hóa bằng KMS và cô lập qua PrivateLink.
Trọng tâm thi
Hãy nhớ: với Amazon Bedrock, dữ liệu khách hàng không dùng để train base model, và ở lại trong account/region của khách hàng. Đây là nền tảng cho luận điểm "Bedrock an toàn cho dữ liệu doanh nghiệp".
Tóm tắt
- IAM kiểm soát ai được làm gì theo nguyên tắc least privilege; ưu tiên dùng role thay vì khóa cố định.
- KMS quản lý khóa để mã hóa dữ liệu khi lưu trữ; TLS/HTTPS mã hóa khi truyền.
- Macie dùng ML để phát hiện và phân loại dữ liệu nhạy cảm (PII) trong S3.
- VPC, PrivateLink, security groups cô lập mạng, giữ luồng dữ liệu trong mạng riêng.
- Amazon Bedrock không dùng dữ liệu khách hàng để huấn luyện base model; dữ liệu ở lại trong account/region của bạn.