Bảo mật hệ thống AI/ML và Generative AI

Một hệ thống AI/ML chỉ thực sự đáng tin khi dữ liệu và quyền truy cập được kiểm soát chặt chẽ. Trong AIF-C01, bạn cần nắm các trụ cột bảo mật của AWS áp dụng cho các dịch vụ như Amazon Bedrock Amazon Bedrock và Amazon SageMaker Amazon SageMaker: quản lý danh tính, mã hóa, bảo vệ dữ liệu nhạy cảm và cô lập mạng.

Kiểm soát truy cập với AWS IAM

AWS Identity and Access Management (IAM) AWS IAM là dịch vụ trung tâm để xác định ai (danh tính) được làm gì (hành động) trên tài nguyên nào. Đây là lớp phòng thủ đầu tiên cho mọi workload AI.

Least privilege (đặc quyền tối thiểu): chỉ cấp đúng quyền cần thiết, không nhiều hơn. Ví dụ một ứng dụng chỉ cần gọi mô hình Bedrock thì chỉ nên có quyền bedrock:InvokeModel, không cần quyền xóa hay cấu hình.
IAM roles (vai trò): nên dùng role cho ứng dụng/dịch vụ thay vì nhúng khóa truy cập cố định (access key) vào code. Ví dụ một SageMaker notebook hay một hàm Lambda gọi Bedrock sẽ "đảm nhận" (assume) một role để lấy thông tin xác thực tạm thời.
IAM policies (chính sách): tài liệu JSON mô tả quyền cho phép (Allow) hoặc từ chối (Deny) trên các hành động và tài nguyên cụ thể, có thể kèm điều kiện (condition).

Trọng tâm thi

Khi câu hỏi nói về "kiểm soát ai được gọi Bedrock/SageMaker", "phân quyền chi tiết", hay "least privilege" → đáp án gần như luôn là IAM. IAM trả lời câu hỏi xác thực và phân quyền, không phải mã hóa hay giám sát.

Mã hóa với AWS KMS

Bảo vệ dữ liệu phải có ở hai trạng thái:

Mã hóa khi lưu trữ (at rest): dữ liệu trên S3, EBS, hay artifact mô hình trong SageMaker được mã hóa bằng khóa quản lý qua AWS Key Management Service (KMS) AWS KMS.
Mã hóa khi truyền (in transit): dữ liệu di chuyển qua mạng được bảo vệ bằng TLS/HTTPS.

AWS KMS cho phép tạo và quản lý khóa do khách hàng quản lý customer managed keys, kiểm soát chính sách khóa và ghi nhật ký mọi lần sử dụng khóa. Nhờ tích hợp KMS với IAM, bạn có thể giới hạn ai được phép dùng khóa để giải mã dữ liệu huấn luyện hay đầu ra mô hình.

Nhu cầu	Dịch vụ/giải pháp
Quản lý khóa mã hóa	AWS KMS
Mã hóa dữ liệu khi lưu trữ	KMS + dịch vụ lưu trữ (S3, EBS...)
Mã hóa dữ liệu khi truyền	TLS/HTTPS
Phân quyền dùng khóa	KMS key policy + IAM

Phát hiện dữ liệu nhạy cảm với Amazon Macie

Amazon Macie Amazon Macie là dịch vụ dùng machine learning để tự động phát hiện, phân loại và bảo vệ dữ liệu nhạy cảm — đặc biệt là thông tin định danh cá nhân (PII) PII — được lưu trong Amazon S3. Trước khi đưa dữ liệu vào pipeline huấn luyện hay vào kho tri thức cho RAG, Macie giúp bạn biết liệu trong đó có chứa số thẻ tín dụng, số an sinh xã hội, email hay thông tin nhạy cảm khác hay không.

Mẹo

Mẹo phân biệt: Macie = khám phá/phân loại dữ liệu nhạy cảm trong S3. Bedrock Guardrails = lọc/che PII trong prompt và phản hồi của GenAI (xem bài d5-03). Hai dịch vụ này bổ sung cho nhau chứ không thay thế nhau.

Cô lập mạng: VPC, PrivateLink, Security Groups

Để dữ liệu không phải đi ra Internet công cộng, AWS cung cấp các lớp cô lập mạng:

Amazon VPC (Virtual Private Cloud): mạng ảo riêng nơi bạn đặt các tài nguyên như SageMaker notebook, endpoint mô hình.
AWS PrivateLink / VPC endpoints: cho phép truy cập các dịch vụ như Amazon Bedrock hay SageMaker qua đường mạng riêng của AWS mà không đi qua Internet công cộng, giảm rủi ro lộ dữ liệu.
Security groups (nhóm bảo mật): tường lửa ảo ở cấp tài nguyên, kiểm soát lưu lượng vào/ra theo cổng và nguồn/đích.

Vì sao cô lập mạng quan trọng cho AI

Dữ liệu huấn luyện và prompt thường chứa thông tin kinh doanh nhạy cảm. Dùng PrivateLink để gọi Bedrock giữ toàn bộ luồng dữ liệu trong mạng riêng, tránh phơi bày ra Internet.

Cách Amazon Bedrock xử lý dữ liệu khách hàng

Đây là điểm thường xuất hiện trong đề thi và rất quan trọng cho việc tin tưởng dịch vụ:

Dữ liệu của bạn KHÔNG được dùng để huấn luyện mô hình nền (base model) của Bedrock hay được chia sẻ với nhà cung cấp mô hình bên thứ ba.
Prompt, dữ liệu tinh chỉnh (fine-tuning) và phản hồi ở lại trong tài khoản và region của bạn.
Khi bạn tinh chỉnh fine-tune một mô hình, bản sao tinh chỉnh là riêng tư, thuộc về bạn, và được mã hóa.
Mọi truy cập đến Bedrock đều đi qua IAM, có thể mã hóa bằng KMS và cô lập qua PrivateLink.

Trọng tâm thi

Hãy nhớ: với Amazon Bedrock, dữ liệu khách hàng không dùng để train base model, và ở lại trong account/region của khách hàng. Đây là nền tảng cho luận điểm "Bedrock an toàn cho dữ liệu doanh nghiệp".

Tóm tắt

IAM kiểm soát ai được làm gì theo nguyên tắc least privilege; ưu tiên dùng role thay vì khóa cố định.
KMS quản lý khóa để mã hóa dữ liệu khi lưu trữ; TLS/HTTPS mã hóa khi truyền.
Macie dùng ML để phát hiện và phân loại dữ liệu nhạy cảm (PII) trong S3.
VPC, PrivateLink, security groups cô lập mạng, giữ luồng dữ liệu trong mạng riêng.
Amazon Bedrock không dùng dữ liệu khách hàng để huấn luyện base model; dữ liệu ở lại trong account/region của bạn.

Kiểm soát truy cập với AWS IAM#

Mã hóa với AWS KMS#

Phát hiện dữ liệu nhạy cảm với Amazon Macie#

Cô lập mạng: VPC, PrivateLink, Security Groups#