Domain 2 · 10 phút đọc

Generative AI là gì và Foundation Models hoạt động ra sao

What Is Generative AI and How Foundation Models Work

AI tạo sinh Generative AI là nhánh của AI tập trung vào việc tạo ra nội dung mới — văn bản, hình ảnh, âm thanh, mã nguồn, video — thay vì chỉ phân loại hay dự đoán một con số. Đây là trọng tâm lớn của kỳ thi AIF-C01, nên bạn cần nắm vững khái niệm cốt lõi và một số thuật ngữ kỹ thuật đi kèm.

Generative AI khác gì so với ML truyền thống?

ML truyền thống (predictive AI) thường trả lời câu hỏi "cái này là gì?" hoặc "con số tiếp theo là bao nhiêu?" — ví dụ phân loại email spam, dự đoán doanh số. Đầu ra là một nhãn hoặc một giá trị.

Generative AI trả lời câu hỏi "hãy tạo ra một thứ mới giống như dữ liệu đã học" — ví dụ viết một đoạn email, vẽ một bức ảnh, sinh đoạn code. Đầu ra là nội dung phong phú, mới mẻ.

Tiêu chíML truyền thống (predictive)Generative AI
Mục tiêuPhân loại / dự đoánTạo nội dung mới
Đầu raNhãn, số, xác suấtVăn bản, ảnh, âm thanh, code
Dữ liệu huấn luyệnThường có nhãnLượng lớn dữ liệu (phần lớn không nhãn)
Ví dụPhát hiện gian lậnChatbot, sinh ảnh

Trọng tâm thi

Nếu đề bài yêu cầu tạo ra nội dung mới (viết, vẽ, sinh code, tóm tắt) → nghĩ tới generative AI. Nếu chỉ phân loại hoặc dự đoán một giá trị → đó là ML truyền thống.

Foundation Model (FM) là gì?

Mô hình nền tảng (FM) Foundation Model là một mô hình rất lớn, được tiền huấn luyện pretraining trên lượng dữ liệu khổng lồ và đa dạng. Điểm đặc biệt: một FM duy nhất có thể được thích ứng (adapt) cho rất nhiều tác vụ khác nhau, thay vì phải huấn luyện một mô hình riêng cho mỗi bài toán.

  • Một mô hình → nhiều tác vụ: cùng một FM có thể dịch, tóm tắt, trả lời câu hỏi, viết code.
  • Thích ứng qua đặt prompt prompting hoặc tinh chỉnh fine-tuning, không cần huấn luyện lại từ đầu.
  • Đắt để tạo ra nhưng dùng lại rộng rãi — đây là lý do AWS cung cấp FM dưới dạng dịch vụ (Amazon Bedrock) để bạn không phải tự huấn luyện.

Mô hình ngôn ngữ lớn (LLM) Large Language Model (LLM) là loại FM chuyên về văn bản. Ngoài ra còn có FM cho ảnh (image generation), và FM đa phương thức (đa phương thức multimodal) xử lý cả văn bản lẫn hình ảnh.

LLM hoạt động ở mức cao như thế nào?

Bạn không cần toán học sâu, nhưng cần hiểu bốn khái niệm sau cho kỳ thi.

1. Token

Token Tokenđơn vị văn bản mà mô hình xử lý — có thể là một từ, một phần của từ, hoặc dấu câu. Mô hình đọc vào tokensinh ra token từng cái một.

  • Chi phí và giới hạn ngữ cảnh thường tính theo số token, không phải số ký tự.
  • Một quy tắc gần đúng cho tiếng Anh: khoảng 4 ký tự ≈ 1 token (chỉ để hình dung).

2. Embedding / Vector

Embedding Embedding là cách biến token (hoặc cả một đoạn văn) thành một vector số — một dãy số biểu diễn ý nghĩa. Các từ có nghĩa gần nhau sẽ có vector gần nhau trong không gian số.

  • Embedding cho phép máy so sánh độ tương đồng về ngữ nghĩa (semantic similarity).
  • Đây là nền tảng của tìm kiếm ngữ nghĩa và kỹ thuật RAG (gặp ở domain sau).

3. Transformer và cơ chế Attention

Hầu hết LLM hiện đại dựa trên kiến trúc Transformer Transformer. Ý tưởng cốt lõi là cơ chế attention (chú ý) attention: khi xử lý mỗi token, mô hình "chú ý" tới các token liên quan khác trong câu để hiểu ngữ cảnh.

Ví dụ trong câu "con mèo ngồi trên thảm vì thấy ấm", attention giúp mô hình hiểu "nó" đang nói tới "con mèo". Nhờ attention, Transformer nắm bắt được quan hệ xa trong văn bản và xử lý song song hiệu quả.

Ghi chú

Bạn chỉ cần nhớ ý tưởng: attention = mô hình cân nhắc mức độ quan trọng của từng token đối với nhau để hiểu ngữ cảnh. Không cần nhớ công thức.

4. Pretraining và dự đoán token tiếp theo

LLM được tiền huấn luyện bằng cách học dự đoán token tiếp theo trên lượng văn bản khổng lồ. Lặp đi lặp lại hàng tỉ lần, mô hình "học" được ngữ pháp, sự kiện, phong cách và quan hệ giữa các khái niệm. Khi bạn đặt prompt, mô hình sinh tiếp từng token một dựa trên những gì đã học.

Mẹo

Vì LLM chỉ dự đoán token có khả năng cao tiếp theo, nó không "tra cứu sự thật" — điều này giải thích vì sao mô hình có thể bịa ra thông tin sai (hallucination). Bạn sẽ học kỹ ở bài tiếp theo.

Vòng đời ngắn gọn của một FM

  1. Pretraining — học từ dữ liệu rộng (tốn kém, do nhà cung cấp làm).
  2. Adaptation — thích ứng cho nhu cầu của bạn qua prompting hoặc fine-tuning.
  3. Inference — mô hình sinh đầu ra khi nhận prompt từ người dùng.

Tóm tắt

  • Generative AI tạo nội dung mới; ML truyền thống phân loại / dự đoán.
  • Foundation Model: mô hình lớn, tiền huấn luyện trên dữ liệu rộng, thích ứng cho nhiều tác vụ. LLM là FM cho văn bản; FM multimodal xử lý nhiều loại dữ liệu.
  • Bốn khái niệm cốt lõi của LLM: token, embedding/vector, transformer/attention, pretraining (dự đoán token tiếp theo).
  • Vì mô hình dự đoán token có khả năng cao chứ không tra cứu sự thật, nó có thể hallucinate.