Các loại Machine Learning

Ở bài trước ta đã điểm qua ba nhánh ML. Bài này đi sâu vào từng loại: học có giám sát Supervised Learning, học không giám sát Unsupervised Learning và học tăng cường Reinforcement Learning — kèm các bài toán con, ví dụ thực tế và dịch vụ AWS nên dùng.

1. Supervised Learning (học có giám sát)

Mô hình học từ dữ liệu đã gán nhãn (labeled data): mỗi mẫu đầu vào đi kèm một "đáp án đúng" (label/target). Mục tiêu là học một hàm ánh xạ từ input sang output để sau này dự đoán nhãn cho dữ liệu mới.

Supervised learning chia làm hai bài toán con quan trọng:

Classification (phân loại) — đầu ra là nhãn rời rạc (categorical). Ví dụ: email là spam / không spam; ảnh là chó / mèo / chim; khoản vay được duyệt / từ chối.
- Binary classification: hai lớp (spam vs not spam).
- Multiclass classification: nhiều hơn hai lớp (phân loại loài hoa).
Regression (hồi quy) — đầu ra là giá trị số liên tục (numeric). Ví dụ: dự đoán giá nhà, dự báo doanh thu, ước lượng nhiệt độ ngày mai.

Trọng tâm thi

Mẹo phân biệt nhanh: nếu câu hỏi yêu cầu chọn nhãn/lớp → classification; nếu yêu cầu dự đoán một con số → regression. Cả hai đều thuộc supervised vì cần dữ liệu đã gán nhãn.

2. Unsupervised Learning (học không giám sát)

Mô hình làm việc với dữ liệu chưa gán nhãn (unlabeled data) và tự tìm cấu trúc ẩn. Không có "đáp án đúng" để học theo. Ba bài toán con thường gặp:

Clustering (phân cụm) — nhóm các điểm dữ liệu giống nhau lại với nhau. Ví dụ: phân khúc khách hàng (customer segmentation) theo hành vi mua sắm.
Dimensionality reduction (giảm chiều dữ liệu) — nén số lượng đặc trưng (features) mà vẫn giữ thông tin quan trọng. Ví dụ: PCA Principal Component Analysis giúp trực quan hóa và tăng tốc huấn luyện.
Anomaly detection (phát hiện bất thường) — tìm các điểm dữ liệu khác lạ so với phần còn lại. Ví dụ: phát hiện giao dịch gian lận, lỗi cảm biến, hành vi đăng nhập bất thường.

Mẹo

Điểm khác biệt cốt lõi: supervised có nhãn để học, unsupervised không có nhãn mà tự khám phá cấu trúc. Customer segmentation là ví dụ kinh điển của clustering (unsupervised).

3. Reinforcement Learning (học tăng cường)

Một tác tử agent học bằng cách tương tác với môi trường: thực hiện hành động (action), nhận về phần thưởng (reward) hoặc hình phạt, rồi điều chỉnh chiến lược (policy) để tối đa hóa phần thưởng tích lũy theo thời gian. Mô hình học qua thử–sai (trial and error), không cần tập dữ liệu gán nhãn sẵn.

Ví dụ điển hình:

Robot học cách đi lại.
AI chơi game (cờ vây, game Atari).
Điều khiển hệ thống, tối ưu danh mục, định tuyến.

So sánh nhanh

Supervised học từ đáp án có sẵn; unsupervised tự tìm cấu trúc; reinforcement học từ phần thưởng qua tương tác. Đây là phân biệt rất hay bị hỏi trong đề thi.

Bảng tổng hợp ba loại học

Tiêu chí	Supervised	Unsupervised	Reinforcement
Dữ liệu	Đã gán nhãn	Chưa gán nhãn	Không cần tập có sẵn
Mục tiêu	Dự đoán nhãn/giá trị	Tìm cấu trúc ẩn	Tối đa hóa reward
Bài toán con	Classification, Regression	Clustering, Dimensionality reduction, Anomaly detection	Policy/chiến lược tối ưu
Ví dụ	Lọc spam, dự đoán giá nhà	Phân khúc khách hàng	Robot, chơi game

Loại học và dịch vụ AWS phù hợp

Bạn không cần huấn luyện mọi thứ từ đầu. AWS có dịch vụ phù hợp với từng loại bài toán:

Bài toán	Loại học	Dịch vụ AWS gợi ý
Phân loại / hồi quy tùy biến	Supervised	Amazon SageMaker AI (tự xây mô hình)
Dự báo nhu cầu theo thời gian	Supervised (chuỗi thời gian)	Amazon SageMaker (built-in algorithms)
Gợi ý sản phẩm	Hỗn hợp	Amazon Personalize
Phát hiện gian lận	Supervised / anomaly	Amazon Fraud Detector
Phân khúc / khám phá dữ liệu	Unsupervised	Amazon SageMaker (K-Means, PCA built-in)

Trọng tâm thi

Khi đề mô tả "dữ liệu đã gán nhãn để dự đoán" → supervised. Khi đề nói "nhóm khách hàng tương tự nhau mà không có nhãn" → unsupervised (clustering). Khi đề nhắc "phần thưởng / thử–sai / agent trong môi trường" → reinforcement.

Tóm tắt

Supervised: dữ liệu đã gán nhãn → Classification (nhãn rời rạc) và Regression (giá trị số).
Unsupervised: dữ liệu chưa gán nhãn → Clustering, Dimensionality reduction, Anomaly detection.
Reinforcement: agent học qua thử–sai và phần thưởng trong môi trường.
Ghi nhớ tín hiệu nhận diện: có nhãn → supervised; không nhãn → unsupervised; reward → reinforcement.
SageMaker AI cho mô hình tùy biến; Personalize, Fraud Detector... cho các bài toán đóng gói sẵn.

1. Supervised Learning (học có giám sát)#

2. Unsupervised Learning (học không giám sát)#

3. Reinforcement Learning (học tăng cường)#

Bảng tổng hợp ba loại học#