1. Khái niệm nền tảng về AI và học máy
AI (Trí tuệ nhân tạo)
AI là từ viết tắt của Artificial Intelligence, hay Trí tuệ nhân tạo. Đây là lĩnh vực nghiên cứu và phát triển các hệ thống máy tính có khả năng thực hiện những nhiệm vụ thông minh tương tự con người. Nhiều người thường nhầm tưởng AI phải là robot có khả năng di chuyển, vận động và có tình cảm như con người, nhưng thực tế AI bao gồm cả những ứng dụng đơn giản như mô hình dự đoán nhiệt độ hay dự đoán khả năng mắc bệnh.

Machine Learning (Học máy)
Machine Learning là một lĩnh vực con của AI, tập trung vào việc giúp máy tính có khả năng tự học hỏi từ dữ liệu mà không cần được lập trình một cách cụ thể. Điều này có nghĩa là thay vì định nghĩa các quy tắc cứng nhắc, Machine Learning cho phép máy tính học từ dữ liệu trong quá khứ để đưa ra dự đoán cho tương lai. Ví dụ, thay vì viết các quy tắc cụ thể để phát hiện giao dịch lừa đảo, ta có thể huấn luyện mô hình bằng dữ liệu giao dịch trong quá khứ để nhận diện các đặc điểm của giao dịch bình thường và giao dịch bất thường.
Deep Learning (Học Sâu)
Deep Learning là một lĩnh vực con của Machine Learning, sử dụng các thuật toán lấy cảm hứng từ cấu trúc và chức năng của não bộ con người, được gọi là mạng thần kinh nhân tạo. Deep Learning đã tạo ra nhiều thành tựu đột phá trong những năm gần đây, là nền tảng cho các ứng dụng AI nổi bật như ChatGPT và Midjourney.
Neural Network
Neural Network hay mạng thần kinh nhân tạo là các mô hình tính toán lấy cảm hứng từ cấu trúc não của con người. Chúng bao gồm các đơn vị tính toán gọi là neuron được kết nối với nhau thành từng lớp. Hiện nay, trong nhiều tài liệu, Deep Learning và Neural Network thường được sử dụng với ý nghĩa tương tự nhau, nhưng Deep Learning thường chỉ lĩnh vực, còn Neural Network chỉ kiến trúc.
2. Khái niệm cơ bản
Data (Dữ liệu)
Data là các thông tin hay giá trị được thu thập từ nhiều nguồn khác nhau. Dữ liệu có thể tồn tại ở dạng thô (chưa qua xử lý) hoặc dạng tinh (đã qua xử lý). Dữ liệu tồn tại xung quanh chúng ta dưới nhiều hình thái như tin nhắn, hóa đơn, hình ảnh, v.v.
Dataset (Tập dữ liệu)
Dataset là tập hợp có cấu trúc của nhiều mẫu dữ liệu được tổ chức và sắp xếp để sử dụng cho một mục đích cụ thể, thường là để huấn luyện và đánh giá một mô hình học máy. Ví dụ, một dataset có thể là tập hợp điểm thi của học sinh trong một trường, với mỗi hàng tương ứng với một học sinh.
Feature (Đặc trưng)
Feature hay đặc trưng là thuộc tính hoặc đặc điểm của dữ liệu mà mô hình sẽ sử dụng để học và đưa ra dự đoán. Trong các tập dữ liệu dạng bảng, mỗi cột (ngoại trừ cột mà mô hình phải dự đoán) thường là một feature.
Label (Nhãn)
Label hay nhãn là thông tin mô tả về dữ liệu, thường là đầu ra mà chúng ta mong muốn mô hình dự đoán. Ví dụ, trong tập dữ liệu dự đoán nhiệt độ, cột nhiệt độ chính là label.
Sample (Mẫu)
Sample hay mẫu là một điểm dữ liệu cụ thể trong tập dữ liệu. Một mẫu thường bao gồm các đặc trưng (features) và một nhãn (label) tương ứng. Trong dữ liệu dạng bảng, một mẫu chính là một hàng trong tập dữ liệu.
Model (Mô hình)
Model hay mô hình là một thuật toán hay hệ thống mà thông qua quá trình huấn luyện sẽ học từ dữ liệu cách để đưa ra dự đoán. Cách mô hình được huấn luyện thông qua dữ liệu chính là sự mô phỏng của cách con người học thông qua sách vở.
3. Quy trình xử lý dữ liệu
Data labeling (Gắn nhãn dữ liệu)
Data Labeling là quá trình đánh dấu, ghi chú dữ liệu thô với thông tin mà ta muốn mô hình học và dự đoán. Đây là bước quan trọng trong việc chuẩn bị dữ liệu cho các mô hình học có giám sát (supervised learning).
Data wrangling (Xử lý dữ liệu)
Data Wrangling là quá trình thu thập, làm sạch và xử lý dữ liệu từ nhiều nguồn khác nhau thành dạng có cấu trúc và dễ sử dụng hơn. Quá trình này giúp chuẩn bị dữ liệu cho việc phân tích và mô hình hóa.
Data preprocessing (Tiền xử lý dữ liệu)
Data Preprocessing là quá trình chuẩn bị và xử lý dữ liệu để có thể áp dụng các thuật toán học máy hoặc phân tích dữ liệu. Đây là một bước quan trọng để đảm bảo chất lượng đầu vào cho các mô hình.
Data Augmentation (Tăng Cường Dữ Liệu)
Data Augmentation là quá trình tạo ra dữ liệu mới từ bộ dữ liệu gốc, làm cho bộ dữ liệu phong phú hơn và giúp mô hình khái quát hóa tốt hơn. Kỹ thuật này đặc biệt hữu ích khi làm việc với các tập dữ liệu nhỏ hoặc không cân bằng.
4. Phương pháp học máy
Supervised Learning (Học Có Giám Sát)
Supervised Learning là nhóm các thuật toán sử dụng dữ liệu có đánh nhãn nhằm mô hình hóa mối quan hệ giữa dữ liệu đầu vào và nhãn của chúng. Đây là phương pháp phổ biến nhất trong học máy, ứng dụng rộng rãi trong các bài toán dự đoán và phân loại.
Unsupervised learning (Học không giám sát)
Unsupervised Learning là nhóm các thuật toán sử dụng dữ liệu không được đánh nhãn nhằm tìm ra cấu trúc hay thông tin ẩn trong dữ liệu. Ví dụ phổ biến nhất là bài toán phân cụm (clustering), nơi dữ liệu được chia thành các nhóm dựa trên sự tương đồng.
Reinforcement learning (Học tăng cường)
Reinforcement Learning là nhóm các thuật toán học hỏi bằng cách tương tác với môi trường và đưa ra quyết định dựa trên phản hồi nhận được. Trong phương pháp này, đối tượng được huấn luyện gọi là tác nhân (agent), và tác nhân này học cách hành động thông qua các phản hồi (thưởng hoặc phạt) từ môi trường.
5. Các loại bài toán và vấn đề thường gặp
Classification (Phân loại)
Classification là thuật toán học có giám sát trong đó kết quả đầu ra (nhãn) là một giá trị rời rạc. Ví dụ như phân loại email có phải là spam hay không, phân loại xem một người có bị ung thư hay không.
Regression (Hồi quy)
Regression là thuật toán học có giám sát trong đó kết quả đầu ra (nhãn) là một giá trị liên tục. Ví dụ như dự đoán giá nhà, nhiệt độ, v.v. Khác với bài toán phân loại, trong bài toán hồi quy không thể đếm được số giá trị khả dĩ của kết quả đầu ra.
Overfitting (Quá khớp)
Overfitting là hiện tượng xảy ra khi mô hình học quá chi tiết từ dữ liệu huấn luyện, bao gồm cả nhiễu và những đặc trưng không quan trọng. Hệ quả là mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng lại kém hiệu quả trên dữ liệu mới.
Underfitting (Chưa khớp)
Underfitting là hiện tượng xảy ra khi mô hình quá đơn giản để nắm bắt được những đặc trưng quan trọng của dữ liệu huấn luyện. Hệ quả là mô hình hoạt động kém cả trên dữ liệu huấn luyện lẫn dữ liệu mới.
6. Các Kỹ Thuật Xử Lý Dữ Liệu Mất Cân Bằng
Imbalanced dataset (Tập dữ liệu mất cân bằng)
Imbalanced Dataset là tập dữ liệu dành cho bài toán phân loại mà số lượng mẫu của mỗi lớp không đều nhau - có lớp có rất nhiều mẫu, trong khi lớp khác lại rất ít mẫu. Ví dụ, trong tập dữ liệu về bệnh nhân ung thư, 99% có thể là người khỏe mạnh và chỉ 1% là người mắc bệnh.
Oversampling (Tăng cường mẫu)
Oversampling là quá trình làm tăng số lượng mẫu của lớp thiểu số bằng cách tạo ra thêm những bản sao hoặc mẫu tổng hợp từ những mẫu đã có. Đây là một phương pháp giúp cân bằng tập dữ liệu.
Undersampling (Giảm mẫu)
Undersampling là quá trình làm giảm số lượng mẫu của lớp đa số, thường bằng cách loại bỏ ngẫu nhiên một số mẫu từ lớp này. Mục đích cũng là để cân bằng tập dữ liệu.
Class/Category (Lớp/loại)
Class hay Category là những nhóm phân loại trong bài toán phân loại. Ví dụ, trong bài toán phân loại email, ta có hai lớp: lớp email bình thường và lớp email spam.

Hiểu được 25 khái niệm và thuật ngữ cơ bản này sẽ giúp bạn có nền tảng vững chắc để tiếp cận sâu hơn với lĩnh vực AI và Machine Learning. Những kiến thức này không chỉ hữu ích cho việc học tập mà còn rất quan trọng cho các vòng phỏng vấn vị trí Data Scientist hay Machine Learning Engineer. Nếu bạn đang tìm hiểu về lĩnh vực này, việc nắm vững các khái niệm cơ bản sẽ giúp bạn tiếp thu kiến thức chuyên sâu dễ dàng hơn và có cái nhìn tổng quát về toàn bộ lĩnh vực.