Về bản chất, tích chập là quá trình biến đổi thông tin đầu vào (như hình ảnh, tín hiệu) thông qua một bộ lọc (kernel hoặc hạt nhân), nhằm trích xuất các đặc trưng quan trọng và loại bỏ các thông tin không cần thiết.
Cơ chế hoạt động

- Bộ lọc (kernel): Là một ma trận nhỏ (ví dụ 3x3 hoặc 5x5), chứa các trọng số, được di chuyển (trượt) trên toàn bộ ma trận đầu vào (ảnh, tín hiệu).
- Phép toán: Tại mỗi vị trí, bộ lọc và vùng con tương ứng của đầu vào được nhân từng phần tử rồi cộng lại, cho ra một giá trị duy nhất tại vị trí đó trên bản đồ đặc trưng (feature map).
- Bản đồ đặc trưng: Kết quả của quá trình trượt bộ lọc trên toàn bộ đầu vào, thể hiện các đặc điểm nổi bật như cạnh, góc, kết cấu,... mà bộ lọc có khả năng phát hiện.
Tham số quan trọng
- Stride (bước nhảy): Số pixel mà bộ lọc di chuyển mỗi lần trượt. Stride càng lớn thì kích thước đầu ra càng nhỏ.
- Padding (đệm): Thêm các pixel giá trị 0 xung quanh biên của đầu vào để kiểm soát kích thước đầu ra hoặc giữ nguyên kích thước so với đầu vào.
- Số lượng bộ lọc: Mỗi lớp tích chập có thể sử dụng nhiều bộ lọc khác nhau để trích xuất nhiều đặc trưng đa dạng cùng lúc.
Vai trò và ứng dụng
Tích chập là thành phần cốt lõi của mạng nơ-ron tích chập (CNN), giúp mô hình tự động học các đặc trưng phân cấp từ dữ liệu dạng lưới như hình ảnh hoặc video. Nhờ đó, CNN có thể thực hiện các nhiệm vụ như nhận dạng hình ảnh, phát hiện đối tượng, phân tích ảnh y tế với độ chính xác cao.
Ví dụ, trong xử lý ảnh, các bộ lọc ở lớp đầu có thể học cách phát hiện cạnh, còn các lớp sâu hơn sẽ học nhận diện hình dạng phức tạp hoặc đối tượng hoàn chỉnh.
Tích chập là phép toán giữa dữ liệu đầu vào và bộ lọc, giúp trích xuất các đặc trưng quan trọng, giảm nhiễu và là nền tảng cho các ứng dụng học sâu hiện đại trong thị giác máy tính.