Mặc dù học máy (machine learning) chỉ bắt đầu phát triển vào những năm 1990, nhưng nó đã nhanh chóng trở thành một nhánh con phổ biến nhất và cũng có nhiều thành công nhất của AI, một xu thế được thúc đẩy bởi sự ra đời của phần cứng nhanh hơn và bộ dữ liệu lớn hơn.

Học máy liên quan chặt chẽ đến thống kê toán học, nhưng nó khác với thống kê ở nhiều khía cạnh quan trọng. Không giống như thống kê, học máy có xu hướng xử lý các bộ dữ liệu lớn, phức tạp (như bộ dữ liệu gồm hàng triệu hình ảnh, mỗi bộ gồm hàng chục nghìn pixel) mà phân tích thống kê cổ điển như phân tích Bayes trở nên không thực tế. Do vậy, học máy, và đặc biệt là học sâu, thiếu (có lẽ là rất thiếu) nền tảng toán học và có khuynh hướng kỹ thuật nhiều hơn.

Bạn đang xem: Máy học là gì

Nó tuân thủ nguyên tắc thực dụng trong đó các ý tưởng thường được kiểm chứng bằng thực nghiệm hơn là được chứng minh một cách chặt trẽ. Trong cuộc sống hàng ngày, hầu hết chúng ta đã quen thuộc với việc mô tả các sự vật, hiện tượng của thế giới bên ngoài qua các khái niệm, các con số, các giác quan…gọi chung là các thuộc tính (feature). Những mô tả đó (tập các thuộc tính) được gọi là các biểu diễn (representation) của sự vật, hiện tượng.


*
*
*
*

“Cho tôi dữ liệu, tôi sẽ sáng tạo lại thế giới”.Đó là sự cường điệu về học máy làm mê hoặc nhiều người và phản ánh sự chuyển hướng từ các phương pháp hướng mô hình trong AI (Model-driven AI, Symbolic AI) khi mục tiêu xây dựng mô hình cho các miền ứng dụng phức tạp tỏ ra không khả thi (ví dụ các hệ chuyên gia – expert systems) sang các phương pháp hướng dữ liệu (Data-driven AI).

Bảo toàn thông tin (conservation of information) là một thuật ngữ mới xuất hiện trong cuốn The Limits of Science xuất bản năm 1984. Trong cuốn sách ngắn gọn, xuất sắc này, tác giả Peter Medawar (nhà sinh vật học, chủ nhân giải Nobel) lý giải bản chất và những hạn chế của việc theo đuổi khoa học. Ba bài tiểu luận của ông liên quan đến một số câu hỏi lớn nhất mà con người biết đến: Khoa học có thể xác định sự tồn tại của Thiên Chúa không? Có một “phương pháp khoa học” nào mà tất cả các bí mật của vũ trụ có thể được khám phá? Peter Medawar đã chỉ ra rằng các hệ thống toán học và tính toán bị giới hạn trong việc tạo ra các hệ quả logic từ một tập hợp tiên đề (hoặc điểm bắt đầu), và do đó không thể tạo ra thông tin mới (mọi hệ quả logic đã tiềm ẩn ngay trong tập các tiên đề) và gọi đó là Định luật bảo toàn thông tin “Law of Conservation of Information”. Định luật này được chúng minh một cách tường minh trong nhiều lĩnh vực AI khác nhau (vd. Phan Đình Diệu, Nguyễn Minh Hải trong logic xác xuất).

Để hiểu ảnh hưởng của Định luật bảo toàn thông tin tới học máy, chúng ta cần thấy bản chất của học máy là tìm ra một biểu diễn tốt nhất giải thích cho mối quan hệ giữa các dữ liệu đầu vào với các dữ liệu đầu ra được kỳ vọng. Đó là một bài toán tối ưu với các ràng buộc chính là dữ liệu. Sau khi hệ thống học máy đã được huấn luyện chúng ta nhận được một mô hình (biểu diễn) giải thích tốt nhất cho dữ liệu. Khi bổ xung một dữ liệu mới tức là chúng ta thêm ràng buộc vào bài toán tối ưu cũ. Ràng buộc mới này có thể “tương thích” với các ràng buộc cũ, hay nói cách khác nó không làm thay đổi miền ràng buộc của bài toán, ta vẫn nhận được biểu diễn cũ. Điều đó có nghĩa dữ liệu mới đã được hệ thống “nhìn thấy” từ góc nhìn của mình (biểu diễn học được). Trường hợp ngược lại, ràng buộc bổ xung sẽ thay đổi miền ràng buộc và vì vậy để giải thích nó, hệ thống phải tìm kiếm một biểu diễn mới – nghiệm tối ưu của bài toán có thêm ràng buộc bổ xung. Một cách hình tượng, biểu diễn cũ không phù hợp để giải thích dữ liệu mới, tức là không “nhìn thấy” dữ liệu mới. Đây cũng là hạn chế chính khiến các hệ thống học máy không thể “ngoại suy” ra những gì chưa được học.

Để khắc phục nhược điểm này của các phương pháp hướng dữ liệu, các nhà nghiên cứu thường đề xuất kết hợp nó với các phương pháp hướng mô hình. “No Free Lunch Theorem” và “Ugly Ducking Theorem”. Đây là một “nút thắt cổ chai” khi cần trả lời câu hỏi “Thuật toán nào là tốt nhất cho học máy?”.

Để đánh giá hiệu quả của thuật toán chúng ta sử dụng tập dữ liệu kiểm tra (testing set).Trong trường hợp tập dữ liệu kiểm tra hoàn toàn độc lập với tập dữ liệu huấn luyện (training set) chúng ta bị khống chế bới Định luật bảo toàn thông tin và vì vậy mọi thuật toán đều tồi tệ. Khi tập huấn luyện rất lớn và hai tập hợp chồng lấn lên nhau, các hệ thống học máy trở thành những học trò “học vẹt” để trả thi (kiểm tra mức độ thuộc bài) và không có khả năng trừu tượng hóa.

Xem thêm: Bài Tập Về Diện Tích Xung Quanh Và Diện Tích Toàn Phần Của Hình Hộp Chữ Nhật

Định lý “No Free Lunch” chỉ ra rằng không tồn tại một thuật toán vượt trội thuật toán khác trong mọi tập dữ liệu có được. Hay nói cách khác, sai số trung bình trên mọi tập dữ liệu là như nhau đối với mọi thuật toán. Một thuật toán “tốt hơn” trong ứng dụng này có thể “tồi tệ” đối với ứng dụng khác. Điều này cản trở lớn tới việc scalling up các thuật toán học máy.Tương tụ như “No Free Lunch Theorem”, định lý “Ugly Ducking Theorem” cũng khẳng định rằng không có tập thuộc tính (biểu diến) nào là “tốt nhất” nếu không xét đến các giả thiết bổ xung. Điều này cũng góp phần phủ định tư duy “no more features engineering” đã nhắc tới ở trên.

Để thay lời kết của bài này tôi xin trích dẫn ý kiến của Margaretta Colangelo – người có hơn 30 năm kinh nghiệm trong công nghệ phần mềm tại thung lũng Silicon với hơn 60 công bố giá trị về Deep Tech, AI và y sinh học hiện đại đồng thời tham gia điều hành nhiều tổ chức nghiên cứu trên thế giới – khi bà nhắc chúng ta chớ nên quên lãng giá trị của dữ liệu nhỏ cũng như khả năng trừu tượng hóa kỳ diệu của con người so với máy móc và kêu gọi nghiên cứu phát triển các phương pháp AI đòi hỏi ít dữ liệu hơn:

“Tất cả mọi thứ đều là dữ liệu nhỏ trước khi chúng ta có dữ liệu lớn. Những khám phá khoa học của thế kỷ 19 và 20 đều được thực hiện bằng cách sử dụng dữ liệu nhỏ. Darwin đã sử dụng dữ liệu nhỏ. Các nhà vật lý đã thực hiện tất cả các tính toán bằng tay, do đó họ chỉ sử dụng dữ liệu nhỏ. Tuy nhiên, họ đã khám phá ra những quy luật đẹp nhất và cơ bản nhất của tự nhiên. Hơn nữa, họ nén chúng thành các quy tắc đơn giản dưới dạng các phương trình thanh lịch. Einstein là nhà vô địch điều này với E = mc². Mặc dù người ta đã ước tính rằng có lẽ 60% đến 65% trong số 100 phát minh lớn nhất của thời đại chúng ta thực sự dựa trên dữ liệu nhỏ, các phát triển AI hiện tại dường như quá tập trung vào dữ liệu lớn mà quên đi giá trị của việc quan sát các mẫu nhỏ”