Nghiên cứu mới của Apple chứng minh sự kém hiệu quả của các mô h́nh suy luận. Tuy nhiên, chuyên gia cho rằng phát hiện này không thực sự mới.

Nghiên cứu mới của Apple về mô h́nh suy luận lớn gây chú ư. Ảnh: Macrumors.
Chỉ sau 3 năm ra mắt, trí tuệ nhân tạo đă bắt đầu có mặt trong nhiều hoạt động hàng ngày như học tập và làm việc. Nhiều người lo sợ rằng không lâu sau chúng sẽ đủ khả năng để thay thế con người.
Tuy nhiên, các mô h́nh AI mới hiện nay thực ra không thông minh như chúng ta vẫn tưởng. Phát hiện từ một tập đoàn công nghệ lớn đă góp phần củng cố niềm tin này.
AI cũng biết "khó quá bỏ qua"
Trong một nghiên cứu có tên “Tư duy ảo tưởng” mới xuất bản, nhóm nghiên cứu của Apple khẳng định rằng các mô h́nh suy luận như Claude, DeepSeek-R1 và o3-mini thực chất không hề “động năo” như tên gọi.
Từ suy luận nên được thay lại bằng “bắt chước”. Nhóm cho rằng những mô h́nh này chỉ đơn giản là ghi nhớ và lặp lại khuôn mẫu (pattern) một cách hiệu quả. Nhưng khi câu hỏi được thay đổi hoặc độ phức tạp tăng lên, chúng gần như ngă chồng lên nhau.
Đơn giản hơn, chatbot hoạt động tốt khi chúng có thể nhận diện và khớp mẫu, nhưng một khi đề bài trở nên quá phức tạp, chúng sẽ không thể xử lư được. “Mô h́nh suy luận tiên tiến (Large Reasoning Models - LRM) gặp phải hiện tượng sụp đổ hoàn toàn về yếu tố chính xác khi độ phức tạp vượt qua một ngưỡng nhất định”, nghiên cứu nhấn mạnh.
Điều này đi ngược với kỳ vọng của nhà phát triển, cho rằng vấn đề phức tạp sẽ được giải quyết khi càng có nhiều tài nguyên. “Nỗ lực suy luận của AI sẽ tăng lên theo độ phức tạp, nhưng chỉ đến một mức nào đó, rồi lại giảm dần, dù vẫn c̣n đủ ngân sách token (khả năng tính toán) để xử lư”, nghiên cứu bổ sung.
Trong nghiên cứu này, các nhà khoa học đă thay đổi hoàn toàn kiểu câu hỏi mô h́nh suy luận thường được dùng để trả lời. Thay v́ cho kiểm tra toán học quen thuộc, họ đưa vào những tṛ chơi giải đố được thiết kế khéo léo như Tháp Hà Nội (Tower of Hanoi), Nhảy quân (Checker Jumping), Vượt sông (River Crossing), và Thế giới khối hộp (Blocks World).
Mỗi tṛ chơi giải đố đều có luật đơn giản và rơ ràng, có đa dạng mức độ phức tạp, chẳng hạn như thêm nhiều đĩa, khối, tác nhân hơn. Mô h́nh suy luận hoạt động ổn hơn ở mức độ trung b́nh, nhưng thua phiên bản thông thường ở mức độ dễ. Đáng chú ư là, mọi thứ sụp đổ hoàn toàn ở mức độ khó, giống như AI đă bỏ cuộc.
Trong phần giải tṛ Tháp Hà Nội, nhóm thực hiện dù đă “mớm” thuật toán giải bài, hiệu suất của mô h́nh suy luận cũng không cải thiện mấy. Một vài mô h́nh có thể làm tốt tṛ chơi trên đến 100 màn, nhưng chỉ có thể vượt qua 5 bước một cách chưa hoàn thiện trong bài toán Qua sông.

Với tháp Hà Nội, người chơi cần di chuyển và đặt lại vị trí các ṿng tṛn theo thứ tự kích thước. Ảnh: Wikipedia.
Điều này chỉ ra hiệu quả suy luận kém, cũng như mức độ ổn định kém của các mô h́nh LRM. Giữa lúc nhiều tranh luận xoay quanh năng lực của AI đă có thể sánh ngang với con người, nghiên cứu mới của Apple này đă chứng minh điều ngược lại.
Phát hiện của Apple không mới
Gary Marcus, nhà tâm lư học và tác giả sách người Mỹ, cho rằng phát hiện của Apple khá ấn tượng, nhưng không thật sự mới mà chỉ củng cố cho các nghiên cứu trước. Giáo sư danh dự ngành tâm lư học và khoa học thần kinh tại Đại học New York lấy ví dụ nghiên cứu năm 1998 của ḿnh.
Trong đó, ông cho rằng mạng nơ-ron, tiền thân của mô h́nh ngôn ngữ lớn, có thể khái quát tốt trong phạm vi phân phối dữ liệu chúng đă được huấn luyện, nhưng thường sụp đổ khi gặp dữ liệu ngoài phân phối.
Ông cũng trích dẫn lập luận từ nhà khoa học máy tính Subbarao Kambhampati của Đại học Bang Arizona trong vài năm gần đây. Giáo sư Rao tin rằng “chuỗi suy nghĩ” và “mô h́nh suy luận” vốn không đáng tin như nhiều người vẫn tưởng.
“Con người có xu hướng nhân hóa quá mức dấu vết suy luận của mô h́nh ngôn ngữ lớn LLM, gọi đó là "suy nghĩ" trong khi có thể chúng không xứng đáng với cái tên ấy”, giáo sư cho biết. Ông cũng viết hàng loạt bài báo về chuỗi suy nghĩ LLM tạo ra không phải lúc nào cũng phản ánh đúng những ǵ chúng thực sự làm.
Nghiên cứu mới của Apple cho thấy ngay cả những mô h́nh suy luận thế hệ mới nhất vẫn không đáng tin cậy ngoài phạm vi dữ liệu huấn luyện. Ông Marcus cho rằng mô h́nh LLM hay LRM đều có ứng dụng riêng, và hữu ích trong vài trường hợp. Tuy nhiên, người dùng không nên tin bất cứ kết quả nào từ chúng.
VietBF@ sưu tập