Các nhà khoa học Trung Quốc lần đầu phát hiện AI có thể tự h́nh thành hệ thống tư duy và phân loại giống con người, bước ngoặt lớn trong nghiên cứu về lĩnh vực này.Các nhà khoa học Trung Quốc lần đầu tiên phát hiện bằng chứng cho thấy các mô h́nh ngôn ngữ lớn (LLM) có thể tự phát triển một hệ thống tư duy tương tự con người, giúp hiểu và phân loại các đối tượng trong thế giới tự nhiên – một trong những trụ cột nền tảng của nhận thức con người.
Phát hiện này bổ sung thêm bằng chứng quan trọng trong cuộc tranh luận toàn cầu về năng lực nhận thức của trí tuệ nhân tạo (AI), cho thấy các hệ thống máy móc có thể phản ánh những yếu tố cốt lơi trong tư duy của con người là điều hoàn toàn khả thi.
“Hiểu được cách con người khái niệm hóa và phân loại các đối tượng tự nhiên mang lại những hiểu biết quan trọng về tri giác và nhận thức”, nhóm nghiên cứu viết trong một bài báo đăng trong tuần trên Nature Machine Intelligence, tạp chí khoa học uy tín quốc tế. “Hệ thống ngôn ngữ lớn ra đời đặt ra một câu hỏi then chốt: Liệu những mô h́nh này có thể tự phát triển khả năng biểu đạt khái niệm đối tượng giống con người từ dữ liệu ngôn ngữ và dữ liệu đa phương tiện?”.
LLM là các mô h́nh AI được huấn luyện trên khối lượng lớn dữ liệu văn bản – và trong trường hợp của các mô h́nh đa phương thức (MLLM), c̣n được huấn luyện thêm bằng dữ liệu h́nh ảnh và âm thanh – để xử lư nhiều tác vụ khác nhau.
Nhờ được tiếp xúc với dữ liệu cả về ngôn ngữ và h́nh ảnh, các mô h́nh như ChatGPT của OpenAI hay Gemini của Google thể hiện khả năng vượt trội trong lập luận, truyền đạt khái niệm, nhận diện đối tượng và phân loại thông tin.
Tuy vậy, các nghiên cứu trước đây chỉ ra rằng các mô h́nh AI hiện tại vẫn gặp khó khăn khi xử lư những nhiệm vụ yêu cầu năng lực tư duy sâu hơn.
Một nền tảng cơ bản của nhận thức con người là nhận thức về đối tượng – tức khả năng nh́n nhận những đối tượng khác nhau và phân loại chúng vào các nhóm khái niệm, dựa trên so sánh giữa chúng. Khi con người nh́n thấy một con chó hay một quả táo, họ không chỉ nhận diện đặc điểm vật lư, mà c̣n hiểu được ư nghĩa, chức năng và giá trị cảm xúc của chúng.
Tiềm năng nhận thức của các hệ thống học sâu, đặc biệt là khả năng tự nhiên học cách biểu đạt khái niệm đối tượng giống như con người mà không cần huấn luyện chuyên biệt theo nhiệm vụ, từ lâu đă là chủ đề nghiên cứu và tranh căi.
“AI hiện nay có thể phân biệt ảnh mèo và chó, nhưng sự khác biệt giữa khả năng ‘nhận diện’ này với khả năng ‘hiểu’ thực sự như con người vẫn chưa được làm rơ”, Giáo sư He Huiguang thuộc Viện Tự động hóa, Viện Hàn lâm Khoa học Trung Quốc (CAS), phát biểu trong thông cáo báo chí trong tuần này.
Để t́m hiểu mối liên hệ giữa biểu đạt khái niệm đối tượng trong LLM và nhận thức con người, nhóm nghiên cứu từ Viện CAS và Đại học Công nghệ Hoa Nam đă sử dụng các phương pháp thí nghiệm hành vi, mô h́nh tính toán và phân tích h́nh ảnh thần kinh (neuroimaging).
Họ bắt đầu bằng các bài kiểm tra “chọn đối tượng khác biệt” (triplet odd-one-out), trong đó con người hoặc mô h́nh AI được cung cấp ba đối tượng và yêu cầu chọn ra đối tượng không phù hợp. Nhóm sử dụng ChatGPT-3.5 để thực hiện nhiệm vụ bằng mô tả văn bản, và Gemini Pro Vision 1.0 để thực hiện bằng h́nh ảnh.
Tổng cộng, họ thu thập được 4,7 triệu phản hồi từ các mô h́nh AI, từ đó dựng nên cấu trúc tương đồng giữa 1.854 đối tượng thực tế trong thế giới tự nhiên – bao gồm động vật, thực vật, thực phẩm, đồ nội thất, quần áo và phương tiện giao thông.
Thông qua một phương pháp đo lường vốn dùng cho con người, nhóm xác định được 66 chiều khái niệm riêng biệt chi phối các phản hồi về mức độ tương đồng của LLM, qua đó khái quát hóa cách các mô h́nh này “sắp xếp thế giới vật thể”.
Các chiều này có thể liên quan đến các danh mục như “liên quan đến thực phẩm”, nhưng cũng phản ánh các đặc tính cảm quan như nhiệt độ, kết cấu, mức độ phù hợp cho người lớn hay trẻ em, thành phần vật lư hoặc môi trường tồn tại (ví dụ: dưới nước hay trên cạn).
Khi so sánh với các đánh giá tương đồng do con người thực hiện trên cùng bộ đối tượng và chiều khái niệm, nhóm nghiên cứu phát hiện ra sự tương đồng đáng kể giữa mô h́nh AI và nhận thức con người, đặc biệt trong việc h́nh thành các danh mục ngữ nghĩa (semantic categories).
MLLM cho thấy mức độ trùng khớp cao hơn so với LLM, bởi v́ bản chất ngôn ngữ thuần túy của LLM khiến nó thiếu các chiều liên quan đến yếu tố thị giác như h́nh dạng hoặc không gian.
“Phân tích sâu hơn cho thấy sự trùng khớp rơ rệt giữa vector biểu diễn của mô h́nh và mẫu hoạt động thần kinh trong năo, đặc biệt là vùng hồi hải mă (parahippocampal area), vốn liên quan đến việc mă hóa và nhận diện các cảnh vật trong môi trường”, nhóm nghiên cứu cho biết.
Điều này cho thấy các chiều nhận thức mà MLLM phát triển có thể đến từ các quá tŕnh xử lư tương đồng với năo người khi tiếp nhận và hiểu đối tượng.
“Đây là bằng chứng thuyết phục cho thấy cách mà các mô h́nh ngôn ngữ lớn biểu diễn đối tượng, tuy không giống hệt như con người, nhưng chia sẻ những điểm tương đồng nền tảng phản ánh bản chất của tri thức khái niệm con người”, nhóm nghiên cứu nhấn mạnh.
Những phát hiện này có thể mở đường cho việc phát triển giao diện người – máy thông minh hơn, cũng như các hệ thống nhận thức nhân tạo có tư duy giống người hơn, ví dụ như robot thông minh trong tương lai.
|