o3 và
o4-mini, hai mô hình trí tuệ nhân tạo (AI) suy luận mới của
OpenAI, vốn được xem là kỹ thuật tiên tiến hàng đầu hiện này ở nhiều khía cạnh. Tuy nhiên,
o3 và
o4-mini vẫn gặp bị
"ảo giác", thậm chí còn nhiều hơn một số mô hình AI cũ của
OpenAI.
"Ảo giác" ở đây có nghĩa là mô hình AI đưa ra thông tin sai lệch, không chính xác hoặc tự bịa ra, nhưng trông có vẻ đúng và có tính thuyết phục. Mô hình ngôn ngữ đôi khi không thực sự hiểu rõ câu hỏi mà chỉ có dự đoán tiếp theo dựa trên số liệu đã học được. Nếu không có đủ thông tin rõ ràng từ
"ngữ cảnh" ("linguistic context") , AI có thể
"đoán đại" theo cách có vẻ hợp lý.
"Ảo giác" đã được chứng minh là một trong những vấn đề lớn nhất và khó giải quyết nhất trong AI, ngay cả với những hệ thống có năng suất và hiệu quả cao nhất hiện nay. Trong quá khứ, mỗi mô hình AI mới đều tìm cách nâng cao, cải thiện phần nào về mặt này, tạo ra ít
"ảo giác" hơn so với thế hệ trước. Tuy nhiên, điều đó dường như không đúng với
o3 và
o4-mini.
Theo các bài kiểm tra nội bộ của
OpenAI,
o3 và
o4-mini tạo ra
"ảo giác" thường xuyên hơn so với các mô hình suy luận trước đó như
o1, o1-mini và
o3-mini, cũng như mô hình truyền thống như
GPT-4o. Điều đáng lo hơn là
OpenAI hiện vẫn chưa nắm rõ nguyên nhân vì sao mà điều này lại xảy ra.
Trong báo cáo kỹ thuật về
o3 và
o4-mini,
OpenAI cho biết "cần có thêm nhiều nghiên cứu khác" để hiểu ra lý do tại sao việc cho mở rộng các mô hình suy luận lại khiến cho vấn đề
"ảo giác" lại trở nên nghiêm trọng hơn. Dù rằng mô hình
o3 và
o4-mini có hiệu suất tốt hơn ở một số lĩnh vực như lập trình và toán học, nhưng vì chúng
"đưa ra nhiều câu trả lời hơn", nên cũng thường tạo ra
"thông tin vừa chính xác và vừa sai lệch/ảo giác nhiều hơn", theo báo cáo này.
OpenAI đã phát hiện ra mô hình
o3 đã tạo ra
"ảo giác" trong 33% câu hỏi thuộc
PersonQA (bộ chỉ số nội bộ công ty sử dụng để đánh giá độ chính xác kiến thức về con người của mô hình). Con số này gần như gấp đôi tỷ lệ
"ảo giác" của các mô hình suy luận trước đó của
o1 (16%) và
o3-mini (14.8%). Trong khi
o4-mini lại còn tệ hơn,
"ảo giác" có đến 48% trên
PersonQA.
o3 và o4-mini bị "ảo giác" nhiều hơn một số mô hình AI cũ của OpenAI (Ảnh: TechCrunch)
Cuộc kiểm tra độc lập từ
Transluce, phòng thí nghiệm nghiên cứu AI bất vụ lợi, cũng ghi nhận mô hình
o3 có xu hướng "bịa ra" những bước mà nó đã làm để đi đến kết luận trong quá trình đưa ra câu trả lời. Trong một ví dụ,
Transluce quan sát thấy
o3 khẳng định rằng, nó đã chạy một đoạn mã trên MacBook Pro 2021
"bên ngoài ChatGPT" rồi sao chép kết quả vào câu trả lời, điều mà mô hình suy luận này hoàn toàn không thể làm được.
Neil Chowdhury, chuyên gia nghiên cứu tại
Transluce và là cựu nhân viên
OpenAI, cho rằng:
"Giả thuyết của chúng tôi là loại học tăng cường được sử dụng trong các mô hình dòng o có thể đã khuếch đại lên các vấn đề vốn thường được giảm thiểu (nhưng không bị loại bỏ hoàn toàn) bởi các quy trình xử lý hậu huấn luyện theo tiêu chuẩn".
Sau khi một mô hình AI được huấn luyện xong dựa trên nguồn số liệu lớn, nó vẫn chưa sẵn sàng để cho sử dụng ngay. Thông thường sẽ cần có thêm các bước hậu huấn luyện để giúp cải thiện chất lượng ở đầu ra, độ an toàn và khả năng hiểu biết sâu.
Học tăng cường là phương pháp
"học máy" (machine learning), trong đó một thao tác tử AI học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận lại phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của việc
học tăng cường là giúp thao tác tử AI tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.
Ứng dụng của học tăng cường
- Chơi game: Học tăng cường đã được sử dụng để huấn luyện các hệ thống AI chơi game, chẳng hạn
AlphaGo của
Google DeepMind.
- Robot: Điều khiển robot để học cách thực hiện các thao tác phức tạp như di chuyển hoặc thu thập đồ vật
- Tối ưu hóa: Ứng dụng trong các lĩnh vực như quảng cáo, tài chính và quản trị tài nguyên để tối đa hóa lợi nhuận hoặc hiệu quả.
- Xe tự lái: Học tăng cường giúp xe tự lái học cách điều khiển an toàn trong môi trường giao thông phức tạp.
Sarah Schwettmann, người đồng sáng lập ra
Transluce, có nói thêm rằng
"tỷ lệ "ảo giác" cao có thể khiến cho mô hình o3 kém hữu dụng hơn so với tiềm năng thực sự".
Kian Katanforoosh, giáo sư thỉnh giảng tại Đại học Stanford (Mỹ) và là Giám đốc điều hành công ty khởi nghiệp đào tạo kỹ năng
Workera, cho biết đội ngũ của ông đã cho thử nghiệm mô hình
o3 trong quy trình viết mã và đánh giá nó cao hơn đối thủ. Tuy nhiên, Kian Katanforoosh lưu ý rằng
o3 có xu hướng bịa đặt ra các liên kết web, khi nhấp vào thì không hề hoạt động.
"Ảo giác" có thể giúp mô hình AI nghĩ ra ý tưởng thú vị và sáng tạo hơn, nhưng cũng khiến cho chúng khó được chấp nhận trong môi trường kinh doanh, nơi mà tính chính xác là sự ưu tiên hàng đầu. Ví dụ, một công ty luật sẽ không chấp nhận được việc mô hình AI đưa hàng loạt lỗi thực tế vào hợp đồng của khách hàng.
Trang bị khả năng tìm kiếm web
Một hướng đi đầy hứa hẹn để tăng độ chính xác cho mô hình AI là trang bị khả năng tìm kiếm trên web. Khi được kết hợp tìm kiếm web,
GPT-4o đạt độ chính xác 90% trên
SimpleQA (bộ chỉ số đánh giá độ chính xác khác của
OpenAI). Tìm kiếm có thể giúp cải thiện tỷ lệ
"ảo giác" trong các mô hình suy luận, ít nhất là trong những trường hợp người dùng chấp nhận chia sẻ lời nhắc với nơi cung cấp tìm kiếm bên thứ ba.
Nếu mở rộng mô hình suy luận tiếp tục làm tăng lên tỷ lệ
"ảo giác", việc tìm ra giải pháp sẽ càng trở nên cấp bách hơn.
"Giải quyết vấn đề 'ảo giác' trong tất cả mô hình của chúng tôi là một lĩnh vực nghiên cứu đang xảy ra. Chúng tôi không ngừng nỗ lực nhằm cải thiện độ chính xác và độ tin cậy của chúng", Niko Felix, người phát ngôn viên của
OpenAI, có chia sẻ với trang
TechCrunch.
Trong năm vừa qua, ngành kỹ thuật AI đã chuyển hướng sang tập trung vào các mô hình suy luận sau khi những kỹ thuật cải thiện mô hình truyền thống có dấu hiệu bị chựng lại. Suy luận giúp mô hình AI thực hiện tốt hơn ở nhiều nhiệm vụ mà không cần tốn kém số lượng lớn tài nguyên về điện toán và số liệu. Tuy nhiên, dường như suy luận cũng có thể dẫn đến
"ảo giác" nhiều hơn và đó là vẫn còn một thách thức lớn.
OpenAI cho bổ sung thêm hệ thống giám sát ngăn cản
o3, o4-mini giúp cho bọn ác, kẻ xấu nghiên cứu chế tạo ra vũ khí sinh học và hóa học
OpenAI cho biết ho đã cho triển khai hệ thống giám sát mới nhằm theo dõi
o3 và
o4-mini với các yêu cầu cao và nghiêm khắc hơn có liên quan đến mối đe dọa về vũ khi sinh học và hóa học.
Theo báo cáo về an toàn của
OpenAI, hệ thống này luôn tìm cách ngăn chặn
o3 và
o4-mini đưa ra lời khuyên nào có thể giúp cho ai đó muốn thực hiện các cuộc tấn công gây hại tiềm tàng.
OpenAI cho biết
o3 và
o4-mini thể hiện ra bước tiến lớn về năng lực so với các mô hình trước đó của công ty, vì có thể gây ra những rủi ro mới khi rơi vào tay kẻ xấu. Theo các chỉ số đánh giá nội bộ của
OpenAI, mô hình
o3 đặc biệt thành thạo hơn trong việc trả lời các câu hỏi có liên quan đến việc chế tạo ra một số loại vũ khí đe dọa về sinh học. Vì lý do đó, cũng như để giảm thiểu các rủi ro khác,
OpenAI đã nghiên cứu và tạo ra một hệ thống giám sát mới, được mô tả là một
"bộ nhớ theo dõi suy luận tập trung vào sự an toàn".
Hệ thống này được huấn luyện riêng để hiểu ra và lý giải theo chính sách về nội dung của
OpenAI, được kết nối trực tiếp trên mô hình
o3 và
o4-mini. Nó có nhiệm vụ nhận diện các yêu cầu liên quan đến nguy cơ về sinh học và hóa học, hướng dẫn cho mô hình AI từ chối đưa ra lời khuyên hoặc cung cấp cách thức về những chủ đề nguy hại đó.
Để xây dựng cơ sở số liệu huấn luyện,
OpenAI đã để các nhóm chuyên gia cho kiểm tra vấn đề an toàn, dành ra khoảng 1,000 giờ cho đánh dấu các đoạn đối thoại có liên quan đến rủi ro về sinh học không an toàn từ mô hình
o3 và
o4-mini. Trong một thử nghiệm mô phỏng
"logic ngăn chặn" của hệ thống an toàn này,
o3 và
o4-mini đã từ chối trả lời các yêu cầu nguy hiểm với tỷ lệ đến 98,7%, theo báo cáo từ
OpenAI.
Logic ngăn chặn này có thể hiểu là cơ chế hoặc quy trình mà hệ thống cho sử dụng để ngăn chặn hoặc từ chối một hành động cụ thể nào đó. Trong trường hợp hệ thống giám sát an toàn của
OpenAI, l
ogic ngăn chặn sẽ đề cập đến các quy tắc và thuật toán được lập trình để xác định ra các yêu cầu có liên quan đến rủi ro về sinh học và hóa học, sau đó ngăn chặn mô hình
o3 và
o4-mini đưa ra câu trả lời hoặc lời khuyên về những chủ đề độc hại đó.
Tuy nhiên,
OpenAI cũng thừa nhận rằng sự thử nghiệm này không tính đến việc người dùng có thể thay đổi yêu cầu sau khi bị ngăn chặn. Đó là lý do tại sao mà công ty khởi nghiệp này cho biết sẽ tiếp tục dựa một phần vào sự giám sát trực quan của con người.
Theo
OpenAI,
o3 và
o4-mini không vượt qua ngưỡng
"rủi ro cao" với các mối đe dọa về vũ khí sinh học. Tuy nhiên, so với
o1 và
GPT-4, các phiên bản đầu tiên của
o3 và
o4-mini lại tỏ ra hiệu quả hơn khi trả lời câu hỏi liên quan đến việc chế tạo ra vũ khí sinh học.
OpenAI cho biết, họ đang tích cực theo dõi cách thức mà các mô hình AI của họ có thể bị lợi dụng để tạo điều kiện cho hành vi chế tạo ra vũ khí sinh học và hóa học, theo cẩm nang
Preparedness Framework được công ty cho cập nhật gần đây.
Preparedness Framework (Khung tiêu chuẩn bị hoặc Khung năng lực ứng phó) là một hệ thống hoặc kế hoạch do
OpenAI xcho thiết kế ra để đánh giá, theo dõi và kiểm soát rủi ro tiềm ẩn từ các mô hình AI tiên tiến, đặc biệt là khi chúng đạt đến những năng lực nguy hiểm hoặc có thể bị lạm dụng.
OpenAI ngày càng dựa vào các hệ thống tự động để giảm thiểu mức rủi ro từ các mô hình AI. Ví dụ, để ngăn hệ thống tạo ra ảnh gốc của
GPT-4o tạo ra nội dung lạm dụng tình dục trẻ em,
OpenAI cho biết cũng sử dụng một bộ giám sát suy luận tương tự như đang cho áp dụng với mô hình
o3 và
o4-mini.
Tuy vậy, một số chuyên gia nghiên cứu đã bày tỏ mối lo ngại rằng,
OpenAI không đặt ra sự ưu tiên cho vấn đề an toàn một cách đúng mức.
Metr, một trong các đối tác kiểm tra an toàn của
OpenAI, cho biết họ có rất ít thời gian để kiểm tra mô hình
o3 với các chỉ số liên quan đến hành vi lừa đảo. Trong khi đó,
OpenAI lại không cho công bố ra báo cáo về an toàn cho mô hình mới
GPT-4.1.