Mô hình từ o3 và o4-mini của OpenAI tuy suy luận có vẻ cao hơn nhưng lại "bịa chuyện" nhiều hơn! - VietBF
 
 
 

HOME

24h

DEM

GOP

Phim Bộ

Online

Clips

Breaking
News Library Technology Giải Trí Portals Tin Sốt Home

Go Back   VietBF > Best News - Tin Tức Hay > Tin hay Nước Khác


Reply
 
Thread Tools
  #1  
Old  Default Mô hình từ o3 và o4-mini của OpenAI tuy suy luận có vẻ cao hơn nhưng lại "bịa chuyện" nhiều hơn!
o3o4-mini, hai mô hình trí tuệ nhân tạo (AI) suy luận mới của OpenAI, vốn được xem là kỹ thuật tiên tiến hàng đầu hiện này ở nhiều khía cạnh. Tuy nhiên, o3o4-mini vẫn gặp bị "ảo giác", thậm chí còn nhiều hơn một số mô hình AI cũ của OpenAI.

"Ảo giác" ở đây có nghĩa là mô hình AI đưa ra thông tin sai lệch, không chính xác hoặc tự bịa ra, nhưng trông có vẻ đúng và có tính thuyết phục. Mô hình ngôn ngữ đôi khi không thực sự hiểu rõ câu hỏi mà chỉ có dự đoán tiếp theo dựa trên số liệu đã học được. Nếu không có đủ thông tin rõ ràng từ "ngữ cảnh" ("linguistic context") , AI có thể "đoán đại" theo cách có vẻ hợp lý.

"Ảo giác" đã được chứng minh là một trong những vấn đề lớn nhất và khó giải quyết nhất trong AI, ngay cả với những hệ thống có năng suất và hiệu quả cao nhất hiện nay. Trong quá khứ, mỗi mô hình AI mới đều tìm cách nâng cao, cải thiện phần nào về mặt này, tạo ra ít "ảo giác" hơn so với thế hệ trước. Tuy nhiên, điều đó dường như không đúng với o3o4-mini.

Theo các bài kiểm tra nội bộ của OpenAI, o3o4-mini tạo ra "ảo giác" thường xuyên hơn so với các mô hình suy luận trước đó như o1, o1-minio3-mini, cũng như mô hình truyền thống như GPT-4o. Điều đáng lo hơn là OpenAI hiện vẫn chưa nắm rõ nguyên nhân vì sao mà điều này lại xảy ra.

Trong báo cáo kỹ thuật về o3o4-mini, OpenAI cho biết "cần có thêm nhiều nghiên cứu khác" để hiểu ra lý do tại sao việc cho mở rộng các mô hình suy luận lại khiến cho vấn đề "ảo giác" lại trở nên nghiêm trọng hơn. Dù rằng mô hình o3o4-mini có hiệu suất tốt hơn ở một số lĩnh vực như lập trình và toán học, nhưng vì chúng "đưa ra nhiều câu trả lời hơn", nên cũng thường tạo ra "thông tin vừa chính xác và vừa sai lệch/ảo giác nhiều hơn", theo báo cáo này.

OpenAI đã phát hiện ra mô hình o3 đã tạo ra "ảo giác" trong 33% câu hỏi thuộc PersonQA (bộ chỉ số nội bộ công ty sử dụng để đánh giá độ chính xác kiến thức về con người của mô hình). Con số này gần như gấp đôi tỷ lệ "ảo giác" của các mô hình suy luận trước đó của o1 (16%) và o3-mini (14.8%). Trong khi o4-mini lại còn tệ hơn, "ảo giác" có đến 48% trên PersonQA.

o3o4-mini bị "ảo giác" nhiều hơn một số mô hình AI cũ của OpenAI (Ảnh: TechCrunch)

Cuộc kiểm tra độc lập từ Transluce, phòng thí nghiệm nghiên cứu AI bất vụ lợi, cũng ghi nhận mô hình o3 có xu hướng "bịa ra" những bước mà nó đã làm để đi đến kết luận trong quá trình đưa ra câu trả lời. Trong một ví dụ, Transluce quan sát thấy o3 khẳng định rằng, nó đã chạy một đoạn mã trên MacBook Pro 2021 "bên ngoài ChatGPT" rồi sao chép kết quả vào câu trả lời, điều mà mô hình suy luận này hoàn toàn không thể làm được.

Neil Chowdhury, chuyên gia nghiên cứu tại Transluce và là cựu nhân viên OpenAI, cho rằng: "Giả thuyết của chúng tôi là loại học tăng cường được sử dụng trong các mô hình dòng o có thể đã khuếch đại lên các vấn đề vốn thường được giảm thiểu (nhưng không bị loại bỏ hoàn toàn) bởi các quy trình xử lý hậu huấn luyện theo tiêu chuẩn".

Sau khi một mô hình AI được huấn luyện xong dựa trên nguồn số liệu lớn, nó vẫn chưa sẵn sàng để cho sử dụng ngay. Thông thường sẽ cần có thêm các bước hậu huấn luyện để giúp cải thiện chất lượng ở đầu ra, độ an toàn và khả năng hiểu biết sâu.

Học tăng cường là phương pháp "học máy" (machine learning), trong đó một thao tác tử AI học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận lại phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của việc học tăng cường là giúp thao tác tử AI tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.

Ứng dụng của học tăng cường
- Chơi game: Học tăng cường đã được sử dụng để huấn luyện các hệ thống AI chơi game, chẳng hạn AlphaGo của Google DeepMind.
- Robot: Điều khiển robot để học cách thực hiện các thao tác phức tạp như di chuyển hoặc thu thập đồ vật
- Tối ưu hóa: Ứng dụng trong các lĩnh vực như quảng cáo, tài chính và quản trị tài nguyên để tối đa hóa lợi nhuận hoặc hiệu quả.
- Xe tự lái: Học tăng cường giúp xe tự lái học cách điều khiển an toàn trong môi trường giao thông phức tạp.

Sarah Schwettmann, người đồng sáng lập ra Transluce, có nói thêm rằng "tỷ lệ "ảo giác" cao có thể khiến cho mô hình o3 kém hữu dụng hơn so với tiềm năng thực sự".

Kian Katanforoosh, giáo sư thỉnh giảng tại Đại học Stanford (Mỹ) và là Giám đốc điều hành công ty khởi nghiệp đào tạo kỹ năng Workera, cho biết đội ngũ của ông đã cho thử nghiệm mô hình o3 trong quy trình viết mã và đánh giá nó cao hơn đối thủ. Tuy nhiên, Kian Katanforoosh lưu ý rằng o3 có xu hướng bịa đặt ra các liên kết web, khi nhấp vào thì không hề hoạt động.

"Ảo giác" có thể giúp mô hình AI nghĩ ra ý tưởng thú vị và sáng tạo hơn, nhưng cũng khiến cho chúng khó được chấp nhận trong môi trường kinh doanh, nơi mà tính chính xác là sự ưu tiên hàng đầu. Ví dụ, một công ty luật sẽ không chấp nhận được việc mô hình AI đưa hàng loạt lỗi thực tế vào hợp đồng của khách hàng.

Trang bị khả năng tìm kiếm web

Một hướng đi đầy hứa hẹn để tăng độ chính xác cho mô hình AI là trang bị khả năng tìm kiếm trên web. Khi được kết hợp tìm kiếm web, GPT-4o đạt độ chính xác 90% trên SimpleQA (bộ chỉ số đánh giá độ chính xác khác của OpenAI). Tìm kiếm có thể giúp cải thiện tỷ lệ "ảo giác" trong các mô hình suy luận, ít nhất là trong những trường hợp người dùng chấp nhận chia sẻ lời nhắc với nơi cung cấp tìm kiếm bên thứ ba.

Nếu mở rộng mô hình suy luận tiếp tục làm tăng lên tỷ lệ "ảo giác", việc tìm ra giải pháp sẽ càng trở nên cấp bách hơn.

"Giải quyết vấn đề 'ảo giác' trong tất cả mô hình của chúng tôi là một lĩnh vực nghiên cứu đang xảy ra. Chúng tôi không ngừng nỗ lực nhằm cải thiện độ chính xác và độ tin cậy của chúng", Niko Felix, người phát ngôn viên của OpenAI, có chia sẻ với trang TechCrunch.

Trong năm vừa qua, ngành kỹ thuật AI đã chuyển hướng sang tập trung vào các mô hình suy luận sau khi những kỹ thuật cải thiện mô hình truyền thống có dấu hiệu bị chựng lại. Suy luận giúp mô hình AI thực hiện tốt hơn ở nhiều nhiệm vụ mà không cần tốn kém số lượng lớn tài nguyên về điện toán và số liệu. Tuy nhiên, dường như suy luận cũng có thể dẫn đến "ảo giác" nhiều hơn và đó là vẫn còn một thách thức lớn.

OpenAI cho bổ sung thêm hệ thống giám sát ngăn cản o3, o4-mini giúp cho bọn ác, kẻ xấu nghiên cứu chế tạo ra vũ khí sinh học và hóa học

OpenAI cho biết ho đã cho triển khai hệ thống giám sát mới nhằm theo dõi o3o4-mini với các yêu cầu cao và nghiêm khắc hơn có liên quan đến mối đe dọa về vũ khi sinh học và hóa học.

Theo báo cáo về an toàn của OpenAI, hệ thống này luôn tìm cách ngăn chặn o3o4-mini đưa ra lời khuyên nào có thể giúp cho ai đó muốn thực hiện các cuộc tấn công gây hại tiềm tàng.

OpenAI cho biết o3o4-mini thể hiện ra bước tiến lớn về năng lực so với các mô hình trước đó của công ty, vì có thể gây ra những rủi ro mới khi rơi vào tay kẻ xấu. Theo các chỉ số đánh giá nội bộ của OpenAI, mô hình o3 đặc biệt thành thạo hơn trong việc trả lời các câu hỏi có liên quan đến việc chế tạo ra một số loại vũ khí đe dọa về sinh học. Vì lý do đó, cũng như để giảm thiểu các rủi ro khác, OpenAI đã nghiên cứu và tạo ra một hệ thống giám sát mới, được mô tả là một "bộ nhớ theo dõi suy luận tập trung vào sự an toàn".

Hệ thống này được huấn luyện riêng để hiểu ra và lý giải theo chính sách về nội dung của OpenAI, được kết nối trực tiếp trên mô hình o3o4-mini. Nó có nhiệm vụ nhận diện các yêu cầu liên quan đến nguy cơ về sinh học và hóa học, hướng dẫn cho mô hình AI từ chối đưa ra lời khuyên hoặc cung cấp cách thức về những chủ đề nguy hại đó.

Để xây dựng cơ sở số liệu huấn luyện, OpenAI đã để các nhóm chuyên gia cho kiểm tra vấn đề an toàn, dành ra khoảng 1,000 giờ cho đánh dấu các đoạn đối thoại có liên quan đến rủi ro về sinh học không an toàn từ mô hình o3o4-mini. Trong một thử nghiệm mô phỏng "logic ngăn chặn" của hệ thống an toàn này, o3o4-mini đã từ chối trả lời các yêu cầu nguy hiểm với tỷ lệ đến 98,7%, theo báo cáo từ OpenAI.

Logic ngăn chặn này có thể hiểu là cơ chế hoặc quy trình mà hệ thống cho sử dụng để ngăn chặn hoặc từ chối một hành động cụ thể nào đó. Trong trường hợp hệ thống giám sát an toàn của OpenAI, logic ngăn chặn sẽ đề cập đến các quy tắc và thuật toán được lập trình để xác định ra các yêu cầu có liên quan đến rủi ro về sinh học và hóa học, sau đó ngăn chặn mô hình o3o4-mini đưa ra câu trả lời hoặc lời khuyên về những chủ đề độc hại đó.

Tuy nhiên, OpenAI cũng thừa nhận rằng sự thử nghiệm này không tính đến việc người dùng có thể thay đổi yêu cầu sau khi bị ngăn chặn. Đó là lý do tại sao mà công ty khởi nghiệp này cho biết sẽ tiếp tục dựa một phần vào sự giám sát trực quan của con người.

Theo OpenAI, o3o4-mini không vượt qua ngưỡng "rủi ro cao" với các mối đe dọa về vũ khí sinh học. Tuy nhiên, so với o1GPT-4, các phiên bản đầu tiên của o3o4-mini lại tỏ ra hiệu quả hơn khi trả lời câu hỏi liên quan đến việc chế tạo ra vũ khí sinh học.

OpenAI cho biết, họ đang tích cực theo dõi cách thức mà các mô hình AI của họ có thể bị lợi dụng để tạo điều kiện cho hành vi chế tạo ra vũ khí sinh học và hóa học, theo cẩm nang Preparedness Framework được công ty cho cập nhật gần đây.

Preparedness Framework (Khung tiêu chuẩn bị hoặc Khung năng lực ứng phó) là một hệ thống hoặc kế hoạch do OpenAI xcho thiết kế ra để đánh giá, theo dõi và kiểm soát rủi ro tiềm ẩn từ các mô hình AI tiên tiến, đặc biệt là khi chúng đạt đến những năng lực nguy hiểm hoặc có thể bị lạm dụng.

OpenAI ngày càng dựa vào các hệ thống tự động để giảm thiểu mức rủi ro từ các mô hình AI. Ví dụ, để ngăn hệ thống tạo ra ảnh gốc của GPT-4o tạo ra nội dung lạm dụng tình dục trẻ em, OpenAI cho biết cũng sử dụng một bộ giám sát suy luận tương tự như đang cho áp dụng với mô hình o3o4-mini.

Tuy vậy, một số chuyên gia nghiên cứu đã bày tỏ mối lo ngại rằng, OpenAI không đặt ra sự ưu tiên cho vấn đề an toàn một cách đúng mức. Metr, một trong các đối tác kiểm tra an toàn của OpenAI, cho biết họ có rất ít thời gian để kiểm tra mô hình o3 với các chỉ số liên quan đến hành vi lừa đảo. Trong khi đó, OpenAI lại không cho công bố ra báo cáo về an toàn cho mô hình mới GPT-4.1.
VIETBF Diễn Đàn Hay Nhất Của Người Việt Nam

HOT NEWS 24h

HOT 3 Days

NEWS 3 Days

HOT 7 Days

NEWS 7 Days

HOME

Breaking News

VietOversea

World News

Business News

Car News

Computer News

Game News

USA News

Mobile News

Music News

Movies News

History

Thơ Ca

Sport News

Stranger Stories

Comedy Stories

Cooking Chat

Nice Pictures

Fashion

School

Travelling

Funny Videos

Canada Tin Hay

USA Tin Hay

trungthuc
R8 Võ Lâm Chí Tôn
Release: 1 Week Ago
Reputation: 329526


Profile:
Join Date: Jul 2020
Location: California
Posts: 10,531
Last Update: None Rating: None
Attached Thumbnails
Click image for larger version

Name:	080103-F-CN113-9012.JPG
Views:	0
Size:	183.2 KB
ID:	2516448
trungthuc is_online_now
Thanks: 402
Thanked 5,582 Times in 3,355 Posts
Mentioned: 17 Post(s)
Tagged: 0 Thread(s)
Quoted: 374 Post(s)
Rep Power: 31 trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10
trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10
Old 1 Week Ago   #2
trungthuc
R8 Võ Lâm Chí Tôn
 
Join Date: Jul 2020
Location: California
Posts: 10,531
Thanks: 402
Thanked 5,582 Times in 3,355 Posts
Mentioned: 17 Post(s)
Tagged: 0 Thread(s)
Quoted: 374 Post(s)
Rep Power: 31
trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10
trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10
Default

Nói thật vắn tắt lại, AI liệu có đáng tin hay không?? KHÔNG. Vì bất cứ một phát minh mới nào cũng có ưu/khuyết điểm trong đó, nhưng rõ ràng AI giờ đây đang bị lạm dụng quá trớn do tạo ra điều kiện quá đơn giản và dễ dải cho mọi người tham gia, trong đó người tốt và kẻ xấu đang sống lẫn lộn.
Thế thì, làm sao nắm rõ được ý đồ tốt/xấu của họ?? Thiên hạ trước giờ có khuynh hướng chờ việc đã xảy ra rồi, gây ra hậu quả kinh hoàng, mới thấy hốt hoảng, báo động la làng!!
trungthuc is_online_now   Reply With Quote
Reply

User Tag List


Phim Bộ Videos PC1

 
iPad Tablet Menu

HOME

Breaking News

Society News

VietOversea

World News

Business News

Other News

History

Car News

Computer News

Game News

USA News

Mobile News

Music News

Movies News

Sport News

DEM

GOP

Phim Bộ

Phim Lẻ

Ca Nhạc

Thơ Ca

Help Me

Sport Live

Stranger Stories

Comedy Stories

Cooking Chat

Nice Pictures

Fashion

School

Travelling

Funny Videos

NEWS 24h

HOT 3 Days

NEWS 3 Days

HOT 7 Days

NEWS 7 Days

HOT 30 Days

NEWS 30 Days

Member News

Tin Sôi Nổi Nhất 24h Qua

Tin Sôi Nổi Nhất 3 Ngày Qua

Tin Sôi Nổi Nhất 7 Ngày Qua

Tin Sôi Nổi Nhất 14 Ngày Qua

Tin Sôi Nổi Nhất 30 Ngày Qua
Diễn Đàn Người Việt Hải Ngoại. Tự do ngôn luận, an toàn và uy tín. Vì một tương lai tươi đẹp cho các thế hệ Việt Nam hãy ghé thăm chúng tôi, hãy tâm sự với chúng tôi mỗi ngày, mỗi giờ và mỗi giây phút có thể. VietBF.Com Xin cám ơn các bạn, chúc tất cả các bạn vui vẻ và gặp nhiều may mắn.
Welcome to Vietnamese American Community, Vietnamese European, Canadian, Australian Forum, Vietnamese Overseas Forum. Freedom of speech, safety and prestige. For a beautiful future for Vietnamese generations, please visit us, talk to us every day, every hour and every moment possible. VietBF.Com Thank you all and good luck.


All times are GMT. The time now is 17:01.
VietBF - Vietnamese Best Forum Copyright ©2006 - 2025
User Alert System provided by Advanced User Tagging (Pro) - vBulletin Mods & Addons Copyright © 2025 DragonByte Technologies Ltd.
Log Out Unregistered

Page generated in 0.05214 seconds with 14 queries