Tháng trước, thị trường tài chính Mỹ lao đao sau khi công ty khởi nghiệp Trung Quốc DeepSeek tuyên bố xây dựng thành công một trong những hệ thống trí tuệ nhân tạo mạnh nhất thế giới chỉ với một lượng rất nhỏ các con chip. Thông thường, các công ty A.I. thường đào tạo chatbot bằng siêu máy tính chứa 16.000 chip chuyên dụng trở lên, trong khi DeepSeek chỉ cần khoảng 2.000.
Như các kỹ sư của DeepSeek đă tŕnh bày, công ty khởi nghiệp này sử dụng một số thủ thuật công nghệ để giảm đáng kể chi phí xây dựng hệ thống xuống khoảng 6 triệu USD cho sức mạnh tính toán thô, tức bằng 1/10 số tiền Meta đă chi để xây dựng công nghệ A.I. mới nhất.
Các công nghệ A.I. hàng đầu dựa trên mạng nơ-ron, các hệ thống toán học học các kỹ năng bằng cách phân tích một lượng lớn dữ liệu. Các hệ thống mạnh nhất dành nhiều tháng để phân tích hầu như toàn bộ văn bản tiếng Anh trên internet, h́nh ảnh, âm thanh và các đa phương tiện. Một lượng lớn sức mạnh tính toán cần được huy động.
Khoảng 15 năm trước, các nhà nghiên cứu A.I. nhận ra rằng các chip máy tính chuyên dụng được gọi là bộ xử lư đồ họa hoặc GPU giúp thực hiện hiệu quả loại phân tích dữ liệu này. Các công ty như nhà sản xuất chip Nvidia của Thung lũng Silicon ban đầu đă thiết kế chúng để kết xuất đồ họa cho tṛ chơi điện tử trên máy tính.
GPU có khả năng chạy toán học cung cấp năng lượng cho mạng nơ-ron. Khi các công ty tích hợp nhiều GPU hơn vào trung tâm dữ liệu máy tính của ḿnh, hệ thống A.I. có thể phân tích nhiều dữ liệu.
Tuy nhiên, những GPU tốt nhất có giá khoảng 40.000 USD và chúng cần một lượng điện lớn. Việc gửi dữ liệu giữa các chip cũng tốn rất nhiều điện năng.
Vậy DeepSeek đă làm như thế nào?
Với sự kết hợp của phương pháp chuyên gia, các nhà nghiên cứu đă cố gắng giải quyết vấn đề chi phí bằng cách chia hệ thống thành nhiều mạng nơ-ron: một cho thơ ca, một cho lập tŕnh máy tính, một cho sinh học, một cho vật lư, v.v. Có thể có 100 hệ thống "chuyên gia" nhỏ như vậy mà mỗi hệ thống sẽ chỉ tập trung vào một lĩnh vực cụ thể.
Nhiều công ty phải vật lộn với phương pháp này, nhưng DeepSeek làm rất tốt. Bí quyết là ghép nối các hệ thống "chuyên gia" nhỏ hơn với một hệ thống "tổng quát".
Các chuyên gia vẫn cần trao đổi một số thông tin với nhau, trong khi người tổng quát giúp điều phối các tương tác qua lại.
Hơn thế nữa, đó không phải là điều duy nhất DeepSeek làm được.
Bạn c̣n nhớ khái niệm pi không? Pi, c̣n được kư hiệu là π, là một con số không bao giờ kết thúc: 3.14159265358979 … Bạn có thể sử dụng π để thực hiện các phép tính hữu ích, như xác định chu vi của một h́nh tṛn. Khi thực hiện các phép tính đó, bạn sẽ chỉ rút ngắn π xuống c̣n một vài chữ số thập phân.
DeepSeek đă làm điều ǵ đó tương tự — nhưng ở quy mô lớn hơn nhiều — khi đào tạo công nghệ A.I. của ḿnh. Phép toán cho phép mạng nơ-ron xác định các mẫu trong văn bản thực chất chỉ là phép nhân — rất nhiều phép nhân. Thông thường, chip nhân các số vừa với bộ nhớ 16 bit, nhưng DeepSeek đă nén xuống chỉ c̣n 8 bit bộ nhớ — tức một nửa không gian. Về bản chất, công ty cắt bỏ một số số thập phân khỏi mỗi số.
Mỗi phép tính sẽ kém chính xác hơn, nhưng điều đó không quan trọng. Các phép tính đủ chính xác để tạo ra một mạng nơ-ron thực sự mạnh mẽ.
Trong một bài báo, DeepSeek khẳng định ḿnh rất giỏi trong việc viết mă máy tính phức tạp. Chỉ các pḥng thí nghiệm A.I. nghiêm túc mới có những kỹ sư tài năng để sánh ngang với những ǵ DeepSeek đă làm.
“DeepSeek, đối thủ cạnh tranh của ChatGPT, đă tạo ra một làn sóng chấn động. Nói vậy là c̣n nhẹ. DeepSeek giống như một quả bom hạt nhân trong thế giới công nghệ AI tại Mỹ và châu Âu bởi v́ chỉ trong một đ̣n, công ty này đă cho thấy định giá của cổ phiếu chip AI và tất cả các cổ phiếu cơ sở hạ tầng AI là quá cao. DeepSeek có thể tạo ra một sản phẩm vượt trội hơn ChatGPT với chi phí chỉ bằng 1/20”, ông Francis Lun, Giám đốc điều hành Geo Securities, cho biết.
Một số pḥng thí nghiệm A.I. có thể đă sử dụng ít nhất một số thủ thuật tương tự. Các công ty như OpenAI không phải lúc nào cũng tiết lộ những ǵ họ đang làm sau cánh cửa đóng kín.
Tuy nhiên, làm những ǵ công ty khởi nghiệp này đă làm là không hề dễ. Việc thử nghiệm t́m ra một bước đột phá liên quan đến hàng triệu USD — nếu không muốn nói là hàng tỷ USD — tiền điện.
Tim Dettmers, một nhà nghiên cứu tại Viện Trí tuệ nhân tạo Allen ở Seattle, người chuyên xây dựng A.I. hiệu quả, cho biết: "Bạn phải đầu tư rất nhiều tiền để thử những điều mới — và thường th́ chúng sẽ thất bại. Đó là lư do tại sao chúng ta không thấy nhiều sự đổi mới: Mọi người sợ mất hàng triệu USD chỉ để thử một thứ không hiệu quả".
Nhiều chuyên gia chỉ ra rằng 6 triệu USA của DeepSeek chỉ trang trải được số tiền mà công ty khởi nghiệp đă chi khi đào tạo phiên bản cuối cùng của hệ thống. Trong bài báo của ḿnh, các kỹ sư DeepSeek cũng cho biết họ đă chi thêm tiền cho nghiên cứu và thử nghiệm trước khi chạy đào tạo cuối cùng.
Yu Zhou, một giáo sư tại Cao đẳng Vassar, người đă nghiên cứu về sự phát triển của ngành công nghệ cao Trung Quốc, cho rằng sự nhiệt t́nh của các nhà nghiên cứu trẻ DeepSeek gợi nhắc tới các startup internet đầu tiên ở Bắc Kinh thời đầu những năm 2000. Vào thời điểm đó, những sinh viên tốt nghiệp từ các trường đại học hàng đầu của Trung Quốc lấy cảm hứng từ những công ty như Google và Microsoft, cuối cùng tạo ra một ngành công nghiệp công nghệ tuyệt vời tại quê nhà.
“Người trẻ đă được truyền cảm hứng từ những phát triển công nghệ mới như OpenAI”, bà Yu nói. “Khi bạn không có nguồn lực, tất cả những ǵ bạn có là sức mạnh trí tuệ của ḿnh”.
Theo: The New York Times, WSJ
Vietbf@Sưu tập
|