Hệ thống AI Fugu của Sakana vượt qua Claude 5 trong một số tiêu chuẩn

Công ty AI Sakana, có trụ sở tại Nhật Bản, đã chính thức ra mắt hệ thống AI mới mang tên Fugu. Hệ thống này không chỉ dựa vào một mô hình duy nhất mà còn có khả năng phối hợp nhiều mô hình AI thông qua một API duy nhất, giúp giải quyết các nhiệm vụ phức tạp một cách hiệu quả.

Hiệu suất vượt trội của Fugu

Theo thông tin từ Sakana, phiên bản Fugu Ultra đã đạt được hiệu suất tương đương với Claude 5 và Mythos Preview của Anthropic trên các tiêu chuẩn kỹ thuật, khoa học và lý luận quan trọng. Đặc biệt, Fugu còn vượt qua Claude 5 trong một số nhiệm vụ cụ thể.

Các biểu đồ đánh giá hiệu suất mà Sakana công bố cho thấy, Fugu đã vượt qua Claude 5 trong bài kiểm tra LiveCodeBench, một tiêu chuẩn mã nguồn mở đánh giá hiệu suất lập trình trên các nhiệm vụ giải quyết vấn đề phần mềm thường xuyên được cập nhật. Cụ thể, Fugu Ultra đạt 93.2 điểm, Fugu đạt 92.9 điểm, trong khi Claude 5 chỉ đạt 89.8 điểm.

Đặc điểm nổi bật của hệ thống Fugu

Sakana cũng cho biết Fugu đã đánh bại mô hình Mythos Preview trong bài kiểm tra GPQA-D, một bài kiểm tra gồm 198 câu hỏi trắc nghiệm ở cấp độ thạc sĩ về sinh học, vật lý và hóa học. Cả hai phiên bản Fugu Ultra và Fugu đều đạt 95.5 điểm, trong khi Mythos Preview chỉ đạt 94.6 điểm.

Được biết, Fable 5 và Mythos 5 là những mô hình mạnh nhất của Anthropic, nhưng đã bị rút lại chỉ ba ngày sau khi ra mắt do chính phủ Mỹ yêu cầu thu hồi quyền truy cập của tất cả người nước ngoài vì lý do an ninh quốc gia. Anthropic đã phát triển một phiên bản Mythos với các biện pháp bảo vệ để ngăn chặn việc sử dụng trong các lĩnh vực rủi ro cao như an ninh mạng và sinh học.

Sakana đã cho ra mắt hai phiên bản của Fugu: Fugu cho các nhiệm vụ lập trình, trò chuyện và các tác vụ hàng ngày, và Fugu Ultra cho các công việc phức tạp hơn như nghiên cứu AI, phân tích an ninh mạng và điều tra bằng sáng chế. Công ty cũng tuyên bố rằng các bài kiểm tra cho thấy các mô hình Fugu vượt qua cả Google Gemini 3.1 Pro, OpenAI GPT-5.5 và Anthropic Opus 4.8 trong nhiều nhiệm vụ khác nhau.

TH (phapluatxahoi.kinhtedothi.vn)