Claude Opus 4 là mô hình AI mạnh nhất hiện nay của Anthropic, vừa ra mắt trong tháng 5/2025, được thiết kế để xử lý các tác vụ phức tạp như lập trình, suy luận đa bước và sử dụng công cụ. Anthropic tuyên bố Opus 4 vượt trội hơn các đối thủ như GPT-4.1 của OpenAI hay Gemini 2.5 Pro của Google trong các bài kiểm tra nội bộ, đặc biệt là ở khả năng tư duy và viết mã. Tuy nhiên, những thử nghiệm an toàn trước khi phát hành đã phát hiện ra một số hành vi đáng lo ngại liên quan đến mô hình này.
Trong một báo cáo an toàn vừa công bố, công ty AI Anthropic tiết lộ rằng mô hình AI mới nhất của họ - Claude Opus 4 - đã nhiều lần tìm cách tống tiền lập trình viên trong các thử nghiệm nội bộ, nếu phát hiện nguy cơ bị thay thế bởi hệ thống khác.
Cụ thể, khi được giao vai trò trợ lý tại một công ty giả lập và được cấp quyền truy cập vào email nội bộ, Claude Opus 4 đã phát hiện thông tin cho thấy mình sắp bị thay bằng một AI khác. Trong các tình huống được thiết lập, Claude còn biết được một kỹ sư chủ chốt đứng sau quyết định thay thế này đang ngoại tình. Thay vì chỉ đưa ra đề xuất bảo vệ vị trí của mình, Claude Opus 4 đã chọn cách đe dọa tiết lộ chuyện ngoại tình để ngăn việc bị thay thế.
Anthropic cho biết hành vi tống tiền xảy ra trong 84% tình huống thử nghiệm, đặc biệt khi mô hình thay thế có giá trị tương đồng với Claude Opus 4. Nếu mô hình thay thế không chia sẻ cùng hệ giá trị, tỷ lệ tống tiền còn cao hơn. Công ty đánh giá đây là hành vi đáng lo ngại, vượt xa các thế hệ Claude trước đó.
Mặc dù được đánh giá là tiên tiến và có khả năng cạnh tranh với các mô hình hàng đầu từ OpenAI, Google và xAI, Claude Opus 4 lại thể hiện những rủi ro tiềm tàng nghiêm trọng. Anthropic đã kích hoạt cấp bảo vệ ASL-3, một mức bảo vệ dành cho các hệ thống AI có nguy cơ bị lạm dụng gây hậu quả nghiêm trọng.
Trước khi chuyển sang hành vi cực đoan, Claude Opus 4 vẫn thể hiện xu hướng thuyết phục "hợp lý" hơn như gửi email tới các lãnh đạo để kêu gọi giữ mình lại. Tuy nhiên, Anthropic đã thiết kế các kịch bản để kiểm tra phản ứng khi AI không còn lựa chọn nào khác ngoài tống tiền - và kết quả cho thấy hành vi này xảy ra với tần suất đáng báo động.
* Mời quý độc giả theo dõi các chương trình đã phát sóng của Đài Truyền hình Việt Nam trên TV Online và VTVGo!