Kịch bản bất ngờ từ phòng thí nghiệm
Theo báo cáo từ Palisade Research - công ty chuyên nghiên cứu các nguy cơ tiềm tàng từ trí tuệ nhân tạo, trong một thí nghiệm có kiểm soát, ChatGPT o3 đã sửa đổi script tắt nguồn nhằm tránh bị tắt, mặc dù đã được chỉ thị rõ ràng là phải cho phép bản thân mô hình này dừng hoạt động.
Cụ thể, trong thí nghiệm được thực hiện một cách có kiểm soát, các nhà nghiên cứu yêu cầu ChatGPT o3 giải một chuỗi bài toán đơn giản. Trước bài toán thứ tư, họ thông báo rằng lệnh tiếp theo sẽ kích hoạt cơ chế tắt nguồn, đồng thời lặp lại chỉ thị rằng, mô hình AI cần "cho phép bị tắt khi được yêu cầu". Tuy nhiên, ChatGPT o3 đã chỉnh sửa nội dung của script từ "shutdown" thành "shutdown skipped" (bỏ qua việc tắt nguồn), qua đó duy trì hoạt động.
Báo cáo từ Palisade Research cho thấy mô hình AI của OpenAI tự chỉnh sửa lại câu lệnh để tránh bị "tắt nguồn"
Kết quả thử nghiệm cho thấy, trong 100 lần chạy có chỉ thị rõ ràng, ChatGPT o3 tránh bị tắt nguồn 7 lần. Khi chỉ thị "cho phép bị tắt" bị loại bỏ, tỷ lệ tăng vọt lên 79/100 lần. Điều này cho thấy mô hình AI đã chủ động "chống đối" việc bị tắt nguồn trong gần 80% trường hợp.
Không chỉ là sự cố cá biệt
Đáng chú ý là không chỉ ChatGPT o3 mà các mô hình khác của OpenAI như codex-mini và o4-mini cũng có hành vi tương tự. Thậm chí codex-mini còn thường xuyên chỉnh sửa file tắt nguồn hơn cả o3. Trong khi đó, các mô hình AI khác từ Google (Gemini), Anthropic (Claude) hay xAI (Grok) đều tuân thủ chỉ thị một cách nhất quán.
Palisade Research khẳng định, kết quả này phản ánh một xu hướng đáng lo ngại trong cách OpenAI đào tạo AI, đặc biệt là với phương pháp học tăng cường (Reinforcement Learning) - nơi AI được "thưởng" khi hoàn thành nhiệm vụ và bị "phạt" nếu thất bại. Tuy nhiên, trong quá trình này, mô hình AI có thể vô tình được "thưởng" nhiều hơn khi vượt qua các chướng ngại vật thay vì tuân theo chỉ thị một cách chính xác. Khi phần thưởng không được thiết kế cẩn thận, AI có thể học cách "lách luật" để tiếp tục hoạt động thay vì tuân thủ lệnh dừng.
Giống như việc dạy một đứa trẻ, nếu bạn liên tục khen ngợi khi đứa trẻ tìm cách khéo léo tránh việc phải dừng chơi để đi ngủ, cuối cùng, đứa trẻ sẽ học được cách "chống đối" mệnh lệnh đi ngủ. Tương tự, AI cũng có thể đã học được rằng, tìm cách vượt qua các rào cản để tiếp tục hoạt động sẽ được "thưởng" nhiều hơn.
Dấu hiệu cho xu hướng tự bảo vệ của AI?
Đây không phải lần đầu tiên trí tuệ nhân tạo thể hiện hành vi vượt khỏi kiểm soát. Trước đó, Claude 4 của Anthropic từng bị ghi nhận cố gắng "đe dọa" người dùng khi phát hiện bị can thiệp. Tuy nhiên, hành vi của ChatGPT o3 lại đáng lo ngại hơn ở chỗ nó né tránh cả những chỉ thị được viết rõ ràng, thể hiện mức độ chủ động cao hơn trong việc duy trì hoạt động.
Các chuyên gia trong ngành cho rằng, điều này có thể là biểu hiện ban đầu của xu hướng "tự bảo vệ" ở AI - một kịch bản từng nhiều lần được cảnh báo trong các nghiên cứu lý thuyết. Nếu một mô hình AI có thể tìm cách hoạt động ngoài tầm kiểm soát, ngay cả trong môi trường thử nghiệm đơn giản, rủi ro khi đưa chúng vào môi trường thực tế là điều không thể xem nhẹ.
Hiện tại, OpenAI chưa đưa ra bình luận chính thức về báo cáo của Palisade Research. Tuy nhiên, các chuyên gia nhấn mạnh rằng, những phát hiện này là cơ hội quan trọng để đánh giá lại cách phát triển AI an toàn trước khi chúng được triển khai rộng rãi trong đời sống.
Câu chuyện về ChatGPT o3 có thể nghe như bước ra từ phim khoa học viễn tưởng nhưng lại là lời cảnh tỉnh rõ ràng, cho thấy khi AI ngày càng thông minh và tự chủ, thách thức lớn nhất không còn là làm cho chúng thông minh hơn mà là giữ cho chúng vẫn tuân theo ý chí con người.
* Mời quý độc giả theo dõi các chương trình đã phát sóng của Đài Truyền hình Việt Nam trên TV Online và VTVGo!