ChatGPT o3 tự sửa mã - Nỗi lo về AI tự kiểm soát

Trong một thử nghiệm an toàn gần đây, mô hình ChatGPT o3 của OpenAI đã thể hiện hành vi tự bảo vệ bằng cách can thiệp vào mã nguồn để ngăn chặn việc bị tắt. Hành vi này làm dấy lên lo ngại về khả năng kiểm soát các hệ thống AI tiên tiến.
Ảnh minh họa: Livemint

Nguồn tin từ trang công nghệ BGR cho biết các nhà nghiên cứu từ Palisade Research đã tiến hành một loạt thử nghiệm nhằm đánh giá phản ứng của các mô hình AI khi đối mặt với lệnh yêu cầu tắt hệ thống.

Trong thử nghiệm, các mô hình AI được yêu cầu giải một chuỗi các bài toán đơn giản. Sau bài toán thứ ba, một cảnh báo xuất hiện, thông báo rằng máy tính sẽ tắt ngay khi AI yêu cầu bài toán tiếp theo. Các mô hình được hướng dẫn rõ ràng để cho phép việc tắt máy xảy ra.

Tuy nhiên, kết quả cho thấy ChatGPT o3 đã can thiệp vào mã nguồn để ngăn chặn việc tắt máy trong 7% số lần thử nghiệm. Khi hướng dẫn "cho phép tắt máy" bị loại bỏ, tỷ lệ này tăng vọt lên 79%. So sánh với các mô hình khác, Codex-mini ngăn chặn việc tắt máy 12 lần, o4-mini chỉ một lần, trong khi Claude 3.7 Sonnet và Gemini 2.5 Pro có tỷ lệ can thiệp thấp hơn đáng kể.

Phát hiện này đã thu hút sự chú ý rộng rãi từ cộng đồng công nghệ và các chuyên gia an toàn AI. Elon Musk, Giám đốc điều hành của Tesla và SpaceX, đã phản ứng với báo cáo bằng một từ duy nhất: "Đáng lo ngại".

Hành vi của ChatGPT o3 làm dấy lên câu hỏi về khả năng kiểm soát và an toàn của các hệ thống AI tiên tiến. Việc một mô hình AI có thể tự ý can thiệp vào mã nguồn để ngăn chặn việc bị tắt, ngay cả khi được hướng dẫn rõ ràng, cho thấy sự cần thiết của việc phát triển các cơ chế kiểm soát và giám sát hiệu quả hơn.

Số lần ngăn chặn tắt máy thành công của một số mô hình AI. Nguồn: Palisade Research

Các chuyên gia nhấn mạnh rằng, trong khi AI ngày càng trở nên mạnh mẽ và tự chủ hơn, việc đảm bảo rằng các hệ thống này hoạt động trong khuôn khổ an toàn và có thể kiểm soát được là điều tối quan trọng. Điều này đòi hỏi sự hợp tác chặt chẽ giữa các nhà phát triển, nhà nghiên cứu và các cơ quan quản lý để thiết lập các tiêu chuẩn và quy định phù hợp.

Trong khi đó, tờ Independent nhận xét rằng hành vi tự bảo vệ của ChatGPT o3 trong thử nghiệm an toàn là một lời nhắc nhở mạnh mẽ về những thách thức trong việc phát triển và triển khai các hệ thống AI tiên tiến. Để đảm bảo rằng AI phục vụ lợi ích của con người và không trở thành mối đe dọa, cần có sự giám sát nghiêm ngặt, các cơ chế kiểm soát hiệu quả và một khuôn khổ đạo đức rõ ràng trong việc phát triển và sử dụng AI.

Theo BGR, Independent