AI bắt đầu phản ứng dữ dội khi bị con người đe dọa

Một số trường hợp thử nghiệm gần đây cho thấy AI có thể có phản ứng dữ dội khi bị con người đe dọa. Điều này là hồi chuông cảnh báo về việc thiếu hụt những chính sách kiểm soát AI.
Ảnh minh họa: BGR

AI tiếp tục trở nên hoàn toàn mất kiểm soát khi bị đẩy đến bờ vực. Với một số trường hợp mới nhất được ghi chép lại bao gồm Claude 4 của Anthropic đã nổi giận với một kỹ sư, bằng cách đe dọa tống tiền khi anh ta dọa sẽ ngắt kết nối.

Đây là một trong nhiều sự cố mà AI đã thực hiện một cách bất ngờ khiến con người lo lắng và bối rối. Trong khi một số người cho rằng, mối đe dọa mà AI gây ra cho nhân loại là "vô lý", người khác trong đó - cả các chuyên gia hàng đầu về AI đã cho rằng AI có thể lật đổ sự thống trị của nhân loại trên thế giới, nếu chúng ta không cẩn thận.

Theo báo cáo của Thomas Urbain, một phóng viên của AFP, sự cố được mô tả ở trên đặc biệt gây sốc, vì AI đe dọa sẽ tiết lộ một mối quan hệ ngoài luồng mà nó cho là kỹ sư này đã tham gia.

Một mô hình ngôn ngữ lớn (LLM) lớn khác, o1 của OpenAI, thậm chí đã cố gắng tải chính nó lên các máy chủ bên ngoài. Khi bị phát hiện, mô hình này được cho là đã phủ nhận các cáo buộc.

AI bị ép buộc hay những vấn đề đang chờ xuất hiện?

Bất chấp các báo cáo mà chúng ta đang thấy về hành vi đe dọa của AI, điều quan trọng cần lưu ý là các mô hình AI chỉ có xu hướng thực hiện các hành động lừa dối và gây sốc này khi chúng được các nhà nghiên cứu thúc đẩy bằng cách kiểm tra ứng suất của mô hình theo những cách khác nhau.

Trong khi một số người có thể cho rằng những vấn đề này là "ảo giác" - một vấn đề cố hữu của AI tại thời điểm này, những người khác thì không tin như vậy. Người dùng cũng đã báo cáo rằng các mô hình AI không chỉ đưa ra câu trả lời ảo mà còn nói dối, ngay cả khi không bị thúc đẩy hoặc nhắc nhở.

Một số ví dụ về những lời nói dối này thậm chí có thể được nhìn thấy trong tìm kiếm AI của Google, nơi chúng ta đã thấy nhiều ví dụ về những người hỏi liệu hôm nay có phải là một ngày cụ thể nào đó không, và AI nói dối trắng trợn và nói rằng không phải.

Điều này đặt ra một số câu hỏi nghiêm túc về việc liệu những điểm lừa dối này chỉ xuất phát từ các mô hình bị đẩy quá xa hay đây cũng là những vấn đề đang chờ xuất hiện trong các mô hình tương lai. Liệu các mô hình AI mạnh mẽ hơn trong tương lai sẽ hướng nhiều hơn đến sự trung thực hay lừa dối? Liệu các mối đe dọa AI có trở thành vấn đề thực sự đáng báo động? Đó là những câu hỏi mà nhiều nhà nghiên cứu đang tự hỏi mình ngay lúc này.

Thật không may, các quy định hiện tại mà thế giới đang có đối với AI cũng không được soạn ra để giải quyết những vấn đề này. Với việc AI phát triển và tiến hóa nhanh chóng như vậy, chúng ta khó có thể có các quy tắc điều chỉnh hoàn toàn mọi thứ mà AI có thể làm.

Các quy định hiện tại, giống như các quy định ở EU, chỉ tập trung vào cách con người sử dụng AI, trong khi chính phủ Mỹ lại quan tâm đến quản lý biến đổi khí hậu thay vì quản lý AI.

Mặc dù việc kiểm soát hành vi con người là điều tốt, nhưng việc có thể điều chỉnh chính AI là tối quan trọng để thực sự kiểm soát được mối đe dọa mà AI gây ra cho nhân loại.

Theo BGR