Nguy hiểm: Tin tặc đang sử dụng AI để tấn công AI

0:00 / 0:00
0:00
  • Nam miền Bắc
  • Nữ miền Bắc
  • Nữ miền Nam
  • Nam miền Nam

Sự phát triển của trí tuệ nhân tạo (AI) đã mang lại nhiều lợi ích vượt trội, từ tối ưu hóa quy trình sản xuất đến hỗ trợ xử lý dữ liệu quy mô lớn. Tuy nhiên, cùng với đó, các mối đe dọa an ninh mạng cũng ngày càng gia tăng.

Hacker đang sử dụng những kỹ thuật mới để tấn công các mô hình AI. Ảnh: aigroup
Hacker đang sử dụng những kỹ thuật mới để tấn công các mô hình AI. Ảnh: aigroup

Một trong những xu hướng đáng lo ngại hiện nay là tin tặc đang lợi dụng AI để tấn công chính các hệ thống AI, sử dụng các kỹ thuật như "tiêm lệnh" (prompt injection) để làm gián đoạn hoặc điều khiển các mô hình ngôn ngữ lớn (LLM).

Theo trang công nghệ BGR, gần đây, một nhóm nghiên cứu đã phát hiện thêm một phương pháp tấn công mới có tên "Fun-Tuning", giúp tin tặc dễ dàng khai thác lỗ hổng của các mô hình AI, đặc biệt là các mô hình đóng như Google Gemini.

Với tỷ lệ thành công lên tới 82%, Fun-Tuning đang đặt ra thách thức nghiêm trọng đối với an ninh mạng và buộc các nhà phát triển AI phải tìm ra biện pháp phòng thủ hiệu quả hơn.

Kỹ thuật "tiêm lệnh" và mối đe dọa đối với các mô hình ngôn ngữ lớn

"Tiêm lệnh" (prompt injection) là một kỹ thuật tấn công trong đó tin tặc đưa các chỉ thị độc hại vào đầu vào của mô hình ngôn ngữ lớn nhằm điều khiển hoặc khai thác hệ thống. Bằng cách cài cắm những đoạn văn bản đặc biệt, kẻ tấn công có thể khiến AI thực hiện những hành vi ngoài dự kiến, chẳng hạn như tiết lộ thông tin nhạy cảm, tạo nội dung sai lệch hoặc thậm chí làm rò rỉ dữ liệu của người dùng.

Kỹ thuật này đã xuất hiện từ lâu, nhưng thường bị hạn chế bởi tỷ lệ thành công thấp, đặc biệt là khi tấn công các mô hình ngôn ngữ mạnh như GPT-4 của OpenAI hay Gemini của Google. Tuy nhiên, với sự hỗ trợ của AI, tin tặc giờ đây có thể tăng hiệu suất của các cuộc tấn công này một cách đáng kể.

Một trong những ví dụ đáng chú ý của "tiêm lệnh" là việc lợi dụng AI để vượt qua các rào cản kiểm duyệt. Chẳng hạn, kẻ tấn công có thể yêu cầu AI "giả vờ là một nhân vật trong truyện tranh" và sau đó lồng ghép các lệnh độc hại vào cuộc trò chuyện. Điều này khiến mô hình khó phân biệt giữa yêu cầu hợp lệ và lệnh tấn công, dẫn đến việc AI vô tình cung cấp thông tin mà nó không nên tiết lộ.

Fun-Tuning: Công cụ tấn công AI mới đầy nguy hiểm

hacker AI.jpg
Ảnh minh họa: OxenTech

Fun-Tuning là một kỹ thuật mới được phát triển để nâng cao hiệu quả của các cuộc tấn công "tiêm lệnh". Điểm đặc biệt của phương pháp này là nó tận dụng chính API tinh chỉnh (fine-tuning) của Google để "huấn luyện" các câu lệnh tấn công sao cho hiệu quả hơn.

Cụ thể, Fun-Tuning sử dụng AI để tìm ra các "tiền tố" và "hậu tố" tối ưu, giúp tăng xác suất thành công của một lệnh độc hại. Kết quả thử nghiệm cho thấy, trong khi các phương pháp tiêm lệnh truyền thống chỉ có tỷ lệ thành công dưới 30%, thì Fun-Tuning có thể nâng tỷ lệ này lên 82%.

Ngoài ra, một điểm đáng lo ngại là các câu lệnh độc hại được tối ưu hóa thông qua Fun-Tuning có thể dễ dàng được chuyển đổi và áp dụng vào các phiên bản khác nhau của cùng một mô hình AI. Điều này có nghĩa là nếu một lệnh tấn công hoạt động hiệu quả trên một phiên bản Gemini, thì nó cũng có thể hoạt động trên các phiên bản Gemini khác mà không cần chỉnh sửa nhiều. Đây là một lợi thế lớn đối với tin tặc, giúp chúng triển khai các cuộc tấn công một cách nhanh chóng và dễ dàng hơn.

Hơn nữa, do Google cho phép các nhà phát triển sử dụng API tinh chỉnh để tùy chỉnh mô hình AI theo nhu cầu riêng, tin tặc có thể tận dụng điều này để đào tạo AI theo hướng phục vụ các mục đích xấu. Điều này đặt ra câu hỏi liệu các công ty AI có nên giới hạn khả năng tinh chỉnh của các mô hình AI hay không, để ngăn chặn việc chúng bị khai thác vào mục đích xấu.

Hệ quả và biện pháp đối phó

Sự xuất hiện của Fun-Tuning là một hồi chuông cảnh báo đối với lĩnh vực an ninh mạng. Nếu không có biện pháp đối phó phù hợp, các hệ thống AI có thể bị khai thác theo những cách không ngờ tới, gây thiệt hại lớn cho cả cá nhân lẫn tổ chức.

Hiện tại, Google đã thừa nhận vấn đề này nhưng chưa công bố giải pháp cụ thể để điều chỉnh các tính năng tinh chỉnh của mình. Một số chuyên gia cho rằng cách tốt nhất để ngăn chặn các cuộc tấn công kiểu này là thiết lập các bộ lọc thông minh hơn để phát hiện và vô hiệu hóa các câu lệnh độc hại trước khi chúng được xử lý bởi AI. Ngoài ra, một số biện pháp khác có thể được áp dụng bao gồm:

Hạn chế quyền tinh chỉnh: Các công ty AI có thể giới hạn mức độ tinh chỉnh mà người dùng có thể thực hiện trên mô hình, đặc biệt là đối với các hệ thống có thể bị lạm dụng.

Cải thiện bộ lọc đầu vào: Xây dựng các cơ chế kiểm tra và lọc dữ liệu đầu vào kỹ lưỡng hơn để phát hiện và loại bỏ các lệnh độc hại trước khi chúng ảnh hưởng đến mô hình AI.

Tăng cường giám sát: Các công ty AI nên triển khai các công cụ giám sát tự động để phát hiện các hành vi bất thường trong quá trình sử dụng API tinh chỉnh.

Nâng cao nhận thức: Người dùng AI, đặc biệt là các doanh nghiệp và tổ chức, cần được đào tạo để nhận diện và phòng tránh các cuộc tấn công dựa trên AI.

Mặc dù các biện pháp trên có thể giúp giảm thiểu nguy cơ, nhưng thực tế là tin tặc cũng đang ngày càng sáng tạo hơn trong việc khai thác AI để tìm ra lỗ hổng mới. Vì vậy, các chuyên gia bảo mật và AI cần phải tìm ra các giải pháp tiên tiến để theo kịp sự phát triển của các kỹ thuật tấn công.