|
Ảnh: Fortune |
Pindrop Security, công ty chuyên phát hiện lừa đảo qua giọng nói, đã phân tích bản ghi âm Tổng thống Mỹ Joe Biden kêu gọi người dân "không tham gia bầu cử sơ bộ của đảng Dân chủ ở New Hampshire" và kết luận đây thực chất là giọng deepfake sử dụng công nghệ của ElevenLabs.
Nguồn tin giấu tên am hiểu tình hình hôm 27/1 tiết lộ ElevenLabs đã tiến hành điều tra và khóa tài khoản người tạo ra deepfake này.
ElevenLabs, một công ty khởi nghiệp sử dụng phần mềm trí tuệ nhân tạo để tái tạo giọng nói với hơn hai chục ngôn ngữ, cho biết trong một tuyên bố rằng họ không thể bình luận về các sự cố cụ thể. Dẫu vậy, họ vẫn cho biết: “Chúng tôi đang nỗ lực ngăn chặn việc lạm dụng các công cụ AI âm thanh và cẩn thận trước mọi sự cố lạm dụng”.
Đầu tuần này, ElevenLabs đã công bố đã nhận được tài trợ trị giá 80 triệu USD từ các nhà đầu tư bao gồm Andreessen Horowitz và Sequoia Capital. Giám đốc điều hành Mati Staniszewski cho biết khoản tài trợ mới nhất mang lại cho công ty khởi nghiệp của ông mức định giá 1,1 tỉ USD.
Trong một cuộc phỏng vấn vào tuần trước, ông Staniszewski nói rằng các đoạn âm thanh mạo danh giọng nói trái phép sẽ bị xóa. Trên trang web của mình, công ty cho biết họ cho phép sao chép giọng nói của các nhân vật của công chúng, như chính trị gia, nếu đoạn clip “thể hiện sự hài hước hoặc chế nhạo theo cách mà người nghe thấy rõ rằng những gì họ đang nghe là một trò trêu chọc”.
Bản ghi âm giả giọng ông Biden đã xuất hiện từ tháng trước, khiến nhiều chuyên gia và quan chức phụ trách bầu cử Mỹ lo ngại. Nó không chỉ cho thấy việc phát tán âm thanh deepfake rất dễ dàng, mà còn thể hiện nguy cơ kẻ xấu dùng công nghệ này để ngăn cử tri đi bỏ phiếu và tác động đến kết quả bầu cử.
Phát ngôn viên Văn phòng Chưởng lý New Hampshire nói thông điệp "dường như là nỗ lực trái phép nhằm làm gián đoạn cuộc bầu cử sơ bộ và gây khó cho cử tri", và cho biết họ đang mở cuộc điều tra.
Người dùng dịch vụ của ElevenLabs phải dùng thẻ tín dụng để trả tiền, nhưng chưa rõ công ty đã chuyển thông tin về người tạo deepfake ông Biden cho giới chức chính quyền New Hampshire hay chưa.
Một số công cụ phát hiện deepfake trên thị trường đã xác định được đây là bản ghi âm giả giọng, nhưng không thể phát hiện công nghệ phía sau nó.
Vijay Balasubramaniyan, người sáng lập Pindrop, cho biết các nhà nghiên cứu của họ đã loại bỏ tạp âm nền và chia bản ghi thành 155 đoạn với độ dài 250 mili giây để phân tích sâu hơn. Họ so sánh âm thanh với cơ sở dữ liệu từ hơn 100 hệ thống chuyển văn bản thành giọng nói thường được dùng cho deepfake.
"Nhóm nghiên cứu kết luận bản ghi gần như chắc chắn bắt nguồn từ công nghệ của ElevenLabs", Balasubramaniyan nói.
Trên kênh Discord của ElevenLabs, một người điều hành thừa nhận công cụ phân tích của họ không thể phát hiện sản phẩm của chính mình, trừ khi có bản ghi âm gốc.
Balasubramaniyan cũng đồng tình với quan điểm này. Với deepfake của ông Biden, file ghi âm duy nhất có thể phân tích là bản ghi âm qua điện thoại, trong đó nhiều khối metadata đã bị loại bỏ và rất khó ghi nhận sóng âm cụ thể.
Siwei Lyu, giáo sư chuyên về deepfake và phân tích dữ liệu kỹ thuật số tại Đại học Buffalo, cảnh báo tình trạng trên sẽ còn lặp lại trong cuộc bầu cử Tổng thống Mỹ. "Đây là vấn đề mà mọi người cần biết", ông nói.
"Công nghệ giả giọng có thể đánh lừa người dân, khiến họ tin mình đang nghe thông điệp từ các chính trị gia và quan chức cấp cao. Đây là điều rất đáng lo", ông Balasubramaniyan cho hay.
Các nhà đầu tư công nghệ đang ném tiền vào các công ty khởi nghiệp AI phát triển giọng nói, video và hình ảnh với hy vọng nó sẽ thay đổi ngành công nghiệp truyền thông.
Ông Mati Staniszewski cho biết trong cuộc phỏng vấn tuần trước rằng công ty 40 người của ông có 5 chuyên gia xử lý việc kiểm duyệt nội dung. Vị giám đốc điều hành ElevenLabs cho biết: “99% trường hợp sử dụng mà chúng tôi ghi nhận đều ở trạng thái tích cực".
Theo Fortune