Dự án "Synthesizing Obama" của Đại học Washington đã lấy phần âm thanh từ một trong những bài phát biểu của ông Obama và dùng nó để diễn hoạt khuôn mặt ông trong một video hoàn toàn khác.
Theo trang báo TheGuardian, trong thời đại của Photoshop, các bộ lọc (filter) và mạng xã hội, nhiều người trong chúng ta đã quen với việc nhìn thấy những bức ảnh đã qua chỉnh sửa – mọi người trên mạng đều trở nên mảnh mai hơn, da dẻ mịn màng hơn, hay trong trường hợp của Snapchat là biến thành các...con cún đáng yêu.
Tuy nhiên, có một loại công cụ chỉnh sửa video và âm thanh mới được tạo ra bởi những tiến bộ trong lĩnh vực trí tuệ nhân tạo và đồ họa máy tính. Công cụ này cho phép chúng ta tạo ra các cảnh quay chân thật về các nhân vật của công chúng phát biểu mọi điều mà chúng ta muốn. Tổng thống Mỹ Donald Trump tuyên bố sự thiên vị của mình với các môn thể thao dưới nước. Cựu Đệ nhất Phu nhân Mỹ Hilary Clinton miêu tả những đứa bé bị bắt cóc mà bà giữ ở dưới hầm rượu. Tom Cruise cuối cùng cũng chịu thừa nhận điều mà chúng ta nghi ngờ bấy lâu nay...rằng ông là một "brony" [từ ám chỉ fan cuồng của phim My Little Pony: Friendship is Magic].
Đây chính là tương lai của tin giả. Chúng ta từ lâu đã được dặn rằng chớ nên tin những gì mà chúng ta đọc được, nhưng sớm thôi, chúng ta sẽ phải đặt câu hỏi cho mọi thứ, kể cả những điều "mắt thấy tai nghe".
Hiện tại, có một số nhóm nghiên cứu đang nỗ lực để thu thập và tổng hợp các yếu tố hình ảnh và âm thanh khác nhau về hành vi của con người.
Phần mềm được phát triển tại Đại học Stanford có thể "thao túng" các cảnh quay video của các nhân vật nổi tiếng, cho phép một người thứ hai thay đổi những gì họ nói – trong thời gian thực. Face2Face thu lại nét biểu cảm trên mặt của người thứ hai khi họ nói vào webcam và "morph" (một kỹ thuật mô phỏng lại các chuyển động của cơ thể rồi đưa vào máy tính, thường dùng trong kỹ xảo điện ảnh) những chuyển động đó lên khuôn mặt của người có trong video gốc. Nhóm nghiên cứu đã biểu diễn công nghệ của mình bằng cách lồng tiếng các video của George W Bush, Vladimir Putin và Donald Trump.
Face2Face cho phép bạn mô phỏng người nổi tiếng và chính trị gia, thay đổi những lời mà họ nói
Bản thân Face2Face là một trò tiêu khiển khá thú vị, tạo ra các "meme" và dùng cho mục đích giải trí tại các chương trình talk show vào ban đêm. Tuy nhiên, với việc bổ sung một giọng nói đã được tổng hợp, nó sẽ trở nên thuyết phục hơn – những "con rối kĩ thuật số" này không chỉ trông giống các chính trị gia, mà còn có thể nói giống như họ.
Một nhóm nghiên cứu tại Đại học Alabama, Birmingham đã và đang nỗ lực để có thể mạo danh giọng nói của người khác. Chỉ với đoạn ghi âm kéo dài từ 3-5 phút có chứa giọng của nạn nhân – có thể lấy từ các video trên Youtube hay các chương trình radio – kẻ gian có thể tổng hợp được giọng nói với khả năng đánh lừa cả con người và các hệ thống an ninh sinh trắc học có trên ngân hàng hay điện thoại thông minh. Sau đó, kẻ tấn công có thể nói vào trong microphone của hắn và phần mềm sẽ chuyển đổi và biến giọng nói đó thành giọng của nạn nhân – cho dù là qua điện thoại hay trên các chương trình radio.
Startup Lyrebird tại Canada cũng đã phát triển những công cụ tương tự, dùng để biến văn bản thành các sách nói với giọng đọc của những người nổi tiếng hay dùng cho các nhân vật trong trò chơi điện tử.
Mặc dù ý tưởng của chúng là tốt, công nghệ thay đổi giọng nói có thể được kết hợp với các công nghệ thay đổi khuôn mặt để tạo ra các tuyên bố giả mạo có tính thuyết phục cao của các nhân vật nổi tiếng.
Bạn chỉ cần nhìn vào dự án "Synthesizing Obama" của Đại học Washington, khi họ dùng âm thanh từ một trong những bài phát biểu của ông Obama và diễn hoạt khuôn mặt của ông trong một video hoàn toàn khác với độ chính xác đáng kinh ngạc, là bạn đã có thể hiểu được công nghệ này nguy hiểm như thế nào
Theo Nitesh Saxena, Phó giáo sư và là Giám đốc nghiên cứu của Đại học Alabama tại khoa Khoa học máy tính của Birmingham, công nghệ này còn có rất nhiều ý nghĩa khác, ngoài việc tạo tin giả. "Bạn có thể để lại các tin nhắn giả mạo dưới danh nghĩa là mẹ của ai đó, hoặc sỉ nhục một người nào đó và đăng các mẫu âm thanh lên mạng".
Những công nghệ này vẫn chưa thực sự hoàn hảo. Các biểu hiện trên khuôn mặt trong video có thể trông méo mó hoặc không tự nhiên, hay giọng nói giống như của robot. Nhưng, theo thời gian, chúng sẽ có thể mô phỏng hoàn toàn giọng nói và vẻ bề ngoài của một người – đến mức con người khó có thể phát hiện ra mình đã bị lừa.
Với sự xói mòn lòng tin vào giới truyền thông và sự lây lan rộng rãi của tin lá cải trên các phương tiện truyền thông xã hội, việc các tổ chức tin tức xem xét một cách kĩ lưỡng các nội dung "giống như hàng thật" là đặc biệt quan trọng.
Dấu hiệu để nhận biết sẽ là nơi thực hiện video đó, còn có ai tham dự sự kiện hay điều kiện thời tiết có khớp hay không.
Theo Mandy Jenkins, nhân viên của công ty tin tức xã hội Storyful chuyên xác minh tính chính xác của các nội dung tin tức, mọi người nên để ý ánh sáng và đổ bóng của video, xem xem các yếu tố có trong khung hình có phu hợp và âm thanh có được đồng bộ một cách hoàn hảo hay không.
Các nội dung đã qua chỉnh sửa có thể sẽ không vượt qua được sự giám sát của một phòng tin tức nghiêm ngặt, nhưng nếu chúng ta đăng dưới dạng một video chất lượng thấp lên mạng xã hội, nó sẽ có thể lây lan với tốc độ rất nhanh và gây ra các thảm họa chính trị và ngoại giao. Ví dụ, sẽ ra sao nếu Tổng thống Donald Trump tuyên chiến với Bắc Triều Tiên?
Theo Saxena: "Nếu có một người có bề ngoài và cách nói giống như ông Trump, mọi người sẽ tin đó là ông Trump. Chúng ta đã thấy rằng thậm chí không cần đến các video đã qua chỉnh sửa để khiến dư luận tin vào một điều sai sự thật. Công nghệ này có "tiềm năng" để khiến cho sự việc trở nên tồi tệ hơn".