Mới đây, các nhà nghiên cứu đến từ Đại học Stanford, Viện Tin học Max Planck, Đại học Princetone, và Adobe đã phát triển được một thuật toán mới có khả năng thay đổi lời nói của con người trong một đoạn video bằng cách biên tập lại nội dung văn bản trong bản dịch của đoạn video đó.
Phương thức này được cho là có thể thay đổi đoạn video trong khi vẫn giữ nguyên các đặc điểm của người nói. Để thực hiện được điều tưởng chừng bất khả thi, đầu tiên, thuật toán sẽ đọc âm vị và cách phát âm của các ký tự và các từ ngữ trong đoạn video gốc, sau đó tạo ra một mô hình đầu người nói để nhại lại một cách chính xác giọng nói và các chuyển động của người đó.
Một khi bạn biên tập lại bản dịch, thuật toán sẽ tiến hành tìm kiếm phân đoạn chứa chuyển động môi tạo ra các từ mà bạn gõ vào, và thay thế cụm từ gốc. Nhưng phần bị thay thế có thể có khá nhiều đoạn tạm ngưng và cắt xén, bởi các phân đoạn nhỏ video trong toàn clip được gắn lại cùng nhau để tạo ra chuyển động môi phù hợp. Chính vì vậy, thuật toán sẽ áp dụng một số kỹ thuật làm mịn thông minh để giúp đoạn video đã chỉnh sửa trông tự nhiên hơn.
Hiện tại, thuật toán này chỉ hoạt động khi bạn huấn luyện nó bằng một đoạn video gốc dài ít nhất 40 phút mà thôi.
Trong video giải thích phương thức mới này, Ohad Fried của Stanford đã cho chúng ta thấy việc thay thế một cụm từ mà không can thiệp đến chất lượng của bài phát biểu dễ dàng như thế nào.
Theo lẽ tự nhiên, thuật toán này khiến nhiều người quan ngại rằng bất kỳ ai cũng sẽ có thể biên tập một bài phát biểu (bao gồm những bài phát biểu của những người nổi tiếng, như các chính trị gia chẳng hạn), chèn vào đó một vài thông tin thất thiệt, và khiến nó trông tự nhiên như bản gốc - như thể deepfake chưa khiến chúng ta đủ lo lắng vậy! Tuy nhiên, Fried cho biết các phần mềm biên tập ảnh cũng từng vấp phải những lo lắng, và rồi mọi thứ vẫn "đâu vào đấy", "Trái đất vẫn cứ quay".
Với suy nghĩ đó, cùng với nhiều tùy chọn để xác định được các đoạn video đã được biên tập, Fried tin rằng công cụ ông tham gia phát triển sẽ rất hữu dụng với các nhà sản xuất video, giúp giảm thời gian và công sức bỏ ra để quay lại những phần cần thay đổi trong bài phát biểu hoặc các đoạn video khác có người nói đứng trước máy quay.
Ông còn nói thêm rằng có thể có nhiều tùy chọn như chèn watermark số vào video để tránh giả mạo, và bản thân nghiên cứu sẽ khuyến khích những người khác phát triển các giải pháp tương tự:
"Cần phát triển một số loại watermark giúp xác nhận bất kỳ nội dung nào đã từng qua chỉnh sửa và cung cấp một bản ghi đầy đủ những chỉnh sửa đã được thực hiện. Hơn thế nữa, các nhà nghiên cứu có thể phát triển những công cụ pháp y tốt hơn, như kỹ thuật vân tay kỹ thuật số hoặc thông thường để xác định liệu một video đã bị can thiệp hay chưa vì nhiều mục đích bí mật khác nhau. Trên thực tế, nghiên cứu này và các nghiên cứu tương tự còn mang lại những cái nhìn cụ thể về vấn đề chỉnh sửa video, vốn cần để phát triển công cụ phát hiện chỉnh sửa tốt hơn".
Dù các nhà nghiên cứu lạc quan về những ứng dụng tích cực của thuật toán này, đừng bao giờ cho rằng nó sẽ có thể được sử dụng trên các sản phẩm đại chúng mà không có các biện pháp bảo vệ phù hợp.
Theo Trí thức trẻ
http://genk.vn/thuat-toan-nay-co-the-thay-doi-loi-noi-cua-con-nguoi-trong-video-bang-cach-chinh-sua-ban-dich-20190606222546968.chn