Công nghệ hỗ trợ AI biến ảnh chân dung thành video thuyết trình

VietTimes – Ngày 19/9, trang web D-ID công bố một dịch vụ mới được hỗ trợ bởi trí thông minh nhân tạo có thể biến chân dung thành một người đang thuyết trình hoặc nói chuyện.

Ảnh minh họa TechNewsWorld

Ảnh minh họa TechNewsWorld

Ứng dụng tự phục vụ này được gọi là Creative Reality Studio có thể biến hình ảnh của một chân dung thành video cùng với giọng nói, được công ty D-ID phát triển, cung cấp cho các doanh nghiệp một công cụ thuyết trình.

Dịch vụ nhắm phục vụ những người sáng tạo nội dung kinh doanh, các cơ sở học tập và phát triển, bộ phận nhân sự, nhà tiếp thị, nhà quảng cáo và các nhóm bán hàng, nhưng ai cũng có thể sử dụng thử công nghệ này tại trang web D-ID .

Video Creative Reality Studio của John P. Mello Jr. Video D-ID

Theo công ty D-ID của Israel, nền tảng này giúp giảm chi phí và sự phức tạp khi tạo ra nội dung video của công ty, cho phép nhiều người thuyết trình không giới hạn, sử dụng ảnh của người dùng hoặc bất kỳ hình ảnh nào mà người dùng có quyền sử dụng. Công nghệ này đã được sử dụng trong một ứng dụng có tên là Deep Nostalgia . Phần mềm được giới thiệu như một thủ thuật tạo hoạt ảnh cho những bức chân dung cũ.

Theo thông báo báo chí và trên trang web của D-ID, công nghệ này cho phép khách hàng và người dùng chọn danh tính của người thuyết trình như dân tộc, giới tính, tuổi tác và thậm chí cả ngôn ngữ, giọng và ngữ điệu. Lợi thế này mang lại tính đại diện và đa dạng hơn, mang đến một cảm giác mạnh mẽ về sự thân thiện và hòa nhập, thúc đẩy khả năng tiếp cận và tương tác với các doanh nghiệp, sử dụng phần mềm thuyết trình này.”

Phó chủ tịch tiếp thị công ty D-ID Matthew Kershaw trong cuộc phỏng vấn với TechNewsWorld cho biết:

“Các trường hợp sử dụng bao gồm trao quyền cho người tạo nội dung thuyết trình tích hợp liền mạch video trong không gian kỹ thuật số với bản trình bày cùng module PowerPoint độc quyền, tạo nội dung thuyết trình hấp dẫn hơn bằng cách sử dụng trình tường thuật video tùy chỉnh của D-ID”.

Dịch vụ truyền thông ấn tượng

Daniel Castro, phó chủ tịch Quỹ Đổi mới và Công nghệ Thông tin, một tổ chức nghiên cứu và chính sách công ở Washington, DC Mỹ cho biết chất lượng của các dịch vụ này khá ấn tượng và tiếp tục được phát triển tốt hơn.

Trong cuộc phỏng vấn với TechNewsWorld, ông nói: “Dịch vụ này không ở mức thay thế hoàn toàn một người thuyết trình, nhưng không có lý do gì để không tin tưởng, một dịch vụ gần như thay thế hoàn toàn người thuyết trình có thể sớm xuất hiện.

D-ID giải thích, các tổ chức, cơ quan và doanh nghiệp đang tăng cường sử dụng video, nhiều đơn vị kinh doanh, sản xuất đang tích hợp video vào các chiến lược đào tạo, truyền thông và tiếp thị.

Làm gia tăng xu hướng sử dụng video là thế giới avatar và metaverse đang phát triển nhanh chóng, cả hai đều đòi hỏi phương pháp tiếp cận nội dung số phải sáng tạo, nhập vai và tương tác hơn từ những người sáng tạo kỹ thuật số. Nhưng ngân sách sản xuất video tốn kém, đòi hỏi sự phân bổ thời gian đáng kể và tài năng.

Digital Human. Video D-ID

Ross Rubin, nhà phân tích tại Reticle Research, một công ty tư vấn công nghệ tiêu dùng ở Thành phố New York, nhận xét: “Dịch vụ này là sự phát triển của hình ảnh đại diện cho cơ quan, doanh nghiệp và tổ chức, biểu tượng cảm xúc mà mọi người sử dụng hiện nay, nhưng dịch vụ này có thể được sử dụng trong một cuộc thảo luận hoặc trình bày dài hơn.

Ông nói với TechNewsWorld: “Ý tưởng đặt ra là tiết kiệm thời gian, đặc biệt khi người dùng định đọc một bản thuyết trình. Hình ảnh động hấp dẫn hơn đối với người nghe, chứ không chỉ là âm thanh hoặc các trang trình bày Power Point đơn giản.”

Dân chủ hóa Trí tuệ nhân tạo (AI)

Giám đốc điều hành và đồng sáng lập D-ID Gil Perry lưu ý trong thông cáo báo chí rằng công nghệ của công ty, vốn được giới hạn trong phạm vi doanh nghiệp, đã được sử dụng để tạo ra 100 triệu video.

“Bây giờ chúng tôi đang cung cấp nền tảng Thực tế Sáng tạo tự phục vụ, tiềm năng rất lớn. Dịch vụ cho phép cả các doanh nghiệp lớn, các công ty nhỏ và dịch giả tự do sản xuất video cá nhân hóa cho nhiều mục đích ở quy mô lớn với chi phí thấp hơn rất nhiều.”

Kershaw nói thêm, công nghệ của D-ID sẽ dân chủ hơn nữa trong sự sáng tạo. "Tôi nói"tiếp tục" bởi trên thực tế, công nghệ đã dân chủ hóa nghệ thuật trong nhiều thập kỷ".

“Từ sự khởi đầu của đàn organ điện, bộ lấy mẫu và bộ tạo chuỗi âm thanh trong âm nhạc đến Photoshop và Illustrator trong nhiếp ảnh và minh họa, Phần mềm Premier chỉnh sửa video và đồ họa chuyển động trong sản xuất phim, khả năng tạo ra các sản phẩm chất lượng cao bên ngoài các studio cao cấp chuyên nghiệp đã diễn ra từ những năm 1980. Đây chỉ là tập mới nhất trong loạt các công cụ đó.”

Avivah Litan, nhà phân tích bảo mật và quyền riêng tư của Gartner đồng ý với bình luận này, bà nói với TechNewsWorld: “Đó chắc chắn là một bước tiến hướng tới dân chủ hóa AI. Dịch vụ có khả năng sử dụng tuyệt vời trong giáo dục, chăm sóc sức khỏe và bán lẻ. Đây là một phương thức tốt hơn để giao tiếp với mọi người. Chúng ta đang tiến tới một xã hội trực quan. Không ai có thời gian để đọc bất cứ thứ gì”.

Mối quan tâm về Deepfake

Hiện nay, ngày càng gia tăng mối quan tâm về việc sử dụng "deepfakes" để truyền bá thông tin sai lệch và khi kỹ thuật xã hội lên tầm cao mới, luôn tiềm ẩn nguy cơ lạm dụng các giải pháp truyền thông tổng hợp mới như D-ID.

Ông Kershaw nói “Như với bất kỳ công nghệ nào, công nghệ này cũng có thể bị những kẻ xấu lợi dụng, mặc dù nền tảng hướng đến các doanh nghiệp hợp pháp, những tổ chức không quan tâm đến các thông tin giả mạo,”.

“Trong nền tảng của D-ID, chúng tôi áp dụng nhiều biện pháp bảo vệ để đảm bảo công nghệ của chúng tôi không bị sử dụng theo cách tạo dựng deepfakes,” ông nói thêm. "Chúng tôi không cho phép sao chép giọng nói của những người nổi tiếng hoặc sử dụng các bức ảnh của những người nổi tiếng không có sự đồng ý của người đó." Phần mềm cũng lọc các từ chửi thề và nhận xét phân biệt chủng tộc, đồng thời cấm sử dụng nền tảng này để tạo video chính trị.

Bà Litan nhận xét: “D-ID đang đặt các rào chắn trên nền tảng công nghệ, nhưng các rào chắn không bao giờ hoàn hảo. Đây có thể là một công cụ tuyệt vời để lan truyền thông tin sai lệch vì những trang mạng xã hội này không được chuẩn bị cho những thủ thuật lừa đảo sâu. Ngay cả khi các trang web truyền thông xã hội có khả năng xác định deepfakes tốt, nhưng sẽ không bao giờ đủ tốt. Lan truyền video âm thanh giống như thư rác. Thư rác luôn được thông qua, video cũng vậy nhưng hậu quả sẽ tồi tệ hơn”.