Khả năng dịch giọng nói khi đàm thoại của Google có thực sự chính xác?

22/05/2025 19:25

0:00 / 0:00

0:00

Nam miền Bắc
Nữ miền Bắc
Nữ miền Nam
Nam miền Nam

Phóng viên Nicole Nguyen của The Wall Street Journal đã thử nghiệm tính năng dịch giọng nói mà Google mới công bố. Cô cho biết giọng dịch do AI tạo ra có thể bắt chước giọng nói, tông giọng và cảm xúc của người nói.

Tính năng dịch giọng nói trực tiếp hiện chỉ hỗ trợ tiếng Anh và Tây Ban Nha, nhưng sẽ được mở rộng thêm nhiều thứ tiếng trong thời gian tới. Ảnh: 9to5Google

Qua bài đăng trên The Wall Street Journal, phóng viên Nicole Nguyen đã chia sẻ trải nghiệm độc đáo của mình khi thử nghiệm công nghệ phiên dịch giọng nói theo thời gian thực mới của Google qua ứng dụng Google Meet.

Mặc dù không biết tiếng Tây Ban Nha, nhưng cô đã trò chuyện như thể mình đã sử dụng ngôn ngữ này suốt đời. Công nghệ mà cô thử nghiệm có khả năng phiên dịch lời nói theo thời gian thực, bắt chước giọng nói, tông giọng và cảm xúc của người nói.

Nicole cho biết Google đã công bố công nghệ này tại sự kiện Google I/O và cô đã có cơ hội trải nghiệm nó trước đó vài ngày qua một cuộc gọi video với hai đồng nghiệp nói tiếng Tây Ban Nha tên là Cami và Jair. Trước khi bắt đầu, một thông báo hiện lên cảnh báo rằng tính năng dịch thuật đang ở giai đoạn thử nghiệm và có thể không hoàn toàn chính xác. Sau khi đồng ý, cả ba đã bắt đầu cuộc trò chuyện bằng ngôn ngữ mẹ đẻ của mình.

Nicole Nguyen kể rằng những người đồng nghiệp đã nói về những quán ăn họ yêu thích sau giờ làm và những điểm đến cuối tuần ở các quốc gia Mỹ Latinh. Bản dịch tiếng Anh được tạo kỹ thuật số của họ vẫn mang một chút âm điệu Tây Ban Nha. Mặc dù có độ trễ vài giây, phần lớn cuộc trò chuyện vẫn trôi chảy.

Tính năng này có thể hỗ trợ tối đa 100 người tham gia cùng lúc, nhưng ngay cả với ba người, đôi lúc vẫn xảy ra tình trạng nói chồng lên nhau do độ trễ. Người nói không nghe thấy giọng đã được phiên dịch của mình, nên không biết chính xác khi nào phần dịch kết thúc. Ngoài ra, cũng có lúc âm thanh bị giật cục như đang gặp sự cố kết nối, nhưng sau đó hệ thống dịch đã bắt kịp.

Theo ông Awaneesh Verma, Giám đốc cấp cao phụ trách truyền thông thời gian thực của Google, một trong những thử thách lớn nhất là quyết định nên dịch nghĩa của từ như thế nào, vì cần phải dựa vào ngữ cảnh. Ông lấy ví dụ rằng từ “bear” có thể mang nhiều nghĩa khác nhau như con gấu, sinh con, hoặc mang vác.

dich giong noi truc tiep.jpg — Nicole Nguyen (trên cùng, bên phải) đang hội thoại cùng các đồng nghiệp Tây Ban Nha

Khi Nicole thử hội thoại với chồng là một người nói tiếng Tây Ban Nha, cô nhận thấy rằng hệ thống đã dịch từ “match” (trận đấu) thành “fight” (chiến đấu) trong tiếng Tây Ban Nha. Chồng cô cũng nhận xét rằng câu đầu tiên thường nghe hơi lộn xộn, nhưng sau đó thì ổn hơn. Đôi khi hệ thống nhấn sai trọng âm hoặc tạo ra câu văn khó hiểu, ví dụ như: “The heat… the climate… always very warm” hay “I am fascinated by the power to have many options.”

Cô nhận ra mức độ chính xác của công nghệ này khi nghe lại đoạn thu âm. Giọng nói AI nghe giống mình một cách đáng ngạc nhiên, thậm chí chồng cô cũng ấn tượng. Khi cô mô tả chuyến đi sắp tới đến Tây Ban Nha để dự tiệc gia đình, đồng nghiệp của cô, một người nói tiếng Tây Ban Nha, nhận xét rằng bản dịch là “một hỗn hợp”, nhất là ở phần đầu. Cô ấy cũng cho biết giọng dịch không giống người bản xứ. Điều thú vị là giọng chồng cô khi được dịch sang tiếng Anh cũng mang chút âm điệu Tây Ban Nha.

Google thông báo rằng tính năng này sẽ bắt đầu được triển khai cho người dùng nâng cao của Gemini, giá từ 20 USD/tháng. Hiện tại chỉ hỗ trợ tiếng Anh và tiếng Tây Ban Nha, các ngôn ngữ như Ý, Đức và Bồ Đào Nha sẽ được bổ sung sau. Đối với khách hàng doanh nghiệp, tính năng sẽ ra mắt vào cuối năm. Google cũng khẳng định không lưu trữ dữ liệu cuộc họp và không sử dụng giọng nói của người dùng để huấn luyện AI.

Dù công nghệ này vẫn còn nhiều điểm cần cải thiện, Nicole Nguyen tin rằng tiềm năng của nó rất lớn, đặc biệt với những người từng phải sử dụng ngôn ngữ không phải tiếng mẹ đẻ. Bản thân cô từng sống ở Paris và thường cảm thấy khó thể hiện sự hài hước hay cá tính bằng tiếng Pháp. Vì thế, cô hy vọng công nghệ này sẽ góp phần phá vỡ rào cản ngôn ngữ, miễn là thông điệp không bị "lạc mất" trong quá trình dịch thuật.