Bên trong nhà máy nhận diện giọng nói của Facebook

Những gã khổng lồ công nghệ đang chạy đua để mang công nghệ nhận diện giọng nói đến với người dùng thông qua một loạt các thiết bị và ứng dụng cho thị trường đại chúng. Tuy nhiên, một công ty lại vắng bóng đầy "bí ẩn" trên cuộc đua này: Đó là Facebook.
Joaquin Quinonero Candela, Giám đốc nhóm Máy học Ứng Dụng của Facebook, thuyết trình tại hội nghị phát triển F8 2017 của Facebook.
Joaquin Quinonero Candela, Giám đốc nhóm Máy học Ứng Dụng của Facebook, thuyết trình tại hội nghị phát triển F8 2017 của Facebook.

Apple có Siri, Amazon có Alexa. Microsoft đã tạo ra Cortana và Alphabet đã cho ra mắt Google Assistant. Nhưng Facebook dường như chưa có gì.

Mark Zuckerberg đã "đẩy" ứng dụng của mình ra toàn cầu - mới đây vượt mốc 2 tỷ người dùng cùng với 1,2 tỷ người sử dụng dịch vụ chat WhatsApp – thế nhưng, Facebook lại tụt lại phía sau các đối thủ của mình trong mảng kiểm soát giọng nói.

Để trụ vững, Facebook phải đối mặt với rất nhiều thách thức. Năm 2016, hãng nghiên cứu Markets and Markets dự đoán thị trường nhận diện giọng nói sẽ đạt 10 tỷ USD vào năm 2022. Hơn cả tiền, các công ty Internet cần người dùng sử dụng các công cụ giọng nói của mình để thu thập nhiều dữ liệu hơn nữa nhằm cải thiện độ chính xác.

Các nhà sản xuất thiết bị sở hữu lợi thế lớn trong việc thúc đẩy công nghệ giọng nói bởi họ tiếp cận trực tiếp được với người dùng. Không giống Apple, Amazon và Alphabet, Facebook không có bất kỳ phần cứng hay hệ điều hành di động nào hiện diện trong túi hay ngôi nhà của hàng triệu người dùng.

Thứ gần gũi nhất thuộc phần cứng mà Facebook có là Oculus, nhà sản xuất tai nghe thực tế ảo mà Zuckerberg đã mua lại với giá 2 tỷ USD năm 2014. Khi Facebook tìm kiếm bước đột phá trong nhận diện giọng nói, Oculus là một trong những nền tảng thử nghiệm của hãng.

Một người tham gia demo kính Oculus VR tại CES 2016 tại Las Vegas.

Và đây là ý tưởng: Khi đeo tai nghe, bạn có thể nói "Hey Oculus" và nhận được câu trả lời cho câu hỏi của mình. Lấy ví dụ: bạn có thể yêu cầu mở một game nào đó hay tìm kiếm kho ứng dụng. Công nghệ này hoạt động trên Oculus Rift và Samsung Gear VR, do Oculus cung cấp.

Trong một cuộc phỏng vấn tại trụ sở ở Thung lũng Silicon của Facebook, Joaquin Quinonero Candela, trưởng nhóm Máy học Ứng dụng của Facebook, cho biết : "Để khám phá những giao diện ‘rảnh tay' thú vị, chắc chắn bạn sẽ cần đến giọng nói".

Việc sử dụng công nghệ nhận diện giọng nói của Facebook không chỉ bó hẹp trong Oculus. Công ty cũng đã phát triển một hệ thống tạo phụ đề tự động cho các video. Nhiều sản phẩm kích hoạt bằng giọng nói đang được phát triển.

Facebook đã làm nên bước nhảy vọt trong lĩnh vực trí thông minh nhân tạo khi thuê Yann LeCun từ Đại học New York vào năm 2013. LeCun là một nhà nghiên cứu lâu năm về máy học, người đã được thuê để dẫn dắt nhóm nghiên cứu Trí thông minh Nhân tạo mới của Facebook.

Đẩy và kéo

Trong vòng vài tháng, các kỹ sư của Facebook đã sử dụng các sản phẩm được phát triển bởi nhóm nghiên cứu của LeCun và sẵn sàng cho việc sử dụng rộng rãi. Quá trình này được chính thức hoá bằng việc thành lập nhóm Máy học Ứng dụng hồi tháng 9/2015 dưới sự dẫn dắt của Candela, từng là nhân viên kỳ cựu của Microsoft Research trước khi chuyển đến Facebook 3 năm trước.

Facebook giữ bí mật về tiến độ phát triển trong lĩnh vực nhận diện giọng nói của mình, ngay cả khi Alphabet, Apple và Microsoft đưa ra tuyên bố về những sự cải tiến tính chính xác của hệ thống trong những năm gần đây.

Candela cho biết nhóm của ông bắt đầu tập trung vào cải tiến giọng nói từ khoảng 2 năm rưỡi trước, với sự trợ giúp của Jibbigo, một ứng dụng dịch ngôn ngữ offline trên di động được Facebook mua lại năm 2013.

Candela cho biết, hoạt động nghiên cứu và sự phát triển của Facebook chia thành hai giai đoạn: đẩy và kéo. "Đẩy" là sự đánh cược vào một tính năng theo cách nào đó sẽ hữu dụng trong tương lai và sau đó lên kế hoạch để sáng tạo, còn "kéo" là thời điểm các kỹ sư đòi hỏi một tính năng mới được xây dựng trong nội bộ.

Giọng nói chắc chắn thuộc giai đoạn "đẩy".

Mô hình tương tác (use case) mà các nhà nghiên cứu tìm ra là tự động tạo phụ đề cho video, công việc mà Google đã bắt đầu thực hiện cho các video trên YouTube từ năm 2009.

‘Tìm kiếm vấn đề'

Ban đầu, Facebook tập trung vào mảng quảng cáo. Lý do là vì tại thời điểm đó người dùng thường xem những dòng "news feed" khi không bật âm thanh. Do vậy, để các nhà quảng cáo truyền tải thông điệp của hãng, Facebook cần chạy phụ đề bên trong video quảng cáo.

"Chúng tôi đã tìm kiếm đâu là vấn đề trong lĩnh vực nhận diện giọng nói để qua đó có thể truyền tải giá trị tới người dùng", Reena Philip, Giám đốc kỹ thuật nhóm nền tảng giọng nói của Facebook cho hay. 

Tính năng được phát hành vào quý II năm 2016. Sau đó, Facebook đã lấn sâu hơn vào công nghệ này, tự động tạo phụ đề cho các video do các tổ chức đăng lên các trang chuyên dụng bằng tiếng Anh Mỹ.

Candela cho biết: "Chúng tôi đã thử nghiệm – sự quan tâm tăng lên 2 con số nếu video được thêm phụ đề".

Không giống hệ thống phụ đề cho video, tính năng nhận diện giọng nói Oculus là một ví dụ của giai đoạn "kéo" thúc đẩy công việc của nhóm Candela.

Trên Gear VR, các ứng dụng và trò chơi trở nên khó tìm kiếm hơn khi số lượng nhiều hơn. Việc gọi lớn một cái tên đã trở thành biện pháp thay thế khả thi khi tìm kiếm một cái gì đó cụ thể. Thách thức lớn hơn chính là các tiêu đề "kiêng" từ tiếng Anh thông dụng, như Vrideo.

Giao diện người dùng Oculus Voice mà bạn nhìn thấy khi sử dụng tai nghe thực tế ảo Oculus Rift của Facebook.

Đề cập đến một game đi kèm Oculus Rift, Merlyn Deng, Giám đốc Sản phẩm của Facebook, cho hay: "Lucky's Tale có lẽ là game chúng tôi đã làm tốt".

Tuy nhiên, Philip, người từng phát triển Amazon Alexa trước khi gia nhập Facebook vào năm 2015, cho biết các từ không phải là tiếng Anh xuất hiện trong tiêu đề "rất thường xuyên".

Facebook cũng cần đảm bảo những chiếc điện thoại thông minh Samsung cắm tai nghe Gear VR sẽ trả lời cho cụm từ "Hey Oculus". Không giống như tai nghe Oculus Rift, Gear VR chỉ dùng trên điện thoại di động và không có một hệ thống điện toán mạnh mẽ nào hỗ trợ.

"Footprint có thể mới chỉ xử lý được khoảng trống, nhưng đang ngày càng hoàn thiện hơn", Philip nói. Apple và Google đã tìm ra cách làm mềm giọng nói đưa vào điện thoại và giờ đây Facebook cũng đang tiếp bước.

Khi tính năng nhận diện giọng nói trong Oculus ra mắt hồi quý IV, ban đầu nó chỉ sử dụng cho tiếng Anh Mỹ, nhưng nhóm nghiên cứu đã thêm hỗ trợ cho nhiều loại tiếng Anh bản địa khác, Philip nói.

"Chúng tôi muốn xây dựng một trí tuệ hiểu biết sâu sắc về sở thích cũng như sự hài lòng của con người".

- Merlyn Deng, Giám đốc sản phẩm Facebook -

Một thời gian sau, Facebook có thể khiến công nghệ nhận diện giọng nói Oculus hoạt động ở chế độ offline, Philip nói. Công ty cũng có thể hỗ trợ các ngôn ngữ khác ngoài tiếng Anh.

Ngoài việc đó ra, các nhân viên Facebook không biết chính xác đâu là nơi công ty đang hướng tới.

Ở tầm cao, Deng nói: "Chúng tôi muốn xây dựng một trí tuệ hiểu biết sâu sắc về sở thích cũng như sự hài lòng của con người".

Có thể đoán được những gì sắp xảy ra tiếp theo nếu bạn nghĩ về khía cạnh mà Facebook "nổi trội". Công ty có dữ liệu về sở thích của bạn, sở thích của bạn bè bạn và sở thích của bạn bè họ. Họ còn có hình ảnh, video và bài viết của người dùng cùng với các bài viết và những nội dung khác mà mọi người đã chia sẻ trên mạng xã hội qua nhiều năm.

"Các công cụ hỗ trợ giọng nói khác có thể được phát triển hướng tới dữ liệu mà họ có", Deng nói.

Ngày nay, Facebook hướng tới cộng đồng. Đó là một phương châm tốt để cân nhắc thời điểm bạn tưởng tượng ra loại công nghệ trải nghiệm giọng nói nào mà Facebook thấy đáng để theo đuổi.

Deng nói: "Những thứ mà chúng tôi cố gắng làm được ưu tiên theo sứ mệnh cũng như dữ liệu chúng tôi đang có".

Theo Tạp chí Diễn đàn đầu tư
http://vnreview.vn/tin-tuc-khoa-hoc-cong-nghe/-/view_content/content/2213274/ben-trong-nha-may-nhan-dien-giong-noi-cua-facebook