Một đứa trẻ đi còn chưa vững, hấp tấp đi ngang qua phòng khách, đến gần một khối hình trụ màu đen ở góc phòng. Đứa trẻ nói với chất giọng cao: "Alexa, phát nhạc cho trẻ con đi". "Khối trụ" tưởng chừng như vô tri vô giác đó ngay lập tức hiểu được yêu cầu của đứa trẻ (mặc dù phát âm chưa được rõ ràng), và nó bắt đầu phát ra những bản nhạc cho đứa bé.
Alexa – một phần mềm nhận dạng giọng nói dựa trên nền tảng đám mây của Amazon – là một phát minh gây tiếng vang lớn trên toàn thế giới (trừ những người trẻ, họ coi những công nghệ tuyệt vời này là lẽ đương nhiên). Trẻ em ngày nay sẽ được lớn lên cùng với công nghệ hiện đại này, giống như Alexa ở ví dụ trên. Alexa rồi cũng sẽ phát triển và "tiến hóa", sẽ học để có thể trả lời nhiều câu hỏi hơn nữa, và có lẽ, một ngày nào đó chúng thậm chí còn có thể giao tiếp bình thường với con người.
Bất cứ ai trên 10 tuổi đều có thể biết rằng, đây là một bước tiến vượt bậc của công nghệ. Phần mềm nhận dạng giọng nói đã phải trải qua một quãng đường thời gian rất dài để có thể có hình hài và kết quả như ngày hôm nay. Hiện nay, thiết bị nhận diện giọng nói rất gọn nhẹ, mỏng chưa bằng một ly rượu, nhưng cách đây nhiều năm, máy nhận dạng giọng nói đầu tiên xuất hiện vào khoảng giữa thế kỷ 20 có kích thước xấp xỉ một căn phòng.
Nguồn ảnh: Amazon
Con người, từ rất lâu rồi, đã muốn có thể nói chuyện với máy móc, hay ít nhất cũng muốn giao tiếp và làm cho máy móc có thể trò chuyện với con người. "Giọng nói sẽ khiến cho sự tương tác với công nghệ đơn giản đến không ngờ - nó là giao diện người dùng tự nhiên và tiện dụng nhất, và là thứ chúng ta đang sử dụng hàng ngày" – theo Jorrit Van der Meulen, tại Amazon Devices và Alexa EU. Ông nói thêm: "Giọng nói chính là tương lai".
Quay lại những cột mốc xuất phát điểm
Năm 1779, nhà khoa học người Đan Mạch Christian Kratzenstein, lúc đó làm việc tại Viện Hàn lâm Khoa học Nga, xây dựng một mô hình có thể bắt chước giọng nói người với năm nguyên âm ([a], [e], [I], [o] và [u]). Chỉ hơn một thập kỷ sau đó, Wolfgang von Kempelen ở Viên, Áo đã cải tiến mô hình trên và cho ra đời một Máy Phát âm Cơ khí-Âm học. Máy này tạo ra mô hình của lưỡi và môi, cho phép tạo ra phụ âm thêm vào cho nguyên âm. Và vào đầu thế kỷ 19, nhà phát minh người Anh Charles Wheatstone đã cải tiến hệ thống của von Kempelen với các dụng cụ cộng hưởng làm bằng da. Các thiết lập hoạt động của chúng được thay đổi và kiểm soát bằng tay để tạo ra các âm thanh giống giọng nói.
Sau đó, vào năm 1881, Alexander Graham Bell, cùng với người anh họ Chichester Bell và Charles Sumner Tainter đã xây dựng nên một hình trụ xoay với một lớp phủ sáp, và cùng với một cây bút trâm (để viết trên sáp, ở thời cổ) để có thể cắt các rãnh dọc, ứng với các áp suất âm thanh được tạo ra. Phát minh này đã mở ra con đường phát triển của chiếc máy ghi âm đầu tiên trên thế giới – máy "Dictaphone", được cấp bằng sáng chế vào năm 1907.
Ý tưởng để tạo ra chiếc máy này xuất phát từ mong muốn thay thế việc tốc ký bằng cách sử dụng một cái máy để ghi lại toàn bộ các âm thanh của cuộc nói chuyện, thay thế chức năng của những bản tốc ký. Sau đó, con người có thể nghe lại bản thu và viết ra những nội dung cần thiết. Đây là một ý tưởng sáng tạo và có tính ứng dụng cao. Sau thời gian này, ngày càng có nhiều văn phòng trên toàn thế giới sử dụng các cô thư ký xinh đẹp, với một chiếc máy nhỏ ở tai, chăm chú nghe bản thu âm cuộc họp nào đó và viết thành bản báo cáo.
Tuy nhiên, tất cả các bước phát triển trên vẫn chỉ giữ máy móc ở trạng thái thụ động, cho đến khi "Audrey" xuất hiện vào năm 1952. Audrey là một máy nhận dạng giọng nói điện tử tự động, được tạo ra bởi phòng thí nghiệm Nokia Bell. Chiếc máy khổng lồ này có khả năng nhận ra các đơn vị âm thanh cơ bản của lời nói con người.
Vào thời điểm đó, hệ thống máy tính vô cùng đắt và không linh hoạt, với bộ nhớ và tốc độ tính toán bị hạn chế. Tuy vậy, Audrey vẫn có thể nhận ra được âm thanh của các con số - từ 0 đến 9 – với độ chính xác lên đến hơn 90%. Với một số giọng nói phức tạp khác, thì độ chính xác của nó là 70 – 80%, nhưng độ chính xác sẽ thấp hơn đối với các giọng nói không quen thuộc. "Đây là một phát minh đáng kinh ngạc của thời đại, tuy nhiên chiếc máy này cần được đặt trong một căn phòng với rất nhiều thiết bị điện tử, với các mạch chuyên biệt để có thể nhận dạng cách phát âm của mỗi chữ số" – theo Charlie Bahr của phòng thí nghiệm Bell.
Nhà phát minh điện thoại Alexander Graham Bell cũng có công đặc biệt trong công nghệ nhận dạng giọng nói. Nguồn ảnh: Science Photo Library
Vì Audrey chỉ có thể nhận diện được một số giọng nói được chỉ định trước, nên công dụng của nó bị hạn chế nhiều. Nó có thể cho phép người dùng quay số điện thoại qua một "ống nói", nhưng điều này không cần thiết cho lắm bởi các máy bấm số bằng tay thông thường vẫn rẻ hơn và tiện dụng hơn rất nhiều. Tuy vậy, Audrey vấn được đánh giá cao, là phát minh tiên phong cho các phát minh khác về công nghệ nhận diện giọng nói sau này. Cho dù Audrey không được mở rộng về sản xuất, nhưng "nó cho thấy rằng việc nhận dạng giọng nói có thể thành hiện thực" – theo Bahr.
Nhưng nó vẫn có công dụng khác. Larry O'Gorman – đồng nghiệp của Bahr tại phòng thí nghiệm Bell, nói: "Tôi tin rằng ban đầu Audrey được tạo ra để giảm băng thông, khối lượng dữ liệu được truyền trên dây". Việc nhận dạng giọng nói sẽ tốn ít băng thông hơn các sóng âm thông thường. Tuy nhiên, khi điện thoại phát triển xa hơn vào những năm 1970 và 1980, chúng cho phép con người thực hiện các cuộc gọi nhanh hơn, trong khi Audrey vẫn phụ thuộc vào ống nói và sự nhận diện giọng nói qua các con số - rườm rà và mất thời gian hơn. Bởi vậy, trong thời gian này, bộ phận nghiên cứu giọng nói của phòng thí nghiệm Bell đã tập trung vào việc nhận dạng các con số từ 0 đến 9, và nói "Có" hoặc "Không". O'Gorman cho rằng với sự nhận dạng được 12 từ đó, hệ thống điện thoại sẽ hoạt động tốt hơn và hiệu quả hơn.
Audrey không phải là viên gạch duy nhất trong quá trình xây dựng hệ thống nhận dạng giọng nói này. Vào những năm 1960, có rất nhiều đội nghiên cứu của Nhật làm việc về công nghệ nhận dạng giọng nói. Các sản phẩm nổi trội đáng kể đến nhất của giai đoạn này là một máy nhận dạng nguyên âm được phát triển bởi một phòng thí nghiệm ở Tokyo, một máy nhận dạng phụ âm được tạo ra từ trường đại học Kyoto, và một máy nhận dạng chữ số của phòng thí nghiệm NEC.
Tại hội chợ thế giới năm 1962, IBM đã giới thiệu chiếc máy "Shoebox" của nó có khả năng hiểu được 16 từ tiếng Anh bằng giọng nói. Có nhiều nỗ lực khác nữa từ US, UK, và Liên Xô. Các nhà nghiên cứu Liên Xô đã phát minh ra thuật toán Năng động thời gian cong vênh (DTW - Dynamic Time-Warping) được sử dụng để tạo ra một chiếc máy nhận dạng giọng nói có khả năng làm việc mới một cuốn từ điển 200 từ. Nhưng tất cả những hệ thống này đều chủ yếu dựa trên các mẫu từ có sẵn, có nghĩa là chỉ nhận diện được các giọng nói dựa trên các từ ngữ được lưu trữ từ trước.
Bước tiến xa vượt bậc nhất của công nghệ nhận dạng giọng nói xuất hiện vào năm 1971. Khi đó Cơ quan Quản lý các dự án nghiên cứu cao cấp Bộ Quốc phòng Mỹ (DARPA) tài trợ cho chương trình nghiên cứu giọng nói trong 5 năm, nhằm nâng số từ máy có thể hiểu lên đến 1000 từ. Một số công ty và học viện bao gồm IBM, trường đại học Carnegie Mellon (CMU) và Viện nghiên cứu Stanford cũng tham gia vào chương trình này. Đó chính là cách thức Harpy, đặt tại CMU, được tạo ra.
Không giống như các cỗ máy tiền nhiệm đi trước, Harpy có thể nhận dạng được một câu hoàn chỉnh. Theo Alexander Waibel – một giáo sư khoa học máy tính tại đại học Carnegie Mellon, người làm việc trong dự án Harpy và các máy CMU khác: "Chúng tôi không muốn phải tìm mọi thứ từ cuốn từ điển – vì vậy nên tôi muốn tạo ra một chiếc máy có thể hiểu được lời nói của con người, để khi bạn nói ở một ngôn ngữ nào đó, máy có thể nghe được và biến chúng thành những dòng văn bản viết, sao đó sẽ tổng hợp các dòng chữ thành một văn bản thống nhất".
Sự ra đời của điện thoại đã đẩy nhanh sự phát triển của công nghệ nhận dạng giọng nói (Nguồn ảnh: iStock)
Sự chuyển tiếp từ việc nhận dạng các từ ngữ đơn giản đến nhận dạng một mệnh đề thật không hề dễ dàng. Waibel nói rằng: "Đối với một câu hoàn chỉnh, bạn sẽ cần nhận ra các từ ngữ riêng lẻ nối tiếp nhau, bạn sẽ gặp phải rất nhiều nhầm lẫn và không biết khi nào một từ bắt đầu và khi nào thì nó kết thúc. Bạn sẽ gặp phải một số từ như ‘euthanasia' (cái chết êm ái) – có thể được hiểu thành "youth in Asia" (tuổi trẻ châu Á). Hoặc nếu bạn nói "‘Give me a new display', máy nhận dạng giọng nói có thể sẽ nghe thành ‘give me a nudist play''.
Tựu chung lại, Harpy có thể nhận ra được 1.011 từ - tương đương với vốn từ vựng của một đứa trẻ lên ba – với sự chính xác tương đối tốt. Nó đã đạt được mục đích và kỳ vọng đầu tư ban đầu của DARPA. Nó đã "trở thành tiền thân đúng nghĩa cho các hệ thống hiện đại sau này, là hệ thống đầu tiên thành công trong việc sử dụng một mô hình ngôn ngữ để xác định ý nghĩa của các chuỗi từ ngữ nối tiếp, từ đó giảm thiểu các lỗi nhận dạng ngôn ngữ" – theo Jaime Carbonell, giám đốc Viện Công nghệ ngôn ngữ tại CMU.
Trong những năm tiếp theo, hệ thống nhận dạng giọng nói ngày càng phát triển xa hơn. Vào giữa thập niên 80, IBM tạo ra Tangora – một chiếc máy đánh chữ bằng giọng nói – có khả năng xử lý vốn từ vựng lên để 20.000. Cách tiếp cận của IBM là dựa trên mô hình Markov ẩn, mô hình này giúp thêm các thống kê vào các kỹ thuật xử lý tín hiệu số. Phương pháp này giúp máy có thể đoán các âm vị khác tương tự dựa trên một âm vị có sẵn.
Dragon Systems – đối thủ của IBM – cũng có cách tiếp cận riêng của mình. Các tiến bộ của công nghệ cuối cùng đã đẩy giọng nói đi đủ xa để có thể tìm được ứng dụng đầu tiên – giống như các con búp bê được trẻ em dạy nói. Tuy nhiên, mặc dù đã đạt được tất cả những thành công kể trên, tất cả các chương trình tại thời điểm đó đều hoạt động dựa trên nguyên tắc "từ rời rạc', có nghĩa là con người muốn máy hiểu được mình thì cần phải dừng…lại…sau…mỗi…từ. Vào năm 1990, Gragon giới thiệu sản phẩm máy nhận dạng giọng nói Dragon Dictate với giá bán 9000 đô la Mỹ. Sau đó, vào năm 1997, Dragon NaturallySpeaking được ra mắt, trở thành máy nhận dạng giọng nói liên tục đầu tiên.
Theo Peter Mahoney – phó chủ tịch và tổng giám đốc của Dragon: "Trước đó, các sản phẩm nhận dạng giọng nói chỉ giới hạn với các từ ngữ rời rạc, có nghĩa là chúng chỉ có thể nhận dạng được một từ vào một thời điểm. Bằng việc tiên phong trong nhận diện giọng nói liên tục, Dragon đã, lần đầu tiên, hiện thực hóa việc sử dụng giọng nói để tạo nên văn bản hoàn chỉnh". Dragon NaturallySpeaking có thể nhận dạng được 100 từ mỗi phút bằng giọng nói – và nó vẫn đang được sử dụng cho đến tận ngày nay (nhiều bác sỹ tại US và UK vẫn sử dụng nó để kê đơn thuốc bằng giọng nói).
Và ngày nay...
Trong 10 năm trở lại đây, máy móc đã "học" thêm các kỹ thuật có liên quan mật thiết và dựa trên hoạt động của bộ não con người. Nó cho phép máy tính có thể tiếp nhận được nguồn dữ liệu giọng nói khổng lồ, kích thích khả năng nhận diện giọng nói tuyệt vời: có thể nhận ra các giọng nói khác nhau từ nhiều người với nhiều chất giọng.
Tuy vậy, công nghệ này vẫn bị đình trệ cho đến khi Google phát hành ứng dụng tìm kiếm bằng giọng nói dành cho iPhone. Bí quyết của Google là sử dụng điện toán đám mây để xử lý các dữ liệu nhận được từ ứng dụng của nó. Ngay lập tức, ứng dụng này được người dùng đón nhận và yêu thích. Từ đó, Google có thể phân tích lượng dữ liệu cực kỳ lớn để khớp các từ ngữ của người dùng với một lượng lớn ví dụ về giọng nói con người nó có được từ hàng tỉ yêu cầu tìm kiếm bằng giọng nói từ ứng dụng này.
Vào năm 2010, Google tích hợp thêm phần "Nhận diện cá nhân - personalised recognition" vào ứng dụng Tìm kiếm bằng giọng nói dành cho các điện thoại Android, và thêm chức năng tìm kiếm bằng giọng nói cho trình duyệt web Chrome vào giữa năm 2011. Apple, ngay sau đó, đã nhanh chóng đưa ra phiên bản riêng của mình – Siri, trong khi Microsoft có phiên bản AI Cortana – đặt tên theo một nhân vật trong trò chơi nổi tiếng Halo.
Vậy điều gì sẽ đến tiếp theo? O' Gorman cho biết: "Trong quá trình nhận diện giọng nói, công nghệ tiên tiến nhất là tổng hợp giọng nói. Giọng nói của máy móc giờ đã gần giống với giọng nói con người, nhưng khả năng nhận diện giọng nói tự động còn rất xa mới có thể bằng đôi tai người trong nhiều trường hợp". Máy có thể nghe được giọng nói con người chính xác nhất trong một căn phòng yên tĩnh, ít tiếng ồn, trong khi con người chúng ta có thể nghe rõ từng lời của một bài hát tại một quán bar ồn ào, nhiều tiếng động lớn. Hoặc ngay cả khi trong không gian hỗn loạn đó, có ai thì thầm bên cạnh tai, chúng ta vẫn nghe và phân biệt được, nhưng máy móc thì không làm được điều này.
Nỗ lực của Amazon trong việc phát triển công nghệ nhận dạng giọng nói được lấy cảm hứng từ máy tính Star Trek với mục tiêu tạo ra một chiếc máy tính trong "đám mây" có thể được bạn điều khiển hoàn toàn bằng giọng nói, Van der Meulen cho biết. Điều đó cũng có nghĩa bạn sẽ có thể thoải mái trò chuyện với nó như nói chuyện với người bạn của mình. Ông nói thêm: "Chúng ta đang ở thời kỳ vàng của công nghệ thông tin và các thành tựu của nó. Chúng ta vẫn còn một chặng đường dài phía trước để có thể sai khiến máy móc thực hiện các công việc hàng ngày của con người, tuy nhiên, tại thời điểm hiện tại, các thiết bị công nghệ đã giúp chúng ta rất nhiều để có một cuộc sống dễ dàng và thoải mái hơn".
Theo Báo Diễn đàn Đầu tư