Một dự án hợp tác giữa 5 trường Đại học của Australia có tên là AusKidTalk đã được khởi động với mục tiêu cải thiện hệ thống nhận dạng giọng nói khi trẻ nhỏ sử dụng.
5 trường Đại học tham gia dự án bao gồm Đại học New South Wales, Đại học Sydney, Đại học Western Sydney, Đại học Macquarie và Đại học Melbourne.
Phần chính của dự án là xây dựng cơ sở dữ liệu về giọng nói của trẻ em Australia bằng cách ghi lại các mẫu giọng trẻ em điển hình từ việc nói lặp lại các từ, chữ số và câu, cũng như cách nói không đúng trật tự của trẻ nhỏ. Các mẫu giọng được thu thập từ 750 trẻ em trong độ tuổi từ 3 đến 12.
Theo giảng viên Beena Ahmed của Trường Kỹ thuật Điện và Viễn thông UNSW, phần mềm nhận dạng giọng nói - nền tảng cho các công nghệ trợ lý ảo như Google Assistant, Alex và Siri - luôn dựa trên các mẫu giọng nói của người lớn. Độ chính xác của các hệ thống này kém đi khi tương tác với trẻ em, vì nó không nhận dạng được những từ ngữ phát âm bởi trẻ nhỏ.
“Cách nói của trẻ em khác với người lớn. Kỹ năng ngôn ngữ của chúng không phức tạp như người lớn. Chúng có thể phát âm sai, bỏ âm hoặc từ, hoặc thay đổi trật tự các từ. Do thanh âm của trẻ nhỏ chưa phát triển đầy đủ cho đến khi dậy thì, nên âm vực giọng nói của trẻ cao hơn nhiều so với người lớn. Tất cả những điều này khiến giọng nói của chúng rất khác so với người lớn và do đó hệ thống nhận dạng giọng nói khó xử lý hơn”, cô Beena Ahmed giải thích.
Cô Ahmed nói thêm rằng hệ thống nhận dạng giọng nói sau khi cải thiện có thể được sử dụng để phát hiện xem trẻ nhỏ có gặp khó khăn trong việc nói hay không, cũng như được sử dụng như một công cụ giúp cung cấp phản hồi ngay lập tức và liên tục trong quá trình luyện nói.
“Đã có những bậc cha mẹ chi tới 200 đô la Australia/một buổi để thuê bác sĩ giúp con mình tập nói do đứa trẻ bị hạn chế về ngôn ngữ. Đứa trẻ vẫn phải thực hiện nhiều bài tập tại nhà mà bác sĩ không thể theo dõi. Các bậc cha mẹ cũng khó hướng dẫn con cái vì họ không được đào tạo bài bản, hoặc vì họ đã quen/hiểu cách con mình diễn đạt trong khi người ngoài thì không thể hiểu”, cô Ahmed cho biết.
Hệ thống nhận dạng được giọng nói trẻ em sẽ rất hữu ích đối với các trường học. Cô Ahmed nói rằng hiện nay một số trường học nhờ tình nguyện viên là các phụ huynh đến lớp để lắng nghe trẻ mầm non đọc sách, sau đó sửa cách phát âm cho trẻ (chương trình giáo dục sớm). Những trường khó khăn khi tìm tình nguyện viên có thể sử dụng hệ thống nhận dạng giọng nói cài đặt trong máy tính bảng. Một đứa trẻ có thể đọc trên máy tính bảng, phần mềm sẽ nghe và sửa phát âm khi trẻ đọc bài.
Cô Ahmed cho biết sau khi ghi lại các mẫu và tích hợp chúng vào hệ thống nhận dạng giọng nói, một cơ sở dữ liệu mã nguồn mở sẽ được cung cấp cho các nhà nghiên cứu khác bao gồm các nhà ngôn ngữ học, nhà tâm lý học và kỹ sư.
Dự kiến công trình sẽ hoàn thành vào tháng 6/2021.