Bộ mã hóa âm thanh được hỗ trợ bởi AI của Meta hứa hẹn khả năng nén gấp 10 lần so với MP3

Minh Quang

08/11/2022 11:27

VietTimes – Tuần trước, Meta đã công bố một phương pháp nén âm thanh được hỗ trợ bởi AI được gọi là "EnCodec".

Bộ giải mã âm thanh được hỗ trợ bởi AI của Meta hứa hẹn khả năng nén gấp 10 lần so với MP3 (Ảnh: Ars Technica)

Tuần trước, Meta đã công bố một phương pháp nén âm thanh được hỗ trợ bởi AI được gọi là "EnCodec", có khả năng nén âm thanh nhỏ hơn 10 lần so với định dạng MP3 ở tốc độ 64kbps mà không làm giảm chất lượng. Meta cho biết kỹ thuật này có thể cải thiện đáng kể chất lượng âm thanh của giọng nói trên các kết nối băng thông thấp, chẳng hạn như các cuộc gọi điện thoại ở những khu vực có dịch vụ không ổn định. Kỹ thuật này cũng hoạt động đối với âm nhạc.

Meta đã trình làng công nghệ này vào hôm 25/10 và tác giả chính là các nhà nghiên cứu Alexandre Défossez, Jade Copet, Gabriel Synnaeve cùng Yossi Adi tại Meta. Meta cũng tóm tắt nghiên cứu trên blog của mình dành cho EnCodec.

Meta tuyên bố bộ mã hóa / giải mã âm thanh mới của họ có thể nén âm thanh nhỏ hơn 10 lần so với MP3 (Ảnh: Ars Technica)

Meta mô tả phương pháp của nó như một hệ thống 3 phần, được đào tạo để nén âm thanh xuống kích thước mục tiêu mong muốn. Đầu tiên, bộ mã hóa chuyển đổi dữ liệu không nén thành dạng frame rate thấp hơn. Sau đó, “bộ định lượng” nén bản này xuống kích thước mục tiêu mà vẫn theo dõi thông tin quan trọng nhất, vốn sẽ được sử dụng để xây dựng lại tín hiệu ban đầu. Tín hiệu nén này là những gì được gửi qua mạng hoặc được lưu vào đĩa. Cuối cùng, bộ giải mã chuyển dữ liệu nén trở lại thành âm thanh trong thời gian thực, bằng cách sử dụng mạng nơ-ron trên một CPU.

Sơ đồ khối minh họa cách phương pháp nén âm thanh EnCodec của Meta hoạt động (Ảnh: Ars Technica)

Việc sử dụng các bộ phân biệt của Meta, chứng tỏ chìa khóa để tạo ra một phương pháp nén âm thanh nhiều nhất có thể, mà không làm mất các yếu tố chính của tín hiệu là làm cho nó trở nên đặc biệt và dễ nhận biết:

“Chìa khóa để nén lossy là xác định những thay đổi mà con người sẽ không thể nhận ra được, vì không thể tái tạo hoàn hảo ở bit rate thấp. Để làm như vậy, chúng tôi sử dụng hệ thống phân biệt để cải thiện chất lượng cảm nhận của các mẫu đã tạo. Mô hình nén cố gắng tạo ra các mẫu để đánh lừa hệ thống phân biệt bằng cách đẩy các mẫu được tái tạo trở nên giống với các mẫu ban đầu hơn.”

Cần lưu ý rằng việc sử dụng mạng nơ-ron để nén và giải nén âm thanh còn khá mới lạ — đặc biệt là để nén giọng nói — nhưng các nhà nghiên cứu của Meta khẳng định họ là nhóm đầu tiên áp dụng công nghệ này cho âm thanh stereo 48 kHz (tốt hơn một chút so với sampling rate 44,1 kHz của CD), tiêu biểu cho các file nhạc được phân phối trên Internet.

Đối với các ứng dụng, Meta cho biết "siêu nén âm thanh" được giúp sức bởi AI này có thể hỗ trợ "cuộc gọi nhanh hơn, chất lượng tốt hơn" trong điều kiện mạng xấu. Và tất nhiên, các nhà nghiên cứu cũng đề cập đến hàm ý metaverse của EnCodec, cho biết rằng công nghệ này cuối cùng có thể mang đến “trải nghiệm metaverse phong phú mà không yêu cầu cải thiện băng thông lớn."

Ngoài ra, chúng ta cũng có thể sớm thấy được những file âm thanh nén thực sự nhỏ. Hiện tại, công nghệ mới của Meta vẫn đang trong giai đoạn nghiên cứu, nhưng nó hướng tới một tương lai mà âm thanh chất lượng cao có thể sử dụng ít băng thông hơn. Đây sẽ là một tin tuyệt vời cho các nhà cung cấp băng thông rộng di động khi bị quá tải từ các nền tảng stream media.

Theo Ars Technica

Bộ mã hóa âm thanh được hỗ trợ bởi AI của Meta hứa hẹn khả năng nén gấp 10 lần so với MP3

Từ khoá:

Có thể bạn quan tâm

AI bắt chước khả năng ghi nhớ và học tập của não bộ con người

Nghiên cứu ứng dụng thành công thuốc có độ tương phản cao, độc tính thấp trong chụp cộng hưởng từ

NASA thử nghiệm động cơ hạt nhân có thể đưa phi hành gia lên sao Hỏa trong thời gian kỷ lục

Rolls – Royce nghiên cứu phát triển động cơ đẩy hạt nhân siêu nhỏ cho du hành vũ trụ

Kỹ thuật mới, sản xuất hydro trực tiếp từ nước biển chưa qua xử lý

Tàu vũ trụ của Trung Quốc mất tích

Pin lithium-ion bị vứt bỏ bừa bãi gây ra những hiểm họa khôn lường

Smartwatch và các thiết bị đeo thông minh có giúp bạn cải thiện giấc ngủ?

Tại sao TV ngày nay không còn xuất hiện tình trạng nhiễu hạt trắng nữa?

9 thiết bị điện tử đang âm thầm "ngốn" điện nhà bạn

12 trận động đất liên tiếp ở Kon Tum, Viện trưởng Viện Vật lý địa cầu nói gì?

Tiến sĩ triết học Nguyễn Hữu Liêm: "Vũ trụ là một cấu trúc số" E-magazine

Loại vitamin và thực phẩm giúp não bộ của bạn "trẻ và khỏe" - Lời khuyên của chuyên gia dinh dưỡng

Nghệ tây: liệu pháp tự nhiên an toàn và hiệu quả cho bệnh viêm khớp

Đột phá mới trong chế tạo tim nhân tạo, phù hợp với con người

Phát minh mới tái chế rác thải vải bông thành vải mới giá trị cao

Chất điện phân có thể dùng để chế tạo pin natri thể rắn

Các phân tử đường, bổ sung vào nhựa sinh học đẩy nhanh quá trình phân hủy dưới ánh sáng mặt trời

Bài viết đắt đến từng chữ của TTK LHQ về năng lượng toàn cầu: Một số lãnh đạo tệ hơn cả Nero! Analysis

Kiến lửa đỏ từng "điên cuồng" tấn công Texas có thể sớm bị xóa sổ bởi nấm sát thủ