Công ty khởi nghiệp Trung Quốc DeepSeek đang thay đổi cách đào tạo các mô hình AI

Tiến Dũng

02/01/2025 11:45

0:00 / 0:00

0:00

Nam miền Bắc
Nữ miền Bắc
Nữ miền Nam
Nam miền Nam

VietTimes - DeepSeek V3, được công bố vào cuối tháng 12/2024, là một mô hình ngôn ngữ lớn với 671 tỷ tham số với chi phí phát triển chỉ vỏn vẹn 5,58 triệu USD.

Deepseek - công ty khởi nghiệp Trung Quốc đang làm lay chuyển ngành công nghiệp AI. Ảnh: SCMP.

Công ty khởi nghiệp DeepSeek, có trụ sở tại Hàng Châu, Trung Quốc, đã nổi lên như một chú "ngựa ô" trong lĩnh vực mô hình ngôn ngữ lớn (LLM) nguồn mở vào năm 2025. Chỉ trong vài ngày sau khi phát hành mô hình mới nhất DeepSeek V3, công ty này đã tạo ra một làn sóng lớn trong cộng đồng trí tuệ nhân tạo (AI) toàn cầu.

Jim Fan, nhà khoa học nghiên cứu cấp cao tại Nvidia và đứng đầu Sáng kiến Đại lý AI của công ty, đã đăng trên mạng xã hội X vào ngày đầu năm mới, ca ngợi DeepSeek vì những đổi mới ấn tượng. Ông nhận định những hạn chế về nguồn lực đã thúc đẩy DeepSeek phát triển theo cách "ngoạn mục," với chi phí chỉ bằng một phần nhỏ so với các công ty công nghệ lớn.

DeepSeek V3, được công bố vào cuối tháng 12/2024, là một mô hình ngôn ngữ lớn với 671 tỷ tham số. Mặc dù có quy mô khổng lồ, mô hình này được đào tạo trong khoảng hai tháng với chi phí 5,58 triệu USD, thấp hơn đáng kể so với các khoản đầu tư mà các "ông lớn" như Meta Platforms (công ty mẹ của Facebook) hay OpenAI bỏ ra cho các LLM tương tự.

Việc DeepSeek tạo ra một LLM mạnh mẽ với chi phí thấp hơn cho thấy các công ty AI Trung Quốc đã đạt được những bước tiến lớn, bất chấp các lệnh trừng phạt từ Mỹ, vốn hạn chế quyền truy cập vào các chất bán dẫn tiên tiến cần thiết để đào tạo AI.

Tận dụng kiến trúc mới được thiết kế để đạt được mục tiêu đào tạo tiết kiệm chi phí, DeepSeek chỉ cần 2,78 triệu giờ GPU – tổng thời gian mà một bộ xử lý đồ họa được sử dụng để đào tạo LLM – cho mô hình V3 của mình. Theo báo cáo kỹ thuật của công ty khởi nghiệp được đăng vào ngày 26/12/2024, khi V3 được phát hành, quy trình đào tạo của DeepSeek đã sử dụng GPU H800 do Nvidia sản xuất tại Trung Quốc.

Quá trình đó ít hơn đáng kể so với 30,8 triệu giờ GPU mà Meta cần để đào tạo mô hình Llama 3.1 của mình trên chip H100 tiên tiến hơn của Nvidia, loại chip không được phép xuất khẩu sang Trung Quốc.

“DeepSeek V3 có vẻ là một mô hình mạnh hơn với chỉ 2,8 triệu giờ GPU”, nhà khoa học máy tính Andrej Karpathy – thành viên sáng lập nhóm tại OpenAI – cho biết trong bài đăng trên X vào ngày 27/12/2024.

Jim Fan, chuyên gia đã theo dõi sát sao các diễn biến tại DeepSeek, nhận xét: “Những thành công của DeepSeek chứng minh rằng hạn chế về tài nguyên không phải là rào cản, mà là động lực thúc đẩy sự sáng tạo.”

DeepSeek V3 được kỳ vọng sẽ mở ra một kỷ nguyên mới cho AI nguồn mở, tạo điều kiện cho các nhà nghiên cứu và nhà phát triển trên toàn thế giới tiếp cận công nghệ LLM tiên tiến với chi phí hợp lý. Điều này không chỉ thúc đẩy sự đổi mới trong ngành mà còn củng cố vị thế của Trung Quốc trên bản đồ AI toàn cầu.

Với những thành tựu đáng kể như vậy, DeepSeek đang cho thấy tiềm năng cạnh tranh mạnh mẽ với các "gã khổng lồ" công nghệ, khẳng định vai trò tiên phong trong việc phát triển AI bền vững và hiệu quả.

Theo SCMP