
DeepSeek, một trong những công ty AI hàng đầu của Trung Quốc, vừa công bố phiên bản nâng cấp của mô hình ngôn ngữ lớn (LLM) DeepSeek V3 với nhiều cải tiến đáng kể. Mô hình mới, có tên DeepSeek-V3-0324, được tối ưu hóa khả năng mã hóa, giải toán và phát triển web front-end, đồng thời cải thiện chất lượng viết tiếng Trung.
Theo công bố trên trang web của DeepSeek, phiên bản mới không chỉ mở rộng số lượng tham số từ 671 tỷ lên 685 tỷ, mà còn cải thiện khả năng suy luận và tính toán đáng kể. Đặc biệt, điểm số trên Kỳ thi Toán mới của Mỹ (AIME) đã tăng từ 39,6 lên 59,4 điểm, trong khi điểm số trên LiveCodeBench tăng 10 điểm, đạt 49,2 điểm. Những nâng cấp này giúp DeepSeek-V3-0324 trở thành một lựa chọn mạnh mẽ hơn trong các bài toán liên quan đến toán học và lập trình.
Một thay đổi quan trọng trong phiên bản mới là việc chuyển sang sử dụng giấy phép phần mềm MIT, một trong những giấy phép phổ biến nhất trên nền tảng GitHub. Điều này giúp mô hình trở nên dễ tiếp cận hơn với cộng đồng nhà phát triển và doanh nghiệp, mở rộng phạm vi ứng dụng trong nhiều lĩnh vực. Trước đó, DeepSeek V3 chỉ sử dụng giấy phép thương mại do công ty tự phát triển.
DeepSeek-V3-0324 đã được phát hành trên nền tảng Hugging Face cũng như trang web chính thức của DeepSeek. Hiện tại, nền tảng này đang là mô hình AI thịnh hành nhất trên Hugging Face, thu hút nhiều đánh giá tích cực từ cộng đồng về hiệu suất và khả năng ứng dụng.
Với những cải tiến đáng kể về khả năng tính toán, mã hóa và xử lý ngôn ngữ, DeepSeek tiếp tục khẳng định vị thế của mình trong cuộc đua AI, đối đầu với các mô hình hàng đầu khác như ChatGPT của OpenAI.
Theo SCMP