
DeepSeek, công ty khởi nghiệp AI có trụ sở tại Hàng Châu (Trung Quốc), vừa công bố nghiên cứu mới về Native Sparse Attention - NSA, một phương pháp giúp tăng hiệu suất xử lý dữ liệu của các mô hình trí tuệ nhân tạo (AI).
Nghiên cứu được công bố trên nền tảng arXiv hôm 16/2. Một ngày sau đó, nhà sáng lập kiêm CEO Liang Wenfeng, 40 tuổi, tham dự hội nghị với các doanh nhân công nghệ do Chủ tịch Trung Quốc Tập Cận Bình chủ trì tại Bắc Kinh.
Theo nghiên cứu, NSA giúp tăng tốc quá trình suy luận và giảm chi phí đào tạo, mà không làm suy giảm hiệu suất của mô hình AI. Phương pháp này được thiết kế tối ưu để tương thích với phần cứng hiện đại, giúp xử lý dữ liệu hiệu quả hơn mà không cần sử dụng quá nhiều tài nguyên tính toán.
Suy luận là quá trình một mô hình AI tìm ra quy luật từ dữ liệu mới dựa trên các mẫu đã học trước đó, từ đó có thể đưa ra dự đoán hoặc phản hồi gần giống với cách con người suy nghĩ. Công nghệ NSA giúp AI thực hiện suy luận nhanh hơn, đồng thời giảm gánh nặng về chi phí tính toán – một rào cản lớn đối với các dự án AI quy mô lớn.
Một nguồn tin giấu tên tiết lộ DeepSeek đang ưu tiên nghiên cứu trong bối cảnh công ty ngày càng thu hút sự chú ý trên toàn cầu. Startup này chưa có kế hoạch mở rộng thương mại hay gọi vốn vào thời điểm hiện tại.
Nghiên cứu NSA đánh dấu một bước tiến tiếp theo của DeepSeek sau thành công của các mô hình AI nguồn mở V3 và R1, vốn được đánh giá cao nhờ khả năng xử lý mạnh mẽ với mức chi phí và tài nguyên tính toán thấp hơn nhiều so với các dự án AI của những tập đoàn công nghệ lớn.
Bằng cách liên tục cải tiến công nghệ, DeepSeek đang khẳng định vai trò tiên phong trong việc phát triển các mô hình AI hiệu quả, tiết kiệm chi phí, mở ra tiềm năng ứng dụng rộng rãi hơn trong tương lai.
Theo SCMP