Chip AI mới của Nvidia gây quá nhiệt máy chủ

Một số phản ánh từ khách hàng cho biết mẫu chip AI mới của Nvida đang gây ra lỗi quá nhiệt tại máy chủ khiến việc triển khai các dịch vụ gặp khó khăn.   

Nguồn tin từ Reuters cho biết mẫu chip Blackwell mới nhất của Nvidia đang gặp một số vấn đề về kết nối, gây ra lỗi quá nhiệt cho các máy chủ khiến khách hàng phàn nàn rằng họ có thể không đủ thời gian để đưa các trung tâm dữ liệu mới vào hoạt động.

Các con chip Blackwell xuất hiện lỗi quá nhiệt khi kết nối với nhau trên tủ rack (loại tủ chứa 72 chip).

Một nhân viên phụ trách kỹ thuật của Nvidia cho biết hãng này đã yêu cầu nhà cung cấp thay đổi thiết kế tủ rack một vài lần để khắc phục lỗi quá nhiệt, cũng như làm việc với các đối tác và khách hàng để tìm cách khắc phục vấn đề.

"Nvidia đang hợp tác với các nhà cung cấp dịch vụ đám mây hàng đầu để trao đổi các vấn đề về kỹ thuật và quy trình", người phát ngôn Nvidia cho biết.

Hồi tháng 3, Nvidia đã công bố chip Blackwell và cho biết mẫu chip này sẽ xuất xưởng vào quý 2, tuy nhiên sau đó đã trì hoãn vài lần, khiến cho một số khách hàng quan trọng như Meta, Google và Microsoft bị ảnh hưởng.

Blackwell là chip đồ họa đầu tiên của NVIDIA sử dụng thiết kế MCM cho phép tích hợp hai GPU trên cùng một chip.

GPU Blackwell B200 có tổng cộng 208 tỷ bóng bán dẫn và được chế tạo bằng quy trình 4NP TSMC do NVIDIA tự thiết kế.

Đặc biệt, công nghệ NVLink thế hệ thứ năm của NVIDIA cung cấp tốc độ truyền dữ liệu hai chiều lên tới 1.8 TB/giây cho mỗi GPU, tăng hiệu suất cho các mô hình trí tuệ nhân tạo phức tạp.

Blackwell B200 cũng tích hợp RAS Engine, công cụ giúp dự đoán và khắc phục sự cố, đảm bảo hoạt động liên tục và giảm chi phí vận hành các hệ thống AI có quy mô lớn.