Theo phân tích blog mới nhất của Nvidia, GPU Blackwell có chi phí gần gấp đôi theo giờ so với thế hệ Hopper, nhưng lại mang đến chi phí suy luận theo mỗi token thấp hơn 35 lần. Dùng DeepSeek-R1 làm mô hình thử nghiệm, Blackwell (GB300 NVL72) cho thuê ở mức 2,65 USD mỗi GPU mỗi giờ, trong khi Hopper là 1,41 USD. Tuy nhiên, thông lượng trên một GPU tăng từ 90 lên 6.000 token mỗi giây. Mức tăng thông lượng 65 lần này làm giảm chi phí theo 1 triệu token từ 4,20 USD xuống 0,12 USD.
Con số 0,12 USD giả định tối ưu phần mềm đầy đủ, bao gồm suy luận độ chính xác thấp FP4 và dự đoán đa token (MTP). Nếu không bật MTP, chi phí theo 1 triệu token đạt khoảng 2,35 USD, sau đó giảm xuống 0,11 USD khi bật tính năng này, cho thấy chỉ riêng MTP đã tạo ra tác động tối ưu 21 lần.