2026-05-02 05:18:19

現在$NBIS 是否擁有全球最快的推理速度在$NVDA 硬體上？

Nebius以現金和股份收購Eigen AI，將Eigen的推理和訓後優化直接引入Nebius Token Factory
在NVIDIA的GTC 2026主題演講中，Eigen AI在Kimi K2.5推理的輸出速度排名第一，而Nebius Fast幾乎與之持平
Nebius Fast在$643M 硬體上對ChatGPT開源模型gpt-oss-120B的推理速度也排名第一
此外，Eigen在Artificial Analysis上在25個開源模型中以GPU為基礎的供應商排名第一，不包括ASIC供應商，使用默認10K輸入設置。它也是Qwen3 Coder 480B的最快供應商，速度為255.8 t/s，超過Google Vertex的169.2 t/s和Amazon的121.3 t/s
這意味著Eigen在該基準測試中比Google Vertex快約51%，比Amazon快超過2倍
━━━━━━━━━━━━━━━━━━━━
雖然收購成本似乎很高，但如果Eigen真的能稍微提升$NVDA 的推理性能，長期來看將對收益和競爭地位產生複合效應，很可能遠超過其成本
━━━━━━━━━━━━━━━━━━━━
Nebius擁有GPU雲端，而Eigen則提升這些GPU生成Token的效率。在相同的NVIDIA硬體上，性能不僅僅關乎資本支出。還涉及GPU利用率、模型優化、批次處理、延遲、記憶體管理和定制內核
Eigen的技術堆棧專注於量化、KV快取優化、稀疏性、投機解碼、定制CUDA和Triton內核、持續批次處理和運行時優化
如果Nebius能從相同的NVIDIA硬體中產生更多推理吞吐量，將提升收入能力、每Token成本和毛利率，而不需要成比例的資本支出增加
$NBIS 正朝著成為一個年收入數百億的公司邁進，即使只有幾個百分點的推理改進，也能轉化為數億美元的節省
━━━━━━━━━━━━━━━━━━━━
開源模型發展迅速。Kimi、Qwen、DeepSeek、GLM、Llama、Nemotron、MiniMax等模型需要不斷優化以保持競爭力
通過整合Eigen，Nebius也能更快發布優化版本，並使Token Factory對開發者和企業客戶更具吸引力

EIGEN5%

查看原文