BlockBeats notícia, 21 de junho, o vendedor de GPU Tinygrad publicou que, de acordo com fontes confiáveis, o modelo GLM 5.2 pode alcançar uma velocidade de inferência de 120 tokens por segundo em duas Tinybox conectadas à rede com arquitetura Blackwell.
Essa configuração custa 150 mil dólares, podendo ser uma dupla de Tinybox padrão ou uma única Tinybox Pro, ambas capazes de atingir o desempenho mencionado. Tinygrad usa isso como diferencial, promovendo uma rota de implantação privada de "compra única, sem pagar taxas de nuvem", competindo diretamente com serviços de inferência na nuvem baseados em cobrança por uso.
Atualmente, essa notícia ainda não foi confirmada oficialmente pelo GLM, e a Tinygrad também não revelou mais detalhes técnicos.
Clique no link original abaixo para participar do canal de notícias de IA Beating · Feishu, monitorando 24 horas por dia os principais tópicos e notícias globais de IA.