Cloudflare após integração com Kimi K2.5 processa 7 mil milhões de tokens por dia, reduzindo custos de auditoria de segurança em 77%

動區BlockTempo

Cloudflare’s Workers AI platform oficialmente integrou o Kimi K2.5 de Moonshot AI, suportando contexto de 256K, chamadas multi-turn de ferramentas e entrada visual. O agente de auditoria de segurança interno da Cloudflare processa mais de 7 bilhões de tokens por dia, e após a troca, o custo foi reduzido em 77% em relação ao modelo comercial de nível médio.
(Resumindo: Cursor treinou o modelo com Kimi K2.5, mas não divulgou; desenvolvedores capturaram pacotes, deletaram sugestões, e a equipe oficial mudou de direção rapidamente — registros completos)
(Complemento: A Cloudflare, que protege contra crawlers, lançou a API de crawling de site completo com um clique, suportando perfeitamente RAG, atualizações incrementais e treinamento de modelos)

Índice deste artigo

Toggle

  • Agente de segurança que processa 7 bilhões de tokens por dia
  • Três melhorias lançadas pela Cloudflare
  • Motor de inferência de base: Infire com suporte, não uma estrutura pronta

A plataforma Workers AI da Cloudflare fez uma grande novidade silenciosamente, segundo o blog oficial da Cloudflare, ao definir o Kimi K2.5 de Moonshot AI como modelo padrão para o SDK de Agents. Engenheiros da Cloudflare também usam esse modelo para tarefas reais de auditoria de segurança, economizando bastante.

Kimi K2.5 é um dos poucos modelos de código aberto que alcançam “padrões de ponta”, suportando janela de contexto de 256K, chamadas multi-turn de ferramentas, entrada visual e saída estruturada. Para tarefas de agentes que exigem raciocínio de textos longos, esses números já são bastante úteis.

Agente de segurança que processa 7 bilhões de tokens por dia

Engenheiros da Cloudflare usam o Kimi K2.5 como principal para agentes de programação no ambiente OpenCode, além de implantarem um agente de revisão de código público chamado “Bonk”, integrado a pipelines automatizados.

Mais impressionante ainda é o cenário de auditoria de segurança interno. Esse agente processa mais de 7 bilhões de tokens por dia. Se usasse um modelo comercial padrão, o custo anual seria cerca de 2,4 milhões de dólares; com Kimi K2.5, o custo caiu 77%, economizando quase 1,85 milhões de dólares.

Esse número não é publicidade, é uma conta real divulgada pelos engenheiros da Cloudflare no blog oficial.

Três melhorias lançadas pela Cloudflare

Só trocar o modelo não basta; a Cloudflare também lançou três melhorias na plataforma, focadas em reduzir custos e aumentar eficiência em cenários de diálogo prolongado:

  • Desconto de cache de prefixo: tokens já processados em diálogos multi-turn não são cobrados novamente; tokens em cache têm desconto. Para tarefas longas, essa economia é significativa.
  • Cabeçalho de afinidade de sessão: novo cabeçalho x-session-affinity, que roteia a mesma sessão ao mesmo modelo, aumentando a taxa de cache. OpenCode e o SDK de Agents já suportam isso nativamente.
  • API de inferência assíncrona em lote: requisições que excedem limites de velocidade síncrona podem ser enfileiradas assíncronamente, geralmente concluídas em até 5 minutos. Ideal para varredura de código e tarefas de pesquisa que não precisam de resposta imediata.

Motor de inferência de base: Infire com suporte, não uma estrutura pronta

A Cloudflare não usou frameworks de inferência prontos, mas desenvolveu seu próprio motor de inferência, o Infire, com núcleo personalizado. Utiliza paralelismo de dados, tensor e especialistas, além de uma arquitetura de processamento de prefixo separada.

Atualmente, Kimi K2.5 é o primeiro grande modelo de inferência lançado na Workers AI, demonstrando a ambição da Cloudflare na infraestrutura de IA, que pode integrar-se à plataforma web e ainda assim ser acessível.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário