"Queimar Token" como KPI — Um programador gastou 15 mil num mês

金色财经_

Autor: Xiǎo Jìng

O Vale do Silício está a popularizar um novo termo: Tokenmaxxing (Maximização do Uso de Tokens).

Dentro do Meta e da OpenAI, os engenheiros começaram a competir na classificação de uso de IA. Segundo relatos da imprensa estrangeira, há um engenheiro que consumiu 210 bilhões de Tokens numa semana, o equivalente a 33 textos da Wikipédia. Há quem tenha uma fatura mensal de IA de até 150 mil dólares.

Um engenheiro da Ericsson em Estocolmo gastou mais dinheiro na Claude do que o seu próprio salário, mas a conta é suportada pela empresa. O orçamento de Tokens está a tornar-se numa nova vantagem laboral para os engenheiros, “tal como os snacks grátis ou o almoço grátis antigamente”.

O CEO da Shopify, Tobi Lütke, publicou já em abril de 2025 um memorando interno a declarar que “o uso de IA é uma expectativa básica da Shopify”, exigindo que todas as equipas provem que a IA não consegue fazer o trabalho antes de solicitar novos recursos, e incluindo o uso de IA na avaliação de desempenho. A Meta anunciou posteriormente que, a partir de 2026, a “influência impulsionada por IA” será oficialmente integrada na avaliação de desempenho de todos os funcionários.

Quando o consumo de Tokens começa a fazer parte dos KPIs, torna-se num sinal de comportamento organizacional.

Entretanto, também há sinais intensos a nível industrial. Em 16 de março, Jensen Huang, na conferência GTC da Nvidia, definiu Tokens como “a pedra angular da era da IA”, afirmando que se tornarão “a mercadoria mais valiosa”. No dia seguinte, a Alibaba anunciou a criação do Alibaba Token Hub, liderado pelo CEO Wu Yongming, com o objetivo de “criar Tokens, distribuir Tokens e aplicar Tokens”.

Imagem: Jensen Huang na apresentação do GTC mostrou um gráfico relacionando custos e receitas de Tokens, dividindo os centros de dados em camadas gratuitas, intermediárias, avançadas e Premium, e apresentando uma previsão de que o chip Vera Rubin trará um aumento de 5 vezes na receita em comparação com Grace Blackwell.

Há um ano, Tokens eram apenas uma unidade técnica de medição de interesse dos desenvolvedores. Agora, tornaram-se na linguagem usada por empresas de chips para definir o valor dos produtos, justificando a reorganização de unidades de negócio dos gigantes da internet, e também uma nova vantagem e KPI central nos pacotes de oferta aos engenheiros.

Contudo, o ranking de Tokenmaxxing só regista o consumo, sem registar quantas tarefas efetivas esses Tokens realmente completaram.

Este é precisamente o maior ponto cego na economia de Tokens atualmente.

O que exatamente um engenheiro queima

210 bilhões de Tokens parecem um número assustador. Mas, para entender o seu significado real, é preciso abandonar uma suposição: que Tokens são unidades padrão.

Imagem: Classificação global de consumo de Tokens pelo Tokscale, uma ferramenta open-source de rastreamento e ranking de uso de Tokens, suportando plataformas como Claude Code, Cursor, OpenCode, Codex, entre outras. Os utilizadores podem submeter dados para participar na classificação global.

Há dois anos, o preço de grandes modelos era relativamente simples, geralmente baseado apenas em Tokens de entrada e Tokens de saída. Mas, hoje, os sistemas de preços dos principais fornecedores já estão claramente estratificados, e o mesmo “Token” pode ter preços completamente diferentes dependendo das condições de uso.

Por exemplo, a Anthropic cobra 5 dólares por milhão de Tokens de entrada e 25 dólares por milhão de Tokens de saída no Claude Opus 4.6. Se ativar o Prompt Caching, o cache de 5 minutos custa 6,25 dólares, o de 1 hora custa 10 dólares, e a leitura do cache custa 0,50 dólares. Usando a API de batch, os preços de entrada e saída podem ser reduzidos à metade. Se a inferência for apenas nos EUA, os preços sobem 10%. Em modo Fast, os preços de entrada e saída do Opus 4.6 sobem para 6 vezes o preço padrão.

Ou seja, o mesmo fornecedor, o mesmo modelo, a mesma unidade de cobrança “Token”, podem ter preços várias vezes superiores ou inferiores dependendo de cache, processamento em batch, região de inferência e velocidade.

O que realmente aumenta os custos já não é só a chamada ao modelo. A tabela de preços da OpenAI mostra que a pesquisa na web já é cobrada por tipo de modelo: 10 dólares por mil buscas para GPT-4.1, GPT-4o, enquanto para GPT-5 e outros modelos de inferência, é 25 dólares por mil buscas.

O custo de pesquisa de ficheiros é de 2,50 dólares por mil chamadas, mais 0,10 dólares por GB de armazenamento por dia, com o primeiro GB gratuito. Os containers de código também passaram a ser cobrados separadamente: atualmente, 0,03 dólares por GB, com preços mais altos para containers de 4GB, 16GB e 64GB. A partir de 31 de março de 2026, esses preços passarão a ser cobrados por sessão de 20 minutos por container.

Fora do modelo, custos de pesquisa, recuperação, armazenamento e execução — que antes eram considerados “capacidades secundárias” — agora estão a ser desmembrados em centros de custo independentes.

A Google também está a avançar na mesma direção. A página oficial de preços do Vertex AI mostra que, a partir de 11 de fevereiro de 2026, Code Execution, Sessions e Memory Bank do Agent Engine passarão a ser cobrados oficialmente, com preços separados por hora de vCPU e por GB de memória.

Assim, falar hoje de “preços de grandes modelos” já não se resume ao preço de Tokens de entrada e saída. O que mudou é a lógica de faturação: os fornecedores de IA já vendem um conjunto completo de capacidades — ferramentas que podem ser executadas, armazenadas, pesquisadas, chamadas e que podem funcionar de forma contínua.

Imagem: Captura da página de preços da OpenAI, mostrando a estrutura de cobrança multilayer (Web Search, File Search, Containers, etc.) além dos Tokens.

Por que os Tokens estão a ficar mais baratos, mas as contas mais caras

Se olharmos apenas para os preços de API dos modelos, os Tokens parecem estar a ficar cada vez mais baratos. O Opus da Anthropic passou de 15 dólares por milhão de Tokens para 5 dólares, uma redução de dois terços. O DeepSeek V3.2 chegou a 0,28 dólares. O Google Gemini 2.5 Flash Lite está a cerca de 0,10 dólares.

Os modelos chineses têm uma vantagem de preço ainda maior: dados do OpenRouter mostram que o preço por Token dos modelos chineses é cerca de um sexto a um décimo do preço dos concorrentes estrangeiros. Mesmo após a Huawei HY2.0 Instruct, que terminou a fase de testes públicos e aumentou o preço em mais de 460%, o preço de entrada fica em cerca de 0,62 dólares por milhão de Tokens, ainda abaixo do Haiku 4.5 da Anthropic (1 dólar), e menos de um quinto do Sonnet 4.6.

Imagem: O Artificial Analysis mantém uma classificação em tempo real de modelos de linguagem, com diferenças de preço enormes entre eles.

Porém, o custo total de uso da IA não diminuiu. Três mecanismos estão a atuar simultaneamente.

Primeiro, os modelos tornaram-se mais inteligentes, mas também mais “faladores”. O relatório do Artificial Analysis indica que a média de Tokens de saída em tarefas de inferência é cerca de 5,5 vezes maior do que em modelos não inferenciais. Anthropic e OpenAI cobram pelos Tokens de pensamento estendido, ou seja, quanto mais profundo o raciocínio, maior o custo. O preço por Token caiu, mas o total de Tokens usados para completar uma tarefa aumentou várias vezes.

Segundo, os agentes transformaram Tokens de “uso único” em “uso contínuo”. Essa é a verdadeira força motriz do Tokenmaxxing: os engenheiros não estão a gastar Tokens manualmente, mas sim a usar agentes de IA que operam 24 horas por dia, dividindo tarefas, chamando ferramentas e auto-iterando. Segundo dados da Alibaba Cloud, um único agente consome entre 100 a 1000 vezes mais recursos do que um chatbot tradicional. O consumo diário de Tokens na China ultrapassou 300 trilhões em meados de 2025, chegando a 180 quatrilhões em fevereiro de 2026.

Terceiro, os custos de produção de Tokens estão a subir. Em 18 de março de 2026, Alibaba Cloud e Baidu Cloud anunciaram aumentos nos preços de computação e armazenamento de IA, até 34%. A AWS aumentou em cerca de 15% os preços de capacidade de machine learning em janeiro, e a Google Cloud anunciou aumentos em maio.

Um especialista do setor de cloud computing afirmou: “Este reajuste de preços no mercado de cloud é principalmente impulsionado pela relação oferta/demanda, pelos custos. Os preços futuros serão também fortemente influenciados pela tendência de custos na cadeia de fornecimento.”

GPU, armazenamento paralelo, redes de alta velocidade, energia para data centers — embora os preços dos modelos tenham vindo a baixar, tudo o que é necessário para produzir Tokens está a subir. Quando a Anthropic lançou o Opus 4.6, destacou que “o preço mantém-se inalterado”, sugerindo que as melhorias de capacidade são suportadas pelos próprios fornecedores.

Em outras palavras, o modelo é o motor, mas o combustível, as portagens e as taxas de passagem estão a subir.

Juntos, esses três mecanismos criam uma enorme lacuna entre o preço nominal do Token e o custo real de uma tarefa.

A essência da ansiedade com Tokens

Voltando ao Tokenmaxxing. Os rankings registam o consumo de Tokens, mas não a qualidade do output. Um engenheiro que gasta 33 Wikipedia Tokens numa semana não significa que tenha produzido o equivalente a 33 Wikipedia.

Grandes empresas colocam o consumo de Tokens nos KPIs ou como uma “vantagem”, mas será que isso realmente aumenta a produtividade? Ou é apenas uma “demonstração de produtividade”?

Isso revela uma falha estrutural fundamental na economia de Tokens: ainda não há uma métrica eficaz que relacione o consumo de Tokens com a conclusão de tarefas. Tokens medem o investimento, não o resultado. Um agente que gasta 1 milhão de Tokens para completar uma tarefa, e outro que gasta 100 mil, podem ter rankings opostos no Tokenmaxxing, mesmo que tenham feito o mesmo trabalho.

O CEO da Shopify, Lütke, destacou numa nota que alguns colegas estão a contribuir com “dez vezes mais produção do que se pensava possível”, sem, no entanto, fornecer critérios concretos de avaliação.

Uma nova ansiedade profissional surge: não mostrar produtividade de IA através de elevado consumo de Tokens pode ser visto como atraso. Essa ansiedade é idêntica àquela dos anos 2000, quando as empresas corriam para criar websites, ou dos anos 2010, quando cada marca tinha de ter uma app: a adoção tecnológica passou a ser um sinal, o consumo de Tokens tornou-se num indicador de proxy, e o valor real ficou adiado.

Porém, diferente do passado, o custo desta corrida é real. Uma conta de 150 mil dólares por mês, consumo de 210 bilhões de Tokens numa semana, custos crescentes de computação e armazenamento — Tokenmaxxing não é gratuito. Quando os custos se tornam altos, a diferença entre “queimar Tokens” e “usar Tokens para criar valor” deixa de ser uma questão filosófica e passa a ser financeira.

O preço dos Tokens continuará a cair, isso não há dúvida.

A verdadeira questão é: quem consegue transformar Tokens em tarefas concluídas de forma mais eficiente? Para cada programador, cada empresa, cada utilizador comum, o que importa não é quanto custa por milhão de Tokens, mas quanto vale a pena gastar para fazer uma tarefa.

Essa diferença entre esses dois números é a maior oportunidade de negócio e a maior armadilha de custos na próxima fase da era inteligente baseada em Tokens.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário