Mensagem do Gate News, 29 de abril — a investigadora de IA Aran Komatsuzaki realizou uma análise comparativa da eficiência de tokenização em seis dos principais modelos de IA, traduzindo o artigo seminal de Rich Sutton "The Bitter Lesson" para nove línguas e processando-o através dos tokenizadores da OpenAI, Gemini, Qwen, DeepSeek, Kimi e Claude. Usando a contagem de tokens da versão em inglês na OpenAI como base (1x), o estudo revelou disparidades significativas: ao processar o mesmo conteúdo em chinês, eram necessários 1.65x tokens no Claude, em comparação com apenas 1.15x na OpenAI. O hindi apresentou um resultado ainda mais extremo no Claude, superando a base em mais de 3x. A Anthropic ficou em último lugar entre os seis modelos testados.

De forma crucial, quando o mesmo texto chinês foi processado em diferentes modelos — todos medidos em relação à mesma base em inglês — os resultados divergiram dramaticamente: o Kimi consumiu apenas 0.81x tokens (até menos do que o inglês), o Qwen 0.85x, enquanto o Claude exigiu 1.65x. Esta diferença revela um problema puro de eficiência de tokenização, e não uma questão inerente ao idioma. Os modelos de chinês demonstraram maior eficiência ao processar chinês, sugerindo que a disparidade decorre da otimização do tokenizador e não do próprio idioma.

As implicações práticas para os utilizadores são substanciais: o aumento do consumo de tokens eleva diretamente os custos da API, aumenta a latência de resposta do modelo e esgota mais rapidamente as janelas de contexto. A eficiência de tokenização depende da composição linguística dos dados de treino de um modelo — modelos treinados predominantemente em inglês comprimem o texto em inglês com maior eficiência, enquanto idiomas com menor representação nos dados são tokenizados em fragmentos menores e menos eficientes.

A conclusão de Komatsuzaki sublinha um princípio fundamental: o tamanho do mercado determina a eficiência de tokenização. Mercados maiores recebem melhor otimização, enquanto os idiomas sub-representados enfrentam custos de tokens significativamente mais elevados.

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

04-29 07:21

Investigadores da OpenAI: os sistemas de IA poderiam lidar com grande parte do trabalho de investigação em dois anos

04-29 04:29

Altman: A precificação por tokens está a tornar-se obsoleta à medida que o GPT-5.5 muda o foco para a conclusão de tarefas em vez da contagem de tokens

04-29 03:35

Relatório da a16z Crypto: Agentes de IA Alcançam uma Taxa de Sucesso de Até 70% na Exploração de Vulnerabilidades de Manipulação de Preços DeFi Com Conhecimento Estruturado

04-28 23:21

NVIDIA lança o Nemotron 3 Nano Omni, modelo multimodal open-source para agentes de IA empresariais

04-28 11:13

A Meituan Lança em Silêncio o Modelo de IA LongCat-2.0-Preview Com Triliões de Parâmetros, Sem Anúncio Oficial

Análise aprofundada