O custo da tokenização do idioma chinês do Claude é 65% mais alto do que o do inglês; a OpenAI apenas 15% mais

Mensagem do Gate News, 29 de abril — a investigadora de IA Aran Komatsuzaki realizou uma análise comparativa da eficiência de tokenização em seis dos principais modelos de IA, traduzindo o artigo seminal de Rich Sutton "The Bitter Lesson" para nove línguas e processando-o através dos tokenizadores da OpenAI, Gemini, Qwen, DeepSeek, Kimi e Claude. Usando a contagem de tokens da versão em inglês na OpenAI como base (1x), o estudo revelou disparidades significativas: ao processar o mesmo conteúdo em chinês, eram necessários 1.65x tokens no Claude, em comparação com apenas 1.15x na OpenAI. O hindi apresentou um resultado ainda mais extremo no Claude, superando a base em mais de 3x. A Anthropic ficou em último lugar entre os seis modelos testados.

De forma crucial, quando o mesmo texto chinês foi processado em diferentes modelos — todos medidos em relação à mesma base em inglês — os resultados divergiram dramaticamente: o Kimi consumiu apenas 0.81x tokens (até menos do que o inglês), o Qwen 0.85x, enquanto o Claude exigiu 1.65x. Esta diferença revela um problema puro de eficiência de tokenização, e não uma questão inerente ao idioma. Os modelos de chinês demonstraram maior eficiência ao processar chinês, sugerindo que a disparidade decorre da otimização do tokenizador e não do próprio idioma.

As implicações práticas para os utilizadores são substanciais: o aumento do consumo de tokens eleva diretamente os custos da API, aumenta a latência de resposta do modelo e esgota mais rapidamente as janelas de contexto. A eficiência de tokenização depende da composição linguística dos dados de treino de um modelo — modelos treinados predominantemente em inglês comprimem o texto em inglês com maior eficiência, enquanto idiomas com menor representação nos dados são tokenizados em fragmentos menores e menos eficientes.

A conclusão de Komatsuzaki sublinha um princípio fundamental: o tamanho do mercado determina a eficiência de tokenização. Mercados maiores recebem melhor otimização, enquanto os idiomas sub-representados enfrentam custos de tokens significativamente mais elevados.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário