Face oculta da Lua abre o código aberto Kimi K2.6, superando várias referências de programação fechadas e o flagship fechado

De acordo com o monitoramento Beating, o novo modelo de próxima geração de código aberto da face oculta da Lua, Kimi K2.6, foi lançado simultaneamente na página Kimi.com, no aplicativo Kimi, na API da plataforma aberta e na ferramenta de programação própria Kimi Code.
O K2.6 anteriormente foi disponibilizado por um mês apenas internamente no Kimi Code sob o nome de pré-visualização de código para usuários beta, e hoje foi lançado oficialmente como um modelo completo e com API aberta.

Na tabela de referência oficial, o K2.6 supera em várias tarefas de programação e agentes o atual flagship fechado mais forte: SWE-Bench Pro 58.6 (GPT-5.4 xhigh 57.7, Claude Opus 4.6 max effort 53.4, Gemini 3.1 Pro 54.2); HLE completo com ferramentas 54.0, todos os três fechados estão abaixo desse número; DeepSearchQA f1 92.5, a mesma tarefa com GPT-5.4 tem apenas 78.6. Terminal-Bench 2.0 alcança 66.7, ficando atrás apenas do Gemini 3.1 Pro com 68.5; SWE-Bench Verified 80.2, praticamente empatado com Opus 4.6 com 80.8 e Gemini 3.1 Pro com 80.6.
No setor de código aberto, até agora, opções capazes de competir com os principais modelos fechados nesse nível de benchmark de programação quase não existiam.

O blog oficial também apresentou duas séries de números de testes de execução de longo prazo. Uma delas mostra que o K2.6, ao reescrever o Qwen3.5-0.8B para inferência usando Zig (uma linguagem de programação de sistema pouco comum) no Mac local, após mais de 4000 chamadas de ferramenta, 12 horas de execução contínua e 14 rodadas de iteração, aumentou a taxa de processamento de aproximadamente 15 tokens/sec para 193 tokens/sec, cerca de 20% mais rápido que o LM Studio.
A segunda demonstra que assumiu um motor de matching open source com 8 anos de história, exchange-core, rodando por 13 horas, com mais de mil chamadas de ferramenta, modificando mais de 4000 linhas de código e reconfigurando a topologia dos threads principais (de 4ME+2RE para 2ME+1RE), a taxa de processamento aumentou em 185%.
Ambos os números são auto-testes oficiais, sem reprodução independente até o momento.

O Agent Swarm atualizado simultaneamente com o K2.6 pode rodar 300 sub-agentes e até 4000 passos, enquanto o limite anterior do K2.5 era de 100 e 1500 passos.
A face oculta da Lua já utilizou a infraestrutura RL própria para rodar um agente de operação autônoma por 5 dias com o K2.6, e a equipe oficial divulgou uma parte do diário de trabalho.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários