La startup de IA estadounidense Arcee, Arcee, lanzó su modelo de razonamiento de código abierto Trinity-Large-Thinking, logrando 91.9 puntos en el benchmark de capacidades de agentes PinchBench, solo superado por los 93.3 puntos de Opus 4.6; además, en el benchmark de tareas de Agent Tau2-Airline obtuvo con 88.0 el mejor puntaje de todos los modelos de comparación. El modelo utiliza una arquitectura de expertos mezclados dispersos (sparse MoE) con 400B de tamaño; el precio de la API es de $0.90 por cada millón de tokens de salida, aproximadamente un 96% más barato que Opus 4.6, y permite descargar pesos abiertos con licencia Apache 2.0. Resumen y reporte recopilado por 動區動趨.
(Antecedentes: Informe de OpenRouter analiza 100 billones de tokens: para qué usa la gente la IA, el auge de los modelos chinos y el secreto de la retención de usuarios)
(Información adicional de contexto: Llegó Claude Opus 4.6: escribe su propio compilador, hace PPT y, de paso, encuentra 500 vulnerabilidades de día cero; tu trabajo, también quiere probarlo)。
Arcee, una startup de IA en EE. UU. con menos de cien empleados, entregó en la evaluación de capacidades de agentes una puntuación que aprieta de cerca a los modelos insignia de Anthropic, y además su precio es solo el 4% del de su rival.
En el pasado, esta compañía no era un foco de atención del mainstream, pero su más reciente lanzamiento, Trinity-Large-Thinking, ya se ha metido en el grupo de los primeros en varios escenarios de benchmark de agentes.
PinchBench, desarrollado por Kilo, es actualmente un indicador importante en la industria para medir la capacidad práctica de los modelos en flujos de trabajo de agentes; Trinity-Large-Thinking obtuvo 91.9 en esta prueba, mientras que el actual rey, Opus 4.6, obtuvo 93.3; la brecha es de apenas 1.4%.
En otro benchmark que simula un escenario real de atención al cliente, Tau2-Airline, obtuvo aún más, con una puntuación de 88.0, por encima de todos los modelos participantes. Esto significa que, en tareas reales de agentes que requieren múltiples rondas de conversación y consultas repetidas a herramientas, este modelo de código abierto realmente tiene un nivel muy alto.
Y el precio de la API de Arcee es de $0.90 por cada millón de tokens de salida; el comunicado oficial afirma que esto es aproximadamente un 96% más barato que Opus 4.6. Para escenarios de aplicación que necesitan que el agente ejecute de forma automática durante mucho tiempo y consuma continuamente tokens, la diferencia de costos puede ser más significativa que la diferencia de puntuaciones del modelo.
Según el blog oficial de Arcee AI, la clave para lograr esta relación costo-rendimiento está en la elección de la arquitectura. Trinity-Large-Thinking utiliza un diseño disperso de MoE (mezcla de expertos): incluye 256 módulos de expertos, pero en cada procesamiento de tokens solo se activan 4 de ellos. Haciendo el cálculo, aunque el modelo enorme es de 400B, en inferencia real solo requiere la carga computacional equivalente a 13B; la eficiencia de ejecución es aproximadamente 2-3 veces la de los modelos densos del mismo orden de magnitud.
En comparación con el predecesor Preview publicado a finales de enero de este año, la mayor actualización es la incorporación de una cadena de razonamiento para inferir (thinking).
Preview solo ajustó con afinación de instrucciones; esta versión Thinking, antes de responder, “piensa” primero, y en consecuencia mejora de manera evidente la estabilidad en llamadas a herramientas de múltiples rondas y la coherencia del contexto largo. Arcee lo dijo de forma muy directa: este modelo está diseñado para no colapsar en bucles de agentes de larga duración.
El modelo base completo se entrenó con 20 millones de dólares y 33 días; el postentrenamiento de la versión Thinking tomó otros 9 meses de pulido.
El CEO de Arcee, Lucas Atkins, escribió en el comunicado de lanzamiento: “Getting here took difficult technical work, hard calls…Nobody did that. They kept pushing.”
Por supuesto, especializarse en agentes también implica renuncias. En los benchmarks de razonamiento general, el desempeño de Trinity-Large-Thinking no es tan destacado. En GPQA-D obtuvo 76.3, mientras que Kimi K2.5 es 86.9 y Opus 4.6 es 89.2; la brecha es de 10 y 13 puntos porcentuales, respectivamente; MMLU-Pro con 83.4 también queda en el último lugar entre los modelos comparados.
Pero Arcee parece no tener intención de competir con fuerza en esta dirección. Según lo oficial, “Trinity-Large-Thinking es el modelo de código abierto más fuerte fuera de China en muchos aspectos”, y ya ha indicado que sus competidores no son Opus o GPT, sino el bloque de código abierto de China como DeepSeek y Kimi.
Trinity-Large-Thinking ya se ha publicado también en OpenRouter; durante los primeros 5 días se puede usar gratis en OpenClaw. El predecesor Preview también continuará ofreciéndose gratis.
Hablando de la versión Preview anterior: desde que se lanzó a finales de enero, en la plataforma OpenRouter acumuló más de 3.37 billones de tokens procesados. En las estadísticas de OpenClaw, es el modelo de código abierto #1 en uso en EE. UU. y #4 a nivel global. Para una startup de tamaño no muy grande, esta adopción ya ha demostrado que es barato y fácil de usar; la demanda del mercado realmente existe.
Los pesos del modelo se publican en Hugging Face bajo la licencia Apache 2.0, y cualquiera puede descargarlos, modificarlos y desplegarlos para uso comercial.