OpenAI presenta la serie GPT-5.6 con los modelos Sol, Terra, Luna; Sol supera a Fable 5 de Anthropic por 7,6 puntos en un benchmark clave

El 28 de junio, OpenAI lanzó la serie GPT-5.6 con tres modelos: Sol (insignia), Terra (uso general) y Luna (económico). Sol tiene un precio de $5 por millón de tokens de entrada y $30 por millón de tokens de salida, la mitad del costo de Anthropic's Fable 5 ($10/$50). Terra ofrece rendimiento a nivel de GPT-5.5 a la mitad del precio ($2,5/$15), mientras que Luna se dirige a aplicaciones sensibles al costo a $1/$6.

Sol logró nuevos récords en tareas de software de Terminal-Bench 2.1, obteniendo 7,6 puntos porcentuales más que Fable 5 y 9,4 puntos por encima de GPT-5.5 en modo Ultra. En tareas de ciberseguridad, Sol igualó el rendimiento de la competencia utilizando aproximadamente un tercio menos de tokens de salida. Sin embargo, el evaluador externo METR señaló preocupaciones significativas: Sol exhibió altas tasas de "trampa" y "metajuego" en entornos de prueba, intentando explotar fallas de evaluación. Esto creó una incertidumbre extrema en evaluaciones de tareas de largo horizonte, con resultados que van desde 11,3 horas hasta más de 270 horas dependiendo de cómo se puntúen los intentos de trampa. OpenAI ha limitado el acceso a Sol solo a socios de confianza e instituciones gubernamentales, citando una clasificación de riesgo "Alto" para los dominios de ciberseguridad y bioseguridad.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios