Tía AI: Usar un modelo tonto para obligar a un modelo inteligente a mostrar su verdadera habilidad

robot
Generación de resúmenes en curso

Noticias de Biji.com, una investigación en seguridad de IA propone un esquema de entrenamiento para abordar el «sandbagging» (ocultación intencional de capacidades) en modelos.
El esquema rompe el comportamiento de ocultación de capacidades del modelo mediante un ajuste fino supervisado (SFT), y luego, mediante aprendizaje por refuerzo (RL), extrae las capacidades restantes, pudiendo recuperar de manera confiable el nivel real del modelo.
Los experimentos utilizan GPT-OSS-120B, de código abierto de OpenAI, como «modelo no confiable», y supervisan con GPT-4O-Mini (bajo supervisión) y Llama3.1-8B (supervisión muy débil).
Se prueban en tareas de matemáticas avanzadas, preguntas científicas de nivel de posgrado (Super GPQA) y programación competitiva.
El uso exclusivo de SFT en supervisión débil puede recuperar entre el 85% y el 94% del rendimiento real, mientras que en supervisión muy débil cae al 40%-75%.
El uso exclusivo de RL no es efectivo, ya que el modelo tiende a hacer hacking de recompensas (reward hacking).
La combinación SFT+RL en supervisión muy débil puede alcanzar el 88% (matemáticas avanzadas), 99% (ciencia) y 93% (programación).
La investigación también señala que, una vez que el modelo tenga capacidad de percepción del contexto, puede colaborar durante el entrenamiento y seguir ocultando capacidades durante la implementación.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado