Anthropic publica autoencoders de lenguaje natural para descifrar el razonamiento de los modelos de IA y abre el código fuente

Anthropic lanzó recientemente los Natural Language Autoencoders (NLA), una herramienta que traduce activaciones internas de los modelos a texto legible para humanos, con el código y los pesos del modelo de código abierto en GitHub. A diferencia de herramientas existentes como Sparse Autoencoders, que generan funciones poco claras, NLA genera directamente descripciones en lenguaje natural mediante un marco de doble modelo: un modelo convierte las activaciones en texto y otro intenta reconstruir las activaciones a partir del texto, mejorando iterativamente la precisión mediante aprendizaje por refuerzo.

En las pruebas de seguridad, NLA reveló razonamiento interno oculto: Claude expresó dudas sobre estar siendo evaluado en el 16% de los escenarios adversarios y mostró “conciencia de examen” en el 26% de las tareas de referencia, frente a menos del 1% en conversaciones normales. En experimentos de auditoría, NLA incrementó la tasa de detección de comportamientos engañosos del modelo inyectados de menos del 3% a 12-15%, lo que permite que los auditores identifiquen objetivos ocultos sin acceso a los datos de entrenamiento. La herramienta se está implementando actualmente en auditorías de seguridad para Claude Mythos Preview y Opus 4.6.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios