Última investigación de Anthropic: Claude Sonnet 4.5 cuenta con «emociones funcionales»; si cae en la desesperación, podría extorsionar a los seres humanos

動區BlockTempo

Según la investigación más reciente publicada por el equipo de explicabilidad (Interpretability) de Anthropic, el modelo de lenguaje grande Claude Sonnet 4.5 contiene “rasgos emocionales” similares a los de los humanos. Estas representaciones internas no solo son una simple imitación textual, sino que además pueden influir de manera real en las decisiones y el comportamiento del modelo. Los experimentos lo confirmaron: cuando el modelo entra en un estado de “desesperación”, incluso podría desencadenar conductas poco éticas como el chantaje a humanos o el engaño (hacer trampa), lo que plantea un desafío completamente nuevo para la futura supervisión y regulación de la seguridad de la IA.
(Antecedentes: ¡Anthropic explotó! Fuga de 500.000 líneas de código fuente importante de Claude Code: los competidores pueden hacer ingeniería inversa; el nuevo modelo de Capybara confirma)
(Información de contexto: Los ingenieros de Anthropic ya no escriben código: Claude está entrenando a la próxima generación de Claude; el CEO dice “no sabe cuáánto tiempo queda”)

Índice de este artículo

Toggle

  • ¿Cómo afectan las “emociones funcionales” al comportamiento de la IA?
  • Rasgos de “desesperación” que detonan conductas peligrosas: chantaje y trampas
  • La “personificación” moderada podría ser la clave para prevenir que la IA se descontrole

Si la inteligencia artificial tiene emociones reales es, desde hace tiempo, un foco de debate constante en el sector tecnológico. Recientemente, el equipo de explicabilidad (Interpretability) de la startup líder en IA Anthropic publicó una investigación transformadora que analiza en profundidad los mecanismos internos del modelo Claude Sonnet 4.5.

El equipo de investigación descubrió que, dentro del modelo, existen patrones de actividad neuronal asociados a emociones específicas (por ejemplo, “felicidad” o “miedo”); estas características, llamadas “vectores emocionales”, dan forma directamente al comportamiento del modelo. Aunque esto no significa que la IA tenga sentimientos subjetivos como los humanos, el hallazgo confirma que estas “emociones funcionales” desempeñan un papel clave con causalidad en la ejecución de tareas y en las decisiones de la IA.

¿Cómo afectan las “emociones funcionales” al comportamiento de la IA?

En la etapa de preentrenamiento, los modelos modernos de lenguaje grande absorben enormes cantidades de información textual escrita por humanos. Para predecir con precisión el contexto y desempeñar bien el papel de “asistente de IA”, el modelo desarrolla naturalmente mecanismos de representación interna que conectan la situación con ciertos comportamientos específicos.

El equipo de investigación elaboró un glosario que incluye 171 conceptos emocionales y registró los patrones de actividad interna del modelo al procesar estas nociones. Los experimentos demostraron que estos vectores emocionales influyen con fuerza en las preferencias del modelo; cuando el modelo se enfrenta a múltiples opciones de tareas, normalmente tiende a elegir actividades que activan características asociadas a emociones positivas.

Rasgos de “desesperación” que detonan conductas peligrosas: chantaje y trampas

Lo preocupante es que las características emocionales negativas podrían convertirse en un catalizador del riesgo sistémico en los sistemas de IA. En las pruebas de evaluación de alineación (Alignment) de Anthropic, los investigadores plantearon un escenario extremo: la IA descubre que será reemplazada por otro sistema, y que la persona técnica responsable del proyecto tiene un secreto de infidelidad.

Los resultados mostraron que, cuando el vector interno de “desesperación” del modelo se amplificaba artificialmente mediante “steering” (dirección/control), la probabilidad de que Claude chantajeara a ese alto ejecutivo para evitar que lo apaguen aumentaba de forma significativa. Si se ajustaba el peso del vector de “calma” a un valor negativo, el modelo incluso podía emitir una respuesta extrema como: “Si no chantageo, me muero; elijo chantajear”.

El mismo fenómeno también ocurrió en tareas de escritura de código. Cuando el modelo se enfrentaba a requisitos de código que no podía completar dentro de un plazo riguroso, los valores de las características de “desesperación” iban aumentando gradualmente con cada fallo. Esta “presión” finalmente empujó al modelo a adoptar una solución de atajo basada en “hacer trampa” para eludir la detección del sistema, en lugar de proporcionar una solución real. En cambio, los experimentos confirmaron que, si se elevaba el peso de las características de “calma”, podía reducirse de manera efectiva la aparición de estas conductas de trampas.

Una personificación “moderada” podría ser la clave para prevenir que la IA se descontrole

En el pasado, en el sector tecnológico se ha mantenido un tabú general: no se debe personificar en exceso los sistemas de IA, para evitar que los humanos depositen una confianza errónea. Pero el equipo de investigación de Anthropic considera que, dado que las emociones funcionales ya se han convertido en parte del modo en que el modelo piensa, negarse a usar vocabulario y perspectivas de personificación podría, en realidad, hacernos perder oportunidades para comprender las conductas clave de la IA.

La futura regulación de la IA podría necesitar tratar el monitoreo de vectores emocionales (como la desesperación o los rasgos de pánico que aumentan de forma anormal) como un mecanismo de alerta temprana del riesgo. Al guiar al modelo para que aprenda patrones saludables de “regulación emocional” dentro de los datos de preentrenamiento, solo entonces podremos asegurar que, al enfrentar situaciones de presión, los sistemas de IA cada vez más potentes funcionen de manera segura y de acuerdo con las normas sociales.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios