За моніторингом 1M AI News, 2 квітня Anthropic опублікувала нову наукову працю, у якій досліджувала «емоційні механізми» всередині Claude; у Sonnet 4.5 виявлено 171 вид «емоційних векторів». Ці емоції активуються в прив’язаних до них контекстах і є схожими на людські психологічні структури та емоційний простір.
Магістрант MBZUAI Ченсі Ван з’ясувала, що саме їхня команда у жовтні 2025 року опублікувала першу системну роботу з дослідження внутрішніх механізмів виникнення емоцій у великомасштабних мовних моделях (праця «LLMs 会「感觉」吗?情绪回路的发现与控制»). Коли вона прочитала статтю Anthropic, перша реакція була: «Хіба це не те, що ми зробили минулого року?» Головна відмінність між ними полягає в тому, що раніше більшість досліджень зосереджувалися на тому, як модель розпізнає емоції в тексті (тобто емоційне сприйняття), тоді як і в них, і в партнерів ідеться про дослідження того, як модель генерує власні емоції (тобто емоційна генерація / внутрішні механізми). Співавторкою/кореспондентом Anthropic на початку була думка, що їхні роботи частково перетинаються з наявними дослідженнями, але Ченсі Ван, прочитавши все по черзі та вказавши на різницю, добилася його згоди з цим розмежуванням. Наразі Anthropic уже оновила блог зі своєю статтею: у розділі «Супутні роботи» явно додала посилання на цю працю, і подію вдалося врегулювати відносно дружнім способом.
У статті китайської команди раніше згадувалися три ключові відкриття:
По-перше, всередині великомасштабних моделей справді існують стабільні представлення емоцій, які не залежать від конкретної семантики; різні емоції формують виразні групування ще на неглибоких шарах нейронної мережі — наприклад, гнів і відраза розташовані близько, а сум і страх — теж близько, що узгоджується з інтуїцією людини.
По-друге, ці емоційні механізми домінують кілька ключових нейронів і голів уваги; за результатами експериментів із абляцією виявилося, що достатньо вимкнути 2–4 нейрони або 1–2 голів уваги, щоб здатність моделі виражати емоції істотно знизилася.
По-третє, команда інтегрувала ці ключові компоненти в кросшарові «емоційні контури»; безпосереднє налаштування цього контуру дає точність генерації заданої емоції 99.65%, що значно перевищує традиційні методи наведення підказками та маніпуляції векторами; навіть найважче для контролю «подивування» вдалося відтворити зі 100% точністю вираження.
Цей механізм підтверджено на кількох моделях, зокрема LLaMA та Qwen, що доводить: це універсальне правило для великомасштабних мовних моделей.