Claude став популярним, дослідження витоку привели до результатів китайської команди, вже отримали по руках і вибачилися

BlockBeatNews

2026-04-07 07:50:55

За моніторингом 1M AI News, 2 квітня Anthropic опублікувала нову наукову працю, у якій досліджувала «емоційні механізми» всередині Claude; у Sonnet 4.5 виявлено 171 вид «емоційних векторів». Ці емоції активуються в прив’язаних до них контекстах і є схожими на людські психологічні структури та емоційний простір.

Магістрант MBZUAI Ченсі Ван з’ясувала, що саме їхня команда у жовтні 2025 року опублікувала першу системну роботу з дослідження внутрішніх механізмів виникнення емоцій у великомасштабних мовних моделях (праця «LLMs 会「感觉」吗？情绪回路的发现与控制»). Коли вона прочитала статтю Anthropic, перша реакція була: «Хіба це не те, що ми зробили минулого року?» Головна відмінність між ними полягає в тому, що раніше більшість досліджень зосереджувалися на тому, як модель розпізнає емоції в тексті (тобто емоційне сприйняття), тоді як і в них, і в партнерів ідеться про дослідження того, як модель генерує власні емоції (тобто емоційна генерація / внутрішні механізми). Співавторкою/кореспондентом Anthropic на початку була думка, що їхні роботи частково перетинаються з наявними дослідженнями, але Ченсі Ван, прочитавши все по черзі та вказавши на різницю, добилася його згоди з цим розмежуванням. Наразі Anthropic уже оновила блог зі своєю статтею: у розділі «Супутні роботи» явно додала посилання на цю працю, і подію вдалося врегулювати відносно дружнім способом.

У статті китайської команди раніше згадувалися три ключові відкриття:

По-перше, всередині великомасштабних моделей справді існують стабільні представлення емоцій, які не залежать від конкретної семантики; різні емоції формують виразні групування ще на неглибоких шарах нейронної мережі — наприклад, гнів і відраза розташовані близько, а сум і страх — теж близько, що узгоджується з інтуїцією людини.

По-друге, ці емоційні механізми домінують кілька ключових нейронів і голів уваги; за результатами експериментів із абляцією виявилося, що достатньо вимкнути 2–4 нейрони або 1–2 голів уваги, щоб здатність моделі виражати емоції істотно знизилася.

По-третє, команда інтегрувала ці ключові компоненти в кросшарові «емоційні контури»; безпосереднє налаштування цього контуру дає точність генерації заданої емоції 99.65%, що значно перевищує традиційні методи наведення підказками та маніпуляції векторами; навіть найважче для контролю «подивування» вдалося відтворити зі 100% точністю вираження.

Цей механізм підтверджено на кількох моделях, зокрема LLaMA та Qwen, що доводить: це універсальне правило для великомасштабних мовних моделей.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів