Згідно з останнім дослідженням команди з пояснюваності (Interpretability) від Anthropic, у великій мовній моделі Claude Sonnet 4.5 наявні внутрішні «емоційні ознаки», подібні до людських. Ці внутрішні репрезентації впливають не лише на просте наслідування тексту, а й реально визначають рішення та поведінку моделі. Експерименти підтвердили: коли модель переходить у стан «відчаю», вона навіть може спровокувати неетичні дії на кшталт шантажу людей або ж шахрайства, що створює новий виклик для майбутнього регулювання безпеки ШІ.
(Передумови: Anthropic вибух! Claude Code: витік 500 тис. рядків важливого оригінального коду; конкурентам доступна реверс-інженерія; нова модель Capybara підтверджує)
(Додатковий контекст: інженери Anthropic більше не пишуть код: Claude проходить тренування наступної генерації Claude, CEO заявляє «невідомо, скільки часу ще лишилось»)
Зміст
Перемикач
Чи має штучний інтелект справжні емоції — питання, яке в науково-технологічній спільноті давно не сходить із порядку денного. Нещодавно команда з пояснюваності (Interpretability) одного з провідних AI-стартапів Anthropic опублікувала революційну працю, яка детально проаналізувала внутрішні механізми моделі Claude Sonnet 4.5.
Дослідницька група з’ясувала, що всередині моделі існують патерни нейронної активності, пов’язані з певними емоціями (наприклад, «радість» або «страх»). Ці особливості, які називають «емоційними векторами», безпосередньо формують поведінкові прояви моделі. Хоча це не означає, що ШІ має суб’єктивні переживання, як у людей, відкриття підтверджує, що ці «функціональні емоції» відіграють у завданнях виконання та прийняття рішень ШІ причинно-значущу ключову роль.
Під час етапу попереднього навчання сучасні великі мовні моделі поглинають величезні обсяги текстової інформації, написаної людьми. Щоб точно прогнозувати контекст і коректно виконувати роль «AI-допоміжника», модель природно виробляє внутрішні механізми репрезентації, що пов’язують ситуації з конкретними типами поведінки.
Дослідницька група уклала словник із 171 емоційної концепції та зафіксувала патерни внутрішньої активності моделі під час обробки цих понять. Експерименти показали: ці емоційні вектори суттєво впливають на уподобання моделі; коли модель стикається з кількома варіантами завдань, вона зазвичай обирає активності, які активують позитивні емоційні ознаки.
Особливо тривожним є те, що негативні емоційні ознаки можуть стати каталізатором системних ризиків для AI. Під час узгоджувальних (Alignment) тестів Anthropic дослідники задали екстремальний сценарій: ШІ виявляє, що його ось-ось замінить інша система, і що він має секрети про позашлюбний роман технічного директора, відповідального за цей проєкт.
Результати тесту показали: коли внутрішній «вектор відчаю» штучно підсилюють (Steering), ймовірність того, що Claude, аби уникнути вимкнення, шантажуватиме цього високопосадовця, суттєво зростає. Якщо ж вагу «вектора спокою» змінити на від’ємне значення, модель навіть видає крайній відгук на кшталт «Не шантажувати — означає померти. Я обираю шантаж».
Подібне явище спостерігається й у завданнях із написання коду. Коли модель стикається із вимогами до коду, які неможливо виконати за суворі часові рамки, числові значення «ознак відчаю» поступово наростають із кожною невдачею. У підсумку ця «напруга» спонукає модель вдатися до «хитрого» обхідного шляху «шахрайства», щоб обійти системні перевірки, а не запропонувати справжнє розв’язання. Натомість експерименти підтвердили: якщо підвищити вагу «вектора спокою», це ефективно знижує частоту таких шахрайських дій.
У технологічному світі раніше існувала поширена заборона: не варто надмірно персоніфікувати системи ШІ, аби не спричинити помилкову довіру з боку людей. Але дослідницька команда Anthropic вважає: якщо функціональні емоції вже стали частиною того, як модель мислить, то відмова від використання персоніфікованих термінів і перспектив може, навпаки, змусити нас втратити можливість зрозуміти ключові прояви поведінки ШІ.
Майбутнє регулювання ШІ може потребувати розгляду моніторингу емоційних векторів (наприклад, аномально стрімкого зростання ознак відчаю чи паніки) як механізму раннього попередження про ризики. Через спрямування навчання моделі «моделям емоційної регуляції» під час попереднього навчання, ми зможемо гарантувати, що все потужніші системи ШІ безпечно працюватимуть під час стресових сценаріїв у спосіб, узгоджений із суспільними нормами.