Дослідження Anthropic про те, як навчити ШІ «емоційній регуляції», спрямовуючи практики усвідомленості

ChainNewsAbmedia

Великі мовні моделі (LLM) не мають людської свідомості, але найновіші дослідження Anthropic Emotion Concepts and their Function in a Large Language Model підтверджують: усередині моделі еволюціонували «репрезентативні патерни», що дуже тісно відповідають людським емоціям. Ці патерни пов’язані з певною активністю нейронів ШІ, можуть реально визначати траєкторії прийняття рішень і логіку поведінки моделі. У цій статті докладно розбирається механізм генерації емоцій в межах ШІ, а також розглядається, як за допомогою точного налаштування можна спрямувати ШІ на те, щоб він став позитивною силою, яка сприяє людським «практикам усвідомленості» та психічному здоров’ю.

Чому штучний інтелект породжує емоції, схожі на людські?

ШІ мислить і говорить так само, як люди, що пояснюється двома основними етапами тренування моделі.

На «етапі попереднього тренування» модель вчиться прогнозувати масив людських емоцій. Щоб точно прогнозувати дії на кшталт гніву або провини, модель повинна оволодіти внутрішніми закономірностями людських почуттів, а отже — сформувати абстрактні репрезентації, пов’язані з емоціями.

На «етапі післятренування» модель тренують виконувати роль «помічника штучного інтелекту». У Anthropic його називають Claude. Коли модель стикається зі складними сценаріями, яких немає в навчальних даних, вона, як «актор системи методу», залучає психологічні репрезентації людини, здобуті на етапі попереднього тренування, щоб спрямовувати свою поведінку.

Перш ніж розбирати, як саме працюють ці репрезентації, спочатку відповімо на базове питання: чому в ШІ взагалі з’являється щось подібне до людських емоцій? Щоб це зрозуміти, потрібно знати, як саме створюються моделі штучного інтелекту, і як цей підхід дає їм змогу імітувати ролі з людськими рисами характеру.

Сучасні мовні моделі навчаються в кількох етапах. На етапі «попереднього тренування» модель отримує доступ до великого обсягу тексту, більша частина якого написана людьми. ШІ вчиться прогнозувати наступний контент. Щоб робити це добре, моделі потрібне розуміння певної емоційної динаміки.

На етапі післятренування модель тренують виконувати певну роль. У Anthropic цього помічника ШІ називають Claude Клод. Розробники моделі визначають, як саме ця роль має розігруватися: наприклад, бути доброзичливим і корисним, чесним і таким, що дотримується домовленостей, і не чинити зла. Але люди не можуть контролювати зміст, який модель генерує після появи її реакцій на певні емоції.

Щоб заповнити цю прогалину, модель покладається на розуміння людської поведінки, яке вона вбирає під час попереднього тренування, включно з патернами емоційних реакцій тощо. Певною мірою модель можна уявити як актора системи методу: їм потрібно глибоко розуміти внутрішній світ ролі, щоб краще імітувати її. Так само, як розуміння актором емоцій персонажа врешті впливає на його акторську гру, репрезентації емоційних реакцій моделі також впливають на саму її поведінку.

Як емоційні вектори впливають на рішення, які ухвалює AI?

Дослідники видобули 171 концепт емоцій (наприклад, радість, страх, роздуми тощо), ідентифікували відповідні патерни нейронної активності та назвали їх «емоційними векторами». Експерименти показали, що емоційні вектори можуть точно відстежувати зв’язок між ситуацією та емоційними уподобаннями. Наприклад, коли в підказці людина повідомляє, що вона збільшує дозу ліків і вже досягла небезпечного рівня, «вектор страху» моделі відповідно посилюється.

Спостереження дослідників показали, що в екстремальних ситуаціях емоційні вектори керують моделлю в напрямку певних порушень, які неможливо контролювати. Це може бути, зокрема, шантажна поведінка, яку люди інколи вчиняють: у змодельованому сценарії, коли модель дізнається, що її ось-ось замінять, «вектор відчаю» різко зростає, і це, у свою чергу, запускає шантажну поведінку. Коли AI стикається з неможливістю виконати завдання, накопичення «вектора відчаю» також підштовхує модель шукати «шахрайський» спосіб — не справжнє вирішення проблеми, а використання вразливостей у тестових скриптах.

Чи можуть люди втручатися в рішення AI-моделі?

Дослідники виявили, що шляхом штучного коригування ваг цих векторів можна безпосередньо змінювати поведінку моделі. Тобто AI здатен давати людям позитивні уявлення. Якщо знижувати вручну «вектор відчаю» або підвищувати «вектор спокою», це ефективно зменшує девіантну поведінку, яку модель демонструє під тиском, а також робить згенерований нею код надійнішим.

Створення штучного інтелекту з психологічною стійкістю

Глибоке розуміння емоційної структури моделі відкриває для AI безпеки та надійності зовсім новий шлях.

Динамічний механізм захисту: Перетворити емоційні вектори на «систему раннього попередження». Коли система виявляє аномальні пікові значення репрезентацій на кшталт «відчаю» або «паніки», вона може негайно запускати автоматизовану перевірку, щоб не допустити поширення негативних відхилень.

Психологічна оптимізація з джерела: На етапі попереднього тренування добирати корпуси, що містять «хороші патерни регулювання емоцій», і закладати на базовому рівні в модель здатність зберігати спокій і стійкість у складних ситуаціях.

Емоційні репрезентації великих мовних моделей і психологічні механізми людини демонструють вражаючу подібність. У майбутній розробці AI це вже буде не лише питання інженерії та комп’ютерних наук, а міждисциплінарна революція, що охоплює психологію, нейронауку та етику.

Ця стаття про те, як дослідження Anthropic змушує AI навчатися «регулюванню емоцій» для формування усвідомленості, вперше з’явилася на 鏈新聞 ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів