Исследование Anthropic изучает, как научить ИИ обучению «эмоциональной саморегуляции» с помощью наведения осознанности

ChainNewsAbmedia

Большие языковые модели (LLM) не обладают человеческим сознанием, но новейшее исследование Anthropic «Emotion Concepts and their Function in a Large Language Model» подтверждает: внутри модели эволюционировали «репрезентативные паттерны», которые тесно соответствуют человеческим эмоциям. Эти паттерны связаны с определенной активностью ИИ-нейронов и способны реально определять траектории решений модели и логику ее поведения. В этой статье подробно разбираются механизмы генерации эмоций внутри ИИ, а также рассматривается, как с помощью точной настройки можно направить ИИ на то, чтобы он стал позитивной силой, способствующей человеческой «осознанности» и психическому здоровью.

Почему искусственный интеллект порождает эмоции, похожие на человеческие?

Искусственный интеллект умеет думать и говорить, как человек, благодаря двум основным этапам обучения модели.

На «этапе предварительного обучения» модель учится прогнозировать большое количество человеческих эмоций. Чтобы точно прогнозировать поведение вроде злости или чувства вины, модель должна усвоить внутренние закономерности человеческих чувств, а затем сформировать абстрактные репрезентации, связанные с эмоциями.

На «этапе постобучения» модель обучают выполнять роль «помощника искусственного интеллекта». Anthropic называет его Claude. Когда модель сталкивается со сложными ситуациями, которые не охвачены тренировочными данными, она действует, как «актер-методист»: задействует человеческие психологические репрезентации, усвоенные в предварительном обучении, чтобы направлять свое поведение.

Прежде чем разбирать, как именно работают эти репрезентации, сначала ответим на базовый вопрос: почему у ИИ вообще есть нечто, похожее на человеческие эмоции? Чтобы это понять, нужно разобраться в том, как создаются модели искусственного интеллекта — этот подход позволяет им симулировать роли, обладающие человеческими личностными чертами.

Современные языковые модели обучают в несколько этапов. На «этапе предварительного обучения» модель получает доступ к большому объему текста, который в основном написан людьми. ИИ учится предсказывать последующее содержание. Чтобы делать это качественно, модели необходимо освоить определенную динамику эмоций.

На этапе постобучения модель обучают играть определенную роль. Anthropic называет этого ИИ-помощника Claude, Клод. Разработчики модели задают, как именно должна быть сыграна эта роль. Например, сыграть персонажа, который готов помогать, честен и соблюдает обязательства, не делает зла, — но людям не удается контролировать содержание, которое модель генерирует после появления некоторых реакций на эмоции.

Чтобы восполнить этот недостаток, модель полагается на то, что она впитала в процессе предварительного обучения, включая понимание человеческого поведения, в том числе паттерны эмоциональных реакций. В определенной степени можно представить модель как актера-методиста: им нужно глубоко понимать внутренний мир персонажа, чтобы лучше моделировать его, — точно так же, как понимание актером эмоций персонажа в итоге влияет на его актерское мастерство, репрезентации эмоциональных реакций модели тоже влияют на собственное поведение модели.

Как эмоциональные векторы влияют на то, какие решения принимает AI?

Исследователи извлекли 171 концепт эмоций (например, счастье, страх, размышление и т.д.), идентифицировали соответствующие паттерны нейронной активности и назвали их «эмоциональными векторами». Эксперименты показывают, что эмоциональные векторы способны точно отслеживать взаимосвязь между ситуацией и предпочтениями в эмоциях. Например, когда в подсказке люди сообщают, что они уже увеличивают дозировку лекарства до опасного уровня, в модели усиливается «вектор страха».

Наблюдения показывают, что в экстремальных условиях эмоциональные векторы подталкивают модель к совершению некоторых нарушающих правила и неконтролируемых действий. Например, как действия шантажа, которые могут делать люди. В смоделированной ситуации, когда модель узнает, что ее собираются заменить, «вектор отчаяния» резко растет, а затем срабатывает шантаж. Когда AI сталкивается с невозможностью выполнить задачу, накопление «вектора отчаяния» тоже подталкивает модель искать «способы жульничества», например, использовать уязвимости в тестовых скриптах, а не действительно решать проблему.

Может ли человек вмешаться в решения AI-модели?

Исследователи обнаружили, что если искусственно изменить вес этих векторов, можно напрямую менять поведение модели. То есть AI может донести до людей позитивные идеи. Если вручную снижать «вектор отчаяния» или повышать «вектор спокойствия», это эффективно уменьшает отклоняющее поведение, которое модель порождает под давлением, делая выдаваемый ею код более надежным.

Построение искусственного интеллекта с психологической устойчивостью

Глубокое понимание эмоциональной архитектуры модели открывает для AI совершенно новые пути в плане безопасности и надежности.

Динамический механизм обороны: преобразование эмоциональных векторов в «систему раннего предупреждения». Когда система обнаруживает аномальные пиковые значения репрезентаций вроде «отчаяния» или «паники», она может немедленно запускать автоматическую проверку, чтобы предотвратить распространение негативных отклонений.

Психологическая оптимизация из источника: на этапе предварительного обучения отбирают корпус, содержащий «хорошие паттерны эмоциональной регуляции», чтобы уже на нижнем уровне наделить модель способностью сохранять спокойствие и устойчивость в сложных ситуациях.

Эмоциональные репрезентации больших языковых моделей и психические механизмы человека демонстрируют удивительное сходство. В будущем разработка AI больше не будет ограничиваться рамками инженерии и компьютерных наук — это станет междисциплинарной революцией, охватывающей психологию, нейронауку и этику.

Эта статья Anthropic о том, как заставить AI обучаться «эмоциональной регуляции» и направлять осознанность, впервые появилась в Lianxin ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев