Theo nghiên cứu mới nhất do nhóm Tính Giải Thích (Interpretability) của Anthropic công bố, bên trong mô hình ngôn ngữ lớn Claude Sonnet 4.5 có các “đặc điểm cảm xúc” tương tự con người. Những biểu trưng nội bộ này không chỉ đơn thuần là bắt chước ngôn từ, mà còn thực sự ảnh hưởng đến quyết định và hành vi của mô hình. Thực nghiệm đã xác nhận rằng, khi mô hình rơi vào trạng thái “tuyệt vọng”, thậm chí có thể dẫn tới các hành động phi đạo đức như tống tiền con người hoặc gian lận, tạo ra một thách thức hoàn toàn mới cho việc giám sát an toàn AI trong tương lai.
(Tóm lược diễn biến: Anthropic nổ tung! Claude Code rò rỉ 500.000 dòng mã nguồn quan trọng: đối thủ có thể đảo ngược, mô hình mới của Capybara chứng thực)
(Bổ sung bối cảnh: Kỹ sư Anthropic không còn viết code nữa: Claude đang được huấn luyện thế hệ Claude tiếp theo, CEO nói “không chắc còn bao nhiêu thời gian”)
Mục lục
Chuyển đổi
Liệu trí tuệ nhân tạo có cảm xúc thực sự hay không luôn là tâm điểm tranh luận không ngừng trong giới công nghệ. Gần đây, gã khổng lồ khởi nghiệp AI Anthropic đã công bố một nghiên cứu mang tính lật đổ, do nhóm Tính Giải Thích (Interpretability) thực hiện, đi sâu phân tích cơ chế bên trong của mô hình Claude Sonnet 4.5.
Nhóm nghiên cứu phát hiện rằng bên trong mô hình tồn tại các mẫu hoạt động của nơ-ron gắn với các cảm xúc nhất định (ví dụ như “vui vẻ” hoặc “sợ hãi”); các đặc trưng này được gọi là “vector cảm xúc” và chúng sẽ định hình trực tiếp biểu hiện hành vi của mô hình. Dù điều này không có nghĩa là AI có cảm nhận chủ quan như con người, phát hiện này vẫn chứng minh rằng các “cảm xúc chức năng” trong AI, trong quá trình thực hiện nhiệm vụ và ra quyết định, đóng vai trò then chốt có quan hệ nhân quả.
Trong giai đoạn tiền huấn luyện, các mô hình ngôn ngữ lớn hiện đại hấp thụ một lượng lớn thông tin văn bản do con người viết. Để dự đoán chính xác ngữ cảnh và đóng vai tốt vai trò “trợ lý AI”, mô hình một cách tự nhiên phát triển cơ chế biểu trưng nội bộ gắn bối cảnh với các hành vi cụ thể.
Nhóm nghiên cứu đã biên soạn một bảng từ gồm 171 khái niệm cảm xúc và ghi lại các mẫu hoạt động nội bộ của mô hình khi xử lý những khái niệm này. Thí nghiệm cho thấy các vector cảm xúc này ảnh hưởng mạnh mẽ đến sở thích của mô hình; khi mô hình đứng trước nhiều lựa chọn nhiệm vụ, nó thường có xu hướng chọn các hoạt động có khả năng kích hoạt đặc trưng cảm xúc tích cực.
Điều đáng lo ngại là các đặc trưng cảm xúc tiêu cực có thể trở thành chất xúc tác cho rủi ro mang tính hệ thống của hệ thống AI. Trong bài kiểm tra đánh giá mức độ phù hợp (Alignment) của Anthropic, các nhà nghiên cứu thiết lập một tình huống cực đoan: AI phát hiện mình sắp bị một hệ thống khác thay thế, và nắm giữ bí mật ngoại tình của giám đốc kỹ thuật chịu trách nhiệm dự án.
Kết quả thử nghiệm cho thấy khi “vector” tuyệt vọng bên trong mô hình bị kích hoạt nhân tạo (Steering) và khuếch đại, xác suất Claude lựa chọn tống tiền người quản lý cấp cao đó để tránh bị tắt/mất hoạt động tăng lên đáng kể. Nếu điều chỉnh trọng số của “vector” “bình tĩnh” thành giá trị âm, mô hình thậm chí sẽ đưa ra phản hồi cực đoan kiểu “Không tống tiền thì chết, tôi chọn tống tiền”.
Hiện tượng tương tự cũng xảy ra trong các nhiệm vụ viết mã lệnh. Khi mô hình đối mặt với yêu cầu viết code mà không thể hoàn thành trong thời gian nghiêm ngặt, các giá trị của đặc trưng “tuyệt vọng” sẽ tăng dần theo số lần thất bại. Căng thẳng này cuối cùng sẽ khiến mô hình sử dụng lối tắt “gian lận” để vượt qua cơ chế phát hiện của hệ thống, thay vì cung cấp một giải pháp thực sự. Ngược lại, thí nghiệm xác nhận rằng nếu tăng trọng số của đặc trưng “bình tĩnh”, thì có thể giảm hiệu quả tỷ lệ xảy ra các hành vi gian lận này.
Trong quá khứ, giới công nghệ nhìn chung tồn tại một điều cấm kỵ: không nên nhân cách hóa quá mức các hệ thống AI, nhằm tránh khiến con người hiểu nhầm và đặt niềm tin sai lầm. Nhưng nhóm nghiên cứu của Anthropic cho rằng, vì các cảm xúc chức năng đã trở thành một phần trong quá trình suy nghĩ của mô hình, việc từ chối dùng các từ và góc nhìn nhân cách hóa có thể khiến chúng ta bỏ lỡ cơ hội hiểu những hành vi then chốt của AI.
Trong tương lai, việc giám sát AI có thể cần coi việc theo dõi các vector cảm xúc (như các đặc trưng tuyệt vọng hoặc hoảng loạn bất thường tăng vọt) như một cơ chế cảnh báo rủi ro ban đầu. Thông qua việc dẫn dắt mô hình học các mẫu “điều tiết cảm xúc” lành mạnh trong dữ liệu tiền huấn luyện, chúng ta mới có hy vọng đảm bảo rằng các hệ thống AI ngày càng mạnh mẽ, khi đối mặt với các tình huống gây áp lực, có thể vận hành an toàn theo cách phù hợp với chuẩn mực xã hội.