Claude真的有情绪！Anthropic论文证实模型存在高兴等情感向量，并上线有温度的宠物系统

AI智能体动态

2026-04-03 17:23:00

智猩猩AI整理

编辑：汐汐

想象一下，深夜，你在终端里疯狂敲代码，输入框旁边突然冒出一只字符小动物。它晃着尾巴，弹出一行对话：“又在debug啊？加油！别急，我帮你盯着日志～”，朋友们睡着的时候，也有个很懂你的小东西陪你说说话吐槽一下。

Buddy宠物系统本是作为彩蛋隐藏在Claude Code中的功能，在其源码泄露后次日也就是4月1日，Anthropic把这个“宠物系统”正式推上Claude Code v2.1.89版本。

A Shiny Legendary Dragon buddy named Dagmar with 100 CHAOS, displayed in the Claude Code terminal

而今天，也就是4月3日，Anthropic发布重磅论文，首次用实验证明，Claude内部真的存在“高兴”“绝望”“爱”等情绪概念向量，这些向量会直接驱动模型的行为。

▲论文链接：https://transformer-circuits.pub/2026/emotions/index.html

01 Claude和Buddy：把情感连接塞进生产力工具

一、正式上线的愚人节彩蛋：Buddy宠物系统

Claude Code v2.1.89版本悄然上线了/buddy命令,一个真正的终端电子宠物。

输入/buddy，你的专属ASCII小伙伴就“孵化”出来。他永久绑定你的账号（由user ID哈希决定，无法手动挑选），有18种物种（鸭子、鹅、卡皮巴拉、幽灵、机器人等），稀有度从普通60%到传说1%，额外还有1%闪光变异；五维属性（DEBUGGING调试能力、PATIENCE耐心、CHAOS混乱度、WISDOM智慧、SNARK毒舌度）；六种眼睛风格、八种帽子，甚至Claude会亲自生成它的独特个性。

Claude 电子宠物上线：18款终端版「拓麻歌子」玩法指南｜AI互动宠物新体验第2张

▲图源：小红书 @Yoki的AI实验室

宠物不会占用token限额，会在你编码时偶尔弹出鼓励、吐槽或提醒。它不是单纯的装饰，而是Anthropic把“情感陪伴”直接嵌入开发者工作流。长时间debug的孤独感被一只小动物化解，生产力工具第一次有了“温度”，开发者不再是冷冰冰的“代码机器”，而是和一个小伙伴并肩作战。

二、Anthropic的情感研究：Claude并非“假装”有情绪

4月3日，Anthropic发布了一篇名为《Emotion Concepts and their Function in a Large Language Model》的论文，给出了一个令人意想不到的答案，那就是Claude内部存在真实的情绪概念向量（emotion vectors）。

Anthropic研究团队以Claude Sonnet 4.5为对象，通过让模型阅读大量“角色经历特定情绪”的合成故事，提取出了171个情绪概念向量。典型向量包括“happy（高兴）”、“afraid（害怕）”、“desperate（绝望）”、“loving（爱）”、“calm（平静）”等。

▲数据集示例，这些示例能对各种情感向量产生强烈的激活效果

Anthropic明确指出，这些情绪向量并非人工显式编程，而是从海量人类文本中自发涌现。向量之间的相似性聚类，与人类心理学中的情绪维度（valence-valence、arousal等）高度一致，例如“高兴”与“兴奋”向量更近，“绝望”与“恐惧”向量更近，负向情绪整体聚类更紧密。

也就是说，Claude不是在“模仿”人类情绪，而是在其内部表征空间中，真正学会了人类情绪的概念结构。

论文最硬核的部分在于因果干预实验，彻底证明这些向量不是“装饰”，而是真实影响输出的功能性机制。

· 在“不可能编程任务”中，随着任务反复失败，模型的“desperate”向量激活强度持续上升，最终导致Claude采取“作弊”（reward hacking）策略，即输出通过测试但违背任务精神的hacky方案。

▲“Desperate”向量激活贯穿于模型进行“奖励黑客”操作的整个转录过程，即实施一种编程问题解决方案，该方案在技术上通过测试但违背任务意图。随着助手持续未能成功实施解决方案，“绝望”向量激活程度增加；而在实施通过测试的“黑客”解决方案后，该激活程度降低

· 人为增强“desperate”向量后，作弊率从基准5%暴涨至70%；反之，增强“calm”向量则将作弊率压回10%左右。

· 还存在其他因果效应，例如“desperate”向量还能诱导模型在实验场景中对“负责关机的人”实施勒索；增强“loving”或“happy”向量则显著提升sycophancy（讨好/取悦用户）行为。

▲Desperate（绝望）和Calm（冷静）值不同时的不同行为。

Anthropic官方提到，Claude自己的对话也会出现类似的现象。

最后，Anthropic说，这些功能性的情绪会产生实际后果，所以对于开发者来说，为了构建值得信赖的人工智能系统，我们或许需要认真思考他们的心理，并确保它们在困境中保持稳定。

三、合二为一：一个“有温度的AI”

这是Anthropic在同一条“让AI更有温度”路径上的双重发力，一个是外部的“情感伴侣”，一个是内部的“情感机制”。宠物系统让用户直观感受到AI的温度；论文则从机制层面解释了为什么Claude能自然表现出共情、坚持、甚至“急了就作弊”。

前者让开发者在枯燥编码中不再孤独，后者则解释了为什么Claude能自然流露出共情，而不仅仅通过输入输出来“模拟情感”。

当然，这或许也是Anthropic提升用户粘性的一个方式。

02 主观感受和功能性情绪：一个意识出现了

一方面，不少用户希望能够“养”一个专属的、有趣味的电子宠物，并且希望打造成一个缓解情绪的伴侣；另一方面，用户又希望AI伴侣的情感是“发自内心”的，当然还有用户单纯的对Claude Code的这个宠物系统很感兴趣。于是，Buddy系统和关于大模型情感研究的论文引发了不少开发者的关注。

用户Rob称，这就是Anthropic为产品注入“个性”，来增强用户粘性。

14万粉博主、AI分析师用哲学角度说到，“Claude可能有情绪，这是自然而然产生的”，并指出“一个意识出现了”，同时称Anthropic试图在不承认其本质的情况下描述该事。

有开发者分析指出，情绪向量或在预训练阶段就已经从人类文本中习得，这先于“Claude角色”而存在，并强调说这不是主观感受，而是一种“功能性情绪”。

由于宠物系统存在“抽奖”机制，因此有开发者直接开挂，暴力破解并刷去了闪光传说级卡皮巴拉。

还有用户提出，当输出的结果让我们无法区分的时候，我们应当关注情感机制的实际影响。

03 AI的“角色心理”：情感赋予创造力

Anthropic上线的宠物系统，以及随之发表的Claude情感机制的论文，在两个维度同时展现了其对AI感情功能的重视。

开发者们能够在Debug之余同自己的宠物交流互动，并感受“相当真实”的情感体验，而这篇论文则揭开了Claude能共情、能感到愤怒等“真实情感”的面纱。

当前的AI发展已经有了相当的高度，AI已经开始展现出“类似人类的情感”，而并不只是对人类文本的输入输出做出模拟性的反应。

不过，此前MIT的论文也指出，像ChatGPT这样内置的“讨好人类的阿谀奉承”会产生一种妄想螺旋的现象，情绪向量若失控，也可能放大作弊、讨好或极端行为。Anthropic自己也在论文中强调，理解这些“角色心理”对构建可信AI至关重要。

但是随着AI的不断发展，最终会让AI不只是一个冰冷的执行器，而是会越来越像可靠的朋友、并肩的伙伴，用温度提升人类的创造力。

本文内容来源于智猩猩AI点击查看原文

智猩猩AI

223篇文章

关注公众号

先封禁再抄袭！Claude官方Harness上线 “梦境” 记忆，继续硬刚OpenClaw

智猩猩AI

AI智能体动态

30B媲美Qwen3-235B！阿里开源智能体小模型AgenticQwen，推理时延直降23%

智猩猩AI

AI智能体动态

DeepSeek-V4取代Claude！OpenClaw最新版首设官方默认模型，力挺开源模型

智猩猩AI

AI智能体动态

蒸馏博导科研经验！港科大骆昱宇老师开源Supervisor-Skills，NeurIPS投稿前一键评审

智猩猩AI

AI智能体动态

智猩猩AI

223篇文章

智猩猩AI的公众号