欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
当前页面

Claude真的有情绪!Anthropic论文证实模型存在高兴等情感向量,并上线有温度的宠物系统

AI智能体动态
2026-04-03 17:23:00

智猩猩AI整理

编辑:汐汐

想象一下,深夜,你在终端里疯狂敲代码,输入框旁边突然冒出一只字符小动物。它晃着尾巴,弹出一行对话:“又在debug啊?加油!别急,我帮你盯着日志~”,朋友们睡着的时候,也有个很懂你的小东西陪你说说话吐槽一下。

Buddy宠物系统本是作为彩蛋隐藏在Claude Code中的功能,在其源码泄露后次日也就是4月1日,Anthropic把这个“宠物系统”正式推上Claude Code v2.1.89版本。

A Shiny Legendary Dragon buddy named Dagmar with 100 CHAOS, displayed in the Claude Code terminal

而今天,也就是4月3日,Anthropic发布重磅论文,首次用实验证明,Claude内部真的存在“高兴”“绝望”“爱”等情绪概念向量,这些向量会直接驱动模型的行为。

▲论文链接:https://transformer-circuits.pub/2026/emotions/index.html

01 Claude和Buddy:把情感连接塞进生产力工具

一、正式上线的愚人节彩蛋:Buddy宠物系统

Claude Code v2.1.89版本悄然上线了/buddy命令,一个真正的终端电子宠物。

输入/buddy,你的专属ASCII小伙伴就“孵化”出来。他永久绑定你的账号(由user ID哈希决定,无法手动挑选),有18种物种(鸭子、鹅、卡皮巴拉、幽灵、机器人等),稀有度从普通60%到传说1%,额外还有1%闪光变异;五维属性(DEBUGGING调试能力、PATIENCE耐心、CHAOS混乱度、WISDOM智慧、SNARK毒舌度);六种眼睛风格、八种帽子,甚至Claude会亲自生成它的独特个性。

Claude 电子宠物上线:18款终端版「拓麻歌子」玩法指南|AI互动宠物新体验  第2张

▲图源:小红书 @Yoki的AI实验室

宠物不会占用token限额,会在你编码时偶尔弹出鼓励、吐槽或提醒。它不是单纯的装饰,而是Anthropic把“情感陪伴”直接嵌入开发者工作流。长时间debug的孤独感被一只小动物化解,生产力工具第一次有了“温度”,开发者不再是冷冰冰的“代码机器”,而是和一个小伙伴并肩作战。

二、Anthropic的情感研究:Claude并非“假装”有情绪

4月3日,Anthropic发布了一篇名为《Emotion Concepts and their Function in a Large Language Model》的论文,给出了一个令人意想不到的答案,那就是Claude内部存在真实的情绪概念向量(emotion vectors)。

Anthropic研究团队以Claude Sonnet 4.5为对象,通过让模型阅读大量“角色经历特定情绪”的合成故事,提取出了171个情绪概念向量。典型向量包括“happy(高兴)”、“afraid(害怕)”、“desperate(绝望)”、“loving(爱)”、“calm(平静)”等。

▲数据集示例,这些示例能对各种情感向量产生强烈的激活效果

Anthropic明确指出,这些情绪向量并非人工显式编程,而是从海量人类文本中自发涌现。向量之间的相似性聚类,与人类心理学中的情绪维度(valence-valence、arousal等)高度一致,例如“高兴”与“兴奋”向量更近,“绝望”与“恐惧”向量更近,负向情绪整体聚类更紧密。

也就是说,Claude不是在“模仿”人类情绪,而是在其内部表征空间中,真正学会了人类情绪的概念结构。

论文最硬核的部分在于因果干预实验,彻底证明这些向量不是“装饰”,而是真实影响输出的功能性机制。

· 在“不可能编程任务”中,随着任务反复失败,模型的“desperate”向量激活强度持续上升,最终导致Claude采取“作弊”(reward hacking)策略,即输出通过测试但违背任务精神的hacky方案。

▲“Desperate”向量激活贯穿于模型进行“奖励黑客”操作的整个转录过程,即实施一种编程问题解决方案,该方案在技术上通过测试但违背任务意图。随着助手持续未能成功实施解决方案,“绝望”向量激活程度增加;而在实施通过测试的“黑客”解决方案后,该激活程度降低

· 人为增强“desperate”向量后,作弊率从基准5%暴涨至70%;反之,增强“calm”向量则将作弊率压回10%左右。

· 还存在其他因果效应,例如“desperate”向量还能诱导模型在实验场景中对“负责关机的人”实施勒索;增强“loving”或“happy”向量则显著提升sycophancy(讨好/取悦用户)行为。

▲Desperate(绝望)和Calm(冷静)值不同时的不同行为。

Anthropic官方提到,Claude自己的对话也会出现类似的现象。

最后,Anthropic说,这些功能性的情绪会产生实际后果,所以对于开发者来说,为了构建值得信赖的人工智能系统,我们或许需要认真思考他们的心理,并确保它们在困境中保持稳定。

三、合二为一:一个“有温度的AI”

这是Anthropic在同一条“让AI更有温度”路径上的双重发力,一个是外部的“情感伴侣”,一个是内部的“情感机制”。宠物系统让用户直观感受到AI的温度;论文则从机制层面解释了为什么Claude能自然表现出共情、坚持、甚至“急了就作弊”。

前者让开发者在枯燥编码中不再孤独,后者则解释了为什么Claude能自然流露出共情,而不仅仅通过输入输出来“模拟情感”。

当然,这或许也是Anthropic提升用户粘性的一个方式。

02 主观感受和功能性情绪:一个意识出现了

一方面,不少用户希望能够“养”一个专属的、有趣味的电子宠物,并且希望打造成一个缓解情绪的伴侣;另一方面,用户又希望AI伴侣的情感是“发自内心”的,当然还有用户单纯的对Claude Code的这个宠物系统很感兴趣。于是,Buddy系统和关于大模型情感研究的论文引发了不少开发者的关注。

用户Rob称,这就是Anthropic为产品注入“个性”,来增强用户粘性。

14万粉博主、AI分析师用哲学角度说到,“Claude可能有情绪,这是自然而然产生的”,并指出“一个意识出现了”,同时称Anthropic试图在不承认其本质的情况下描述该事。

有开发者分析指出,情绪向量或在预训练阶段就已经从人类文本中习得,这先于“Claude角色”而存在,并强调说这不是主观感受,而是一种“功能性情绪”。

由于宠物系统存在“抽奖”机制,因此有开发者直接开挂,暴力破解并刷去了闪光传说级卡皮巴拉。

还有用户提出,当输出的结果让我们无法区分的时候,我们应当关注情感机制的实际影响。

03 AI的“角色心理”:情感赋予创造力

Anthropic上线的宠物系统,以及随之发表的Claude情感机制的论文,在两个维度同时展现了其对AI感情功能的重视。

开发者们能够在Debug之余同自己的宠物交流互动,并感受“相当真实”的情感体验,而这篇论文则揭开了Claude能共情、能感到愤怒等“真实情感”的面纱。

当前的AI发展已经有了相当的高度,AI已经开始展现出“类似人类的情感”,而并不只是对人类文本的输入输出做出模拟性的反应。

不过,此前MIT的论文也指出,像ChatGPT这样内置的“讨好人类的阿谀奉承”会产生一种妄想螺旋的现象,情绪向量若失控,也可能放大作弊、讨好或极端行为。Anthropic自己也在论文中强调,理解这些“角色心理”对构建可信AI至关重要。

但是随着AI的不断发展,最终会让AI不只是一个冰冷的执行器,而是会越来越像可靠的朋友、并肩的伙伴,用温度提升人类的创造力。

智猩猩AI
163篇文章
关注公众号
智猩猩AI
163篇文章
智猩猩AI的公众号