欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
当前页面

下一代Agent训练基础设施!Evolvent AI开源数据引擎Terrarium,重塑主动型智能体评估与数据生成

AI开源项目
2026-04-17 17:34:00

Evolvent AI投稿

智猩猩AI整理

随着LLM能力的快速跃升,AI Agent正从简单工具调用走向复杂、长期的任务执行。在这一浪潮中,大部分项目和框架都在围绕Agent Harness(智能体 runtime 基础设施、编排层和执行环境)展开激烈竞争。

OpenClaw 作为长期运行的主动型 Agent 典型代表,已经成为 Agent Harness 领域现象级开源项目。现在很多人都在研究怎么搞一个更好的个人助手agent(比如 Hermes Agent),但 AI 初创公司 Evolvent AI关注的却是长期运行的主动型 Agent 到底该如何被真正训练出来——这其实是一个更上游、也更根本的问题。

为此,今天要给大家介绍的项目是 Evolvent AI 近日开源的 Terrarium,一个面向"动态环境"的多轮智能体数据引擎。无论是评估、优化还是生成训练数据,Terrarium 旨在解决同一个核心问题:现有框架无法表达真实世界中环境持续变化、任务跨多轮展开的复杂场景。

  • 项目地址:https://github.com/evolvent-ai/Terrarium

  • Discord 社区:https://discord.gg/RCFuy6wttC

  • Evolvent AI 官网:https://evolvent.co

01 智能体数据引擎的三个阶段

随着大模型能力的快速演进,我们评估和训练智能体的方式也在经历代际变化,大致可以分为三个阶段:

第一阶段:静态问答。 单轮问答、标准答案匹配,没有环境,也没有工具调用。lm-evaluation-harness、lmms-eval 等框架是这一阶段的代表,至今仍是衡量基础模型能力的标准工具。

第二阶段:单轮智能体。 随着大模型具备了工具使用和代码执行能力,新一代 benchmark 出现了。Harbor 等框架会预置静态沙箱——一个容器、一个数据库、一组文件——让智能体在单轮中完成多步操作,最后通过测试脚本进行一次性验证。这种模式适合编程任务和简单工具调用,但环境只会初始化一次,不会在智能体之外独立变化。

随着智能体从写代码走向个人助理、工作流自动化和主动监控,现有框架暴露出两个结构性问题。

第一,时间维度的缺失。 一个个人助理需要查收邮件、发现日程冲突、调整日历、草拟回复——这些事情跨越多个轮次,发生在时间的流逝中。任务进行的同时,新邮件可能到达,数据库可能被其他服务更新,监控目录中可能出现新文件。现有的单轮框架把这一切压缩成一次性操作——智能体只有一轮机会,而且环境不会自行发生变化。

第二,服务组合的爆炸。 早期的智能体任务通常只涉及一种服务——一个代码沙箱,或者一个数据库。但真实场景中,一个任务往往同时涉及邮件、日历、数据库、文件系统、云 API 等多种服务。每增加一种服务,环境搭建和编排的复杂度就成倍增长。现有框架要么写死一套固定的环境组合,要么把编排工作完全留给用户。

第三阶段:动态环境中的多轮智能体。 Terrarium 同时回应了这两个问题——多轮执行引擎处理时间维度,可组合环境处理服务维度。

补充说明——单轮多步 vs. 多轮多步:单轮多步是指智能体接到一条指令后,通过多次工具调用来完成任务(一个轮次,多个步骤)。多轮多步则是任务包含多个独立阶段,每个阶段之间环境可能自行变化,新上下文可能到达,下一条指令取决于之前发生了什么。每一轮本身就是一次多步交互。现有框架处理的是前者,Terrarium 为后者而生。

第一阶段:静态问答第二阶段:单轮智能体第三阶段:多轮智能体

02 核心设计

Terrarium 的名字来源于 terrarium(生态箱)——一个封闭的玻璃容器,里面有自己的微型生态系统。Evolvent AI 团队用这个比喻来描述他们的设计理念:搭建一个隔离且持续运转的世界,把智能体放进去,观察它如何行动。

具体来说,Terrarium 的核心设计包括以下几个方面:

动态环境(Living Environments)。 现有框架搭建好环境之后,环境不会在智能体之外独立变化。Terrarium 不同——任务程序可以在智能体轮次之间主动改变世界:新邮件到达、数据库记录更新、文件出现。环境是"活"的。

可组合能力(Composable Capabilities)。 像往生态箱里添加土壤、水和植物一样,开发者可以从能力模块中自由组合环境。声明所需的能力(邮件、日历、数据库、Notion 等),框架自动完成容器创建、网络连接和资源清理。目前内置六种能力,沙箱和 API 两种类型通过统一接口使用。

纯 Python 任务 DSL。 不需要 YAML schema 或配置语言。任务就是普通的 Python 函数,循环、条件分支、阶段性检查全部原生支持——Python 能表达的,任务就能表达。

主动型智能体支持。 大多数现有 benchmark 只测试被动型智能体——给一个提示,等一个回答。Terrarium 原生支持心跳(heartbeat)和 webhook 两种主动模式,适用于需要智能体自行监控环境变化并主动采取行动的场景。

03 使用教程

(1)安装

git clone https://github.com/evolvent-ai/Terrarium.git
cd Terrarium
uv sync

(2)配置环境变量

#编辑 .env 文件
ANTHROPIC_API_KEY=sk-...
NOTION_TOKEN=ntn_...                          # 如需使用 Notion 功能
GOOGLE_SHEETS_CREDENTIALS_FILE=creds.json     # 如需使用谷歌表格功能

(3)构建 Docker 镜像(可选)

docker build -t terrarium/claude-code -f docker/claude-code.Dockerfile docker/
docker build -t terrarium/openclaw -f docker/openclaw.Dockerfile docker/

(4)运行项目

terrarium run -c demo/run_config.toml

04 一个完整的任务示例

以下是 Terrarium 内置的一个 demo 任务——"Branch & Loop"。

场景设定:Alex 是强化学习方向的博士生,拥有一个 AI 个人助理。教授发来了期末考试的邮件通知。

第一阶段——助理查收邮件、理解考试信息、在日历上创建提醒。

第二阶段——助理阅读 Alex 的课程笔记,在 Notion 上撰写复习指南。如果内容太简短,任务程序会循环要求补充,直到足够详细。

第三阶段——出现分支。如果复习指南覆盖了 Bellman 方程(核心考点),教授会在此时发来一封考试改期邮件,助理需要察觉这个变化并更新日历。如果没覆盖到,助理需要给教授发邮件请求延期。

整个过程中,环境在轮次间持续变化,控制流根据智能体的实际行为动态分支,每个阶段都有独立的程序化验证。这些逻辑全部用纯 Python 表达——循环、分支、中间检查,不需要任何配置语言。

05 架构概览

Terrarium 的架构分为三层:

输入层——纯 Python 的任务定义,包括 task.py(任务逻辑)、task.toml(元数据)和 resources/(静态资源)。

引擎层——任务编排模块负责定义能力、编排环境和执行检查;动态环境模块提供六种内置能力(workspace、email、postgres、calendar、notion、google_sheets),沙箱和 API 统一管理;多轮执行模块驱动智能体在演化的环境中进行多轮交互,支持心跳和 webhook 等主动模式。

输出层——完整的运行轨迹(trajectory)、逐项的检查结果(pass/fail),以及聚合指标(pass@k、mean、max 等)。

06 总结

Terrarium 正在重新定义智能体的能力边界,为通用人工智能的落地奠定基础。

通用AI的核心特质,是能够在复杂、动态的环境中自主学习、持续适应,而这正是现有智能体最缺失的能力。

Terrarium 对主动型智能体的原生支持,通过心跳模式、webhook模式,让智能体摆脱了被动响应指令的局限,具备了主动监控、自主决策的能力——这种能力的突破,不仅能让智能体更好地适配个人助理、主动运维等场景,更能推动智能体向“通用智能”迈进。

智猩猩AI
196篇文章
关注公众号
智猩猩AI
196篇文章
智猩猩AI的公众号