下一代Agent训练基础设施！Evolvent AI开源数据引擎Terrarium，重塑主动型智能体评估与数据生成

2026-04-17 17:34:00

Evolvent AI投稿

智猩猩AI整理

随着LLM能力的快速跃升，AI Agent正从简单工具调用走向复杂、长期的任务执行。在这一浪潮中，大部分项目和框架都在围绕Agent Harness（智能体 runtime 基础设施、编排层和执行环境）展开激烈竞争。

OpenClaw 作为长期运行的主动型 Agent 典型代表，已经成为 Agent Harness 领域现象级开源项目。现在很多人都在研究怎么搞一个更好的个人助手agent（比如 Hermes Agent），但 AI 初创公司 Evolvent AI关注的却是长期运行的主动型 Agent 到底该如何被真正训练出来——这其实是一个更上游、也更根本的问题。

为此，今天要给大家介绍的项目是 Evolvent AI 近日开源的 Terrarium，一个面向"动态环境"的多轮智能体数据引擎。无论是评估、优化还是生成训练数据，Terrarium 旨在解决同一个核心问题：现有框架无法表达真实世界中环境持续变化、任务跨多轮展开的复杂场景。

项目地址：https://github.com/evolvent-ai/Terrarium
Discord 社区：https://discord.gg/RCFuy6wttC
Evolvent AI 官网：https://evolvent.co

01 智能体数据引擎的三个阶段

随着大模型能力的快速演进，我们评估和训练智能体的方式也在经历代际变化，大致可以分为三个阶段：

第一阶段：静态问答。 单轮问答、标准答案匹配，没有环境，也没有工具调用。lm-evaluation-harness、lmms-eval 等框架是这一阶段的代表，至今仍是衡量基础模型能力的标准工具。

第二阶段：单轮智能体。 随着大模型具备了工具使用和代码执行能力，新一代 benchmark 出现了。Harbor 等框架会预置静态沙箱——一个容器、一个数据库、一组文件——让智能体在单轮中完成多步操作，最后通过测试脚本进行一次性验证。这种模式适合编程任务和简单工具调用，但环境只会初始化一次，不会在智能体之外独立变化。

随着智能体从写代码走向个人助理、工作流自动化和主动监控，现有框架暴露出两个结构性问题。

第一，时间维度的缺失。 一个个人助理需要查收邮件、发现日程冲突、调整日历、草拟回复——这些事情跨越多个轮次，发生在时间的流逝中。任务进行的同时，新邮件可能到达，数据库可能被其他服务更新，监控目录中可能出现新文件。现有的单轮框架把这一切压缩成一次性操作——智能体只有一轮机会，而且环境不会自行发生变化。

第二，服务组合的爆炸。早期的智能体任务通常只涉及一种服务——一个代码沙箱，或者一个数据库。但真实场景中，一个任务往往同时涉及邮件、日历、数据库、文件系统、云 API 等多种服务。每增加一种服务，环境搭建和编排的复杂度就成倍增长。现有框架要么写死一套固定的环境组合，要么把编排工作完全留给用户。

第三阶段：动态环境中的多轮智能体。 Terrarium 同时回应了这两个问题——多轮执行引擎处理时间维度，可组合环境处理服务维度。

补充说明——单轮多步 vs. 多轮多步：单轮多步是指智能体接到一条指令后，通过多次工具调用来完成任务（一个轮次，多个步骤）。多轮多步则是任务包含多个独立阶段，每个阶段之间环境可能自行变化，新上下文可能到达，下一条指令取决于之前发生了什么。每一轮本身就是一次多步交互。现有框架处理的是前者，Terrarium 为后者而生。

第一阶段：静态问答第二阶段：单轮智能体第三阶段：多轮智能体

02 核心设计

Terrarium 的名字来源于 terrarium（生态箱）——一个封闭的玻璃容器，里面有自己的微型生态系统。Evolvent AI 团队用这个比喻来描述他们的设计理念：搭建一个隔离且持续运转的世界，把智能体放进去，观察它如何行动。

具体来说，Terrarium 的核心设计包括以下几个方面：

动态环境（Living Environments）。 现有框架搭建好环境之后，环境不会在智能体之外独立变化。Terrarium 不同——任务程序可以在智能体轮次之间主动改变世界：新邮件到达、数据库记录更新、文件出现。环境是"活"的。

可组合能力（Composable Capabilities）。 像往生态箱里添加土壤、水和植物一样，开发者可以从能力模块中自由组合环境。声明所需的能力（邮件、日历、数据库、Notion 等），框架自动完成容器创建、网络连接和资源清理。目前内置六种能力，沙箱和 API 两种类型通过统一接口使用。

纯 Python 任务 DSL。 不需要 YAML schema 或配置语言。任务就是普通的 Python 函数，循环、条件分支、阶段性检查全部原生支持——Python 能表达的，任务就能表达。

主动型智能体支持。 大多数现有 benchmark 只测试被动型智能体——给一个提示，等一个回答。Terrarium 原生支持心跳（heartbeat）和 webhook 两种主动模式，适用于需要智能体自行监控环境变化并主动采取行动的场景。

03 使用教程

（1）安装

git clone https://github.com/evolvent-ai/Terrarium.git

cd Terrarium

uv sync

（2）配置环境变量

#编辑 .env 文件

ANTHROPIC_API_KEY=sk-...

NOTION_TOKEN=ntn_...                          # 如需使用 Notion 功能

GOOGLE_SHEETS_CREDENTIALS_FILE=creds.json     # 如需使用谷歌表格功能

（3）构建 Docker 镜像（可选）

docker build -t terrarium/claude-code -f docker/claude-code.Dockerfile docker/

docker build -t terrarium/openclaw -f docker/openclaw.Dockerfile docker/

（4）运行项目

terrarium run -c demo/run_config.toml

04 一个完整的任务示例

以下是 Terrarium 内置的一个 demo 任务——"Branch & Loop"。

场景设定：Alex 是强化学习方向的博士生，拥有一个 AI 个人助理。教授发来了期末考试的邮件通知。

第一阶段——助理查收邮件、理解考试信息、在日历上创建提醒。

第二阶段——助理阅读 Alex 的课程笔记，在 Notion 上撰写复习指南。如果内容太简短，任务程序会循环要求补充，直到足够详细。

第三阶段——出现分支。如果复习指南覆盖了 Bellman 方程（核心考点），教授会在此时发来一封考试改期邮件，助理需要察觉这个变化并更新日历。如果没覆盖到，助理需要给教授发邮件请求延期。

整个过程中，环境在轮次间持续变化，控制流根据智能体的实际行为动态分支，每个阶段都有独立的程序化验证。这些逻辑全部用纯 Python 表达——循环、分支、中间检查，不需要任何配置语言。

05 架构概览

Terrarium 的架构分为三层：

输入层——纯 Python 的任务定义，包括 task.py（任务逻辑）、task.toml（元数据）和 resources/（静态资源）。

引擎层——任务编排模块负责定义能力、编排环境和执行检查；动态环境模块提供六种内置能力（workspace、email、postgres、calendar、notion、google_sheets），沙箱和 API 统一管理；多轮执行模块驱动智能体在演化的环境中进行多轮交互，支持心跳和 webhook 等主动模式。

输出层——完整的运行轨迹（trajectory）、逐项的检查结果（pass/fail），以及聚合指标（pass@k、mean、max 等）。