Agent Evaluation Suite

让 Agent 评测回到真实工作现场。

AIPERT 正在构建面向 AI Agent 的评测任务、评分标准与轨迹检查工具，覆盖文件、浏览器、代码、文档、数据分析和长流程协作等真实工作场景。

查看评测集设计了解评测方法

证据优先每个评分都关联到产物、日志、轨迹或人工复核点。

真实工作流任务来自专业工作中的连续操作。

可复现运行评测用例有确定性、版本管理和轨迹分析设计。

可审计评分将自动评分和专家判断统一呈现。

Benchmark Design

从任务构造到最终判断，评测围绕轨迹和结果展开。

构建真实任务

收集需要规划、工具调用、信息综合和产物交付的 Agent 任务，并保留真实环境中的约束。

定义可观察成功

每个任务包含预期输出、约束条件、Rubrics说明，让模型表现可以被评测。

运行、评分、审计

评估 Agent 的执行轨迹、中间产物和最终交付，并在自动评分不可靠的位置引入专家复核。

Evaluation Philosophy

比LLM评测更接近工作，比主观印象更可追踪。

关注 Agent 是否能在约束下完成工作：读取材料、操作工具、修改产物、从错误中恢复，并留下可评测的执行记录。

任务保真

保留真实工作的复杂结构，同时明确评测边界。

评分清晰

区分必要、重要、附加和扣分项。

轨迹可读

评测不仅看最终答案，也看 Agent 如何到达结果。

发布版本

公开结论会绑定到版本化任务、记录材料和可复现实验。

Task Domains

面向需要行动，而不只是回答的 Agent。

软件工程

仓库理解、问题修复、回归测试、文档更新和代码审查。

数据与研究

表格分析、网页研究、带来源综合和结构化抽取。

文档工作流

幻灯片、报告、PDF、电子表格、格式检查和修订任务。

浏览器操作

多步浏览、表单交互、页面检查、比较判断和证据留存。

工具编排

命令行、本地文件、服务检查、部署流程和错误恢复。

可靠性与安全

指令遵循、边界处理、风险意识和拒答质量。

Partners & Contributors

与学校、研究者和领域专家一起构建可验证的 Agent 评测。

AIPERT 的合作网络会覆盖高校实验室、领域工作流专家、评测工程师和学生贡献者。以下展示位用于发布已确认的合作学校与合作人。

合作学校与机构名单持续更新

高校联合实验室计算机学院人工智能学院软件学院数据科学中心跨学科智能研究院产业智能实验室评测方法研究组

合作研究者

Agent 评测方法、任务构造与结果分析。

领域专家

提供真实工作流、行业约束和专家复核标准。

评测工程师

负责环境封装、自动检查、轨迹采集和回归验证。

学生贡献者

参与任务整理、标注复核、文档建设和案例维护。

Roadmap

后续将发布的内容

预览

评测集概览、评测原则和代表性任务类别。

任务套件

版本化评测用例、评分标准、环境说明和验证材料。

评测报告

模型与 Agent 的结果、轨迹分析、局限性和复核说明。

Agent 评测应该让进展变得可见：尝试了什么，完成了什么，失败在哪里，还有哪些需要人工复核。

Resources

研究材料、任务样例和评测报告会在发布后集中放在这里。

评测集简介即将发布任务样例即将发布评测报告即将发布合作说明联系我们

Contact

可靠的 Agent 评测，需要跨学科协作。

AIPERT 欢迎围绕任务设计、评测方法、轨迹分析和领域评测集建设展开合作。

contact@aipert.top