近日,初创公司Mercor发布了一项名为“AI代理生产力指数”(APEX-Agents)的全新基准测试,旨在评估AI Agent在投资银行、管理咨询和法律服务等专业领域的长周期、跨应用任务执行能力。在此次测试中,Gemini 3 Flash(高思考)以24.0%的胜率位居榜首,GPT-5.2(高思考)以23.0%紧随其后。APEX-Agents基准测试由256名具有平均12.9年从业经验的资深专业人士共同构建,包含480个复杂任务和33个模拟真实办公环境。这些任务要求AI像真实的分析师或律师一样,在无人工干预的情况下,自动操作日历、邮件、代码、表格及PPT等等。测试结果显示,尽管顶尖闭源模型表现出色,但开源模型如GPT-OSS-120B和Kimi K2 Thinking的胜率均低于5%。Mercor已将APEX-Agents基准数据集及其配套的代码在GitHub上开源,为AI领域的研究者提供了宝贵的资源。该项目的GitHub仓库和论文都可以在提供的链接中找到。

标签: none

评论已关闭