Mercor发布APEX-Agents基准测试：Gemini 3 Flash与GPT-5.2领跑专业Agent

近日，初创公司Mercor发布了一项名为“AI代理生产力指数”（APEX-Agents）的全新基准测试，旨在评估AI Agent在投资银行、管理咨询和法律服务等专业领域的长周期、跨应用任务执行能力。在此次测试中，Gemini 3 Flash（高思考）以24.0%的胜率位居榜首，GPT-5.2（高思考）以23.0%紧随其后。APEX-Agents基准测试由256名具有平均12.9年从业经验的资深专业人士共同构建，包含480个复杂任务和33个模拟真实办公环境。这些任务要求AI像真实的分析师或律师一样，在无人工干预的情况下，自动操作日历、邮件、代码、表格及PPT等等。测试结果显示，尽管顶尖闭源模型表现出色，但开源模型如GPT-OSS-120B和Kimi K2 Thinking的胜率均低于5%。Mercor已将APEX-Agents基准数据集及其配套的代码在GitHub上开源，为AI领域的研究者提供了宝贵的资源。该项目的GitHub仓库和论文都可以在提供的链接中找到。

Mercor发布APEX-Agents基准测试：Gemini 3 Flash与GPT-5.2领跑专业Agent

评论已关闭