iflow-ROME-30B-A3B:代理制作的革新与开源生态系统的构建
iflow-ROME-30B-A3B项目是一个专注于代理制作的开源项目,它要求大型语言模型(LLMs)在现实环境中进行多回合操作,通过采取行动、观察结果和迭代优化工件来满足复杂需求。代理制作要求模型不仅能够生成简单的任务响应,还要能够在交互环境中持续地规划、执行并保持可靠性。为了实现这一目标,iflow-ROME-30B-A3B项目提出了一个代理学习生态系统(ALE),它由三个主要系统组件构成:ROLL是一个训练后体重优化的框架,ROCK是一个用于协调环境以生成轨迹的沙盒环境管理器,而iFlow CLI是一个能够实现可配置且高效的环境交互上下文工程代理框架。该项目还发布了一个名为ROME的开源代理模型,该模型基于ALE并训练了超过一百万的轨迹。此外,项目还开发了一套数据组合协议,用于综合不同类型的数据,并内置了安全性、安全性和有效性的验证功能。此外,项目还提出了一种新颖的策略优化算法IPA,该算法通过语义交互块而非单个代币赋予信用,从而提升长期训练稳定性。实验结果显示,ROME在多个主流代理基准测试中表现出色,如Terminal-Bench 2.0和SWE-bench Verified,其准确率分别为24.72%和57.40%,优于同等规模的模型。为了进行更严格的评估,项目还推出了Terminal Bench Pro,这是一个在规模、领域覆盖和污染控制方面都有提升的基准测试。ROME在同等规模的开源模型中仍展现出竞争性能,并且已经成功投入生产,证明了ALE的实用性。
评论已关闭