iflow-ROME-30B-A3B：代理制作的革新与开源生态系统的构建

iflow-ROME-30B-A3B项目是一个专注于代理制作的开源项目，它要求大型语言模型（LLMs）在现实环境中进行多回合操作，通过采取行动、观察结果和迭代优化工件来满足复杂需求。代理制作要求模型不仅能够生成简单的任务响应，还要能够在交互环境中持续地规划、执行并保持可靠性。为了实现这一目标，iflow-ROME-30B-A3B项目提出了一个代理学习生态系统（ALE），它由三个主要系统组件构成：ROLL是一个训练后体重优化的框架，ROCK是一个用于协调环境以生成轨迹的沙盒环境管理器，而iFlow CLI是一个能够实现可配置且高效的环境交互上下文工程代理框架。该项目还发布了一个名为ROME的开源代理模型，该模型基于ALE并训练了超过一百万的轨迹。此外，项目还开发了一套数据组合协议，用于综合不同类型的数据，并内置了安全性、安全性和有效性的验证功能。此外，项目还提出了一种新颖的策略优化算法IPA，该算法通过语义交互块而非单个代币赋予信用，从而提升长期训练稳定性。实验结果显示，ROME在多个主流代理基准测试中表现出色，如Terminal-Bench 2.0和SWE-bench Verified，其准确率分别为24.72%和57.40%，优于同等规模的模型。为了进行更严格的评估，项目还推出了Terminal Bench Pro，这是一个在规模、领域覆盖和污染控制方面都有提升的基准测试。ROME在同等规模的开源模型中仍展现出竞争性能，并且已经成功投入生产，证明了ALE的实用性。

iflow-ROME-30B-A3B：代理制作的革新与开源生态系统的构建

评论已关闭