开源项目:gflow-单节点GPU作业调度器
gflow 是一个用 Rust 编写的轻量级单节点作业调度器,专为管理和调度机器学习/深度学习任务而设计,特别是在具有多 GPU 资源的机器上。它可以帮助用户自动排队、设置时间限制、管理任务依赖、实时监控任务状态和资源使用情况,以及自动保存每个任务的输出日志。gflow 支持 cargo 和 conda 安装,并且可以轻松上手使用。用户可以通过 gflowd 命令启动后端,使用 gbatch 命令提交任务,并通过 gqueue 命令查看任务队列和依赖关系。此外,gflow 还支持参数搜索和自动探测 conda 环境,使得任务调度更加灵活和高效。更多详情请参考 Gflow 的 GitHub 仓库。
评论已关闭