VTP (Visual Tokenizer Pre-training) 是由MiniMax视频团队首次开源的工作,专注于视觉生成模型中的关键组件——tokenizer,及其对整个生成系统的scaling性质的影响。VTP通过将latents的易学性与通用表征学习明确关联,首次将tokenizer作为scaling的主角,展示了全面的scaling曲线和扩展方向。与许多其他tokenizer工作不同,VTP不对下游的主模型进行任何修改,仅通过前置优化tokenizer来实现端到端生成性能的倍数提升。VTP提供的是一个随着tokenizer投入的参数/算力/数据规模持续提升的生成性能曲线,而非一个在限定条件下的单点解。VTP的核心思想是将所有已知有效的表征学习方法融合来构建一个tokenizer,并通过对tokenizer的预训练来实现更好的表征学习。VTP的另一个重要贡献是它展示了tokenizer在更大参数量、更多训练资源和更多数据下的持续提升效果,这为生成统一模型的构建提供了新的视角。VTP还提出了数据分布对生成系统效果的影响,为未来研究提供了新的方向。总的来说,VTP通过一系列工作展现了tokenizer在生成系统中的重要性和广阔的拓展空间,期待业界有更多新方法和思想的涌现。

标签: none

评论已关闭