苹果推出STARFlow-V视频模型:独家采用“归一化流”,实现长达30秒画面稳定
苹果公司最近推出了名为STARFlow-V的新视频生成模型,该模型采用了独特的“归一化流”技术,以解决长视频生成中的稳定性和错误累积问题。与目前主流的扩散模型不同,STARFlow-V通过直接学习随机噪声和视频数据之间的数学变换来生成视频,从而提升了训练效率、生成速度,并减少了错误。
STARFlow-V的双架构设计,一个组件负责管理跨帧的时间序列(运动一致性),另一个组件优化单个帧内的细节(画面质量),使得该模型在长达30秒的视频中保持了稳定性,超过了竞争对手如NOVA和Self-Forcing。
此外,STARFlow-V还具备多功能性,能够处理文本转视频、图像转视频以及视频编辑等多种任务。在VBench基准测试中,STARFlow-V获得了79.7分,虽然略低于一些顶尖的扩散模型,但明显优于其他自回归模型,特别是在空间关系和人体表征方面。
尽管存在一些局限,如分辨率相对较低且无法在标准显卡上实时使用,苹果公司表示将继续改进STARFlow-V,包括加快计算速度、缩小模型规模,以及使用更注重物理精确性的训练数据。相关代码已在GitHub上发布,模型权重将随后在Hugging Face上公布。
评论已关闭