苹果推出STARFlow-V视频模型：独家采用“归一化流”，实现长达30秒画面稳定

苹果公司最近推出了名为STARFlow-V的新视频生成模型，该模型采用了独特的“归一化流”技术，以解决长视频生成中的稳定性和错误累积问题。与目前主流的扩散模型不同，STARFlow-V通过直接学习随机噪声和视频数据之间的数学变换来生成视频，从而提升了训练效率、生成速度，并减少了错误。

STARFlow-V的双架构设计，一个组件负责管理跨帧的时间序列（运动一致性），另一个组件优化单个帧内的细节（画面质量），使得该模型在长达30秒的视频中保持了稳定性，超过了竞争对手如NOVA和Self-Forcing。

此外，STARFlow-V还具备多功能性，能够处理文本转视频、图像转视频以及视频编辑等多种任务。在VBench基准测试中，STARFlow-V获得了79.7分，虽然略低于一些顶尖的扩散模型，但明显优于其他自回归模型，特别是在空间关系和人体表征方面。

尽管存在一些局限，如分辨率相对较低且无法在标准显卡上实时使用，苹果公司表示将继续改进STARFlow-V，包括加快计算速度、缩小模型规模，以及使用更注重物理精确性的训练数据。相关代码已在GitHub上发布，模型权重将随后在Hugging Face上公布。