多模态模型在视频理解中的应用与挑战
目前多模态模型在视频理解方面主要采用视频抽帧理解的方式。这意味着视频会被按照每秒抽取一定数量的帧(即参数FPS=[0-24],Gemini支持到24,doubao仅支持到5)来进行图像理解。那么,模型是如何理解这些内容的呢?通常情况下,模型会将这些帧图像加上时间戳转化为token,然后进行向量存储,以便于后续处理。至于是否转为文本理解,这取决于具体的应用场景和模型设计。在您的项目中,您计划将多个视频素材喂给模型,让模型基于您的指令生成多个混剪方案。这听起来是一个很有挑战性的任务,但也是多模态模型应用的一个典型例子。字节推出的vidi2在论文中描述的场景与您的项目相似,但实际试用demo中可能没有完全体现论文中的效果。这可能是由于模型训练数据、算法优化或实际应用环境等因素的影响。建议您可以进一步研究相关的技术细节,或者尝试与字节进行技术交流,以获取更深入的理解和解决方案。
评论已关闭