对于图文混排的检索,您提到的两种方案各有优劣。方案1,即使用描述图片内容替换图片,并对纯文本进行向量嵌入和检索,实现起来相对简单,且中转站提供了API支持,方便管理。但缺点在于,随着数据量的增加,更换嵌入方法可能需要重新处理整个数据库,操作较为繁琐。

方案2,即使用多模态嵌入模型,虽然提供了更丰富的检索体验,但通常需要自行部署模型,这涉及到一定的成本和风险,包括硬件成本、维护成本以及模型效果的未知性。不过,目前市场上也有一些提供多模态模型服务的站点,您可以考虑这些服务来降低部署成本和难度。

在选择方案时,建议您综合考虑数据量、预算、技术能力和对稳定性和效果的需求。如果数据量不是特别大,且对效果要求不是非常高,方案1可能更适合您。如果数据量大,且对检索的准确性和丰富性有较高要求,可以考虑方案2,同时寻找可靠的第三方服务提供商,以减轻自部署的负担。

标签: none

评论已关闭