C 端多模态技术比较：ChatGPT、Gemini 与国内平台的表现差异

关于各家 C 端的多模态技术，最近我进行了一些测试，发现不同平台在处理同一张图片时表现出了差异。我使用同一张图片分别投放到 ChatGPT 和 Gemini 上，发现这两个平台似乎对图片质量有一定的要求。在执行文字识别任务时，ChatGPT 会提示图片过于模糊而无法识别，而 Gemini 则会直接编造不存在的文字内容。相比之下，国内的 Qwen Studio 和豆包平台则表现出色，它们不会对图片质量进行压缩，且文字识别准确率较高。这一现象表明，不同平台在处理多模态数据时，其算法和策略存在差异，这也为用户在选择服务时提供了参考依据。具体讨论可以查看 (https:///t/topic/2098333) 上的完整话题。

C 端多模态技术比较：ChatGPT、Gemini 与国内平台的表现差异

评论已关闭