C 端多模态技术比较:ChatGPT、Gemini 与国内平台的表现差异
关于各家 C 端的多模态技术,最近我进行了一些测试,发现不同平台在处理同一张图片时表现出了差异。我使用同一张图片分别投放到 ChatGPT 和 Gemini 上,发现这两个平台似乎对图片质量有一定的要求。在执行文字识别任务时,ChatGPT 会提示图片过于模糊而无法识别,而 Gemini 则会直接编造不存在的文字内容。相比之下,国内的 Qwen Studio 和豆包平台则表现出色,它们不会对图片质量进行压缩,且文字识别准确率较高。这一现象表明,不同平台在处理多模态数据时,其算法和策略存在差异,这也为用户在选择服务时提供了参考依据。具体讨论可以查看 (https:///t/topic/2098333) 上的完整话题。
评论已关闭