Agentic Vision:Gemini 3 Flash 开创 AI 视觉理解新纪元
Gemini 3 Flash 引入了 Agentic Vision 技术,这一创新将视觉理解从静态模式转变为主动探索的过程。通过结合视觉推理与 Python 程序执行,Gemini 3 Flash 能够主动制定计划,对图像进行放大、检查和逐步操作,从而基于视觉证据提供更准确的答案。这一技术提升了大多数视觉基准测试中的表现,带来了5-10%的品质提升。Agentic Vision 的运作流程包括三个主要步骤:思考(分析查询和图像并制定计划)、行动(执行程序对图像进行操作或分析)和观察(在生成最终回应前检查新数据)。实际应用案例包括图像标注和视觉数学与绘图,其中模型能够通过程序直接在画布上绘制,以建立推理基础。例如,在计算手指数量时,模型可以在每根手指上绘制边界框和数字标签。此外,Agentic Vision 还能解析高密度表格并执行程序来视觉化计算结果,避免了传统模型在多步骤视觉算术中常见的错误。开发者可以通过 Google AI Studio 和 Vertex AI 的 Gemini API 体验这一功能。更多详情请参考Google的博客文章。
评论已关闭