Agentic Vision：Gemini 3 Flash 开创 AI 视觉理解新纪元

Gemini 3 Flash 引入了 Agentic Vision 技术，这一创新将视觉理解从静态模式转变为主动探索的过程。通过结合视觉推理与 Python 程序执行，Gemini 3 Flash 能够主动制定计划，对图像进行放大、检查和逐步操作，从而基于视觉证据提供更准确的答案。这一技术提升了大多数视觉基准测试中的表现，带来了5-10%的品质提升。Agentic Vision 的运作流程包括三个主要步骤：思考（分析查询和图像并制定计划）、行动（执行程序对图像进行操作或分析）和观察（在生成最终回应前检查新数据）。实际应用案例包括图像标注和视觉数学与绘图，其中模型能够通过程序直接在画布上绘制，以建立推理基础。例如，在计算手指数量时，模型可以在每根手指上绘制边界框和数字标签。此外，Agentic Vision 还能解析高密度表格并执行程序来视觉化计算结果，避免了传统模型在多步骤视觉算术中常见的错误。开发者可以通过 Google AI Studio 和 Vertex AI 的 Gemini API 体验这一功能。更多详情请参考Google的博客文章。

Agentic Vision：Gemini 3 Flash 开创 AI 视觉理解新纪元

评论已关闭