大模型时代的OCR工具《XS-VLM-OCR》v1.1.0版本更新详解

大模型时代的OCR工具《XS-VLM-OCR》是一个开源项目，专注于提供高效、智能的OCR（光学字符识别）服务。该工具的v1.1.0版本带来了多项新功能和改进，旨在为用户提供更加便捷和强大的OCR体验。

在v1.0.0版本中，XS-VLM-OCR已经实现了全局快捷键截图功能（ALT+A），支持多个大模型（如Qwen、GLM、Paddle、Tesseract），并引入了智能提示词管理系统，涵盖识别、翻译、解答、整理四个模块。此外，UI界面进行了现代化设计，支持主题切换和侧边栏折叠，还提供了历史记录管理和异步任务处理功能。

在v1.1.0版本中，新增了对谷歌、混元、豆包、硅基流动、Ollama系列等模型的支持，并增加了批量图片异步并发处理、多屏截图、侧边栏可拖拽、结果Markdown预览等功能。此外，该工具现在支持跨平台，可以在Windows和Linux系统上运行。

未来的v1.2.0版本规划中，将支持PDF文件上传，增加结果导出功能（支持Markdown、PDF、Word、Excel格式），并扩展到更多平台，包括Mac和Android。这些更新将进一步巩固XS-VLM-OCR作为大模型时代OCR工具的领先地位，为用户提供更加全面和灵活的OCR解决方案。

大模型时代的OCR工具《XS-VLM-OCR》v1.1.0版本更新详解

评论已关闭