大模型时代的OCR工具《XS-VLM-OCR》是一个开源项目,专注于提供高效、智能的OCR(光学字符识别)服务。该工具的v1.1.0版本带来了多项新功能和改进,旨在为用户提供更加便捷和强大的OCR体验。

在v1.0.0版本中,XS-VLM-OCR已经实现了全局快捷键截图功能(ALT+A),支持多个大模型(如Qwen、GLM、Paddle、Tesseract),并引入了智能提示词管理系统,涵盖识别、翻译、解答、整理四个模块。此外,UI界面进行了现代化设计,支持主题切换和侧边栏折叠,还提供了历史记录管理和异步任务处理功能。

在v1.1.0版本中,新增了对谷歌、混元、豆包、硅基流动、Ollama系列等模型的支持,并增加了批量图片异步并发处理、多屏截图、侧边栏可拖拽、结果Markdown预览等功能。此外,该工具现在支持跨平台,可以在Windows和Linux系统上运行。

未来的v1.2.0版本规划中,将支持PDF文件上传,增加结果导出功能(支持Markdown、PDF、Word、Excel格式),并扩展到更多平台,包括Mac和Android。这些更新将进一步巩固XS-VLM-OCR作为大模型时代OCR工具的领先地位,为用户提供更加全面和灵活的OCR解决方案。

标签: none

评论已关闭