扫描版PDF OCR方案讨论及翻译项目介绍
在讨论扫描版PDF的OCR方案时,用户发现传统的OCR方案在处理扫描版PDF时效果不佳,因为它们通常会在每行文本中插入空格以对齐文本层和图片层。用户尝试了ABBYY和福昕的OCR工具,但发现它们无法批量操作且效果不理想。然而,用户发现使用Chrome浏览器打开PDF文件并自动进行OCR后,打印出来的结果非常理想,文本对齐问题得到了很好的解决。这可能是由于Chrome的OCR技术能够精确控制文本大小,从而避免了空格问题。因此,用户决定使用Chrome作为扫描版PDF的OCR工具。
此外,用户还提到了几个流行的翻译项目,如MinerU、BabelDOC和PDFMathTranslate,这些项目主要针对文本PDF进行翻译操作。用户不确定这些项目是否适用于处理扫描版PDF,并希望有经验的大佬们分享他们的见解。这些项目可能包括文档解析、全文双语翻译等功能,对于需要处理扫描版PDF的用户来说,这些工具可能非常有用。
评论已关闭