Aitrainee | 公众号:AI进修生Hi,这里是Aitrainee,欢迎阅读本期新文章。
近期处理一些知识库数据的时候,有需要寻找一些OCR工具。
我们需要将任何非结构化数据转换为针对 GenAI (LLM) 应用程序优化的结构化、可操作数据,并可用于 RAG、微调 等 AI 应用程序。
我部署实操了下面这几个近期流行的LLM OCR工具:
MinerUMinerU曾在一两周前上过Github Trending榜,并且持续了好几天。
他会存在将Latex公式识别出错的情况,通常是多了一个“\m”,如图
删除\m,就会正常,而Doc2X通常很少出现这种情况,我可以预先告诉你,Doc2X是这4个中最好的,但是他也有一些缺陷,我会在后文说。
并且MinerU不能像Doc2X那样把表格图表OCR出来转为html、markdown表格这些结构化数据,它仅仅截图保存在本地。但是Doc2X可以很好的识别出来:
不过MinerU在公式识别上还不错,至少不会像OmniParse那样将原字符识别错误。
要在本地部署他大约需要8G显存,如果你用cpu的话它将变得非常慢。
我建议你在linux上部署MinerU,因为我在windows部署它时,出现了cpu运行正常,gpu不正常的情况(对环境依赖版本有要求,你可以issue中查看),并且他的部署下载过程会比较久,因为他要下载大模型文件
OmniParse它的优势在于:无论你处理的是文档、表格、图像、视频、音频文件还是网页,OmniParse 都可以将您的数据准备得干净、结构化,并可用于 RAG、微调等 AI 应用程序。
但是根据我的实践它在处理pdf文档时尤其是公式会出现字符错误,远远不如Doc2X的准确性。
他提供了web终端,便于简单操作,但是我并没有,看到它识别后将文件导出的按钮,令人奇怪 ...
代码语言:javascript代码运行次数:0运行复制python server.py --host 0.0.0.0 --port 8000 --documents --media --web它使用Docker安装依赖和模型,你可能需要使用huggingface镜像:hf-mirror.com才能拉取成功。
它大约8G显存本地可跑。
这是他的缺陷:
Doc2x这是我最终选定并且最为推荐的一个,他很少存在识别错误的情况并且表格图片都可以识别,还给你的图片提供了在线图床,每天有500页的PDF识别限制。它有良好的界面外观,和简易的操作。它有众多的导出形式
你最好选择$$,浙江更好地显示latex公式
但是他也有缺点他并不开源,并且无法本地部署,意味着你只能将数据交给云端。
他还提供了一个第三方封装的api python 库,这可以让你不用手动的上传pdf,但是api每天有费率限制,大约3到4个pdf就会用完你的额度,只能等待明天刷新。
我觉得他很好能够完美的满足我的需求,唯一不足的就是云端以及 api的调用限制。
llm_aided_ocr这是一个新项目,他使用大模型去增强ocr的处理结果,将一些不好的结果进行修正,这看起来是一个很有前景的工作。
消耗大量的api,并且目前的这个开源项目很依赖于大模型本身的智力程度,并且目前主要集成gpt4和claude,有点不太方便配置。
下面他提到了一些局限性:
这让我想到了在使用上面的一些工具时,当我遇到识别不好的地方,我手动输入给gpt4这些大模型让他帮我纠正的过程,确实挺耗费时间的。
总的来说,我会使用Doc2X去完成我的工作,MinerU可以期待它接下来的更新,llm_aided_ocr可能需要我们进一步自己完善,OmniParse也是一个不错的项目,我挺欣赏他的多媒体形式文件支持的,希望他未来会发展的更好。
🌟希望这篇文章对你有帮助,感谢阅读!
Doc2X官网
https://doc2x.noedgeai.com/
参考链接:
[1] MinerU:https://github.com/opendatalab/MinerU
[2] omniparse:https://github.com/adithya-s-k/omniparse
[3] llm_aided_ocr :https://github.com/Dicklesworthstone/llm_aided_ocr