萌兽奇缘活动中心

Aitrainee | 公众号：AI进修生Hi，这里是Aitrainee，欢迎阅读本期新文章。

近期处理一些知识库数据的时候，有需要寻找一些OCR工具。

我们需要将任何非结构化数据转换为针对 GenAI (LLM) 应用程序优化的结构化、可操作数据，并可用于 RAG、微调等 AI 应用程序。

我部署实操了下面这几个近期流行的LLM OCR工具：

MinerUMinerU曾在一两周前上过Github Trending榜，并且持续了好几天。

他会存在将Latex公式识别出错的情况，通常是多了一个“\m”，如图

删除\m，就会正常，而Doc2X通常很少出现这种情况，我可以预先告诉你，Doc2X是这4个中最好的，但是他也有一些缺陷，我会在后文说。

并且MinerU不能像Doc2X那样把表格图表OCR出来转为html、markdown表格这些结构化数据，它仅仅截图保存在本地。但是Doc2X可以很好的识别出来：

不过MinerU在公式识别上还不错，至少不会像OmniParse那样将原字符识别错误。

要在本地部署他大约需要8G显存，如果你用cpu的话它将变得非常慢。

我建议你在linux上部署MinerU，因为我在windows部署它时，出现了cpu运行正常，gpu不正常的情况（对环境依赖版本有要求，你可以issue中查看），并且他的部署下载过程会比较久，因为他要下载大模型文件

OmniParse它的优势在于：无论你处理的是文档、表格、图像、视频、音频文件还是网页，OmniParse 都可以将您的数据准备得干净、结构化，并可用于 RAG、微调等 AI 应用程序。

但是根据我的实践它在处理pdf文档时尤其是公式会出现字符错误，远远不如Doc2X的准确性。

他提供了web终端，便于简单操作，但是我并没有，看到它识别后将文件导出的按钮，令人奇怪 ...

代码语言：javascript代码运行次数：0运行复制python server.py --host 0.0.0.0 --port 8000 --documents --media --web它使用Docker安装依赖和模型，你可能需要使用huggingface镜像：hf-mirror.com才能拉取成功。

它大约8G显存本地可跑。

这是他的缺陷：

Doc2x这是我最终选定并且最为推荐的一个，他很少存在识别错误的情况并且表格图片都可以识别，还给你的图片提供了在线图床，每天有500页的PDF识别限制。它有良好的界面外观，和简易的操作。它有众多的导出形式

你最好选择$$，浙江更好地显示latex公式

但是他也有缺点他并不开源，并且无法本地部署，意味着你只能将数据交给云端。

他还提供了一个第三方封装的api python 库，这可以让你不用手动的上传pdf，但是api每天有费率限制，大约3到4个pdf就会用完你的额度，只能等待明天刷新。

我觉得他很好能够完美的满足我的需求，唯一不足的就是云端以及 api的调用限制。

llm_aided_ocr这是一个新项目，他使用大模型去增强ocr的处理结果，将一些不好的结果进行修正，这看起来是一个很有前景的工作。

消耗大量的api，并且目前的这个开源项目很依赖于大模型本身的智力程度，并且目前主要集成gpt4和claude，有点不太方便配置。

下面他提到了一些局限性：

这让我想到了在使用上面的一些工具时，当我遇到识别不好的地方，我手动输入给gpt4这些大模型让他帮我纠正的过程，确实挺耗费时间的。

总的来说，我会使用Doc2X去完成我的工作，MinerU可以期待它接下来的更新，llm_aided_ocr可能需要我们进一步自己完善，OmniParse也是一个不错的项目，我挺欣赏他的多媒体形式文件支持的，希望他未来会发展的更好。

🌟希望这篇文章对你有帮助，感谢阅读！

Doc2X官网

https://doc2x.noedgeai.com/

参考链接：

[1] MinerU：https://github.com/opendatalab/MinerU

[2] omniparse：https://github.com/adithya-s-k/omniparse

[3] llm_aided_ocr ：https://github.com/Dicklesworthstone/llm_aided_ocr