狂揽10.9k星!视觉模型的 OCR 和文档导出

数字化办公的浪潮中,处理文档已经成为我们日常工作的重要组成部分。无论是学生整理笔记、上班族处理文件,还是专业人士分析报告,PDF 文档都无处不在。然而,处理扫描后的 PDF 文件时,常常会遇到文字无法搜索、无法复制的尴尬局面。今天,小 G 就要给大家介绍一款开源的 OCR 利器——Zerox,它就像 OCR 领域的 “瑞士军刀”,能够轻松解决这些问题!

什么是 Zerox?

Zerox 是一款基于 AI 视觉模型的 OCR 工具,它能够将扫描后的 PDF 文件、Word 文档、图片等格式的文件转换为可搜索、可复制的 Markdown 格式文本。它不仅支持多种文件格式,还能够处理复杂的页面布局、表格和图表,真正实现了文档的智能化处理。

Zerox 的核心优势在于它的多功能性和强大的 OCR 能力。它支持多种语言的识别,并且能够与 OpenAI、Azure OpenAI、AWS Bedrock、Google Gemini 等多种 AI 提供商的模型无缝对接,满足不同用户的需求。

主要功能

多文件格式支持

Zerox 支持广泛的文件格式,包括 PDF、DOCX、图片、HTML、TXT 等,几乎涵盖了所有常见的文档类型。无论是扫描后的 PDF 文件,还是从网上下载的 Word 文档,Zerox 都能轻松处理。

强大的 OCR 能力

Zerox 使用先进的视觉模型进行 OCR 识别,能够准确识别文字内容,并将其转换为 Markdown 格式。它不仅支持英语,还支持多种语言的识别,包括中文、法语、德语等,满足不同用户的需求。

智能文档处理

Zerox 能够处理复杂的页面布局,包括表格、图表等。它支持自动校正页面方向、裁剪边缘等功能,让生成的文档更加清晰、美观。

数据提取与结构化

Zerox 不仅能够将文档转换为 Markdown 格式,还能提取文档中的结构化数据。通过定义数据提取模式,用户可以轻松提取文档中的关键信息,如发票号码、金额等,大大提高了工作效率。

安装指南

Zerox 提供了 Node.js 和 Python 两种版本,用户可以根据自己的需求选择合适的版本进行安装。

Node.js 版本

对于 Node.js 用户,可以通过以下命令安装 Zerox:

npm install zerox

安装完成后,需要确保系统中已经安装了 graphicsmagick 和 ghostscript,用于 PDF 文件的处理。

Python 版本

对于 Python 用户,可以通过以下命令安装 Zerox:

pip install pyzerox

安装完成后,需要确保系统中已经安装了 poppler,用于 PDF 文件的处理。

使用示例

Node.js 示例

以下是一个简单的 Node.js 示例,展示如何使用 Zerox 将 PDF 文件转换为 Markdown 格式:

import { zerox } from "zerox";

const result = await zerox({
  filePath: "https://example.com/path/to/your/file.pdf",
  credentials: {
    apiKey: process.env.OPENAI_API_KEY,
  },
});

console.log(result);

Python 示例

以下是一个简单的 Python 示例,展示如何使用 Zerox 将 PDF 文件转换为 Markdown 格式:

from pyzerox import zerox
import asyncio

async def main():
    file_path = "https://example.com/path/to/your/file.pdf"
    result = await zerox(file_path=file_path, model="gpt-4o-mini")
    print(result)

asyncio.run(main())

写在最后

Zerox 作为一款开源的 OCR 工具,集成了多种强大的功能,能够帮助我们轻松处理扫描后的 PDF 文件和其他文档。无论是将文档转换为可搜索的 Markdown 格式,还是提取文档中的结构化数据,Zerox 都能高效完成任务。

如果你经常需要处理大量的文档,Zerox 绝对是你不可或缺的工具。快去试试吧

本文是转载文章,点击查看原文
如有侵权,请联系 lx@jishuguiji.net 删除。