在日常的工作与生活中,我们经常需要将图片中的文字提取出来进行编辑或整理。手动输入不仅费时费力,还容易出错。为了解决这一问题,今天向大家介绍一款名为Umi-OCR的文字识别工具。
Umi-OCR v2.1.5 全新发布:开源批量文字识别
支持图片,文档,二维码,截图等
Umi-OCR 下载地址:
夸克网盘分享:https://pan.quark.cn/s/6533d6481cf4
v2.1.5 更新
亮点新增:日志机制。在命令行中启动 Umi-OCR
可查看实时日志。指定级别以上(默认为ERROR)的日志被保存到
Umi-OCR/UmiOCR-data/logs 目录中,保存级别可以在全局设置标签页中更改。
新增:大部分标签页能手动切换左右/上下双栏模式。
新增:Esc键隐藏主窗口。 (#652)
新增:调整二维码生成相关参数后,自动刷新二维码生成。
新增:命令行指令 --reload ,用于重新加载配置文件。 文档
修复:文档识别提取PDF自带的文本内容时,未考虑页面旋转的影响。
修复:文档识别生成单层PDF时,未写入原PDF自带的文本内容。
修复:OCR结果展示列表的一些显示Bug和鼠标划选Bug。
修复:调整标签页顺序或删除标签页后,未及时保存顺序信息。
修复:HTTP接口 /api/doc/download 参数 ignore_blank 的错误。
修复:Linux版本截图时,系统任务栏推移顶层窗口,导致截图位置偏移。
修复:Linux版本截图后,主窗口的位置与操作前不一致。
优化:图片/文档的异步加载机制。现在可以流畅地加载含有数万个子文件的文件夹,且能预览加载进度。
Windows 版本更新第三方依赖库:PyMuPDF 1.24.11 ,fontTools 4.56.0
,Pillow
10.4.0 ,psutil 10.4.0 ,pynput 1.8.0 ,zxing-cpp 2.3.0
新增UI语言:俄语 Русский ,译者:Вячеслав Анатольевич
Малышев、Muhammadyusuf Kurbonov。泰米尔语
一、Umi-OCR简介
Umi-OCR是一款在GitHub上开源且免费的文字识别工具,它利用深度学习和计算机视觉算法,能够将图像中的文字迅速提取并转化为可编辑的文本。无论是通过手机拍摄、扫描仪还是其他图像源获取的图片,Umi-OCR都能准确识别其中的文字内容。
二、Umi-OCR功能特点
- 免费使用:项目代码在Github开源,用户可以安全免费地下载和使用。
- 离线使用:软件支持下载后离线运行,无需网络即可进行文字识别。
- 简洁易用:界面简洁直观,操作流程清晰明了,即使是OCR初学者也能轻松上手。
- 高精度识别:采用先进的深度学习算法,识别率远高于传统OCR工具,适用于各种场景下的文字识别需求。
- 多语言支持:支持中文、英文、日文、韩文等多种语言,满足不同用户的需求。
- 批量识别:支持批量处理图片,用户可以一次性上传多张图片进行识别,大幅提高工作效率。
- 二维码识别与生成:支持识别读取二维码、条形码,并可生成二维码,支持多种协议。
三、Umi-OCR应用场景
- 文档数字化:将纸质文档转化为可编辑的电子文本,提高文档存储和检索的效率。
- 数据录入:自动提取表格、发票等文档中的数据,减少繁琐的手工录入工作。
- 图片翻译:将包含文字的图片翻译成其他语言,方便跨语言交流和阅读。
- 身份证或名片扫描:快速识别身份证、名片等图片中的文字信息,便于信息记录和整理。
五、Umi-OCR使用指南
- 截图OCR:在新标签页选择截图OCR功能,可直接用鼠标划选图片中的文字进行复制,或在别处复制图片粘贴到Umi-OCR进行识别。
- OCR文本后处理:支持段落合并(单行、多行-自然段、多行-代码段、竖排)、忽略区域等功能,满足不同场景下的文本处理需求。
- 批量OCR:支持批量导入本地图片并识别,识别内容可保存为txt、jsonl、md、csv(Excel)等多种格式,支持任务完成后自动关机或待机。
- 二维码识别与生成:可截图、粘贴或拖入本地图片识别二维码、条形码,支持一图多码和多种协议;输入文本可生成二维码图片,支持设置纠错等级等参数。
- 全局设置:可调整软件的全局参数,如添加快捷方式、设置开机自启、更改界面语言、切换界面主题、调整界面文字大小和字体、切换OCR插件等。
六、总结
Umi-OCR以其强大的功能、高效的性能和简洁易用的操作界面,成为了文字识别领域的佼佼者。无论是个人用户还是企业机构,都可以通过使用Umi-OCR提高工作效率、减少人力成本。快来下载体验吧!
Umi-OCR 下载地址: