千家信息网

如何在Linux上从图像和PDF中提取文本

发表于:2025-02-01 作者:千家信息网编辑
千家信息网最后更新 2025年02月01日,本篇内容介绍了"如何在Linux上从图像和PDF中提取文本"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所
千家信息网最后更新 2025年02月01日如何在Linux上从图像和PDF中提取文本

本篇内容介绍了"如何在Linux上从图像和PDF中提取文本"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

gImageReader是Tesseract开源OCR引擎的前端。Tesseract最初是由HP开发的,然后于2006年开源。

基本上,OCR(Optical Character Recognition光学字符识别)引擎使您可以扫描图片或文件(PDF)中的文本。默认情况下,它可以检测多种语言,并且还支持通过Unicode字符进行扫描。

但是,Tesseract本身就是没有任何GUI的命令行工具。因此,在这里,gImageReader可以帮助任何用户利用它来从图像和文件中提取文本。

让我重点介绍一些有关它的内容,同时提及我在测试期间的使用经验。

gImageReader:Tesseract OCR的跨平台前端

为了简化工作,gImageReader可以方便地从PDF文件或包含任何类型文本的图像中提取文本。

无论是拼写检查还是翻译都需要它,它对于特定的用户组应该很有用。

gImageReader功能介绍:

  • 从磁盘,扫描设备,剪贴板和屏幕截图添加PDF文档和图像

  • 旋转图像的能力

  • 通用图像控件可调节亮度,对比度和分辨率

  • 直接通过应用程序扫描图像

  • 能够一次处理多个图像或文件

  • 手动或自动识别区域定义

  • 识别纯文本或hOCR文档

  • 编辑器显示识别的文本

  • 可以拼写检查提取的文本

  • 从hOCR文档转换/导出为PDF文档

  • 将提取的文本导出为.txt文件

  • 跨平台(Windows)

在Linux上安装gImageReader

注意:您需要显式安装Tesseract语言包以从软件管理器中的图像/文件中进行检测。

您可以在某些Linux发行版(例如Fedora和Debian)的默认存储库中找到gImageReader。

对于Ubuntu,您需要添加一个PPA,然后再安装它。为此,您需要在终端中输入以下内容:

linuxmi@linuxmi:~/www.linuxmi.com$ sudo add-apt-repository ppa:sandromani/gimagereader  linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt update linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install gimagereader tesseract-ocr tesseract-ocr-eng tesseract-ocr-chi-sim tesseract-ocr-chi-tra -y  linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert -y

您还可以从其构建服务中为openSUSE找到它,AUR将成为Arch Linux用户的地方。

到存储库和软件包的所有链接都可以在其GitHub页面中找到。

使用gImageReader的经验

gImageReader是一个非常有用的工具,可以在需要时从图像中提取文本。当您尝试使用PDF文件时,它的效果很好。

为了从智能手机拍摄的照片中提取图像,检测很接近,但是有点不准确。也许当您扫描某些内容时,从文件中识别字符可能会更好。

因此,您必须自己尝试一下,看看它在您的用例中的效果如何。我在Ubuntu 20.04.2 LTS上进行了尝试。

操作步骤

打开 gImageReader

添加pdf

识别语言选择 多种语言 ==> 简体字[chi_sim]+ English[eng]

复制或保存识别文本

操作结果参照下图:

我只是在管理设置中的语言时遇到了一个问题,但没有得到快速的解决方案。如果遇到此问题,则可能需要对其进行故障排除,并进一步了解如何解决该问题。

"如何在Linux上从图像和PDF中提取文本"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!

图像 文本 文件 内容 语言 文档 字符 用户 问题 尝试 检测 前端 多种 工具 引擎 情况 效果 更多 有用 知识 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 梧州移动办公系统软件开发公司 深圳路通网络技术有限责任公司 星际2进不去服务器 软件开发公司研发部规章制度 远程桌面的服务器不能访问手机 更换摄像头需要重启服务器吗 网络安全法宣贯新闻 mysql查询整个数据库 华三服务器 后台管理界面 中国数据库检索结果包括哪些内容 数据库的结构基础是什么 数据库怎么做视频 sql获取数据库名 查看数据库表权限设置密码 plsql远程访问数据库 校园网络安全图画手抄报 网络安全宣传小报好看简单 mysql数据库 购买 宝安区新一代网络技术开发商家 换新手机怎么将b站的数据库 烟台数据库安全审计系统 服务器拔电源重启才不卡 应用安全网关不能连接服务器 网络安全网课图解 零基础到软件开发 电脑如何连接sql数据库 苹果网络技术支持工资待遇 数据网络技术专业怎么样 海南超频服务器成本价 方舟手游服务器一年要多少钱
0