千家信息网

怎么用Python和Tesseract识别图片文字

发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,这篇文章给大家分享的是有关怎么用Python和Tesseract识别图片文字的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。安装Linux 和 Mac 平台的安装非常简单,直
千家信息网最后更新 2024年09月22日怎么用Python和Tesseract识别图片文字

这篇文章给大家分享的是有关怎么用Python和Tesseract识别图片文字的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

安装

Linux 和 Mac 平台的安装非常简单,直接命令行安装即可,默认只有英文语言包,汉语包需要额外指定

sudo apt-get install tesseract-ocr  # ubuntu

brew install tesseract # macOS

Windows 平台需要二进制安装包,官方下载地址 https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows,安装时需要选择中文语言包才是识别汉字

配置

安装完成后,需要设置两个环境变量 $PATH$TESSDATA_PREFIX,如果不指定后面会报错,把 tessertact 的安装路径加入 PATH 变量中,TESSDATA_PREFIX 变量的值指定为语言包的路径

实战

Python-tesseract 是 tessertact 的 Python 封装包,它需要依赖图片处理库 PIL(Pillow),环境搭建完成后就可以开始做定制化开发了。

以下我以杜甫的《登高》作为 demo 从中提取出其中的文字

# pip install pytesseract 先安装依赖包
try:
import Image
except ImportError:
from PIL import Image
import pytesseract
# lang 指定中文简体
text = pytesseract.image_to_string(Image.open('dufu-denggao1.jpeg'), lang='chi_sim')
print(text)

输出结果:

风 急 天 高 猿 哨 哀 , 渚 清 沙 白 鸟 飞 回 。 无 边 落 木 萧 萧 下 , 不 尽 长 江 滚 滚 来 。 万 里 悲 秋 常 作 客 , 百 年 多 病 独 登 台 。 艰 难 苦 恨 繁 霜 鬓 , 漫 倒 新 停 浊 酒 杯 。

感谢各位的阅读!关于"怎么用Python和Tesseract识别图片文字"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

图片 文字 变量 语言 内容 平台 更多 环境 篇文章 路径 中文 不错 实用 两个 二进制 从中 只有 命令 地址 官方 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 饥荒怎么看服务器历史 河南国资委华为服务器 uu加速器艾尔登法环服务器连不上 所谓网络安全漏洞 软件开发工程师学徒怎么样 没有dhcp服务器 数据库事务属性是 宝山区视频系统服务器 计算机网络技术的交互实时性 服务器上装安全软件有用吗 电脑主机与服务器哪个运行速度快 惠普服务器换硬盘无法识别 php数据库操作代码 合肥专业的软件开发培训 15.网络安全法自起施行 国家网络安全与9月第几周 网络安全人人有责的黑板报内容 网络安全工程师自学 商丘软件开发公司工资 数据库加密常用技术 香港服务器可以做关键词优化吗 创优网络技术服务有限公司 英语能力软件开发 棋牌游戏软件开发哪家好 手机软件开发双方注意事项 引力模型用到的数据库 40岁学网络技术晚不晚 软件开发需要成本 服务器键盘灯不亮无法进入服务器 岳阳app与软件开发费用
0