怎么用Python和Tesseract识别图片文字
发表于:2025-02-04 作者:千家信息网编辑
千家信息网最后更新 2025年02月04日,这篇文章给大家分享的是有关怎么用Python和Tesseract识别图片文字的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。安装Linux 和 Mac 平台的安装非常简单,直
千家信息网最后更新 2025年02月04日怎么用Python和Tesseract识别图片文字
这篇文章给大家分享的是有关怎么用Python和Tesseract识别图片文字的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
安装
Linux 和 Mac 平台的安装非常简单,直接命令行安装即可,默认只有英文语言包,汉语包需要额外指定
sudo apt-get install tesseract-ocr # ubuntu
brew install tesseract # macOS
Windows 平台需要二进制安装包,官方下载地址 https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows,安装时需要选择中文语言包才是识别汉字
配置
安装完成后,需要设置两个环境变量 $PATH 和 $TESSDATA_PREFIX,如果不指定后面会报错,把 tessertact 的安装路径加入 PATH 变量中,TESSDATA_PREFIX 变量的值指定为语言包的路径
实战
Python-tesseract 是 tessertact 的 Python 封装包,它需要依赖图片处理库 PIL(Pillow),环境搭建完成后就可以开始做定制化开发了。
以下我以杜甫的《登高》作为 demo 从中提取出其中的文字
# pip install pytesseract 先安装依赖包
try:
import Image
except ImportError:
from PIL import Image
import pytesseract
# lang 指定中文简体
text = pytesseract.image_to_string(Image.open('dufu-denggao1.jpeg'), lang='chi_sim')
print(text)
输出结果:
风 急 天 高 猿 哨 哀 , 渚 清 沙 白 鸟 飞 回 。 无 边 落 木 萧 萧 下 , 不 尽 长 江 滚 滚 来 。 万 里 悲 秋 常 作 客 , 百 年 多 病 独 登 台 。 艰 难 苦 恨 繁 霜 鬓 , 漫 倒 新 停 浊 酒 杯 。
感谢各位的阅读!关于"怎么用Python和Tesseract识别图片文字"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
图片
文字
变量
语言
内容
平台
更多
环境
篇文章
路径
中文
不错
实用
两个
二进制
从中
只有
命令
地址
官方
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全人才培养报告
wlan与5g交互网络技术
数据库关系自身约束
网络安全评估和整改报告
潍坊联想服务器代理
双流市网络安全
管理服务器ide
数据库统计函数计算最大
两台服务器如何传输
怎么关闭服务器安全启动
联想小新air14适合软件开发吗
软件开发部门 测试工程师
怎么消除无法验证服务器
长春拆分盘软件开发
连接浪潮服务器管理口
戴尔服务器电源管理芯片
网络安全解散班级群
服务器如何设置nas
软件开发高级工程师笔试题
重庆安卓软件开发教程
交大网络技术基础大作业答案
如何关闭服务器161端口
玉溪誓坝网络技术有限公司
出售网络安全硬件
甘孜软件开发优缺点
网络安全项目建设运维管理
数据库技术参数及要求
北京java软件开发哪家快
苹果拨号无法验证服务器身份
郑州双路机架服务器厂家直销