python分词工具有哪些及怎么用
发表于:2024-11-16 作者:千家信息网编辑
千家信息网最后更新 2024年11月16日,这篇文章主要介绍"python分词工具有哪些及怎么用"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"python分词工具有哪些及怎么用"文章能帮助大家解决问题。
千家信息网最后更新 2024年11月16日python分词工具有哪些及怎么用
这篇文章主要介绍"python分词工具有哪些及怎么用"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"python分词工具有哪些及怎么用"文章能帮助大家解决问题。
1. jieba 分词
"结巴"分词,GitHub最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典。
github star:26k
代码示例
import jieba
strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
for str in strs:
seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
print("Paddle Mode: " + '/'.join(list(seg_list)))
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print("新词识别:", ",".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print("搜索引擎模式:", ".join(seg_list))
输出:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
【精确模式】: 我/ 来到/ 北京/ 清华大学
【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,"杭研"并没有在词典中,但是也被Viterbi算法识别出来了)
【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
2. pkuseg 分词
pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具,它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型。相比通用分词工具,它的分词准确率更高 。
github star:5.4k
代码示例
import pkuseg
seg = pkuseg.pkuseg() # 以默认配置加载模型
text = seg.cut('python是一门很棒的语言') # 进行分词
print(text)
输出
['python', '是', '一', '门', '很', '棒', '的', '语言']
3. FoolNLTK 分词
基于BiLSTM模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典。
GitHub star: 1.6k
代码示例
import fool
text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']
4. THULAC
THULAC由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包。具有词性标注功能,能分析出某个词是名词还是动词或者形容词。
github star:1.5k
代码示例1
代码示例1
import thulac
thu1 = thulac.thulac() #默认模式
text = thu1.cut("我爱北京天安门", text=True) #进行一句话分词
print(text) # 我_r 爱_v 北京_ns 天安门_ns
代码示例2
thu1 = thulac.thulac(seg_only=True) #只进行分词,不进行词性标注
thu1.cut_f("input.txt", "output.txt") #对input.txt文件内容进行分词,输出到output.txt
关于"python分词工具有哪些及怎么用"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注行业资讯频道,小编每天都会为大家更新不同的知识点。
模式
大学
北京
清华
代码
示例
清华大学
领域
支持
精确
工具
模型
科学
语言
中国
引擎
搜索引擎
知识
词典
京都
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
学网络技术方向
软件开发三年能干什么
激光精细雕刻机软件开发
能同时删除多张表的数据库
sem软件开发
武汉网络安全基地有哪些项目
三级网络技术app.
网络准入 安全 服务器
湖北应用软件开发费用是多少
西安国家网络安全周开幕式讲话
桂林华途互联网科技有限公司
即时通讯软件开发课程
j计算机三级网络技术
计算机三级数据库要求
入职软件开发一行代码没写
东莞考勤软件开发
淮安固态硬盘服务器
vb保存信息的数据库
软件开发能力缺陷表
英雄杀一直连接服务器怎么回事
python网页数据库抓取
江苏优质软件开发多少钱
网络技术原理及应用答案
软件开发工具i
如何进内网服务器
对不起 服务器安全链接
深圳服务器系统集成哪家正规
宜宾gpu云服务器价格
数据库脱机怎么修
我的世界手机服务器怎么登陆