python分词工具有哪些及怎么用
发表于:2025-02-03 作者:千家信息网编辑
千家信息网最后更新 2025年02月03日,这篇文章主要介绍"python分词工具有哪些及怎么用"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"python分词工具有哪些及怎么用"文章能帮助大家解决问题。
千家信息网最后更新 2025年02月03日python分词工具有哪些及怎么用
这篇文章主要介绍"python分词工具有哪些及怎么用"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"python分词工具有哪些及怎么用"文章能帮助大家解决问题。
1. jieba 分词
"结巴"分词,GitHub最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典。
github star:26k
代码示例
import jieba
strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
for str in strs:
seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
print("Paddle Mode: " + '/'.join(list(seg_list)))
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print("新词识别:", ",".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print("搜索引擎模式:", ".join(seg_list))
输出:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
【精确模式】: 我/ 来到/ 北京/ 清华大学
【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,"杭研"并没有在词典中,但是也被Viterbi算法识别出来了)
【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
2. pkuseg 分词
pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具,它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型。相比通用分词工具,它的分词准确率更高 。
github star:5.4k
代码示例
import pkuseg
seg = pkuseg.pkuseg() # 以默认配置加载模型
text = seg.cut('python是一门很棒的语言') # 进行分词
print(text)
输出
['python', '是', '一', '门', '很', '棒', '的', '语言']
3. FoolNLTK 分词
基于BiLSTM模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典。
GitHub star: 1.6k
代码示例
import fool
text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']
4. THULAC
THULAC由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包。具有词性标注功能,能分析出某个词是名词还是动词或者形容词。
github star:1.5k
代码示例1
代码示例1
import thulac
thu1 = thulac.thulac() #默认模式
text = thu1.cut("我爱北京天安门", text=True) #进行一句话分词
print(text) # 我_r 爱_v 北京_ns 天安门_ns
代码示例2
thu1 = thulac.thulac(seg_only=True) #只进行分词,不进行词性标注
thu1.cut_f("input.txt", "output.txt") #对input.txt文件内容进行分词,输出到output.txt
关于"python分词工具有哪些及怎么用"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注行业资讯频道,小编每天都会为大家更新不同的知识点。
模式
大学
北京
清华
代码
示例
清华大学
领域
支持
精确
工具
模型
科学
语言
中国
引擎
搜索引擎
知识
词典
京都
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
成都嘻猴软件开发有限公司
修改数据库支持中文
数据库系统工程的组成
网络安全法的手抄报内容
海力士1333服务器内存
软件开发cmm流程
jsp技术连接数据库页面
特色软件开发代理品牌
网吧服务器内存条
广东电商软件开发方案
数据库64G
.net 服务器
武汉天虹数据库
河南城建学院服务器名称ip地址
软件开发需要哪类专业的评标专家
幻塔红石柱服务器怎么样
配置服务器管理网
有没有招做网络安全工程的
我的世界画画比赛的服务器
软件开发合作平台有哪些
无服务器安全计算
信号通讯网络技术岗位
上传文件到服务器要流量吗
开启远程服务器管理工具
怎么将xml表格转入数据库
电脑怎么打开管理服务器
ddns搭建大型服务器靠谱吗
数据库物理结构怎么选择
服务器 web 客户管理
kk模组cad数据库