怎么用python pkuseg生成云词
发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,本篇内容主要讲解"怎么用python pkuseg生成云词",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"怎么用python pkuseg生成云词"吧!安装
千家信息网最后更新 2025年02月02日怎么用python pkuseg生成云词
本篇内容主要讲解"怎么用python pkuseg生成云词",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"怎么用python pkuseg生成云词"吧!
安装 pkuseg
pip3 install pkuseg
第一步是将演讲内容下载下来,保存到一个txt文件中,然后将内容加载到内存
content = []
with open("yanjiang.txt", encoding="utf-8") as f:
content = f.read()
我统计了一下,文字总数是32546个。
接下来我们用pkuseg对内容进行分词处理,并统计出现频率最高的前20个词语是哪些。
import pkuseg
from collections import Counter
import pprint
content = []
with open("yanjiang.txt", encoding="utf-8") as f:
content = f.read()
seg = pkuseg.pkuseg()
text = seg.cut(content)
counter = Counter(text)
pprint.pprint(counter.most_common(20))
输出结果:
什么鬼,这都是些啥玩意,别急,其实啊,分词领域还有一个概念叫做停用词,所谓停用词就是在语境中没有具体含义的文字,例如这个、那个,你我他,的得地,以及标点符合等等。因为没人在搜索的时候去用这些没意义的停用词搜索,为了使得分词效果更好,我们就要把这些停用词过去掉,我们去网上找个停用词库。
第二版代码:
import pkuseg
from collections import Counter
import pprint
content = []
with open("yanjiang.txt", encoding="utf-8") as f:
content = f.read()
seg = pkuseg.pkuseg()
text = seg.cut(content)
stopwords = []
with open("stopword.txt", encoding="utf-8") as f:
stopwords = f.read()
new_text = []
for w in text:
if w not in stopwords:
new_text.append(w)
counter = Counter(new_text)
pprint.pprint(counter.most_common(20))
打印的结果:
[('微信', 163),
('用户', 112),
('产品', 89),
('朋友', 81),
('工具', 56),
('程序', 55),
('社交', 55),
('圈', 47),
('视频', 40),
('希望', 39),
('时间', 39),
('游戏', 36),
('阅读', 33),
('内容', 32),
('平台', 31),
('文章', 30),
('信息', 29),
('团队', 27),
('AI', 27),
('APP', 26)]
看起来比第一次好多了,因为停用词都过滤掉了,跟采铜那张图片有点像了,不过他挑出来的词可能是从另外一个维度来的,毕竟人家是搞心理学的。但是我们选出来的前20个高频词还是不准确,有些不应该分词的也被拆分了,例如朋友圈,公众号,小程序等词,我们认为这是一个整体。
对于这些专有名词,我们只需要指定一个用户词典, 分词时用户词典中的词固定不分开,重新进行分词。
lexicon = ['小程序', '朋友圈', '公众号'] #
seg = pkuseg.pkuseg(user_dict=lexicon) # 加载模型,给定用户词典
text = seg.cut(content)
最后出来的结果前50个高频词是这样的
163 微信
112 用户
89 产品
72 朋友圈
56 工具
55 社交
53 小程序
40 视频
39 希望
39 时间
36 游戏
33 阅读
32 内容
31 朋友
31 平台
30 文章
29 信息
27 团队
27 AI
26 APP
25 公众号
25 服务
24 好友
22 照片
21 时代
21 记录
20 手机
20 推荐
20 企业
19 原动力
18 功能
18 真实
18 生活
17 流量
16 电脑
15 空间
15 发现
15 创意
15 体现
15 公司
15 价值
14 版本
14 分享
14 未来
13 互联网
13 发布
13 能力
13 讨论
13 动态
12 设计
张小龙讲得最多的词就是用户、朋友、原动力、价值、分享、创意、发现等这些词,用户出现112次,希望39次,朋友31次,这些词正是互联网的精神,如果我们把这些做成词云的话,可能效果会更好
到此,相信大家对"怎么用python pkuseg生成云词"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
朋友
用户
内容
程序
utf-8
生成
公众
结果
词典
互联网
产品
价值
信息
原动力
团队
就是
工具
平台
效果
文字
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
植物病毒数据库
数据库连接用户名口令无效
计算机网络技术从哪里来
魔兽世界哪个服务器联盟人多
广州市恒博软件开发有限公司
手游我的世界服务器缺管理员
武汉飞腾服务器订购
手机怎么知道服务器ip地址
网络技术有限公司招聘
服务器通讯源码
软件开发交接文档模板下载
湖南安卓软件开发学费多少
搭建远程udp服务器
呼和浩特市零基础app软件开发
加载项怎么添加数据库
重庆pdu服务器专用电源价钱
红色地名资源数据库 新华社
计算机网络技术与文员的匹配度
中国汽车市场数据库
2年级网络安全手抄报电子版
网络安全扫黄打非班会总结
网络安全知识提升心得体会
电脑服务器外形
哪里找软件开发的
描述java软件开发
如何保障网络安全健康
苏州安卓软件开发靠谱吗
网络安全工作取得了
ipad邮箱邮件服务器没反应
中国汽车市场数据库