千家信息网

怎么用Python分析红楼梦关键词

发表于:2024-12-03 作者:千家信息网编辑
千家信息网最后更新 2024年12月03日,这篇文章主要介绍"怎么用Python分析红楼梦关键词",在日常操作中,相信很多人在怎么用Python分析红楼梦关键词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"怎么用
千家信息网最后更新 2024年12月03日怎么用Python分析红楼梦关键词

这篇文章主要介绍"怎么用Python分析红楼梦关键词",在日常操作中,相信很多人在怎么用Python分析红楼梦关键词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"怎么用Python分析红楼梦关键词"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

Python工具包准备

想要完成一个文本的分词,我们需要分词工具;而要将分词统计结果用词云图画出来,我们需要一个词云工具:


0 1
分词工具jieba


jieba 是基于Python的中文分词工具,安装使用非常方便。


我们使用pip安装:



02
词云工具wordcloud


wordcloud库,可以说是python非常优秀的词云展示第三方库。词云以词语为基本单位更加直观和艺术的展示文本词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。


效果举例:



我们使用pip安装:



文本和图片准备


0 1
红楼梦.txt


为了让分词工具进行分析,我们下载红楼梦小说txt格式。为了方便,我们将红楼梦文档放在程序"fenci.py"所在目录"分词"下的txt文件夹里面:




0 2
背景.jpg


像上面的词云图的形状是一个鲸鱼,我们需要准备一个有图案的背景图,让最后的词云图贴合背景图案。


我们选用这张宝玉的美男子画像图作为背景图:


文件保存在程序当前文件夹的img目录下:




0 3
停用词.txt


在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。


但是,由于红楼梦有很多特殊的用词,比如"这会子","明儿"等等,大家可以选择自行添加一些停用词。比如我加了一些词:



我们把停用词放在words文件夹下面:




程序运行

我们将最大次数设置成500个,为了能让背景图案比较明显:


从结果看来,宝玉是当之无愧的主角。凤姐,贾母,王夫人等人戏份也不少。由于黛玉和林黛玉被分成了两个词,因此显得戏份很少,大家想想有没有办法解决这个问题?另外,我们可以看到"这会子"这个词出现频率也不低,从中可以一窥当时的方言的感觉。

到此,关于"怎么用Python分析红楼梦关键词"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!

0