如何使用Python统计180班QQ群聊文本可视化分析
发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,如何使用Python统计180班QQ群聊文本可视化分析,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。今天是八月三号习惯性的身边复习的
千家信息网最后更新 2024年11月11日如何使用Python统计180班QQ群聊文本可视化分析今天是八月三号
习惯性的身边复习的同学离开
人越来越少 亚军是我老乡,也回家了
寝室剩下我一人 近几天一直没去复习
复习状态一直不太好
只能看看课外书 学学Python,机器学习,数据挖掘...
相关的书籍,为以后数据分析积累知识
今天给大家讲讲我们班
2016级统计学180班
我们班有来自不同的地方
标红点的为来源的地方
其中以河南省的同学人数最多 首先要获取QQ群聊的文本数据 而爬虫可以很好的实现网页数据的爬取 一般爬取数据流程如下所示
如何使用Python统计180班QQ群聊文本可视化分析,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
转眼就到大四年级,留在学校的时日不多了
分为网站请求、伪装、解析、存储四个过程
更为详细的爬取流程如下所示
需要添加一些规则
然而,本文的文本数据
是我从QQ电脑端后台导出的
目前对于网络爬虫的学习
我只会豆瓣影评、书评、淘宝价格的爬取
等具体学习成熟了
发一篇网络爬虫的推文
敬请期待
导出文本数据后
编写程序,调试代码,做可视化分析
详细代码如下所示
#QQ群聊数据分析代码import reimport datetimeimport seaborn as snsimport matplotlib.pyplot as pltimport jiebafrom wordcloud import WordCloud, STOPWORDSfrom scipy.misc import imread# 日期def get_date(data): # 日期 dates = re.findall(r'\d{4}-\d{2}-\d{2}', data) # 天 days = [date[-2:] for date in dates] plt.subplot(221) sns.countplot(days) plt.title('Days') # 周几 weekdays = [datetime.date(int(date[:4]), int(date[5:7]), int(date[-2:])).isocalendar()[-1] for date in dates] plt.subplot(222) sns.countplot(weekdays) plt.title('WeekDays')# 时间def get_time(data): times = re.findall(r'\d{2}:\d{2}:\d{2}', data) # 小时 hours = [time[:2] for time in times] plt.subplot(223) sns.countplot(hours, order=['06', '07', '08', '09', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '20', '21', '22', '23', '00', '01', '02', '03', '04', '05']) plt.title('Hours')代码演示:# 词云def get_wordclound(text_data): word_list = [" ".join(jieba.cut(sentence)) for sentence in text_data] new_text = ' '.join(word_list) pic_path = 'QQ.jpg' mang_mask = imread(pic_path) plt.subplot(224) wordcloud = WordCloud(background_color="white", font_path='/home/shen/Downloads/fonts/msyh.ttc', mask=mang_mask, stopwords=STOPWORDS).generate(new_text) plt.imshow(wordcloud) plt.axis("off")# 内容及词云def get_content(data): pa = re.compile(r'\d{4}-\d{2}-\d{2}.*?\(\d+\)\n(.*?)\n\n', re.DOTALL) content = re.findall(pa, data) get_wordclound(content)def run(): filename = '新建文本文档.txt' with open(filename) as f: data = f.read() get_date(data) get_time(data) get_content(data) plt.show()
做出文本可视话图后,可以得出如下结论
在2018年1月1日~1月31日统计180班群聊中
1月2日这一天群聊次数最多
每周的星期二群聊次数做多
每天的16时群聊次数最多
做词云图发现
"全体成员"出现的词频最多
关于如何使用Python统计180班QQ群聊文本可视化分析问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注行业资讯频道了解更多相关知识。
数据
文本
分析
统计
代码
可视化
次数
爬虫
问题
复习
学习
内容
同学
地方
数据分析
日期
更多
流程
知识
网络
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
我的世界黑芒君被收买服务器被炸
军营网络安全宣传周活动方案
中国知名软件开发公司有哪些
斯柯达在线显示服务器登录错误
创建安卓sqlite数据库
辽阳装修网络安全
软件开发有什么技术风险
博雅数据库文史二批
服务器gpu分类
网警检查高速公路网络安全
网络安全质量管理体系文件架构
数据库管理员难吗
asp本地数据库连接代码
网络安全大赛需要什么技能
手机互联网科技
狮山网络安全设备
国外网络安全技术有哪些
洛阳红东方软件开发
江苏通用软件开发定制价格
京东企业网络技术咋样
敦煌创客软件开发
邯郸软件开发报价
山西学生网络技术咨询计划表
公安机关 网络安全观
网络技术研究生毕业薪资
广东python软件开发怎么样
徐州网络技术人员
互联网 黑科技赛道
为什么数据库表字段要用英文
搜索网络安全手抄报减