如何使用Python统计180班QQ群聊文本可视化分析
发表于:2024-11-27 作者:千家信息网编辑
千家信息网最后更新 2024年11月27日,如何使用Python统计180班QQ群聊文本可视化分析,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。今天是八月三号习惯性的身边复习的
千家信息网最后更新 2024年11月27日如何使用Python统计180班QQ群聊文本可视化分析今天是八月三号
习惯性的身边复习的同学离开
人越来越少 亚军是我老乡,也回家了
寝室剩下我一人 近几天一直没去复习
复习状态一直不太好
只能看看课外书 学学Python,机器学习,数据挖掘...
相关的书籍,为以后数据分析积累知识
今天给大家讲讲我们班
2016级统计学180班
我们班有来自不同的地方
标红点的为来源的地方
其中以河南省的同学人数最多 首先要获取QQ群聊的文本数据 而爬虫可以很好的实现网页数据的爬取 一般爬取数据流程如下所示
如何使用Python统计180班QQ群聊文本可视化分析,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
转眼就到大四年级,留在学校的时日不多了
分为网站请求、伪装、解析、存储四个过程
更为详细的爬取流程如下所示
需要添加一些规则
然而,本文的文本数据
是我从QQ电脑端后台导出的
目前对于网络爬虫的学习
我只会豆瓣影评、书评、淘宝价格的爬取
等具体学习成熟了
发一篇网络爬虫的推文
敬请期待
导出文本数据后
编写程序,调试代码,做可视化分析
详细代码如下所示
#QQ群聊数据分析代码import reimport datetimeimport seaborn as snsimport matplotlib.pyplot as pltimport jiebafrom wordcloud import WordCloud, STOPWORDSfrom scipy.misc import imread# 日期def get_date(data): # 日期 dates = re.findall(r'\d{4}-\d{2}-\d{2}', data) # 天 days = [date[-2:] for date in dates] plt.subplot(221) sns.countplot(days) plt.title('Days') # 周几 weekdays = [datetime.date(int(date[:4]), int(date[5:7]), int(date[-2:])).isocalendar()[-1] for date in dates] plt.subplot(222) sns.countplot(weekdays) plt.title('WeekDays')# 时间def get_time(data): times = re.findall(r'\d{2}:\d{2}:\d{2}', data) # 小时 hours = [time[:2] for time in times] plt.subplot(223) sns.countplot(hours, order=['06', '07', '08', '09', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '20', '21', '22', '23', '00', '01', '02', '03', '04', '05']) plt.title('Hours')代码演示:# 词云def get_wordclound(text_data): word_list = [" ".join(jieba.cut(sentence)) for sentence in text_data] new_text = ' '.join(word_list) pic_path = 'QQ.jpg' mang_mask = imread(pic_path) plt.subplot(224) wordcloud = WordCloud(background_color="white", font_path='/home/shen/Downloads/fonts/msyh.ttc', mask=mang_mask, stopwords=STOPWORDS).generate(new_text) plt.imshow(wordcloud) plt.axis("off")# 内容及词云def get_content(data): pa = re.compile(r'\d{4}-\d{2}-\d{2}.*?\(\d+\)\n(.*?)\n\n', re.DOTALL) content = re.findall(pa, data) get_wordclound(content)def run(): filename = '新建文本文档.txt' with open(filename) as f: data = f.read() get_date(data) get_time(data) get_content(data) plt.show()
做出文本可视话图后,可以得出如下结论
在2018年1月1日~1月31日统计180班群聊中
1月2日这一天群聊次数最多
每周的星期二群聊次数做多
每天的16时群聊次数最多
做词云图发现
"全体成员"出现的词频最多
关于如何使用Python统计180班QQ群聊文本可视化分析问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注行业资讯频道了解更多相关知识。
数据
文本
分析
统计
代码
可视化
次数
爬虫
问题
复习
学习
内容
同学
地方
数据分析
日期
更多
流程
知识
网络
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
计算机网络安全性指标
数据库系统原理与技术
服务器如何分配独立ip
参加网络安全大赛需要哪些知识
jar文件无法连接数据库
网络安全靶场华为
数据库安全模型的组成
手机网络安全警句
服务器设置了多个ip
国泰君安数据库只有两年吗
数据库系统 界面
中国联通网络技术大会ppt
智能驾驶仿真软件开发
网络安全天眼系统和态势感知
分布式数据库系统包含
绵阳网络安全技术研究院
深圳软件开发开发公司
前端如何处理xml数据库
江西网络时钟同步服务器云服务器
泰拉瑞亚怎么开云服务器
网络安全 责任部门
acssess做 网站数据库
ftp服务器搭建 xp
最多跑一次数据库技术支持
代码怎么创建数据库快照
软件开发管理能力提升
初中信息技术数据库考试题
单片机软件开发成本组成
北京清水源头软件开发公司
在线考试软件开发哪家好