如何用Python爬取了三大相亲软件评论区
发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,本篇文章为大家展示了如何用Python爬取了三大相亲软件评论区,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。小三:怎么了小二?一副愁眉苦脸的样子。小二:唉!这
千家信息网最后更新 2025年01月23日如何用Python爬取了三大相亲软件评论区
本篇文章为大家展示了如何用Python爬取了三大相亲软件评论区,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
小三:怎么了小二?一副愁眉苦脸的样子。
小二:唉!这不是快过年了吗,家里又催相亲了 ...
小三:现在不是流行网恋吗,你可以试试相亲软件呀。
小二:这玩意靠谱吗?
小三:我也没用过,你自己看看软件评论区吧。
小二:这 ... 不过也只能先到评论区看看了。
以 360 手机助手为例,地址为:http://zhushou.360.cn/
,相亲软件选择 3 个比较流行的,分别为:世纪佳缘、百合婚恋、有缘网,我们使用 Python 爬取软件评论区,看看用户评价情况。
先来看一下这三款软件的下载量和好中差评占比情况(下图单位为万次)。
下面开始爬取评论区,以世纪佳缘为例,首先,在搜索框输入世纪佳缘进行搜索,如图所示:
接着,点击搜索到的软件进入其详情页,如图所示:
将页面向下拉就可以看到评论区了,如图所示:
此时打开开发者工具并选择Network
项,点击查看更多评论
,然后可以看到getComments
请求,如图所示:
通过这个请求我们就可以动态获取评论区数据了,其中参数star
为开始的评论索引,参数count
为每次加载的评论个数,可以通过参数callback
、baike
指定不同应用,爬取代码实现如下:
headers = {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate, sdch",
"Accept-Language": "zh-CN,zh;q=0.8",
"Connection": "keep-alive",
"Host": "comment.mobilem.360.cn",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"
}
def comment_spider(param, file_name):
base_url = "http://comment.mobilem.360.cn/comment/getComments?c=message&a=getmessage&&count=50"
start = 0
for i in range(1, 50):
print("第{}页".format(i))
url = base_url + param + "&start=" + str(start)
r = requests.get(url, headers=headers)
data = re.findall("{\"errno\"(.*)\);}catch\(e\){}", r.text)
# 转为 Json 格式
jdata = json.loads("{\"errno\"" + data[0])
for message in jdata["data"]["messages"]:
content = message["content"]
print(content)
with open(file_name + ".txt", "a", encoding="utf-8") as f:
f.write(content)
start = start + 50
time.sleep(2)
我们将爬取的评论数据存到了 txt 文件中。
接着,我们将评论数据进行词云展示,代码实现如下:
with open("yy.txt", "r", encoding="utf-8") as f:
content = f.read()
stylecloud.gen_stylecloud(text=content, max_words=600,
collocations=False,
font_path="SIMLI.TTF",
icon_name="fas fa-heart",
size=800,
output_name="yy.png")
Image(filename="yy.png")
最后,通过词云看一下用户对上述软件的评价情况。
世纪佳缘:
百合婚恋:
有缘网:
小二:看了有缘网的评论,我感觉自己和相亲软件无缘 ...
小三:...
上述内容就是如何用Python爬取了三大相亲软件评论区,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。
评论
软件
世纪
佳缘
如图
参数
情况
数据
搜索
三大
代码
内容
婚恋
技能
更多
用户
百合
知识
utf-8
评价
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
镇江进销存软件开发
csgo国际服服务器位置指令
淮安专业软件开发售后保障
网络技术测试员
远程访问mysql服务器
浙江民国报纸数据库
行云数据库新建表
机架式服务器发热量计算
山西网络技术转让询问报价
东营dell服务器哪家服务好
河北原宠网络技术有限公司
澳洲软件开发前景如何
网络安全重点保障工作总结
服务器事件10149
部队网络安全院士
数据库管理系统原理
服务器主机电源灯亮
全国网络安全素质教育
药品标准检测数据库
黄浦区信息化软件开发值得推荐
北京服务器回收价格一览表
服务器关闭运营商怎么处理
停车管理软件无法连接服务器
佛山工业控制软件开发兼职
删除数据库为什么删不掉
电力网络安全演练方案
数据库js链接
快快乐动网络技术有限公司
嘉兴软件开发的公司
深信服网络安全薪资