如何用Python爬取了三大相亲软件评论区
发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,本篇文章为大家展示了如何用Python爬取了三大相亲软件评论区,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。小三:怎么了小二?一副愁眉苦脸的样子。小二:唉!这
千家信息网最后更新 2024年09月22日如何用Python爬取了三大相亲软件评论区
本篇文章为大家展示了如何用Python爬取了三大相亲软件评论区,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
小三:怎么了小二?一副愁眉苦脸的样子。
小二:唉!这不是快过年了吗,家里又催相亲了 ...
小三:现在不是流行网恋吗,你可以试试相亲软件呀。
小二:这玩意靠谱吗?
小三:我也没用过,你自己看看软件评论区吧。
小二:这 ... 不过也只能先到评论区看看了。
以 360 手机助手为例,地址为:http://zhushou.360.cn/
,相亲软件选择 3 个比较流行的,分别为:世纪佳缘、百合婚恋、有缘网,我们使用 Python 爬取软件评论区,看看用户评价情况。
先来看一下这三款软件的下载量和好中差评占比情况(下图单位为万次)。
下面开始爬取评论区,以世纪佳缘为例,首先,在搜索框输入世纪佳缘进行搜索,如图所示:
接着,点击搜索到的软件进入其详情页,如图所示:
将页面向下拉就可以看到评论区了,如图所示:
此时打开开发者工具并选择Network
项,点击查看更多评论
,然后可以看到getComments
请求,如图所示:
通过这个请求我们就可以动态获取评论区数据了,其中参数star
为开始的评论索引,参数count
为每次加载的评论个数,可以通过参数callback
、baike
指定不同应用,爬取代码实现如下:
headers = {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate, sdch",
"Accept-Language": "zh-CN,zh;q=0.8",
"Connection": "keep-alive",
"Host": "comment.mobilem.360.cn",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"
}
def comment_spider(param, file_name):
base_url = "http://comment.mobilem.360.cn/comment/getComments?c=message&a=getmessage&&count=50"
start = 0
for i in range(1, 50):
print("第{}页".format(i))
url = base_url + param + "&start=" + str(start)
r = requests.get(url, headers=headers)
data = re.findall("{\"errno\"(.*)\);}catch\(e\){}", r.text)
# 转为 Json 格式
jdata = json.loads("{\"errno\"" + data[0])
for message in jdata["data"]["messages"]:
content = message["content"]
print(content)
with open(file_name + ".txt", "a", encoding="utf-8") as f:
f.write(content)
start = start + 50
time.sleep(2)
我们将爬取的评论数据存到了 txt 文件中。
接着,我们将评论数据进行词云展示,代码实现如下:
with open("yy.txt", "r", encoding="utf-8") as f:
content = f.read()
stylecloud.gen_stylecloud(text=content, max_words=600,
collocations=False,
font_path="SIMLI.TTF",
icon_name="fas fa-heart",
size=800,
output_name="yy.png")
Image(filename="yy.png")
最后,通过词云看一下用户对上述软件的评价情况。
世纪佳缘:
百合婚恋:
有缘网:
小二:看了有缘网的评论,我感觉自己和相亲软件无缘 ...
小三:...
上述内容就是如何用Python爬取了三大相亲软件评论区,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。
评论
软件
世纪
佳缘
如图
参数
情况
数据
搜索
三大
代码
内容
婚恋
技能
更多
用户
百合
知识
utf-8
评价
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据包与网络数据库成本对比
包装箱设计软件开发
长沙市红绿蓝网络技术有限公司
阿里服务器租用
上海激光套料软件开发商
网络安全四个字的写法
开局送32k的服务器游戏推荐
思科网络技术ppt
网络技术专利上市公司
网络安全绘画儿童舞台
WOW数据库技术员
服务器管理ip怎么配
网络安全周稿件名字
苹果注册id服务器连接不上
移动办公app软件开发
pcs7服务器数据传输
软件开发 变量设计文档
果洛网络技术操作
现实生活中有网络安全比赛吗
饭卡数据库系统优越性
数据库工程师和数字媒体技术
esp8826连接数据库
db2数据库事务日志怎么加空间
数据库实验查询心得体会
x99双路主板做服务器的目的
数据库如何导入数据
发现不了数据库尾号
cmd代理服务器
湖州电子网络技术咨询热线
反馈服务器为空是怎么回事