千家信息网

大数据开发中如何爬取点评成都数据

发表于:2025-01-25 作者:千家信息网编辑
千家信息网最后更新 2025年01月25日,这篇文章将为大家详细讲解有关大数据开发中如何爬取点评成都数据,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1、爬虫首先小编定位为成都,美食类型选的"火锅",火锅具体
千家信息网最后更新 2025年01月25日大数据开发中如何爬取点评成都数据

这篇文章将为大家详细讲解有关大数据开发中如何爬取点评成都数据,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

1、爬虫

首先小编定位为成都,美食类型选的"火锅",火锅具体类型选的不限,区域选的不限,排序选的智能,如图:

你也可以选择别的选项,只是注意URL的变化。本文都是按照上述选项爬取的数据。接下来翻页观察一下URL的变化:

第二页:

第三页:

很容易观察出翻页变化的知识p后面的数字,倒推回***页,发现一样的显示内容,因此,写一个循环,便可以爬取全部页面。但是大众点评只提供了前50页的数据,所以,我们也只能爬取前50页。

这一次,小编用的pyquery来分析网页的,所以我们需要定位到我们所爬取的数据的位置,如图:

在具体分析的网页的时候,我震惊了,大众点评的反爬做的太过分了,它的数字,一些文字居然都不是明文显示,而是代码,你还不知道怎么分析它。如图:

很烦的,一些文字又可以显示,一些又用代码表示。一些数字也是,不过好一点的是数字只有9个,只要稍微观察一下,就能发现数字的代码是什么了。这里小编列出来了。 {'hs-OEEp': 0, 'hs-4Enz': 2, 'hs-GOYR': 3, 'hs-61V1': 4, 'hs-SzzZ': 5, 'hs-VYVW': 6, 'hs-tQlR': 7, 'hs-LNui': 8, 'hs-42CK': 9}。值得注意的是,数字1,是用明文表示的。

那么,如何用pyquery来定位呢,很简单,你找到你要获取的数据,然后右键→copy→cut selector,你复制到代码里面就OK了。pyquery的具体用法百度既有。

***,我们获取了火锅50个页面的数据,每页15个数据,一共750家餐厅的数据。

2、分析

大众点评已经给出了***评价,可以看看大致趋势。

准五星商户最多,可能因为大部分食客都习惯给好评,只有实在不满时才会打出低评有关,造成了评级一般不低,但近满分还是蛮少的。

在本文,我们假设评论数目为饭店的热度,也就是它越火,评论数目越多。

评论数目大多在1000以内,但是高于2000,甚至高于4000也还存在一些,这些饭店应该是一些网红店。以5000为约束,筛选出饭店均为小龙坎、蜀大侠都非常知名的火锅店。那么评论数量和***有关系吗?看下图:

这里取其评论数平均值,发现对于四星以上商户来说,评论数和***并不关系,但均比低于四星的饭店销量更好。这说明在四星以上之后,人们选择差别不大,但一般不愿意接受评论太差的饭店。

对于小编这样的学生党来说,影响较大还有人均消费情况。

成都的火锅店人均消费大部分都在50-100的区间内,高于150的也有一些。对于小编来讲,吃一顿火锅,人均在50-100是可以接受的,高于100,小编就要低头看看钱包了。那扩展看,人均消费和***、评论数量有关系吗?

上图是人均消费和***的关系,看起来并无任何关系,那说明一些口碑好的火锅店,其实人均也不贵。下面看看人均和评论数目的关系吧。

通过比较,发现评论数目低于500,人均在50-100区间是最多的。当然这肯定和评论数量、人均消费本身集中于这一阶段有关。

吃火锅,一家店的生意好坏,肯定还和它的特色菜有关,小编通过jieba分词,将爬取到的推荐菜做了一个词云图,如下。

小编***的牛肉是特色菜之最啊,尤其是麻辣牛肉,只要去吃火锅,都要来上一份,其次是毛肚、虾滑、鹅肠等等。

接下来是大家都关心的,口味、环境和服务的情况。

三者得分大多都是集中在8.0-9.2这一阶段,小编认为,低于7.5分的饭店还是不要去尝试了。同时,***评价应该也是由这三者得分产生的。

果然如预想的一向,***评价越好,它在口味、环境和服务的得分越高。那么口味,环境,服务得分与评论数量,平均价格有关系吗?

如图所看,并无什么直接关系,但是我们发现口味、环境和服务三者之间存在着非常好的线性关系,于是单独拿出来画了一个较大的图。

我们并且拟合了线性关系,由于三星商户只有一家,它的情况较为特殊之外,其他***在口味、环境和服务的关系拟合中保持的相当一致,这也证明我们的猜想,这些变量之间存在线性关系。鉴于小编本文***的目的是做推荐,于是,我们进行了K-means聚类,这里小编取K为3,并且把***转换为数字,五星对应5分,准五星对应4.5分,以此类推。最终得到了三类,通过作图,看看聚类情况如何吧。

和我们想要的结果一致,在口味、环境、服务和***上得分越高,我们就越推荐。然而推荐的店铺还是好多,能不能在集中一些呢?于是小编通过限制评论数量、人均消费和特色菜来进行推荐。由于小编喜欢人少,便宜还有牛肉的店铺,这里得到了如下的结果:

关于"大数据开发中如何爬取点评成都数据"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

评论 数据 火锅 数字 有关 口味 环境 饭店 服务 消费 数目 数量 推荐 成都 代码 得分 情况 如图 分析 只有 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 软件开发服务费可抵扣吗 存入数据库的日期格式 软件开发公司招投标之路 杀手2水下数据库 小学生网络安全标语短句 cap 网络安全 建材 伯才网络技术支持 孤胆车神帮派怎么连服务器 我的世界虎牙服务器指令 吉首网络安全座谈会 离线登录怎么进服务器 数据库同时删除带外键的表 顾振清服务器艺术总监 应用软件开发专业有哪些 广西信息化网络安全工程包括什么 数据库怎么修改字段的默认值 涪陵区媒体网络技术服务供应商家 开展网络安全倡议书新闻稿 锡山区环保网络技术收购价格 后端开发和网络安全 单片机软件开发是什么 甘肃华为服务器维修维保多少钱 荣耀3连接服务器 群晖连接不到数据库 北京前端软件开发哪家可靠 怎么部署文件同步服务器 武汉讯网络技术有限公司 主播把服务器充爆了的视频 网络安全靠大家班队活动 小学网络安全法主题班会
0