Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析
发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,这期内容当中小编将会给大家带来有关Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。前言今天在知乎上看到一个关
千家信息网最后更新 2025年02月02日Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析
这期内容当中小编将会给大家带来有关Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
前言
今天在知乎上看到一个关于【世纪佳缘找对象靠谱吗?】的讨论,其中关注的人有1903,被浏览了1940753次,355个回答中大多数都是不靠谱。用Python爬取世纪佳缘的数据是否能证明它的不靠谱?
翻了几页找到一个search_v2.php的链接,它的返回值是一个不规则的json串,其中包含了昵称,性别,是否婚配,匹配条件等等
通过url +参数的get方式,抓取了10000页的数据总计240116
需要安装的模块有openpyxl,用于过滤特殊的字符
# coding:utf-8import csvimport jsonimport requestsfrom openpyxl.cell.cell import ILLEGAL_CHARACTERS_REimport reline_index = 0def fetchURL(url): headers = { 'accept': '*/*', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36', 'Cookie': 'guider_quick_search=on; accessID=20201021004216238222; PHPSESSID=11117cc60f4dcafd131b69d542987a46; is_searchv2=1; SESSION_HASH=8f93eeb87a87af01198f418aa59bccad9dbe5c13; user_access=1; Qs_lvt_336351=1603457224; Qs_pv_336351=4391272815204901400%2C3043552944961503700' } r = requests.get(url, headers=headers) r.raise_for_status() return r.text.encode("gbk", 'ignore').decode("gbk", "ignore")def parseHtml(html): html = html.replace('\\', '') html = ILLEGAL_CHARACTERS_RE.sub(r'', html) s = json.loads(html,strict=False) global line_index userInfo = [] for key in s['userInfo']: line_index = line_index + 1 a = (key['uid'],key['nickname'],key['age'],key['work_location'],key['height'],key['education'],key['matchCondition'],key['marriage'],key['shortnote'].replace('\n',' ')) userInfo.append(a) with open('sjjy.csv', 'a', newline='') as f: writer = csv.writer(f) writer.writerows(userInfo)if __name__ == '__main__': for i in range(1, 10000): url = 'http://search.jiayuan.com/v2/search_v2.php?key=&sex=f&stc=23:1,2:20.30&sn=default&sv=1&p=' + str(i) + '&f=select&listStyle=bigPhoto' html = fetchURL(url) print(str(i) + '页' + str(len(html)) + '*********' * 20) parseHtml(html)
二,去重
在处理数据去掉重复的时候发现有好多重复的,还以为是代码写的有问题呢,查了好久的bug最后才发现网站在100页上只有数据有好多重复的,下面两个图分别是110页数据和111页数据,是不是有很多熟面孔。
110页数据
111页数据
过滤重复后的数据只剩下 1872 了,这个水分还真大
def filterData(): filter = [] csv_reader = csv.reader(open("sjjy.csv", encoding='gbk')) i = 0 for row in csv_reader: i = i + 1 print('正在处理:' + str(i) + '行') if row[0] not in filter: filter.append(row[0]) print(len(filter))
上述就是小编为大家分享的Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。
数据
世纪
佳缘
分析
示例
内容
处理
不规则
特殊
专业
两个
中小
代码
内容丰富
前言
参数
只有
字符
对象
就是
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
mysql数据库打不开了
甘肃戴尔服务器维修续保
银行贷款网络安全宣传
和平区专业的软件开发好吗
360破获网络安全
软件开发项目 真实案例
什么是网络安全密钥怎么才能解开
学软件开发就业方向及前景
软件开发计算费用标准
数据库中前三怎么表示
数据库想导出一个表
数据库设计的总结
怎样取得软件开发的资格
网络安全个人信息保护视频
数据库怎么转换字符串
高中数据库入门基础知识
虚拟机服务器搭建心得
数学专业学数据库原理
图形软件开发
网络安全生态建设全方位
根据指令提交给服务器的方式
六安咖啡点餐软件开发定制
网络安全第五空间专题片
网络安全资格证书有什么用
朋友网 服务器
河南网络安全培训机构
下面是网络安全技术的是
节假日强化网络安全
黑暗之魂3服务器搭建
软件开发是文科还是理科