WeiboUserScrapy类爬虫爬取爬虫的示例分析
发表于:2024-10-21 作者:千家信息网编辑
千家信息网最后更新 2024年10月21日,WeiboUserScrapy类爬虫爬取爬虫的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。我停止对有GUI功能集中版本的维护了
千家信息网最后更新 2024年10月21日WeiboUserScrapy类爬虫爬取爬虫的示例分析我停止对有GUI功能集中版本的维护了,集中精力维护无GUI版本功能独立版本的开发和维护,并且保证每个功能都是最小可用产品且互不干扰。但是功能独立版本一直有个历史遗留问题:没有将集中版本中爬取每个用户的所有微博的功能独立出来然后运行代码即可,不一会儿你就能在项目的根目录下的 user 文件夹看到诸如 想到老铁们可能有这样的问题:某个博主有 4w 条微博,爬了 2w 条突然断网了或者 Cookie 过期了,难道要重新爬? 作为良心博主,当然要加一个断点续爬的功能,其实实现起来也不难,每次写 csv 的时候同时将翻页参数 page 保存并更新到一个配置文件中即可,核心代码如下:
WeiboUserScrapy类爬虫爬取爬虫的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
整体的剥离过程来算比较轻松,因为功能集中版本每个功能都有一个相对独立的类,这个用户微博爬虫就是一个 WeiboUserScrapy 类,只不过在集中版本中为了和其他功能模块进行通信和协调,引进了 PyQT5 的信号量,以及一些公共配置变量,独立时将这些东西去掉即可。
拿到代码后,你需要做的两件事依次是:
更换代码中的 Cookie 把 user_id 改成你想要爬取的用户 id(是纯数字)
{user_id}_{nickname}_{weibo_num}博_{followers}粉_{following}关注.csv'
格式的文件,爬取的微博都保存在这里。
user_page_config = 'user_page.json'
if not os.path.exists('user_page.json'):
page = 1
with open(user_page_config,'w', encoding='utf-8-sig') as f:
f.write(json.dumps({f'{self.user_id}':page}, indent=2))
else:
with open(user_page_config,'r', encoding='utf-8-sig') as f:
page = json.loads(f.read())[f'{self.user_id}']
random_pages = random.randint(1, 5)
for page in range(page, page_num + 1):
self.get_one_page(page) # 获取第page页的全部微博
with open(user_page_config,'r', encoding='utf-8-sig') as f:
old_data = json.loads(f.read())
old_data[f'{self.user_id}'] = page
with open(user_page_config,'w', encoding='utf-8-sig') as f:
f.write(json.dumps(old_data, indent=2))
这样,就能右键运行代码,开开心心做其他事去,不用每时每刻盯着代码。
看完上述内容,你们掌握WeiboUserScrapy类爬虫爬取爬虫的示例分析的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!
功能
版本
代码
爬虫
独立
问题
文件
用户
示例
分析
内容
方法
更多
运行
配置
最小
束手无策
不一会儿
为此
每时每刻
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
海康威视的网络安全部
离线地图软件开发工具功能合同
网络安全和数字科技
软件开发公司后缀
关于大学校园网络安全的文章
火牛网络技术有限公司
犀牛云软件开发
网络安全责任体系
服务器千兆升级万兆模块
互联网新能源高科技都在哪个板块
网络安全与健康教育检讨书
酷游网络技术展
广东炬烽网络技术科技有限公司
怀旧服任务数据库在哪
两当县网络安全图解
深信服 网络安全态势感知
通过重建索引收缩数据库
国防网络安全员
计算机和网络技术就业方向
sql数据库怎么停止运行
数据库视频课
yum数据库
查看数据库事务命令
我的世界服务器如何变成管理员
数据库图片路径
软件开发公司员工需要培训
福建东南大学网络安全专业怎样
青石纪(衡水)网络技术有限公司
医疗软件开发招聘信息
澳门科技大学网络安全