WeiboUserScrapy类爬虫爬取爬虫的示例分析
发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,WeiboUserScrapy类爬虫爬取爬虫的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。我停止对有GUI功能集中版本的维护了
千家信息网最后更新 2025年01月31日WeiboUserScrapy类爬虫爬取爬虫的示例分析我停止对有GUI功能集中版本的维护了,集中精力维护无GUI版本功能独立版本的开发和维护,并且保证每个功能都是最小可用产品且互不干扰。但是功能独立版本一直有个历史遗留问题:没有将集中版本中爬取每个用户的所有微博的功能独立出来然后运行代码即可,不一会儿你就能在项目的根目录下的 user 文件夹看到诸如 想到老铁们可能有这样的问题:某个博主有 4w 条微博,爬了 2w 条突然断网了或者 Cookie 过期了,难道要重新爬? 作为良心博主,当然要加一个断点续爬的功能,其实实现起来也不难,每次写 csv 的时候同时将翻页参数 page 保存并更新到一个配置文件中即可,核心代码如下:
WeiboUserScrapy类爬虫爬取爬虫的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
整体的剥离过程来算比较轻松,因为功能集中版本每个功能都有一个相对独立的类,这个用户微博爬虫就是一个 WeiboUserScrapy 类,只不过在集中版本中为了和其他功能模块进行通信和协调,引进了 PyQT5 的信号量,以及一些公共配置变量,独立时将这些东西去掉即可。
拿到代码后,你需要做的两件事依次是:
更换代码中的 Cookie 把 user_id 改成你想要爬取的用户 id(是纯数字)
{user_id}_{nickname}_{weibo_num}博_{followers}粉_{following}关注.csv'
格式的文件,爬取的微博都保存在这里。
user_page_config = 'user_page.json'
if not os.path.exists('user_page.json'):
page = 1
with open(user_page_config,'w', encoding='utf-8-sig') as f:
f.write(json.dumps({f'{self.user_id}':page}, indent=2))
else:
with open(user_page_config,'r', encoding='utf-8-sig') as f:
page = json.loads(f.read())[f'{self.user_id}']
random_pages = random.randint(1, 5)
for page in range(page, page_num + 1):
self.get_one_page(page) # 获取第page页的全部微博
with open(user_page_config,'r', encoding='utf-8-sig') as f:
old_data = json.loads(f.read())
old_data[f'{self.user_id}'] = page
with open(user_page_config,'w', encoding='utf-8-sig') as f:
f.write(json.dumps(old_data, indent=2))
这样,就能右键运行代码,开开心心做其他事去,不用每时每刻盯着代码。
看完上述内容,你们掌握WeiboUserScrapy类爬虫爬取爬虫的示例分析的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!
功能
版本
代码
爬虫
独立
问题
文件
用户
示例
分析
内容
方法
更多
运行
配置
最小
束手无策
不一会儿
为此
每时每刻
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库搜索生物信息学统计
山东商城软件开发解决方案
本地服务器登录gitlab
数据库技术与应用大纲
西门子上位机软件开发
有什么可以学的网络技术
用友软件开发费入什么科目
怎样租服务器最安全
多功能打印服务器怎么设置
网络安全像素字体
网页要服务器
sql数据库不能共享
1.8.0我的世界服务器
绍兴高防服务器
查询数据库中所有的表
知网国家标准全文数据库检索
建设海洋档案资源数据库
关于网络安全现状的调研报告
git代理服务器IP
孝感计算机软件开发电话
亿加乐上海网络技术
淘宝服务器如何保障的安全性
计算机大赛网络安全挑战赛
联想服务器换内存后点不亮
武汉哪里有软件开发方案
软件开发前途一片大好
Ns暗黑2连不上服务器怎么加速
计算机网络技术封装成帧
网络安全学科专业和院系建设
软件开发的存在的风险点