WeiboUserScrapy类爬虫爬取爬虫的示例分析
发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,WeiboUserScrapy类爬虫爬取爬虫的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。我停止对有GUI功能集中版本的维护了
千家信息网最后更新 2024年11月11日WeiboUserScrapy类爬虫爬取爬虫的示例分析我停止对有GUI功能集中版本的维护了,集中精力维护无GUI版本功能独立版本的开发和维护,并且保证每个功能都是最小可用产品且互不干扰。但是功能独立版本一直有个历史遗留问题:没有将集中版本中爬取每个用户的所有微博的功能独立出来然后运行代码即可,不一会儿你就能在项目的根目录下的 user 文件夹看到诸如 想到老铁们可能有这样的问题:某个博主有 4w 条微博,爬了 2w 条突然断网了或者 Cookie 过期了,难道要重新爬? 作为良心博主,当然要加一个断点续爬的功能,其实实现起来也不难,每次写 csv 的时候同时将翻页参数 page 保存并更新到一个配置文件中即可,核心代码如下:
WeiboUserScrapy类爬虫爬取爬虫的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
整体的剥离过程来算比较轻松,因为功能集中版本每个功能都有一个相对独立的类,这个用户微博爬虫就是一个 WeiboUserScrapy 类,只不过在集中版本中为了和其他功能模块进行通信和协调,引进了 PyQT5 的信号量,以及一些公共配置变量,独立时将这些东西去掉即可。
拿到代码后,你需要做的两件事依次是:
更换代码中的 Cookie 把 user_id 改成你想要爬取的用户 id(是纯数字)
{user_id}_{nickname}_{weibo_num}博_{followers}粉_{following}关注.csv'
格式的文件,爬取的微博都保存在这里。
user_page_config = 'user_page.json'
if not os.path.exists('user_page.json'):
page = 1
with open(user_page_config,'w', encoding='utf-8-sig') as f:
f.write(json.dumps({f'{self.user_id}':page}, indent=2))
else:
with open(user_page_config,'r', encoding='utf-8-sig') as f:
page = json.loads(f.read())[f'{self.user_id}']
random_pages = random.randint(1, 5)
for page in range(page, page_num + 1):
self.get_one_page(page) # 获取第page页的全部微博
with open(user_page_config,'r', encoding='utf-8-sig') as f:
old_data = json.loads(f.read())
old_data[f'{self.user_id}'] = page
with open(user_page_config,'w', encoding='utf-8-sig') as f:
f.write(json.dumps(old_data, indent=2))
这样,就能右键运行代码,开开心心做其他事去,不用每时每刻盯着代码。
看完上述内容,你们掌握WeiboUserScrapy类爬虫爬取爬虫的示例分析的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注行业资讯频道,感谢各位的阅读!
功能
版本
代码
爬虫
独立
问题
文件
用户
示例
分析
内容
方法
更多
运行
配置
最小
束手无策
不一会儿
为此
每时每刻
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
电驴服务器无响应
自动化审批管控软件开发平台
数据库原理实训学籍管理
医药数字化网络安全
售楼系统软件开发公司
安庆点餐系统软件开发需要多少钱
潍坊学软件开发
个人数据库设计实例
php监听数据库
长宁区网络技术转让业务流程
南沙专业的服务器运维服务
变速软件开发招聘 amt
网络安全防诈骗心得体会300
数据库插入记录实验
vue数据库在哪里
动力节点软件开发培训学校
心梦想网络技术u培训
360和腾讯的网络安全
海南海口银行学校网络安全
学生网络安全电子图片
互联网保险是金融科技吗
考国科大研究生软件工程网络安全
售楼系统软件开发公司
网络安全办 申请
kettle 数据库
上海有机化学数据库红外标准谱图
网络安全季度会议
软件开发岗绩效考核制度
数据库设计的实例
苹果ld收件服务器是啥