导航：首页 > 互联网科技 >

WeiboUserScrapy类爬虫爬取爬虫的示例分析

发表于：2024-10-21 作者：千家信息网编辑

千家信息网最后更新 2024年10月21日，WeiboUserScrapy类爬虫爬取爬虫的示例分析，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。我停止对有GUI功能集中版本的维护了

千家信息网最后更新 2024年10月21日WeiboUserScrapy类爬虫爬取爬虫的示例分析

WeiboUserScrapy类爬虫爬取爬虫的示例分析，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

我停止对有GUI功能集中版本的维护了，集中精力维护无GUI版本功能独立版本的开发和维护，并且保证每个功能都是最小可用产品且互不干扰。但是功能独立版本一直有个历史遗留问题：没有将集中版本中爬取每个用户的所有微博的功能独立出来

整体的剥离过程来算比较轻松，因为功能集中版本每个功能都有一个相对独立的类，这个用户微博爬虫就是一个 WeiboUserScrapy 类，只不过在集中版本中为了和其他功能模块进行通信和协调，引进了 PyQT5 的信号量，以及一些公共配置变量，独立时将这些东西去掉即可。

拿到代码后，你需要做的两件事依次是：

更换代码中的 Cookie
把 user_id 改成你想要爬取的用户 id（是纯数字）

然后运行代码即可，不一会儿你就能在项目的根目录下的 user 文件夹看到诸如 {user_id}_{nickname}_{weibo_num}博_{followers}粉_{following}关注.csv' 格式的文件，爬取的微博都保存在这里。

想到老铁们可能有这样的问题：某个博主有 4w 条微博，爬了 2w 条突然断网了或者 Cookie 过期了，难道要重新爬？

作为良心博主，当然要加一个断点续爬的功能，其实实现起来也不难，每次写 csv 的时候同时将翻页参数 page 保存并更新到一个配置文件中即可，核心代码如下：

user_page_config = 'user_page.json'
if not os.path.exists('user_page.json'):
page = 1
with open(user_page_config,'w', encoding='utf-8-sig') as f:
f.write(json.dumps({f'{self.user_id}':page}, indent=2))
else:
with open(user_page_config,'r', encoding='utf-8-sig') as f:
page = json.loads(f.read())[f'{self.user_id}']

random_pages = random.randint(1, 5)
for page in range(page, page_num + 1):
self.get_one_page(page) # 获取第page页的全部微博

with open(user_page_config,'r', encoding='utf-8-sig') as f:
old_data = json.loads(f.read())
old_data[f'{self.user_id}'] = page

with open(user_page_config,'w', encoding='utf-8-sig') as f:
f.write(json.dumps(old_data, indent=2))