python怎么爬取知乎5646个知乎回答
发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,这篇文章主要介绍了python怎么爬取知乎5646个知乎回答,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。no bb show you
千家信息网最后更新 2024年11月11日python怎么爬取知乎5646个知乎回答
这篇文章主要介绍了python怎么爬取知乎5646个知乎回答,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。
no bb show your code
这里是核心代码展示,主要就是将知乎的问题号作为参数传入函数,然后进行批量爬取回答,使用正则表达式将每个回答里包含书名号的书籍名或者电影名提取出来,最后在保存的csv即可。
def getAnswers(qid):
# 获取所有书籍和回答数据
offset = 0
book_data = {}
while True:
qid = qid
print('Offset =', offset)
# 知乎api请求
url = "https://www.zhihu.com/api/v4/questions/{}/answers?include=content&limit=20&offset={}&platform=desktop&sort_by=default".format(
qid, offset)
res = requests.get(url, headers=headers)
res.encoding = 'utf-8'
data = res.json()
if len(data['data']) == 0:
break
for line in data['data']:
# 保存回答数据
content = line['content']
result = re.findall(r'《(.*?)》', content)
for name in result:
book_data[name] = book_data.get(name, 0) + 1
offset += 20
# 保存爬取的内容
for i in book_data.keys():
new_data = {}
if i:
new_data['书籍名称'] = i
new_data['频率'] = book_data[i]
pandas_data.append(new_data)
df2 = pd.DataFrame(pandas_data, columns=['书籍名称', '频率'])
df2.to_csv("book.csv",encoding="utf_8_sig")
结果展示
5464个回答一共推荐了6434本书,其中《活着》共被推荐了286次。
行哥不禁感叹,这些年薪百万的大佬居然也要考虑跟行哥一样的问题-活着,看来离年薪百万更近一步了啦。不知道你距离年薪百万还差几本书如果前十的书都看过了,看看这前11-20的书单,这都看过的可以来文末直接查看领取6343本书的书单。这些书经过行哥确认,完全都可以在微信阅读上免费阅读,所以也不用担心找不到pdf版本。
感谢你能够认真阅读完这篇文章,希望小编分享的"python怎么爬取知乎5646个知乎回答"这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!
书籍
篇文章
年薪
书单
名称
数据
频率
推荐
不用
不禁
书名
书名号
代码
价值
免费阅读
全都
兴趣
内容
函数
参数
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
达内网络安全教育培训
无线网络技术结果分析
网络安全法律部门规章
http服务器是什么
数据库做什么
油田信息网络安全
数据库记录近30天数据
软件开发用行话怎么说
张家界软件开发测试
网络安全手抄报字少又清
金蝶服务器可以云端使用吗
2018年成都网络安全专业
阿里云网站和数据库的区别
网络安全主要特征有哪些
光传输网络技术的课后答案
翼支付软件开发岗
战地五最硬核的服务器
成都京东方软件开发工程师
方舟服务器管理器怎么回档
软件开发工具走向成熟
学校网络安全与教育活动
vuc软件开发
服务器支持什么硬盘
网络安全关键岗位管理制度
兴义市天气预报软件开发
网络安全事故事件等级
大宇宙软件开发可以学到什么
加强国际网络安全的方案
河北服务器回收公司云主机
数据库卡号英文缩写