导航：首页 > 互联网科技 >

如何用Python爬取小红书

发表于：2024-11-22 作者：千家信息网编辑

千家信息网最后更新 2024年11月22日，如何用Python爬取小红书，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。小红书首先，我们打开之前大家配置好的charles我们来简单抓

千家信息网最后更新 2024年11月22日如何用Python爬取小红书

如何用Python爬取小红书，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

小红书

首先，我们打开之前大家配置好的charles

我们来简单抓包一下小红书小程序(注意这里是小程序，不是app)

不选择app的原因是，小红书的App有点难度，参照网上的一些思路，还是选择了小程序

1、通过charles抓包对小程序进行分析

按照我的路径，你可以发现列表中的数据已经被我们抓到了。

但是你以为这就结束了？

不不不

通过这次抓包，我们知道了可以通过这个api接口获取到数据

但是当我们把爬虫都写好时，我们会发现headers里面有两个很难处理的参数

"authorization"和"x-sign"

这两个玩意，一直在变化，而且不知道从何获取。

所以

2、使用mitmproxy来进行抓包

其实通过charles抓包，整体的抓取思路我们已经清晰

就是获取到"authorization"和"x-sign"两个参数，然后对url进行get请求

这里用到的mitmproxy，其实和charles差不多，都是抓包工具

但是mitmproxy能够跟Python一起执行

这就舒服很多啊

简单给大家举例子

 def request(flow):     print(flow.request.headers)

在mitmproxy中提供这样的方法给我们，我们可以通过request对象截取到request headers中的url、cookies、host、method、port、scheme等属性

这不正是我们想要的吗？

我们直接截取"authorization"和"x-sign" 这两个参数

然后往headers里填入

整个就完成了。

以上是我们整个的爬取思路，下面给大家讲解一下代码怎么写

其实代码写起来并不难

首先，我们必须截取到搜索api的流，这样我们才能够对其进行获取信息

if 'https://www.xiaohongshu.com/fe_api/burdock/weixin/v2/search/notes' in flow.request.url:

我们通过判断flow的request里面是否存在搜索api的url

来确定我们需要抓取的请求

authorization=re.findall("authorization',.*?'(.*?)'\)",str(flow.request.headers))[0]x_sign=re.findall("x-sign',.*?'(.*?)'\)",str(flow.request.headers))[0]url=flow.request.url

通过上述代码，我们就能够把最关键的三个参数拿到手了，接下来就是一些普通的解析json了。

最终，我们可以拿到自己想要的数据了

如果你想要获取到单篇数据，可以拿到文章id后抓取

"https://www.xiaohongshu.com/discovery/item/">

这个页面headers里需要带有cookie，你随意访问一个网站都可以拿到cookie，目前看来好像是固定的

最后，可以把数据放入csv

总结

其实小红书爬虫的抓取并不是特别的难，关键在于思路以及使用的方法是什么。

看完上述内容，你们掌握如何用Python爬取小红书的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注行业资讯频道，感谢各位的阅读！

很赞哦！

小红数据两个参数思路方法程序代码关键内容原因可以通过就是更多爬虫问题搜索选择普通舒服数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全国考三级网络技术现代通信网络技术李铮课后答案盗版rust服务器中国影响力人物数据库李汉辉怎么往我的世界服务器加模组 ado访问数据库原理图长春大学网络安全学院调剂信息怎样查看bak数据库版本天翼云云服务器自动管理金山毒霸服务器小学生网络安全教案反思长沙互联网科技预防网络安全讲座新闻稿件河南郑州网络技术学院怎么样邢台电脑软件开发学校记日记的软件开发数据库管理规范制度舟山软件开发与定制全能看软件开发多久了汉庭数据库泄深圳小美网络技术科技飞速发展互联网 excel批量清除数据库苏州汽车服务器二十个人同时访问数据库列举常见软件开发模型和特点逍遥修真一共多少服务器实例云盘读写数据库 rfid服务器软件开发项目db负责做什么

千家信息网

千家信息网

如何用Python爬取小红书

小红书

总结

正则表达式常用规则有哪些

PHP如何处理IOS手机照相机上传的图片被逆时针旋转90度的问题

相关文章