Python怎么爬取微信公众号文章、标题、文章地址
发表于:2025-02-04 作者:千家信息网编辑
千家信息网最后更新 2025年02月04日,本篇内容主要讲解"Python怎么爬取微信公众号文章、标题、文章地址",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Python怎么爬取微信公众号文章、标题
千家信息网最后更新 2025年02月04日Python怎么爬取微信公众号文章、标题、文章地址
本篇内容主要讲解"Python怎么爬取微信公众号文章、标题、文章地址",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Python怎么爬取微信公众号文章、标题、文章地址"吧!
前言
本文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
Python爬虫、数据分析、网站开发等案例教程视频免费在线观看
https://space.bilibili.com/523606542
基本开发环境
Python 3.6
皮查姆
爬取两个公众号的文章:
1,爬取青灯编程公众号所有的文章
2,爬取所有关于python的公众号文章
爬取青灯编程公众号所有的文章
1,登陆公众号之后点击图文
3,点击超链接
相关的数据加载出来,就有关于数据包,包含了文章标题,链接,摘要,发布时间等等,也可以选择其他的公众号也可以爬取的,但是这需要你有一个微信公众号。
要加cookie
import pprintimport timeimport requestsimport csvf = open('青灯公众号文章.csv', mode='a', encoding='utf-8', newline='')csv_writer = csv.DictWriter(f, fieldnames=['标题', '文章发布时间', '文章地址'])csv_writer.writeheader()for page in range(0, 40, 5): url = f'https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin={page}&count=5&fakeid=&type=9&query=&token=1252678642&lang=zh_CN&f=json&ajax=1' headers = { 'cookie': '加cookie', 'referer': 'https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&createType=0&token=1252678642&lang=zh_CN', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36', } response = requests.get(url=url, headers=headers) html_data = response.json() pprint.pprint(response.json()) lis = html_data['app_msg_list'] for li in lis: title = li['title'] link_url = li['link'] update_time = li['update_time'] timeArray = time.localtime(int(update_time)) otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) dit = { '标题': title, '文章发布时间': otherStyleTime, '文章地址': link_url, } csv_writer.writerow(dit) print(dit)
爬取所有关于python的公众号文章
1,搜狗搜索python选择微信
注意:如果不登陆只能爬取前十页数据,登陆之后可以爬取2W多篇文章。
2,爬取标题,公众号,文章地址,发布时间静态网页直接爬取即可
import timeimport requestsimport parselimport csvf = open('公众号文章.csv', mode='a', encoding='utf-8', newline='')csv_writer = csv.DictWriter(f, fieldnames=['标题', '公众号', '文章发布时间', '文章地址'])csv_writer.writeheader()for page in range(1, 2447): url = f'https://weixin.sogou.com/weixin?query=python&_sug_type_=&s_from=input&_sug_=n&type=2&page={page}&ie=utf8' headers = { 'Cookie': '自己的cookie', 'Host': 'weixin.sogou.com', 'Referer': 'https://www.sogou.com/web?query=python&_asf=www.sogou.com&_ast=&w=01019900&p=40040100&ie=utf8&from=index-nologin&s_from=index&sut=1396&sst0=1610779538290&lkt=0%2C0%2C0&sugsuv=1590216228113568&sugtime=1610779538290', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36', } response = requests.get(url=url, headers=headers) selector = parsel.Selector(response.text) lis = selector.css('.news-list li') for li in lis: title_list = li.css('.txt-box h4 a::text').getall() num = len(title_list) if num == 1: title_str = 'python' + title_list[0] else: title_str = 'python'.join(title_list) href = li.css('.txt-box h4 a::attr(href)').get() article_url = 'https://weixin.sogou.com' + href name = li.css('.s-p a::text').get() date = li.css('.s-p::attr(t)').get() timeArray = time.localtime(int(date)) otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) dit = { '标题': title_str, '公众号': name, '文章发布时间': otherStyleTime, '文章地址': article_url, } csv_writer.writerow(dit) print(title_str, name, otherStyleTime, article_url)
到此,相信大家对"Python怎么爬取微信公众号文章、标题、文章地址"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
文章
公众
标题
地址
时间
数据
青灯
学习
登陆
内容
网站
链接
开发
编程
选择
实用
更深
两个
兴趣
前言
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
sql点不了本地服务器怎么办
筑牢国家网络安全保障
腾讯云服务器在手机上怎么管理
公司服务器密码管理
联想sr650服务器硬盘型号
数据库压缩备份
数据库表修改顺序号
科密连接数据库失几
网络安全百搭句
磐安租房软件开发
宝鸡大学生网络安全知识
安卓软件后台用什么软件开发
数据库与软件工程方向
网络安全监督宣传
网络安全中的个人信息保护
监控管理服务器坏了
服务器网络管理口配置
天玑科技数据库一体机排名
加工中心数据库用什么软件
自贡市网络安全宣传周攻防演练
手机版神奇宝贝服务器苹果
重庆管理软件开发价格
网络安全句子30字
我的世界rpg服务器fate
软件开发服务费 税率
法国网络安全现状
鼎信诺用数据库到账
热血江湖哪个服务器比较好
软件开发命题
信息网络安全四不得