千家信息网

Python如何爬取新闻资讯

发表于:2025-01-22 作者:千家信息网编辑
千家信息网最后更新 2025年01月22日,这篇文章主要为大家展示了"Python如何爬取新闻资讯",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Python如何爬取新闻资讯"这篇文章吧。前言一个简单
千家信息网最后更新 2025年01月22日Python如何爬取新闻资讯

这篇文章主要为大家展示了"Python如何爬取新闻资讯",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Python如何爬取新闻资讯"这篇文章吧。

前言

一个简单的Python资讯采集案例,列表页到详情页,到数据保存,保存为txt文档,网站网页结构算是比较规整,简单清晰明了,资讯新闻内容的采集和保存!

资料就放在群文件里等你来拿

应用到的库

requests,time,re,UserAgent,etree

import requests,time,refrom fake_useragent import UserAgentfrom lxml import etree

列表页,链接xpath解析

href_list=req.xpath('//ul[@class="news-list"]/li/a/@href')

详情页

内容xpath解析

h3=req.xpath('//div[@class="title-box"]/h3/text()')[0]author=req.xpath('//div[@class="title-box"]/span[@class="news-from"]/text()')[0]details=req.xpath('//div[@class="content-l detail"]/p/text()')

内容格式化处理

detail='\n'.join(details)

标题格式化处理,替换非法字符

pattern = r"[\/\\\:\*\?\"\<\>\|]"new_title = re.sub(pattern, "_", title)  # 替换为下划线

保存数据,保存为txt文本

def save(self,h3, author, detail):    with open(f'{h3}.txt','w',encoding='utf-8') as f:        f.write('%s%s%s%s%s'%(h3,'\n',detail,'\n',author))    print(f"保存{h3}.txt文本成功!")

遍历数据采集,yield处理

def get_tasks(self):    data_list = self.parse_home_list(self.url)    for item in data_list:        yield item

程序运行效果

附源码参考:

#研招网考研资讯采集#20200710 by微信:huguo00289# -*- coding: UTF-8 -*-import requests,time,refrom fake_useragent import UserAgentfrom lxml import etreeclass RandomHeaders(object):    ua=UserAgent()    @property    def random_headers(self):        return {            'User-Agent': self.ua.random,        }class Spider(RandomHeaders):    def __init__(self,url):        self.url=url    def parse_home_list(self,url):        response=requests.get(url,headers=self.random_headers).content.decode('utf-8')        req=etree.HTML(response)        href_list=req.xpath('//ul[@class="news-list"]/li/a/@href')        print(href_list)        for href in href_list:            item = self.parse_detail(f'https://yz.chsi.com.cn{href}')            yield item    def parse_detail(self,url):        print(f">>正在爬取{url}")        try:            response = requests.get(url, headers=self.random_headers).content.decode('utf-8')            time.sleep(2)        except Exception as e:            print(e.args)            self.parse_detail(url)        else:            req = etree.HTML(response)            try:                h3=req.xpath('//div[@class="title-box"]/h3/text()')[0]                h3=self.validate_title(h3)                author=req.xpath('//div[@class="title-box"]/span[@class="news-from"]/text()')[0]                details=req.xpath('//div[@class="content-l detail"]/p/text()')                detail='\n'.join(details)                print(h3, author, detail)                self.save(h3, author, detail)                return h3, author, detail            except IndexError:                print(">>>采集出错需延时,5s后重试..")                time.sleep(5)                self.parse_detail(url)    @staticmethod    def validate_title(title):        pattern = r"[\/\\\:\*\?\"\<\>\|]"        new_title = re.sub(pattern, "_", title)  # 替换为下划线        return new_title    def save(self,h3, author, detail):        with open(f'{h3}.txt','w',encoding='utf-8') as f:            f.write('%s%s%s%s%s'%(h3,'\n',detail,'\n',author))        print(f"保存{h3}.txt文本成功!")    def get_tasks(self):        data_list = self.parse_home_list(self.url)        for item in data_list:            yield itemif __name__=="__main__":    url="https://yz.chsi.com.cn/kyzx/jyxd/"    spider=Spider(url)    for data in spider.get_tasks():        print(data)

以上是"Python如何爬取新闻资讯"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

资讯 内容 新闻 数据 文本 篇文章 处理 成功 下划线 格式 详情 学习 帮助 规整 前言 字符 效果 数据采集 文件 文档 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 图们市天气预报软件开发 网关与服务器通讯测试 我的世界1710永恒之域服务器 人民银行软件开发中心招聘 东城区专业网络技术服务平台 深圳哲盟软件开发公司联系方式 网络安全方向工资 知识库系统是数据库技术与 数据库 begin 奇安信内生网络安全框架 河南crm软件开发价格 软件开发开发开发培训机构 苏州戴尔服务器价格表 软件开发加计扣除的会计处理 贝尔实验室网络技术 有线电视服务器加扰 t6服务器管理器在哪里 淘股网络技术 技能鉴定软件开发 软考数据库系统工程师零基础备考 北京正规软件开发检测中心 网络安全小报电子版文档 全球最火开源数据库 辽宁德聚仁和网络技术有限公司 为什么t3打不开数据库连接失败 数据库合理知识 为校园网选择网络安全措施 网络安全产业分析报告2021 放开那三国3官方服务器 北京软件开发加汇维创科技
0