Python怎么爬取csnd文章并转为PDF文件
发表于:2024-11-24 作者:千家信息网编辑
千家信息网最后更新 2024年11月24日,今天就跟大家聊聊有关Python怎么爬取csnd文章并转为PDF文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1.导入模块import r
千家信息网最后更新 2024年11月24日Python怎么爬取csnd文章并转为PDF文件
今天就跟大家聊聊有关Python怎么爬取csnd文章并转为PDF文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
1.导入模块
import requests # 数据请求 发送请求 第三方模块 pip install requestsimport parsel # 数据解析模块 第三方模块 pip install parselimport os # 文件操作模块import re # 正则表达式模块import pdfkit # pip install pdfkit
2.创建文件夹
filename = 'pdf\\' # 文件名字filename_1 = 'html\\'if not os.path.exists(filename): #如果没有这个文件夹的话 os.mkdir(filename) # 自动创建一下这个文件夹if not os.path.exists(filename_1): #如果没有这个文件夹的话 os.mkdir(filename_1) # 自动创建一下这个文件夹
3.发送请求
for page in range(1, 11): print(f'=================正在爬取第{page}页数据内容=================') url = f'https://blog.csdn.net/qdPython/article/list/{page}' # python代码对于服务器发送请求 >>> 服务器接收之后(如果没有伪装)被识别出来, 是爬虫程序, >>> 不会给你返回数据 # 客户端(浏览器) 对于 服务器发送请求 >>> 服务器接收到请求之后 >>> 浏览器返回一个response响应数据 # headers 请求头 就是把python代码伪装成浏览器进行请求 # headers参数字段 是可以在开发者工具里面进行查询 复制 # 并不是所有的参数字段都是需要的 # user-agent: 浏览器的基本信息 (相当于披着羊皮的狼, 这样可以混进羊群里面) # cookie: 用户信息 检测是否登录账号 (某些网站 是需要登录之后才能看到数据, B站一些数据内容) # referer: 防盗链 请求你的网址 是从哪里跳转过来的 (B站视频内容 / 妹子图图片下载 / 唯品会商品数据) # 根据不同的网站内容 具体情况 具体分析 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36' } # 请求方式: get请求 post请求 通过开发者工具可以查看url请求方式是什么样的 # 搜索 / 登录 /查询 这样是post请求 response = requests.get(url=url, headers=headers)
4.数据解析
# 需要把获取到的html字符串数据转成 selector 解析对象selector = parsel.Selector(response.text)# getall 返回的是列表href = selector.css('.article-list a::attr(href)').getall()
5.如果把列表里面每一个元素 都提取出来
for index in href: # 发送请求 对于文章详情页url地址发送请求 response_1 = requests.get(url=index, headers=headers) selector_1 = parsel.Selector(response_1.text) title = selector_1.css('#articleContentId::text').get() new_title = change_title(title) content_views = selector_1.css('#content_views').get() html_content = html_str.format(article=content_views) html_path = filename_1 + new_title + '.html' pdf_path = filename + new_title + '.pdf' with open(html_path, mode='w', encoding='utf-8') as f: f.write(html_content) print('正在保存: ', title)
6.替换特殊字符
def change_title(name): mode = re.compile(r'[\\\/\:\*\?\"\<\>\|]') new_name = re.sub(mode, '_', name) return new_name
运行代码,即可下载HTML文件:
7.转换成PDF文件
config = pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')pdfkit.from_file(html_path, pdf_path, configuration=config)
看完上述内容,你们对Python怎么爬取csnd文章并转为PDF文件有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。
文件
数据
内容
模块
文件夹
服务器
浏览器
服务
浏览
文章
代码
登录
信息
参数
字段
字符
工具
开发者
方式
正在
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
关于网络安全发生的意外
网络安全评审意见
网络安全案例教材
咸鱼之王怎么看服务器
数据库DJ备份工具
地瓜网络技术钉钉视频下载
40个cpu 服务器
高频怎么写入数据库
怎么搭建excel数据库
s39存储服务器如何重置密码
rfam13 数据库
唐山政府网络安全
软件开发营销
服务器已
泰宁网络安全检查
女生是否适合做软件开发
数据库设计 软件开发
steam版雀魂是哪个服务器
服务器系统默认不开远程桌面吗
丽水多点视频系统服务器
关于护苗网络安全的
结构化 关系型数据库
网络安全管理员换公司
主机连接虚拟机服务器教程
绿色全光网络技术联盟会议
app订制软件开发收费明细
火星时代软件开发
什么是coco数据库
谁是物理层面的网络安全隔离
php自定义数据库