如何用python实现爬取CSDN热门评论URL并存入redis
发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,这篇文章主要介绍"如何用python实现爬取CSDN热门评论URL并存入redis"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"如何用python实现爬取CS
千家信息网最后更新 2025年01月31日如何用python实现爬取CSDN热门评论URL并存入redis
这篇文章主要介绍"如何用python实现爬取CSDN热门评论URL并存入redis"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"如何用python实现爬取CSDN热门评论URL并存入redis"文章能帮助大家解决问题。
一、配置webdriver
下载谷歌浏览器驱动,并配置好
import timeimport randomfrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECif __name__ == '__main__':options = webdriver.ChromeOptions()options.binary_location = r'C:UsershhhAppDataLocalGoogleChromeApplication谷歌浏览器.exe'# driver=webdriver.Chrome(executable_path=r'D:360Chromechromedriverchromedriver.exe')driver = webdriver.Chrome(options=options)#以java模块为例driver.get('https://www.csdn.net/nav/java')for i in range(1,20):driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")time.sleep(2)
二、获取URL
from bs4 import BeautifulSoupfrom lxml import etree html = etree.HTML(driver.page_source)# soup = BeautifulSoup(html, 'lxml')# soup_herf=soup.find_all("#feedlist_id > li:nth-child(1) > div > div > h2 > a")# soup_herftitle = html.xpath('//*[@id="feedlist_id"]/li/div/div/h2/a/@href')
可以看到,一下爬取了很多,速度非常快
三、写入Redis
导入redis包后,配置redis端口和redis数据库,用rpush函数写入
打开redis
import redisr_link = redis.Redis(port='6379', host='localhost', decode_responses=True, db=1)for u in title:print("准备写入{}".format(u))r_link.rpush("csdn_url", u)print("{}写入成功!".format(u))print('=' * 30, 'n', "共计写入url:{}个".format(len(title)), 'n', '=' * 30)
大功告成!
在Redis Desktop Manager中可以看到,爬取和写入都是非常的快。
要使用只需用rpop出栈就OK
one_url = r_link.rpop("csdn_url)")while one_url:print("{}被弹出!".format(one_url))
关于"如何用python实现爬取CSDN热门评论URL并存入redis"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注行业资讯频道,小编每天都会为大家更新不同的知识点。
热门
评论
知识
配置
浏览器
行业
浏览
不同
实用
成功
大功告成
内容
函数
大功
实用性
实际
数据
数据库
文章
方法
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
设置web服务器ip
vs查询数据库增删改查
招商银行服务器链接超时怎么办
米波现场200人服务器要求
如何搭建淘宝数据库
软件开发者要什么学历
网络安全进校园手抄报竖版
数据库系统概论第二章练习题
易讯天空网络技术科技有限
网络安全联席会议制度
网络技术电气
网络安全审计备案证明啥意思
网络安全实用案例分析
王者服务器一直进不去怎么办
阿里的数据库怎么开发
邯郸网络技术学校
sql查数据库中有多少表
优化数据库的方法 面试
网络安全讲解员视频
入侵服务器触犯什么罪
奥迪互联网科技服务
数据库表空间与数据文件
sql数据库中二进制数据是什么
软件开发西安哪个技校好
余姚透迅网络技术有限公司
功能软件开发程序
北京智慧养老软件开发系统
福州市网络安全等级备案
互联网科技怎么做
互联网科技的论文