如何用python实现爬取CSDN热门评论URL并存入redis
发表于:2024-09-25 作者:千家信息网编辑
千家信息网最后更新 2024年09月25日,这篇文章主要介绍"如何用python实现爬取CSDN热门评论URL并存入redis"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"如何用python实现爬取CS
千家信息网最后更新 2024年09月25日如何用python实现爬取CSDN热门评论URL并存入redis
这篇文章主要介绍"如何用python实现爬取CSDN热门评论URL并存入redis"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"如何用python实现爬取CSDN热门评论URL并存入redis"文章能帮助大家解决问题。
一、配置webdriver
下载谷歌浏览器驱动,并配置好
import timeimport randomfrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECif __name__ == '__main__':options = webdriver.ChromeOptions()options.binary_location = r'C:UsershhhAppDataLocalGoogleChromeApplication谷歌浏览器.exe'# driver=webdriver.Chrome(executable_path=r'D:360Chromechromedriverchromedriver.exe')driver = webdriver.Chrome(options=options)#以java模块为例driver.get('https://www.csdn.net/nav/java')for i in range(1,20):driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")time.sleep(2)
二、获取URL
from bs4 import BeautifulSoupfrom lxml import etree html = etree.HTML(driver.page_source)# soup = BeautifulSoup(html, 'lxml')# soup_herf=soup.find_all("#feedlist_id > li:nth-child(1) > div > div > h2 > a")# soup_herftitle = html.xpath('//*[@id="feedlist_id"]/li/div/div/h2/a/@href')
可以看到,一下爬取了很多,速度非常快
三、写入Redis
导入redis包后,配置redis端口和redis数据库,用rpush函数写入
打开redis
import redisr_link = redis.Redis(port='6379', host='localhost', decode_responses=True, db=1)for u in title:print("准备写入{}".format(u))r_link.rpush("csdn_url", u)print("{}写入成功!".format(u))print('=' * 30, 'n', "共计写入url:{}个".format(len(title)), 'n', '=' * 30)
大功告成!
在Redis Desktop Manager中可以看到,爬取和写入都是非常的快。
要使用只需用rpop出栈就OK
one_url = r_link.rpop("csdn_url)")while one_url:print("{}被弹出!".format(one_url))
关于"如何用python实现爬取CSDN热门评论URL并存入redis"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注行业资讯频道,小编每天都会为大家更新不同的知识点。
热门
评论
知识
配置
浏览器
行业
浏览
不同
实用
成功
大功告成
内容
函数
大功
实用性
实际
数据
数据库
文章
方法
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
华为服务器维修价格
r620服务器sata
珠海软件开发好找吗
互联网与新兴科技即兴评述
嘉定区一站式软件开发诚信经营
数据库access 教程
快递系统数据库毕业设计
关于电脑服务器的辐射问题
互联网行业信息科技论坛网站
工业软件开发专业就业前景
服务器和存储的区别
九江软件开发商
计算机国三网络技术必考题
适合高中生的实用网络技术
网络安全宣传ppt下载
昆明市五华区夜澜软件开发工作室
百家论坛有数据库吗
江苏一朵云互联网科技
魔兽世界免费转服务器要多少钱
上海外汇自动交易软件开发
生存方舟进服务器网络信息错误
中信证券软件开发中心
网络安全工程师软件工程师
数据库管控是干嘛的
廊坊市网络安全知识竞赛答案
嘉定区推广软件开发厂家要求
互联网行业信息科技论坛网站
电脑没有网络安全密钥怎么看
打造世界连不上服务器怎么办
工业网关服务器