怎么使用python爬取B站排行榜Top100的视频数据
发表于:2025-01-19 作者:千家信息网编辑
千家信息网最后更新 2025年01月19日,这篇文章将为大家详细讲解有关怎么使用python爬取B站排行榜Top100的视频数据,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1、第三方库导入from bs4
千家信息网最后更新 2025年01月19日怎么使用python爬取B站排行榜Top100的视频数据
') #榜单次序findTitle = re.compile(r'(.*?)') #视频标题findPlay = re.compile(r'([\s\S]*)(.*?) ') #视频播放量findView = re.compile(r'([\s\S]*)(.*?) ') # 视频评价数findName = re.compile(r'(.*?)',re.S) #视频作者findScore = re.compile(r'这篇文章将为大家详细讲解有关怎么使用python爬取B站排行榜Top100的视频数据,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
1、第三方库导入
from bs4 import BeautifulSoup # 解析网页import re # 正则表达式,进行文字匹配import urllib.request,urllib.error # 通过浏览器请求数据import sqlite3 # 轻型数据库import time # 获取当前时间
2、程序运行主函数
爬取过程主要包括声明爬取网页 -> 爬取网页数据并解析 -> 保存数据
def main(): #声明爬取网站 baseurl = "https://www.bilibili.com/v/popular/rank/all" #爬取网页 datalist = getData(baseurl) # print(datalist) #保存数据 dbname = time.strftime("%Y-%m-%d", time.localtime()) dbpath = "BiliBiliTop100 " + dbname saveData(datalist,dbpath)
(1)在爬取的过程中采用的技术为:伪装成浏览器对数据进行请求;
(2)解析爬取到的网页源码时:采用Beautifulsoup解析出需要的数据,使用re正则表达式对数据进行匹配;
(3)保存数据时,考虑到B站排行榜是每日进行刷新,故可以用当前日期进行保存数据库命名。
3、程序运行结果
数据库中包含的数据有:排名、视频链接、标题、播放量、评论量、作者、综合分数这7个数据。
4、程序源代码
from bs4 import BeautifulSoup #解析网页import re # 正则表达式,进行文字匹配import urllib.request,urllib.errorimport sqlite3import timedef main(): #声明爬取网站 baseurl = "https://www.bilibili.com/v/popular/rank/all" #爬取网页 datalist = getData(baseurl) # print(datalist) #保存数据 dbname = time.strftime("%Y-%m-%d", time.localtime()) dbpath = "BiliBiliTop100 " + dbname saveData(datalist,dbpath)#re正则表达式findLink =re.compile(r'(.*?)
(.*?)
综合得分',re.S) #视频得分def getData(baseurl): datalist = [] html = askURL(baseurl) #print(html) soup = BeautifulSoup(html,'html.parser') #解释器 for item in soup.find_all('li',class_="rank-item"): # print(item) data = [] item = str(item) Order = re.findall(findOrder,item)[0] data.append(Order) # print(Order) Link = re.findall(findLink,item)[0] Link = 'https:' + Link data.append(Link) # print(Link) Title = re.findall(findTitle,item)[0] data.append(Title) # print(Title) Play = re.findall(findPlay,item)[0][0] Play = Play.replace(" ","") Play = Play.replace("\n","") Play = Play.replace(".","") Play = Play.replace("万","0000") data.append(Play) # print(Play) View = re.findall(findView,item)[0][0] View = View.replace(" ","") View = View.replace("\n","") View = View.replace(".","") View = View.replace("万","0000") data.append(View) # print(View) Name = re.findall(findName,item)[0] Name = Name.replace(" ","") Name = Name.replace("\n","") data.append(Name) # print(Name) Score = re.findall(findScore,item)[0] data.append(Score) # print(Score) datalist.append(data) return datalistdef askURL(url): #设置请求头 head = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome/80.0.3987.163Safari/537.36" } request = urllib.request.Request(url, headers = head) html = "" try: response = urllib.request.urlopen(request) html = response.read().decode("utf-8") #print(html) except urllib.error.URLError as e: if hasattr(e,"code"): print(e.code) if hasattr(e,"reason"): print(e.reason) return htmldef saveData(datalist,dbpath): init_db(dbpath) conn = sqlite3.connect(dbpath) cur = conn.cursor() for data in datalist: sql = ''' insert into Top100( id,info_link,title,play,view,name,score) values("%s","%s","%s","%s","%s","%s","%s")'''%(data[0],data[1],data[2],data[3],data[4],data[5],data[6]) print(sql) cur.execute(sql) conn.commit() cur.close() conn.close()def init_db(dbpath): sql = ''' create table Top100 ( id integer primary key autoincrement, info_link text, title text, play numeric, view numeric, name text, score numeric ) ''' conn = sqlite3.connect(dbpath) cursor = conn.cursor() cursor.execute(sql) conn.commit() conn.close()if __name__ =="__main__": main()关于"怎么使用python爬取B站排行榜Top100的视频数据"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。
数据
视频
网页
正则
表达式
排行榜
数据库
程序
篇文章
作者
得分
文字
更多
标题
浏览器
网站
过程
链接
浏览
综合
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
华为服务器售后官方维修点查询
长宁区信息软件开发制品价格
地理信息三维软件开发群
企业级服务器租用
新罗区坚广辛网络技术工作室
数据库的表单控件
辽宁运营网络技术价格
宣威gpu云服务器价格
网络安全考研最容易考的学校
cms苹果数据库加密
弱电机房服务器ping不通
数据库在哪查询
服务器连接mgmt
公民网络安全的主要内容
广东绿力网络技术有限公司官网
网络安全大赛手速
存储服务器属于什么税收类别
怎么做网络安全等保
国家网络安全第42条
服务器管理与配置实训
旧笔记本变成云服务器
如何配置数据库
网络安全剪影png素材
杀死服务器端口命令
软件开发和数据库关系
万方医学论文数据库
文件下载无法与服务器建立连接
网络安全南大门
专科论文会入数据库
数据库应用领域的发展