python如何实现网络爬虫
这篇文章主要介绍python如何实现网络爬虫,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
一、概述
网络爬虫(Web crawler),又称为网络蜘蛛(Web spider)或网络机器人(Web robot),主要用来爬取目标网站内容的程序或脚本。
从功能上来区分网络爬虫:
数据采集数据处理数据储存
以上三个部分,基本工作框架流程如下图:
二、原理
功能:下载网页数据,为搜索引擎系统提供数据来源。组件:控制器、解析器、资源库。
Web网络爬虫系统首先将种子URL放入下载队列,然后简单地从队首中取出一个URL下载其对应的网页。得到网页的内容将其储存后,再经过解析网页中的链接信息可以得到一些新的URL,将这些URL加入下载队列。然后取出一个URL,对其对应的网页进行下载,再解析,如此反复进行,直到遍历了整个网络或满足某种条件后才会停止下来。
三、爬虫分类
1、传统爬虫
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
2、聚焦爬虫
聚焦爬虫工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用链接并将其放入等待抓取URL队列。然后它将根据一定搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统某一条件时停止。另外所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
3、通用网络爬虫(全网爬虫)
通用网络爬虫又称全网爬虫, 爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面顺序要求相对较低,同时由于待刷新页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。虽然存在一定缺陷, 但通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强应用价值。
实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
四、网页抓取策略
在爬虫系统中,待抓取URL队列是很重要的一部分。队列中URL以什么样顺序排列也是一个很重要的问题,因为这涉及先抓取哪个页面,后抓取哪个页面。
而决定这些URL排列顺序的方法,称之为抓取策略。
1、宽度优先搜索:
在抓取过程中,在完成当前层次搜索后,才进行下一层次搜索。
优点:算法设计和实现相对简单。缺点:随着抓取网页增多,大量无关网页将被下载并过滤,算法效率将变低。
2、深度优先搜索:
从起始网页开始,选择一个URL进入,分析这个网页中的URL,一个链接一个链接地抓取下去,直到处理完一条路线之后再处理下一条URL中的路线。
例如,下图中深度优先搜索的遍历方式时 A 到 B 到 D 到 E 到 F(ABDECF),而宽度优先搜索的遍历方式是 A B C D E F 。
3、最佳优先搜索:
按照一定的网页分析法,预测候选URL与目标网页的相似度,或者与主题的相关性,并选取评价最好的一个或几个URL进行抓取。
4、反向链接数策略:
反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐程度。
5、Partial PageRank策略:
Partial PageRank算法借鉴了PageRank算法的思想,对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。
五、网页抓取的方法
1、分布式爬虫
用于目前互联网中海量URL管理,它包含多个爬虫(程序),每个爬虫(程序)需要完成的任务和单个爬行器类似。它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。
这些爬虫可能分布在同一个局域网之中,或分散在不同地理位置。
现在比较流行的分布式爬虫:
Apache Nutch: 依赖hadoop运行,hadoop本身会消耗很多时间。Nutch是为搜索引擎设计的爬虫,如果不是要做搜索引擎,尽量不要选择Nutch。
2、Java爬虫
用Java开发的抓取网络资源的小程序,常用的工具包括Crawler4j、WebMagic、WebCollector等。
3、非Java爬虫
Scrapy: 由Python编写的,轻量级的、高层次的屏幕抓取框架。最吸引人的地方在于Scrapy是一个框架,任何使用者可以根据自己的需求进行进行修改,并具有一些高级函数,可以简化抓取过程。
六、项目实战
1、抓取指定网页
抓取某网首页
使用urllib模块,此模块提供了读取Web页面数据接口,可以像读取本地文件一样读取www和ftp上的数据。urllib是一个URL处理包,这个包中集合了一些处理URL的模块。
urllib.request 模块: 用来打开和读取URLs的。urllib.error 模块: 包含一些由 urllib.request 产生的错误,可以用try进行捕捉处理。urllib.parse 模块: 包含一些解析 URLs的方法。urllib.robotparser: 用来解析 robots.txt 文本文件。它提供了一个单独的 RobotFileParser 类,通过该类提供的 can_fetch() 方法测试爬虫是否可以下载一个页面。
以下代码为抓取某网页的代码:
import urllib.requesturl = "https://www.douban.com/"# 这边需要模拟浏览器才能进行抓取headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'}request = urllib.request.Request(url, headers=headers)response = urllib.request.urlopen(request)data = response.read()# 这边需要转码才能正常显示print(str(data, 'utf-8'))# 下面代码可以打印抓取网页的各类信息print(type(response))print(response.geturl())print(response.info())print(response.getcode())
2、抓取包含关键词网页
代码如下:
import urllib.requestdata = {'word': '海贼王'}url_values = urllib.parse.urlencode(data)url = "http://www.baidu.com/s?"full_url = url + url_valuesdata = urllib.request.urlopen(full_url).read()print(str(data, 'utf-8'))
3、下载贴吧中图片
代码如下:
import reimport urllib.request# 获取网页源代码def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html# 获取网页所有图片def getImg(html): reg = r'src="([.*\S]*\.jpg)" pic_ext="jpeg"' imgre = re.compile(reg) imglist = re.findall(imgre, html) return imglisthtml = getHtml('https://tieba.baidu.com/p/3205263090')html = html.decode('utf-8')imgList = getImg(html)imgName = 0# 循环保存图片for imgPath in imgList: f = open(str(imgName) + ".jpg", 'wb') f.write((urllib.request.urlopen(imgPath)).read()) f.close() imgName += 1 print('正在下载第 %s 张图片 ' % imgName)print('该网站图片已经下载完')
4、股票数据抓取
代码如下:
import randomimport reimport timeimport urllib.request# 抓取所需内容user_agent = ["Mozilla/5.0 (Windows NT 10.0; WOW64)", 'Mozilla/5.0 (Windows NT 6.3; WOW64)', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko', 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36', 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)', 'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1', 'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3', 'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12', 'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)', 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ', 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER', 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']stock_total = []headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'}for page in range(1, 8): url = 'http://quote.stockstar.com/stock/ranklist_a_3_1_' + str(page) + '.html' request = urllib.request.Request(url=url, headers={"User-Agent": random.choice(user_agent)}) response = urllib.request.urlopen(request) content = str(response.read(), 'gbk') pattern = re.compile('(.*?)<') # 正则匹配 stock_page = re.findall(pattern, body[0]) stock_total.extend(stock_page) time.sleep(random.randrange(1, 4))# 删除空白字符stock_last = stock_total[:]print(' 代码', '\t', ' 简称', '\t', '最新价', '\t', '涨跌幅', '\t', '涨跌额', '\t', '5分钟涨幅')for i in range(0, len(stock_last), 13): print(stock_last[i], '\t', stock_last[i + 1], '\t', stock_last[i + 2], ' ', '\t', stock_last[i + 3], ' ', '\t', stock_last[i + 4], '\t', stock_last[i + 5])以上是"python如何实现网络爬虫"这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!
爬虫 网页 网络 搜索 页面 数据 链接 队列 代码 系统 内容 模块 过程 处理 图片 引擎 搜索引擎 策略 算法 分析 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 软件开发实习月报 软件开发属于劳务 网络安全告知 剑桥晶体数据库怎么搜晶胞 物品图像识别数据库 软件开发纪录片 vs怎么连接数据库文件路径 江苏潮流软件开发值得推荐 学生成绩数据库 sql 国家网络安全员考试通过率 SRAT网络安全 贵州语音网络技术服务代理商 软件开发算法设计报告 游戏服务器配置选择 手动服务器改装 人民银行网络安全宣传周 为什么打开mp4服务器运行失败 网络安全带来了哪些机遇 大学生互联网科技扶贫ppt 无线无法连接服务器 单招报考软件开发专业 mysql数据库打脚本 数据库 互锁 山西小型软件开发技术 软件开发系毕业论文 怎么样保证服务器数据安全 金蝶数据库清空用户密码 电商软件开发订制 行政部门网络安全 兰州网络安全周相关文章