千家信息网

零基础学python爬虫入门知识点有哪些

发表于:2025-02-23 作者:千家信息网编辑
千家信息网最后更新 2025年02月23日,这篇文章主要介绍了零基础学python爬虫入门知识点有哪些的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇零基础学python爬虫入门知识点有哪些文章都会有所收获,下面我们
千家信息网最后更新 2025年02月23日零基础学python爬虫入门知识点有哪些

这篇文章主要介绍了零基础学python爬虫入门知识点有哪些的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇零基础学python爬虫入门知识点有哪些文章都会有所收获,下面我们一起来看看吧。

1、什么是爬虫?

爬虫是一段自动抓取互联网信息的程序,大家可以理解为在互联网这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据,爬虫就是通过这些通道爬取数据。

2、浏览网页的过程

在用户浏览网页的过程中,我们可能会看到许多好看的图片,如 http://image.baidu.com,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。其实,一个爬虫就是模拟了用户浏览的过程来获取数据的。

3、URL的含义

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成:

①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址,如目录和文件名等。

第一部分和第二部分用"://"符号隔开,

第二部分和第三部分用"/"符号隔开。

第一部分和第二部分是不可缺少的,第三部分有时可以省略。

关于"零基础学python爬虫入门知识点有哪些"这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对"零基础学python爬虫入门知识点有哪些"知识都有一定的了解,大家如果还想学习更多知识,欢迎关注行业资讯频道。

0