千家信息网

千家信息网

请输入关键字词

热门搜索排行

最新搜索排行

导航：首页 > 服务器 >

python爬取准备一了解HTML

发表于：2025-02-12 作者：千家信息网编辑

千家信息网最后更新 2025年02月12日，网页源码打开网页，按快捷键【Ctrl+U】打开源码页面HTMLHTML 是整个网页的结构，相当于整个网站的框架。带"＜"、"＞"符号的都是属于 HTML 的标签，并且标签都是成对出现的常见的标签如下：

千家信息网最后更新 2025年02月12日python爬取准备一了解HTML

网页源码

打开网页，按快捷键【Ctrl+U】打开源码页面

HTML
HTML 是整个网页的结构，相当于整个网站的框架。带"＜"、"＞"符号的都是属于 HTML 的标签，并且标签都是成对出现的

常见的标签如下：

.. 表示标记中间的元素是网页.. 表示用户可见的内容..
 表示框架..
 表示段落..
表示列表..表示图片..
表示标题..表示超链接

HTML
html示例
本地超链接可以为相对路径，也可以为绝对路径。
图片的地址可以为相对路径，也可以为绝对路径。

                  这是HTML测试页面的主题                                   这是标题
                 这是正文
             
                                                    这是一个列表
                         这是一个网络超链接
                  这是一个本地超链接
                        下面这个是一张图片

输入代码后，保存记事本，然后修改文件名和后缀名为"HTML.html"，效果如下：

爬虫的合法性

每一个网站都有一个名为 robots.txt 的文档，当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档，就要判断是否有禁止访客获取的数据。

允许部分爬虫访问它的部分路径，而对于没有得到允许的，则全部禁止爬取

网站这是路径网页链接图片数据标签爬虫部分页面文档标题框架源码网络合法主题也就是代码数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全塔建服务器青岛嵌入式软件开发平台 ftp共享服务器权限管理员工对网络安全的需求莆田利众网络技术服务中心网络技术在哪学北京地税服务器软件开发延期一般键值数据库中的键的类型 win7进入网络安全模式视频政府系统网络安全服务器开机做软件开发要考职称吗四川安防时间频率同步服务器全球最好的服务器网络安全音译了解哪些数据库知识点服务器灾难恢复流程四川省第二届网络安全日数据库结构是什么数据库搭建心得体会思科最新网络技术智能互联网络技术就业网络安全的神器树型结构数据库闵行区营销软件开发有哪些欣网互联网络科技有限公司石家庄网络技术及应用方向一个数据库支持多少程度网络安全手抄报文案

相关文章