输入URL后页面会发生什么
这篇文章主要介绍"输入URL后页面会发生什么"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"输入URL后页面会发生什么"文章能帮助大家解决问题。
构建 DOM 树
由于浏览器无法直接理解 HTML字符串 ,因此将这一系列的字节流转换为一种有意义并且方便操作的数据结构,这种数据结构就是DOM树
。DOM树
本质上是一个以document
为根节点的多叉树。
那通过什么样的方式来进行解析呢?
HTML文法的本质
首先,我们应该清楚把握一点: HTML 的文法并不是上下文无关文法
。
这里,有必要讨论一下什么是上下文无关文法
。
在计算机科学的编译原理学科中,有非常明确的定义:
若一个形式文法G = (N, Σ, P, S) 的产生式规则都取如下的形式:V-&w,则叫上下文无关语法。其中 V∈N ,w∈(N∪Σ)* 。
其中把 G = (N, Σ, P, S) 中各个参量的意义解释一下:
N 是非终结符(顾名思义,就是说最后一个符号不是它, 下面同理)集合。
Σ 是终结符集合。
P 是开始符,它必须属于 N ,也就是非终结符。
S 就是不同的产生式的集合。如 S -> aSb 等等。
通俗一点讲,上下文无关的文法
就是说这个文法中所有产生式的左边都是一个非终结符。
看到这里,如果还有一点懵圈,我举个例子你就明白了。
比如:
A -> B
这个文法中,每个产生式左边都会有一个非终结符,这就是上下文无关的文法
。在这种情况下,xBy
一定是可以规约出xAy
的。
我们下面看看看一个反例:
aA -> BAa -> B
这种情况就是不是上下文无关的文法
,当遇到B
的时候,我们不知道到底能不能规约出A
,取决于左边或者右边是否有a
存在,也就是说和上下文有关。
关于它为什么是非上下文无关文法
,首先需要让大家注意的是,规范的 HTML 语法,是符合上下文无关文法
的,能够体现它非上下文无关
的是不标准的语法。在此我仅举一个反例即可证明。
比如解析器扫描到form
标签的时候,上下文无关文法的处理方式是直接创建对应 form 的 DOM 对象,而真实的 HTML5 场景中却不是这样,解析器会查看 form
的上下文,如果这个 form
标签的父标签也是 form
, 那么直接跳过当前的 form
标签,否则才创建 DOM 对象。
常规的编程语言都是上下文无关的,而HTML却相反,也正是它非上下文无关的特性,决定了HTML Parser
并不能使用常规编程语言的解析器来完成,需要另辟蹊径。
解析算法
HTML5 规范详细地介绍了解析算法。这个算法分为两个阶段:
标记化。
建树。
对应的两个过程就是词法分析和语法分析。
标记化算法
这个算法输入为 HTML文本 ,输出为HTML标记
,也成为标记生成器。其中运用有限自动状态机来完成。即在当当前状态下,接收一个或多个字符,就会更新到下一个状态。
Hello sanyuan
通过一个简单的例子来演示一下标记化
的过程。
遇到<
, 状态为标记打开。
接收[a-z]
的字符,会进入标记名称状态。
这个状态一直保持,直到遇到>
,表示标记名称记录完成,这时候变为数据状态。
接下来遇到body
标签做同样的处理。
这个时候html
和body
的标记都记录好了。
现在来到
中的>,进入数据状态,之后保持这样状态接收后面的字符hello sanyuan。接着接收 中的<
,回到标记打开, 接收下一个/
后,这时候会创建一个end tag
的token。
随后进入标记名称状态, 遇到>
回到数据状态。
接着以同样的样式处理