beautifulsoup4库怎么用
这篇文章主要为大家展示了"beautifulsoup4库怎么用",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"beautifulsoup4库怎么用"这篇文章吧。
beautifulsoup4库的使用
使用requests库获取HTML页面并将其转化成字符串后,需要进一步解析HTML页面格式,提取有用信息,这需要处理HTML和XML的函数库。beautifulsoup4库,也成为BeautifulSoup库或者bs4库,用于解析和处理HTML和XML。需要注意的是,它不是BeautifulSoup库。它的最大优点是能根据HTML和XML语法建立解析树,进而高效解析其中的内容。beautifulsoup4库采用面向对象思想实现,简单地说,它把每个页面当作一个对象,通过< a>.< b>()的凡是调用方法(即处理函数)。
BeautifulSoup中常用的一些属性如下:
head:HTML页面的< head>内容
title:HTML页面标题,在< head>之中,有< title>标记
body:HTML页面的< body>内容
p:HTML页面中第一个< p>内容
strings:HTML页面所有呈现在Web上的字符串,即标签的内容
stripped_strings:HTML页面所有呈现在Web上的非空格字符串
BeautifulSoup属性与HTML的标签名称相同,远不止这些。
标签对象的常用属性:
name:字符串,标签的名字,比如div
attrs:字典,包含了原来页面Tag所有的属性,比如href
contents:列表,这个Tag下所有子Tag的内容
string:字符串,Tag所包围的文本,网页中真是的文字,string属性的返回值遵循如下原则:
(1)如果标签内部没有其他标签,string属性返回其中的内容。
(2)如果标签内部还有其他标签,但只有一个标签,string属性返回最里面标签的内容。
(3)如果标签内部有超过1层嵌套的标签,string属性返回None(空字符串)。
BeautifulSoup其中的两个方法(这两个方法会遍历整个HTML文档,按照条件返回标签内容):
BeautifulSboup.find_all(name,attrs,recursive,string,limit)
作用:根据参数找到对应的标签,返回列表类型。参数如下:
name:按照tag标签,名字用字符串形式表示,例如div、li。
attrs:按照tag标签属性值检索,需要列出属性名称和值,采用JSON表示。
recursive:设置查找层次,只查找当前标签下一层时使用recursive=False。
string:按照关键字检索string属性内容,采用string=开始。
limit:返回结果的个数,默认返回全部结果。
简单地说,BeautifulSoup的find_all()方法可以根据标签名字、标签属性和内容检索并返回标签列表,通过片段字符串检索时需要使用正则表达式re函数库,re时Python标准库,直接通过importre即可使用。采用re.comlile('jquery')实现对片段字符串(如'jquery')的检索。当对标签属性检索时,属性和对应的值采用JSON格式,例如:'src':re.compile('jquery'),其中,键值对中值的部分可以是字符串或者正则表达式。
除了find_all()方法,BeautifulSoup类还提供一个find()方法,它们的区别只是前者返回全部结果而后者返回找到的第一个结果,find_all()函数由于可能返回更多结果,所以采用列表形式:find()函数返回字符串形式。
BeautifulSoup.find(name,attrs,recursive,string)
作用:根据参数找到对应标签,采用字符串返回找到的第一个值。
参数:与find_all()方法一样。
以上是"beautifulsoup4库怎么用"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!