导航：首页 > 互联网科技 >

怎么用BeautifulSoup爬取网页内容

发表于：2024-09-22 作者：千家信息网编辑

千家信息网最后更新 2024年09月22日，这篇文章主要讲解了"怎么用BeautifulSoup爬取网页内容"，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习"怎么用BeautifulSoup爬取网页

千家信息网最后更新 2024年09月22日怎么用BeautifulSoup爬取网页内容

这篇文章主要讲解了"怎么用BeautifulSoup爬取网页内容"，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习"怎么用BeautifulSoup爬取网页内容"吧！

最近要做一个食品安全方面的项目，需要爬取新闻。于是想到之前用BeautifulSoup爬虫还是非常方便的，今天正好试了一下，可行。

爬取的链接如下:http://news.sohu.com/1/0903/61/subject212846158.shtml

结构如下：

从第二页开始的链接格式是:http://news.sohu.com/1/0903/61/subject212846158_1091.shtml

逐页递减（即1091、1090如此）。

需要的内容: 标题、时间、来源、作者、全文。

准备: urllib2, BeautifulSoup, lxml

先引入这几个库

import urllib2
import lxml
from bs4 import BeautifulSoup

先用开发者工具得到headers(当然我们这里不用headers也可以)

headers = {
    "User-Agent": "ozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}

def sina_news(url,i):    request = urllib2.Request(url,headers=headers)    #发送请求，带headers    response = urllib2.urlopen(request)    #得到response    html_doc = response.read()    #读取得到HTML文件    soup = BeautifulSoup(html_doc,'lxml')    #对HTML使用lxml解析器进行解析    titles = soup.select('td.newsblue1 > a:nth-of-type('+str(i)+')')    #利用selector获得titles    time = soup.select('td.newsblue1 > span:nth-of-type('+str(i)+')')    #同上    print titles[0].get_text()    #由于select返回的是表，表的第一个元素是我们要的，所以titles[0],.get_text()是为了去掉一些HTML代码，只得到内容值    print time[0].get_text()    print titles[0]['href']

利用selector进行解析的时候是用到了开发者工具的定位功能，定位元素后，右键copy-selector即可，当然要注意nth-child(x)需要改成nth-of-type(x),在这里我们用了

nth-of-type('+str(i)+')')

这样的表达方式，是因为在该页面的结构中，新闻是以子项目排列的。如第一条就是nth-of-type(1),第二条就是nth-of-type(2)，如此列推。测试一下结果：

for i in range(1,201):
    sina_news('http://news.sohu.com/1/0903/61/subject212846158.shtml',i)

结果如下：

现在仅仅是解决了标题、时间、链接，我们还有来源，作者。但是我们已经获得了每一条新闻的链接，那么这就很好办了。

我们先看一下每一条新闻的结构：

同理、很容易就能提取出来源、责任编辑。代码如下：

def get_source(url):
    request = urllib2.Request(url,headers=headers)
    response = urllib2.urlopen(request)
    html_doc = response.read()
    soup = BeautifulSoup(html_doc,'lxml')
    sources = soup.select('#media_span')
    editor = soup.select('#editor_baidu')
    return sources,editor

在原来的函数中增加如下代码：

sources,editor = get_source(titles[0]['href'])

if(sources):
    print sources[0].get_text()
if(editor):
    print editor[0].get_text()

由于来源和责任编辑不一定每一条新闻都有，因此这里加了一个判断条件。现在看看效果。

效果还可以，再提取所有页面的内容

def get_singalpage_all(url):
    for i in range(1,201):
        sina_news(url,i)

def get_all_page():
    url = 'http://news.sohu.com/1/0903/61/subject212846158'
    for i in range (1091,990,-1):
        wholeURL = url + '_' + str(i) + '.shtml'
        get_singalpage_all(wholeURL)

调用一下：

get_singalpage_all('http://news.sohu.com/1/0903/61/subject212846158.shtml')
get_all_page()

成功爬取了所有国内要闻。

上面已经是全部源代码了，当然如果你觉得这样看很麻烦的话，可以在这里下载：

https://alltoshare.com/product/2747.html

感谢各位的阅读，以上就是"怎么用BeautifulSoup爬取网页内容"的内容了，经过本文的学习后，相信大家对怎么用BeautifulSoup爬取网页内容这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是，小编将为大家推送更多相关知识点的文章，欢迎关注！

很赞哦！

内容新闻网页链接代码就是来源结构学习作者元素工具开发者效果时间标题结果责任页面定位数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全新加坡服务器厂商有哪些帆软怎样连接数据库怎么把64位系统数据库换手工制作网络安全宣传标语苹果会关闭中国服务器吗嘉定区新能源软件开发工艺数据库系统组成什么部分软件开发操作规程智卓黑客联盟1号服务器数据库原理及应用期末试题武汉好商汇网络技术有限公司搭接网络技术大型文件如何存储数据库国内网络安全法电网与网络安全法网络技术支持咨询数据库的归档模式中国有多少计算机和软件开发 vb数据库计算编程技术杭州边奇网络技术有限公司 hbase 存点赞数据库数据库如何统计软件开发短期实施方案关于加强视频监控网络安全的通知人工智能应用软件开发项目河南北卡网络技术有限责任公司分布式协同服务器架构中国有多少计算机和软件开发经纬度数据库保存格式服务器主板通电就启动

千家信息网

千家信息网

怎么用BeautifulSoup爬取网页内容

MySql的Binlog日志工具举例分析

python怎样生成随机数

相关文章