导航：首页 > 开发技术 >

Python爬虫有哪些库

发表于：2024-11-26 作者：千家信息网编辑

千家信息网最后更新 2024年11月26日，这篇文章主要讲解了"Python爬虫有哪些库"，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习"Python爬虫有哪些库"吧！1.请求库1. request

千家信息网最后更新 2024年11月26日Python爬虫有哪些库

这篇文章主要讲解了"Python爬虫有哪些库"，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习"Python爬虫有哪些库"吧！

1.请求库

1. requests

GitHub：https://github.com/psf/requests

requests库应该是现在做爬虫最火最实用的库了，非常的人性化。有关于它的使用我之前也写过一篇文章一起看看Python之Requests库，大家可以去看一下。

有关于requests最详细的使用方法，大家可以参考官方文档：https://requests.readthedocs.io/en/master/

使用小案例：

>>> import requests >>> r = requests.get('https://api.github.com/user', auth=('user', 'pass')) >>> r.status_code 200 >>> r.headers['content-type'] 'application/json; charset=utf8' >>> r.encoding 'utf-8' >>> r.text u'{"type":"User"...' >>> r.json() {u'disk_usage': 368627, u'private_gists': 484, ...}

2. urllib3

GitHub：https://github.com/urllib3/urllib3

urllib3是一个非常强大的http请求库，提供一系列的操作URL的功能。

有关于它的详细使用方法可以参考：https://urllib3.readthedocs.io/en/latest/

使用小案例：

>>> import urllib3 >>> http = urllib3.PoolManager() >>> r = http.request('GET', 'http://httpbin.org/robots.txt') >>> r.status 200 >>> r.data 'User-agent: *\nDisallow: /deny\n'

3.selenium

GitHub：https://github.com/SeleniumHQ/selenium

自动化测试工具。一个调用浏览器的 driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。

对于这个库并非只是Python才能用，像JAVA、Python、C#等都能够使用selenium这个库

有关于Python语言如何去使用这个库，大家可以去访问https://seleniumhq.github.io/selenium/docs/api/py/ 查看官方文档

使用小案例：

from selenium import webdriver browser = webdriver.Firefox() browser.get('http://seleniumhq.org/')

4.aiohttp

GitHub：https://github.com/aio-libs/aiohttp

基于 asyncio 实现的 HTTP 框架。异步操作借助于 async/await 关键字，使用异步库进行数据抓取，可以大大提高效率。

这个属于进阶爬虫时候必须掌握的异步库。有关于aiohttp的详细操作，可以去官方文档：https://aiohttp.readthedocs.io/en/stable/

使用小案例：

import aiohttp import asyncio async def fetch(session, url):  async with session.get(url) as response:  return await response.text() async def main():  async with aiohttp.ClientSession() as session:  html = await fetch(session, 'http://python.org')  print(html) if __name__ == '__main__':  loop = asyncio.get_event_loop()  loop.run_until_complete(main())