怎么使用Python爬虫
发表于:2025-01-16 作者:千家信息网编辑
千家信息网最后更新 2025年01月16日,本篇内容介绍了"怎么使用Python爬虫"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1.导入模块i
千家信息网最后更新 2025年01月16日怎么使用Python爬虫
本篇内容介绍了"怎么使用Python爬虫"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
1.导入模块
import re from bs4 import BeautifulSoup import requests import time import json import pandas as pd import numpy as np
2.状态码
r = requests.get('https://github.com/explore') r.status_code
3. 爬取*乎
#浏览器header和cookies headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'} cookies = {'cookie':'_zap=3d979dbb-f25b-4014-8770-89045dec48f6; d_c0="APDvML4koQ-PTqFU56egNZNd2wd-eileT3E=|1561292196"; tst=r; _ga=GA1.2.910277933.1582789012; q_c1=9a429b07b08a4ae1afe0a99386626304|1584073146000|1561373910000; _xsrf=bf1c5edf-75bd-4512-8319-02c650b7ad2c; _gid=GA1.2.1983259099.1586575835; l_n_c=1; l_cap_id="NDIxM2M4OWY4N2YwNDRjM2E3ODAxMDdmYmY2NGFiMTQ=|1586663749|ceda775ba80ff485b63943e0baf9968684237435"; r_cap_id="OWY3OGQ1MDJhMjFjNDBiYzk0MDMxMmVlZDIwNzU0NzU=|1586663749|0948d23c731a8fa985614d3ed58edb6405303e99"; cap_id="M2I5NmJkMzRjMjc3NGZjNDhiNzBmNDMyNDQ3NDlmNmE=|1586663749|dacf440ab7ad64214a939974e539f9b86ddb9eac"; n_c=1; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1586585625,1586587735,1586667228,1586667292; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1586667292; SESSIONID=GWBltmMTwz5oFeBTjRm4Akv8pFF6p8Y6qWkgUP4tjp6; JOID=UVkSBEJI6EKgHAipMkwAEWAkvEomDbkAwmJn4mY1kHHPVGfpYMxO3voUDK88UO62JqgwW5Up4hC2kX_KGO9xoKI=; osd=UlEXAU5L4EelEAuhN0kMEmghuUYlBbwFzmFv52M5k3nKUWvqaMlL0vkcCaowU-azI6QzU5As7hO-lHrGG-d0pa4=; capsion_ticket="2|1:0|10:1586667673|14:capsion_ticket|44:YTJkYmIyN2Q4YWI4NDI0Mzk0NjQ1YmIwYmUxZGYyNzY=|b49eb8176314b73e0ade9f19dae4b463fb970c8cbd1e6a07a6a0e535c0ab8ac3"; z_c0="2|1:0|10:1586667694|4:z_c0|92:Mi4xOGc1X0dnQUFBQUFBOE84d3ZpU2hEeVlBQUFCZ0FsVk5ydTVfWHdDazlHMVM1eFU5QjlqamJxWVhvZ2xuWlhTaVJ3|bcd3601ae34951fe72fd3ffa359bcb4acd60462715edcd1e6c4e99776f9543b3"; unlock_ticket="AMCRYboJGhEmAAAAYAJVTbankl4i-Y7Pzkta0e4momKdPG3NRc6GUQ=="; KLBRSID=fb3eda1aa35a9ed9f88f346a7a3ebe83|1586667697|1586660346'} start_url = 'https://www.zhihu.com/api/v3/feed/topstory/recommend?session_token=c03069ed8f250472b687fd1ee704dd5b&desktop=true&page_number=5&limit=6&action=pull&ad_interval=-1&before_id=23'
4. beautifulsoup解析
s = requests.Session() start_url = 'https://www.zhihu.com/' html = s.get(url = start_url, headers = headers,cookies = cookies,timeout = 5) soup = BeautifulSoup(html.content) question = [] ## 名称 question_address = [] ## url temp1 = soup.find_all('div',class_='Card TopstoryItem TopstoryItem-isRecommend') for item in temp1: temp2 = item.find_all('div',itemprop="zhihu:question") # print(temp2) if temp2 != []: #### 存在专栏等情况,暂时跳过 question_address.append(temp2[0].find('meta',itemprop='url').get('content')) question.append(temp2[0].find('meta',itemprop='name').get('content'))
5. 存储信息
question_focus_number = [] #关注量 question_answer_number = [] # 回答量 for url in question_address: test = s.get(url = url,headers = headers,cookies = cookies,timeout = 5) soup = BeautifulSoup(test.content) info = soup.find_all('div',class_='QuestionPage')[0] # print(info) focus_number = info.find('meta',itemprop="answerCount").get('content') answer_number = info.find('meta',itemprop="zhihu:followerCount").get('content') question_focus_number.append(focus_number) question_answer_number.append(answer_number)
6. 整理信息并输出
question_info = pd.DataFrame(list(zip(question,question_focus_number,question_answer_number)),columns = ['问题名称','关注人数','回答人数'] for item in ['关注人数','回答人数']: question_info[item] = np.array(question_info[item],dtype = 'int') question_info.sort_values(by='关注人数',ascending = False)
输出:
"怎么使用Python爬虫"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
人数
输出
爬虫
信息
内容
名称
情况
更多
知识
实用
学有所成
接下来
专栏
困境
实际
文章
案例
模块
浏览器
状态
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
带服务器的
服务器管理器配置不成功
知宇软件开发
服务器离线是什么意思啊
小米联通无法连接服务器
昌平区正规软件开发设计价格走势
苹果推信软件开发
ota软件开发岗位信息
车牌图片数据库
金融数据库的选择
数据库的数据库对象
数据库sql怎么创建视图
聊城网络安全大赛成绩
安平县网络安全知识
希沃班云服务器参数
软件开发分次做什么科目
网络安全员学校
软件开发计算机基础知识
怎么理解x86服务器
香河软件开发有限公司服务至上
电影天堂无法连接服务器
数据库中检索年龄小于17岁
网络安全协议 握手
分布式服务器如何设置开发
调查队网络安全工作现状
重庆服务器迁移预约
搭建网页服务器
网络安全保障硬件软件的安全
中石油的网络安全
mysql数据库安装完成