如何实现Python抓取数据到可视化全流程的实现
发表于:2025-02-05 作者:千家信息网编辑
千家信息网最后更新 2025年02月05日,本篇文章为大家展示了如何实现Python抓取数据到可视化全流程的实现,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。1、爬取目标网站:业绩预告_数据中心_同花顺
千家信息网最后更新 2025年02月05日如何实现Python抓取数据到可视化全流程的实现
本篇文章为大家展示了如何实现Python抓取数据到可视化全流程的实现,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
1、爬取目标网站:业绩预告_数据中心_同花顺财经
(ps:headers不会设置的可以看这篇:Python 用requests.get获取网页内容为空 ’ ’)
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport reimport requests##把各种可能用到的包提前导好headers={ 'Accept': 'text/html,*/*; q=0.01', 'hexin-v': 'A2C11EVPFXAhNKl0PUpM6xp8MWU2aUUO5k-YOdpwLngMrQpTgnkUwzZdaMMp', 'Referer': 'http://data.10jqka.com.cn/financial/yjyg/', 'Cookie':'对应填写', 'User-Agent':'对应填写'}url="http://data.10jqka.com.cn/ajax/yjyg/date/2021-12-31/board/ALL/field/enddate/order/desc/page/{}/ajax/1/free/1/"result = '' for i in range(1,5): result += requests.get(url.format(i), headers=headers).textresult
爬取成功,检查数据:
2、获取序号、股票代码、等你所需要的信息
index = re.findall('(.*) ',result)index
148条数据符合预期,继续查看股票代码(这里使用正则表达式查询,可以看这篇里边对正则表达式进行了讲解:正则表达式+常用示例)
stock_code = re.findall('class="stockCode">(.*)',result)print(stock_code)
3、组成DataFrame
data = pd.DataFrame({ "stock_code":stock_code, "stock_name":stock_name, "performance":performance, "summary":summary}, index=index) data
组合成功
4、处理数据
使用正则筛选出净利润和增长幅度
data['start_profit'] = data['summary'].str.extract('(-{0,1}\d{0,10}\.{0,1}\d{0,10})万元')data['end_profit'] = data['summary'].str.extract('至(-{0,1}\d{0,10}\.{0,1}\d{0,10})万元')data["start_range"] = data['summary'].str.extract('(\d{0,5}\.{0,1}\d{0,5})%') + "%"data["end_range"] = data['summary'].str.extract('至(\d{0,5}\.{0,1}\d{0,5})%') + "%"data.head()
判断盈利情况:
def if_profit(x): if x in ['业绩预降', '业绩大幅上升', '业绩大幅下降', '业绩预盈', '业绩预增', '预计扭亏']: return 1 if x in ['预计减亏', '不确定','业绩预亏', '预计增亏', '预计续亏']: return -1 return 0data['is_profit'] = data.apply(lambda x : if_profit(x["performance"]),axis=1)data.head()##计算盈利多少yingli = (data['is_profit'] == 1).sum()yingli##亏损多少kuisun = (data['is_profit'] == -1).sum()kuisun
通过绘制饼图实现可视化:
plt.pie([yingli,kuisun], labels=['盈利','亏损'], autopct='%.2f%%')font={ "family":"kaiti", "size":"15"}plt.rc("font",**font)plt.title('148家公司盈利和亏损情况占比')plt.show()
上述内容就是如何实现Python抓取数据到可视化全流程的实现,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。
业绩
数据
正则
盈利
可视化
内容
表达式
亏损
流程
成功
代码
情况
技能
知识
股票
简明
简明扼要
信息
公司
净利
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
东城区正规软件开发设计专业服务
学软件开发需要英语
校园网络安全宣传月征文
tim服务器保存聊天记录吗
网络安全共性知识
国防网络安全市场
java重复数据库
未成年人网络安全意识
软件开发项目管理工作工资
服务器调整中意味什么
软件设计与软件开发哪个好
小蜘蛛网络技术有限公司
网络安全高级技术职称
软件开发公司部门设置
软件开发合同应该怎么写
华为数据库坏了怎么办
马帮网络技术有限公司
上海电话软件开发产品介绍
广东服务器机柜订购
数据库可以修改数据内容吗
三级网络技术入股协议
学软件开发还是学修车好
dell服务器序列号
网络安全法第二百零三条
灌南有名的网络技术推荐咨询
网络安全案例感悟分析
连接upupw数据库
网络安全应急技术国家重点实验室
成都软件开发公司如何收费
华为网络安全是指