怎么用Python分析全网取暖器数据
发表于:2025-02-07 作者:千家信息网编辑
千家信息网最后更新 2025年02月07日,本篇内容主要讲解"怎么用Python分析全网取暖器数据",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"怎么用Python分析全网取暖器数据"吧!用Pytho
千家信息网最后更新 2025年02月07日怎么用Python分析全网取暖器数据
本篇内容主要讲解"怎么用Python分析全网取暖器数据",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"怎么用Python分析全网取暖器数据"吧!
用Python分析全网取暖器数据
我们使用Python获取了淘宝网搜索关键词暖气片、取暖器、壁挂炉的商品数据,并进行了数据分析。
读取数据
首先导入获取的数据。
# 导入工具包import numpy as np import pandas as pd from pyecharts.charts import Bar, Pie, Map, Pagefrom pyecharts import options as optsimport jieba # 读取数据df_all = pd.read_csv('../data/导出数据.csv')df_all.head()
df_all.shape(13212, 7)
数据清洗和整理
此处我们需要对数据集进行数据清洗以便后续分析和可视化,主要工作内容如下:
删除记录的重复值
goods_price列处理:提取数值
purchase_num列处理:提取数值
计算销售额sales_volume = goods_price*purchase_num
删除多余的列
代码实现如下:
df = df_all.copy()# 去除重复值df.drop_duplicates(inplace=True)df.shape(6849, 7)# 筛选记录df = df[df['purchase_num'].str.contains('人付款')]# goods_price列处理df['goods_price'] = df['goods_price'].str.extract('(\d+\.{0,1}\d*)') df['goods_price'] = df['goods_price'].astype('float')# purchase_num列处理df['num'] = df['purchase_num'].str.extract('(\d+\.{0,1}\d*)')df['num'] = df['num'].astype('float') df['unit'] = [10000 if '万' in i else 1 for i in df['purchase_num']]# 计算销量df['purchase_num'] = df['num'] * df['unit']# 计算销售额df['sales_volume'] = df['goods_price'] * df['purchase_num']# 提取省份字段 df['province_name'] = df['location'].astype('str').str.split(' ').apply(lambda x:x[0]) # 删除多余的列df.drop(['num', 'unit', 'detail_url'], axis=1, inplace=True)# 重置索引df = df.reset_index(drop=True)df.head()
可以看到"取暖器">
接着,看到店铺月销量排名Top10。
店铺月销量排名Top10
可以看到店铺销量前十,凯瑞莱旗舰店位居第一。其后春尚电器专营店和苏宁易购分别是第二第三名。排在前十的还有美的、tcl等品牌。
# 计算top10店铺shop_top10 = df.groupby('shop_name')['purchase_num'].sum().sort_values(ascending=False).head(10)
全国各省份产地销量排名Top10
这些取暖器的产地都在哪儿呢?经过分析发现,浙江是生产取暖器的头号大省,在产地销量排名中一骑绝尘位居第一。之后排在第二位的是广东。湖南、江苏、山东分别位居第三第四第五名。
# 计算销量top10province_top10 = df.groupby('province_name')['purchase_num'].sum().sort_values(ascending=False).head(10)
不同价格区间的商品数量占比
取暖器都卖多少钱呢?经过分析发现,100元以下的商品是最多占比高达34.76%。其次是200-500元的商品,占比22.09%。
不同价格区间的销量占比
与此同时,在销量方面,价格在100元以下和100-200元之间的取暖产品也是销量最好的,全网销售量分别占比37.49%和35.92%。
到此,相信大家对"怎么用Python分析全网取暖器数据"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
数据
销量
取暖器
分析
全网
商品
店铺
处理
产地
价格
内容
销售
不同
区间
数值
省份
销售额
学习
清洗
更深
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全检测软件排行
济南网络安全公务员面试
2019数据库考试
河北省鼎点网络技术有限公司
h2 数据库 字段
网络安全和保密安全讨论
如何下载服务器文件
网络安全技术培训
jar文件无法连接数据库
flv流媒体服务器
FXH312中心管理服务器
怪物猎人2数据库
软件开发通用的业务逻辑
永兴学it软件开发
数据库安全级别dac
网络安全行政执法案
全市网络安全周落实会议
达梦数据库导入提示错误
服务器2016远程服务怎么开启
个人信息数据库数据来源在哪
领导干部的网络安全
网络安全服务的分类
建立数据库适合的软件
软件开发公司 增值税税率
核酸系统 服务器异常
互联网最顶尖的科技
联想服务器设置远程管理端口
进口工业实时数据库公司
服务器中对销售管理人员
久久软件开发