怎么用Python分析全网取暖器数据
发表于:2024-11-16 作者:千家信息网编辑
千家信息网最后更新 2024年11月16日,本篇内容主要讲解"怎么用Python分析全网取暖器数据",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"怎么用Python分析全网取暖器数据"吧!用Pytho
千家信息网最后更新 2024年11月16日怎么用Python分析全网取暖器数据
本篇内容主要讲解"怎么用Python分析全网取暖器数据",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"怎么用Python分析全网取暖器数据"吧!
用Python分析全网取暖器数据
我们使用Python获取了淘宝网搜索关键词暖气片、取暖器、壁挂炉的商品数据,并进行了数据分析。
读取数据
首先导入获取的数据。
# 导入工具包import numpy as np import pandas as pd from pyecharts.charts import Bar, Pie, Map, Pagefrom pyecharts import options as optsimport jieba # 读取数据df_all = pd.read_csv('../data/导出数据.csv')df_all.head()
df_all.shape(13212, 7)
数据清洗和整理
此处我们需要对数据集进行数据清洗以便后续分析和可视化,主要工作内容如下:
删除记录的重复值
goods_price列处理:提取数值
purchase_num列处理:提取数值
计算销售额sales_volume = goods_price*purchase_num
删除多余的列
代码实现如下:
df = df_all.copy()# 去除重复值df.drop_duplicates(inplace=True)df.shape(6849, 7)# 筛选记录df = df[df['purchase_num'].str.contains('人付款')]# goods_price列处理df['goods_price'] = df['goods_price'].str.extract('(\d+\.{0,1}\d*)') df['goods_price'] = df['goods_price'].astype('float')# purchase_num列处理df['num'] = df['purchase_num'].str.extract('(\d+\.{0,1}\d*)')df['num'] = df['num'].astype('float') df['unit'] = [10000 if '万' in i else 1 for i in df['purchase_num']]# 计算销量df['purchase_num'] = df['num'] * df['unit']# 计算销售额df['sales_volume'] = df['goods_price'] * df['purchase_num']# 提取省份字段 df['province_name'] = df['location'].astype('str').str.split(' ').apply(lambda x:x[0]) # 删除多余的列df.drop(['num', 'unit', 'detail_url'], axis=1, inplace=True)# 重置索引df = df.reset_index(drop=True)df.head()
可以看到"取暖器">
接着,看到店铺月销量排名Top10。
店铺月销量排名Top10
可以看到店铺销量前十,凯瑞莱旗舰店位居第一。其后春尚电器专营店和苏宁易购分别是第二第三名。排在前十的还有美的、tcl等品牌。
# 计算top10店铺shop_top10 = df.groupby('shop_name')['purchase_num'].sum().sort_values(ascending=False).head(10)
全国各省份产地销量排名Top10
这些取暖器的产地都在哪儿呢?经过分析发现,浙江是生产取暖器的头号大省,在产地销量排名中一骑绝尘位居第一。之后排在第二位的是广东。湖南、江苏、山东分别位居第三第四第五名。
# 计算销量top10province_top10 = df.groupby('province_name')['purchase_num'].sum().sort_values(ascending=False).head(10)
不同价格区间的商品数量占比
取暖器都卖多少钱呢?经过分析发现,100元以下的商品是最多占比高达34.76%。其次是200-500元的商品,占比22.09%。
不同价格区间的销量占比
与此同时,在销量方面,价格在100元以下和100-200元之间的取暖产品也是销量最好的,全网销售量分别占比37.49%和35.92%。
到此,相信大家对"怎么用Python分析全网取暖器数据"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
数据
销量
取暖器
分析
全网
商品
店铺
处理
产地
价格
内容
销售
不同
区间
数值
省份
销售额
学习
清洗
更深
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
县网络安全保障体系建设情况
网络技术部总结
万州启动网络安全宣传周活动
金融业网络安全从业人员
高并发程序与数据库
口碑好的服务器哪个系列好
联想服务器安全模式怎么进
我的世界服务器限定区块加载
微信安全域名验证服务器地址
反制网络安全检查
浙江综合软件开发生产厂家
信息与网络安全员怎么考
win10进入服务器
饭客网络安全工程师
网络安全建设应以实现为目标
半次元简直是我的图片数据库
我的世界服务器开挂mod
网络安全作战理论
杭州文件存储服务器
乐游vip服务器
中兴展示的服务器浸没式液冷技术
杭州移动支付软件开发公司
云服务器怎么连接路由器
微信安全域名验证服务器地址
存数据库中vmdk文件锁定
三四年级网络安全教育
嵌入式和服务器开发那个好
传奇数据库编辑工具
计算机网络安全专业学什么
windows 网络安全