千家信息网

怎么用Python电商车厘子销售数据

发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,这篇文章主要讲解了"怎么用Python电商车厘子销售数据",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"怎么用Python电商车厘子销售数据"吧!01
千家信息网最后更新 2025年01月31日怎么用Python电商车厘子销售数据

这篇文章主要讲解了"怎么用Python电商车厘子销售数据",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"怎么用Python电商车厘子销售数据"吧!

01 数据获取

本文利用Python采集了淘宝网1585个商家车厘子销售数据,获取到车厘子的商品名称、商品价格、付款人数、店铺名称、发货地址等字段。限于篇幅,爬虫代码仅给出主函数:

def main:browser.get('https://www.taobao.com/')page = search_product(key_word)print(page)get_datapage_num = 70while int(page) != page_num:print("-" * 100)print("正在爬取第{}页数据".format(page_num + 1))browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))browser.implicitly_wait(10)get_datapage_num += 1print("数据抓取完成")if __name__ == '__main__':key_word = "车厘子"browser = webdriver.Chrome("./chromedriver")main

02 数据处理

1.数据读取并预览

import pandas as pdimport numpy as npdf = pd.read_csv('/菜J学Python/淘宝/车厘子.csv',header=None,names=['商品名称','商品价格','付款人数','店铺名称','发货地址']) #添加字段名称df.sample(5)

2.查看数据信息

df.info
Int64Index: 1595 entries, 0 to 1674Data columns (total 5 columns):# Column Non- Count Dtype--- ------ -------------- -----0 商品名称 1595 non- object1 商品价格 1595 non- float642 付款人数 1595 non- object3 店铺名称 1595 non- object4 发货地址 1585 non- objectdtypes: float64(1), object(4)memory usage: 74.8+ KB

发现数据存在以下几个问题:

(1)发货地址有缺失值

(2)付款人数需做提取

(3)发货地址需做分割

(4)自定义索引并降序

3.数据清洗

#剔除缺失记录df.dropna(axis=0, how='any', inplace=True)#从发货地址字段中切分出省份和城市df["省份"] = df["发货地址"].str.split(' ',expand=True)[0] #expand=True可以把用分割的内容直接分列df["城市"] = df["发货地址"].str.split(' ',expand=True)[1] #提取城市df["城市"].fillna(df["省份"], inplace=True) #城市字段空值用省份非空值填充#用正则表达式从付款人数中提取数字import redf['数字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人数']] # 提取数值df['数字'] = df['数字'].astype('float') # 转化数值型df['单位'] = [''.join(re.findall(r'(万)', i)) for i in df['付款人数']] # 提取单位(万)df['单位'] = df['单位'].apply(lambda x:10000 if x=='万' else 1)df['付款人数'] = df['数字'] * df['单位'] # 计算付款人数df.drop(['发货地址', '数字', '单位'], axis=1, inplace=True) # 删除多余的列#按商品价格降序并重置索引df = df.sort_values(by="商品价格", axis=0, ascending=False) #降序df = df.reset_index(drop=True) #重置索引

清洗后,数据预览如下:

感谢各位的阅读,以上就是"怎么用Python电商车厘子销售数据"的内容了,经过本文的学习后,相信大家对怎么用Python电商车厘子销售数据这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是,小编将为大家推送更多相关知识点的文章,欢迎关注!

数据 人数 地址 商品 名称 单位 数字 销售 价格 商品价格 城市 电商 字段 省份 内容 店铺 索引 学习 数值 缺失 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 福州地衣网络技术有限公司 西安学网络技术比较好的职高 qq邮箱的服务器该怎样填 品质网络安全应用 国行ps4如何登录港服务器 通信网络技术内容 中小学网络安全主题班会 上海市洪阳软件开发有限公司 数据库专利技术 有权对危害网络安全的行为 贵州数据网络技术服务优势 手机照相机软件开发 新建数据库目录在哪个文件夹 java程序安装在服务器 恩施网络安全宣传答题 nist动力学数据库 烟台果多多网络技术 物理服务器怎么开udp 5g移动通信网络技术的有点 网络安全宣传素材ppt 铜梁区网络软件开发服务标志 数据库视图作为数据源 学什么网络技术可以找自由职业 网络安全教育手抄报内容清晰 c#软件开发助理岗位职责 博达软件开发有限公司怎么样 百度自研分布式数据库应用 数据库第四版课后答案第五章 虚拟服务器安全吗 租用服务器一年多少钱
0