Python怎么采集淘宝车厘子数据
发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,这篇文章主要介绍"Python怎么采集淘宝车厘子数据",在日常操作中,相信很多人在Python怎么采集淘宝车厘子数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Pyt
千家信息网最后更新 2025年02月02日Python怎么采集淘宝车厘子数据
这篇文章主要介绍"Python怎么采集淘宝车厘子数据",在日常操作中,相信很多人在Python怎么采集淘宝车厘子数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Python怎么采集淘宝车厘子数据"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
数据获取
本文利用Python采集了淘宝网1585个商家车厘子销售数据,获取到车厘子的商品名称、商品价格、付款人数、店铺名称、发货地址等字段。限于篇幅,爬虫代码仅给出主函数:
def main(): browser.get('https://www.taobao.com/') page = search_product(key_word) print(page) get_data() page_num = 70 while int(page) != page_num: print("-" * 100) print("正在爬取第{}页数据".format(page_num + 1)) browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44)) browser.implicitly_wait(10) get_data() page_num += 1 print("数据抓取完成")if __name__ == '__main__': key_word = "车厘子" browser = webdriver.Chrome("./chromedriver") main()
数据处理
数据读取并预览
df.info()Int64Index: 1595 entries, 0 to 1674Data columns (total 5 columns): # Column Non-Null Count Dtype--- ------ -------------- ----- 0 商品名称 1595 non-null object 1 商品价格 1595 non-null float64 2 付款人数 1595 non-null object 3 店铺名称 1595 non-null object 4 发货地址 1585 non-null objectdtypes: float64(1), object(4)memory usage: 74.8+ KB
查看数据信息
df.info()Int64Index: 1595 entries, 0 to 1674Data columns (total 5 columns): # Column Non-Null Count Dtype--- ------ -------------- ----- 0 商品名称 1595 non-null object 1 商品价格 1595 non-null float64 2 付款人数 1595 non-null object 3 店铺名称 1595 non-null object 4 发货地址 1585 non-null objectdtypes: float64(1), object(4)memory usage: 74.8+ KB
发现数据存在以下几个问题:
(1)发货地址有缺失值
(2)付款人数需做提取
(3)发货地址需做分割
(4)自定义索引并降序
数据清洗
#剔除缺失记录df.dropna(axis=0, how='any', inplace=True)#从发货地址字段中切分出省份和城市df["省份"] = df["发货地址"].str.split(' ',expand=True)[0] #expand=True可以把用分割的内容直接分列df["城市"] = df["发货地址"].str.split(' ',expand=True)[1] #提取城市df["城市"].fillna(df["省份"], inplace=True) #城市字段空值用省份非空值填充#用正则表达式从付款人数中提取数字import redf['数字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人数']] # 提取数值df['数字'] = df['数字'].astype('float') # 转化数值型df['单位'] = [''.join(re.findall(r'(万)', i)) for i in df['付款人数']] # 提取单位(万)df['单位'] = df['单位'].apply(lambda x:10000 if x=='万' else 1)df['付款人数'] = df['数字'] * df['单位'] # 计算付款人数df.drop(['发货地址', '数字', '单位'], axis=1, inplace=True) # 删除多余的列#按商品价格降序并重置索引df = df.sort_values(by="商品价格", axis=0, ascending=False) #降序df = df.reset_index(drop=True) #重置索引
清洗后,数据预览如下:
到此,关于"Python怎么采集淘宝车厘子数据"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
数据
人数
地址
商品
单位
名称
数字
价格
商品价格
城市
宝车
省份
学习
字段
店铺
索引
数值
更多
缺失
帮助
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
科技对互联网
山东知名软件开发报价
网络安全符号
分离数据库表的作用
相城区服务器代理厂家
软件开发公司运营啊部
集成电路和网络安全哪个好
珠海鸿鸿软件开发
网络安全管理情绪图片
深度学习服务器租用价格
大学生需要网络技术吗
紫光软件开发
h1z1 怎么选服务器
搞网络安全学哪种编程语言好
软件开发工程师就业要求
软件开发的活动背景
网络安全与廉政
销售分布式实时数据库多少钱
服务器无法运行显示屏不亮
dm数据库craete
嘉兴网络技术哪家好
网络技术方面论文
实时通讯服务器
网络安全扫描设备的价格
网络安全一级学科本科有吗
数据库达到c2级别安全性
血小板teps数据库
数据库系统概论四和五版区别
派币服务器安装
衡水定制软件开发哪家便宜