Python怎样去爬取淘数据平台商品数据
发表于:2025-02-03 作者:千家信息网编辑
千家信息网最后更新 2025年02月03日,这篇文章给大家介绍Python怎样去爬取淘数据平台商品数据,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前言最近发现了一个不错的数据网站,叫"淘数据"。里面的数据都是淘宝的商家数
千家信息网最后更新 2025年02月03日Python怎样去爬取淘数据平台商品数据
这篇文章给大家介绍Python怎样去爬取淘数据平台商品数据,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
前言
最近发现了一个不错的数据网站,叫"淘数据"。里面的数据都是淘宝的商家数据,包含了店名、类目、标价、成交均价、销量、销售金额等
这个网站还是一位同学和我说才知道的,既然这样,那就开始爬
项目目标
爬取淘宝假发专业数据,假发是我当时随便选的,再想选别的,要收费了
受害者地址
https://www.taosj.com/industry/index.html#/data/hotitems/?cid=50023283&brand=&type=&pcid=
环境
Python3.6
pycharm
爬虫代码
导入所需工具
import requestsimport csv
分析网页,先F12打开开发者工具,复制你所需要的数据,找数据所在的标签
找到所需要的URL和headers中的参数
url = 'https://www.taosj.com/data/industry/hotitems/list?cid=50023283&brand=&type=ALL&date=1596211200000&pageNo=1&pageSize=10&orderType=desc&orderField='.format(page)headers = { 'Host':'www.taosj.com', 'Referer':'https://www.taosj.com/industry/index.html', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',}response = requests.get(url=url, headers=headers)html_data = response.json()
在json数据中提取相关数据
lis = html_data['data']['list']for li in lis: tb_url = 'https://detail.tmall.com/item.htm?id={}'.format(li['id']) dit = { '标题': li['title'], '店铺名称': li['shop'], '类目': li['nextCatName'], '标价': li['oriPrice'], '成交均价': li['price'], '销售量': li['offer30'], '销售金额': li['price30'], '淘宝地址': tb_url, }
保存数据
f = open('淘数据.csv', mode='a', encoding='utf-8-sig', newline='')csv_writer = csv.DictWriter(f, fieldnames=['标题', '品牌', '店铺名称', '类目', '标价', '成交均价', '销售量', '销售金额', '淘宝地址'])csv_writer.writeheader()print(dit)
效果图
完整代码
import requestsimport csvf = open('淘数据.csv', mode='a', encoding='utf-8-sig', newline='')csv_writer = csv.DictWriter(f, fieldnames=['标题', '品牌', '店铺名称', '类目', '标价', '成交均价', '销售量', '销售金额', '淘宝地址'])csv_writer.writeheader()for page in range(1, 51): url = 'https://www.taosj.com/data/industry/hotitems/list?cid=50023282&brand=&type=ALL&date=1596211200000&pageNo={}&pageSize=10&orderType=desc&orderField=amount&searchKey='.format(page) """ 复制开发者工具中的requests headers 中的参数 记得加cookie """ headers = { 'Host': 'www.taosj.com', 'Referer': 'https://www.taosj.com/industry/index.html', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36', } response = requests.get(url=url, headers=headers) html_data = response.json() lis = html_data['data']['list'] for li in lis: tb_url = 'https://detail.tmall.com/item.htm?id={}'.format(li['id']) dit = { '标题': li['title'], '品牌': li['brand'], '店铺名称': li['shop'], '类目': li['nextCatName'], '标价': li['oriPrice'], '成交均价': li['price'], '销售量': li['offer30'], '销售金额': li['price30'], '淘宝地址': tb_url, } csv_writer.writerow(dit) print(dit)
关于Python怎样去爬取淘数据平台商品数据就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
数据
销售
淘宝
地址
金额
名称
店铺
标题
销售量
品牌
工具
商品
平台
不错
代码
假发
内容
参数
开发者
更多
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
哪里接软件开发
观后感网络安全
杭州金融软件开发公司有哪些
软件开发与销售为何分开
经济发展信息数据库
鬼泣服务器爆满怎么进
当虹科技互联网大会
电信云服务器放数据安全吗
bak后缀是什么数据库
软件开发都是什么软件
长虹电视服务器失败
榆林网络安全大讲堂
软件开发技师
传感器网络技术研究
开封软件开发简介
多跳网络技术原理
弈宣软件开发盐城有限公司
如何截断数据库日志
项目软件开发怎么样
爬取旅游景点数据库
重庆pdu服务器专用电源价格
尚学堂数据库讲解视频教程
网络安全方面作文
国家电网中的软件开发
少年三国志服务器有哪些
长沙电脑软件开发靠谱吗
网络安全监察执法软件
软件开发设备的安全性论述
网络安全与网络通信的区别
go富集人的数据库怎么引用