千家信息网

如何用python爬取某东评论

发表于:2024-11-20 作者:千家信息网编辑
千家信息网最后更新 2024年11月20日,今天小编给大家分享一下如何用python爬取某东评论的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起
千家信息网最后更新 2024年11月20日如何用python爬取某东评论

今天小编给大家分享一下如何用python爬取某东评论的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。

import requestsimport jsonimport osimport timeimport randomimport jiebafrom wordcloud import WordCloudfrom imageio import imread
comment_file_path = 'jd_comments.txt'
def get_spider_comments(page = 0):
#爬取某东评论 url = 'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv7990&productId=1070129528&score=0&sortType=5&page=%s&pageSize=10&isShadowSku=0&rid=0&fold=1'%page headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', 'referer':'https://item.jd.com/1070129528.html' } try: response = requests.get(url, headers = headers) except: print("something wrong!") #获取json格式数据集 comments_json = response.text[26:-2] #将json数据集转为json对象 comments_json_obj = json.loads(comments_json) #获取comments里面的所有内容 comments_all = comments_json_obj['comments'] #获取comments中评论content的内容 for comment in comments_all: with open(comment_file_path,'a+' ,encoding='utf-8') as fin: fin.write(comment['content']+'\n') print(comment['content'])
def batch_spider_comments(): # 每次写入数据之前先清空文件 if os.path.exists(comment_file_path): os.remove(comment_file_path) for i in range(100): print('正在爬取'+str(i+1)+'页数据。。。。') get_spider_comments(i) time.sleep(random.random()*5)
def cut_word(): with open(comment_file_path,encoding='utf-8')as file: comment_text = file.read() wordlist = jieba.lcut_for_search(comment_text) new_wordlist = ' '.join(wordlist) return new_wordlist
def create_word_cloud(): mask = imread('ball.jpg') wordcloud = WordCloud(font_path='msyh.ttc',mask = mask).generate(cut_word()) wordcloud.to_file('picture.png')
if __name__ == '__main__': create_word_cloud()

以上就是"如何用python爬取某东评论"这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注行业资讯频道。

评论 内容 数据 知识 篇文章 不同 很大 大部分 对象 就是 文件 更多 格式 正在 知识点 行业 资讯 资讯频道 逻辑 面的 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 网站提示当前网络安全 增加数据库空间 西山区方便软件开发网上价格 乐亭网络技术认真负责 revit二次开发与数据库 it 网络安全学习多久可以 崂山区ios软件开发哪家好 软件开发学校就业方向 数据库2012安装提示电脑重启 市委统战部网络安全宣传简报 网络安全宣传片完整版 重庆网络安全等级保护单位 联合国数据库代查 系统集成中的网络安全类 服务器磁盘管理看不到硬盘 呼和浩特交友软件开发 简述网络安全的内涵 我的世界怎么设置服务器种子 21世纪网络安全现状 福建无限互联网络科技有限公司 web连接被服务器拒绝 公司软件开发流程繁琐 文件从外部将数据添加到数据库 大陆漂移视频软件开发 网络安全中安全评价范围 联想服务器保修政策 游戏工作室用服务器 jetsonagx软件开发 深圳泰山网络技术股份有限公司 同煤集团煤炭产业数据库
0