如何用python爬取某东评论
发表于:2024-11-23 作者:千家信息网编辑
千家信息网最后更新 2024年11月23日,今天小编给大家分享一下如何用python爬取某东评论的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起
千家信息网最后更新 2024年11月23日如何用python爬取某东评论
今天小编给大家分享一下如何用python爬取某东评论的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。
import requests
import json
import os
import time
import random
import jieba
from wordcloud import WordCloud
from imageio import imread
comment_file_path = 'jd_comments.txt'
def get_spider_comments(page = 0):
#爬取某东评论
url = 'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv7990&productId=1070129528&score=0&sortType=5&page=%s&pageSize=10&isShadowSku=0&rid=0&fold=1'%page
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
'referer':'https://item.jd.com/1070129528.html'
}
try:
response = requests.get(url, headers = headers)
except:
print("something wrong!")
#获取json格式数据集
comments_json = response.text[26:-2]
#将json数据集转为json对象
comments_json_obj = json.loads(comments_json)
#获取comments里面的所有内容
comments_all = comments_json_obj['comments']
#获取comments中评论content的内容
for comment in comments_all:
with open(comment_file_path,'a+' ,encoding='utf-8') as fin:
fin.write(comment['content']+'\n')
print(comment['content'])
def batch_spider_comments():
# 每次写入数据之前先清空文件
if os.path.exists(comment_file_path):
os.remove(comment_file_path)
for i in range(100):
print('正在爬取'+str(i+1)+'页数据。。。。')
get_spider_comments(i)
time.sleep(random.random()*5)
def cut_word():
with open(comment_file_path,encoding='utf-8')as file:
comment_text = file.read()
wordlist = jieba.lcut_for_search(comment_text)
new_wordlist = ' '.join(wordlist)
return new_wordlist
def create_word_cloud():
mask = imread('ball.jpg')
wordcloud = WordCloud(font_path='msyh.ttc',mask = mask).generate(cut_word())
wordcloud.to_file('picture.png')
if __name__ == '__main__':
create_word_cloud()
以上就是"如何用python爬取某东评论"这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注行业资讯频道。
评论
内容
数据
知识
篇文章
不同
很大
大部分
对象
就是
文件
更多
格式
正在
知识点
行业
资讯
资讯频道
逻辑
面的
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
年度网络安全应急演练计划
领红包选不了区服务器
裤子领说服务器
如何利用英文数据库
查看服务器密码
德州软件开发培训
网络安全应该考什么证
商中网络技术有限公司
沙头角租房软件开发
命运2显示断开服务器连接
网络安全运维工程师防火墙
软件开发项目工程量考核
软件开发有用的证书
维护网络安全的意义6
qq服务器在深圳吗
中国软件开发行业前景
湖北系统软件开发哪家可靠
嵌入式软件开发交流社区
关于监督网络安全的ppt
oracle数据库前端开发
鼎湖服务器距离阳江多少公里
gns3网络技术
邵阳串口服务器厂家
数据库回表怎么解决
科技论文数据库
软件开发流程方案
长沙出名的网络安全公司
重庆国企网络技术工作
石家庄软件开发学校
一台服务器多少个jvm