Python爬虫网站的代码怎么写
发表于:2024-12-12 作者:千家信息网编辑
千家信息网最后更新 2024年12月12日,这篇文章主要介绍了Python爬虫网站的代码怎么写的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python爬虫网站的代码怎么写文章都会有所收获,下面我们一起来看看吧。i
千家信息网最后更新 2024年12月12日Python爬虫网站的代码怎么写
这篇文章主要介绍了Python爬虫网站的代码怎么写的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python爬虫网站的代码怎么写文章都会有所收获,下面我们一起来看看吧。
import requests
import json
import os
import time
import random
import jieba
from wordcloud import WordCloud
from imageio import imread
comments_file_path = 'jd_comments.txt'
def get_jd_comments(page = 0):
#获取jd评论
url ='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=1340204&score=0&sortType=5&page=%s&pageSize=10&isShadowSku=0&fold=1'%page
headers = {
#从哪个页面发出的数据申请,每个网站都是不一样的
'referer': 'https://item.jd.com/1340204.html',
#'user-agent'指的是用户代理,也就是让网站知道你用的哪个浏览器登录的
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',
#哪一类用户想要看数据,是游客还是会员,建议使用登录后的
'cookie': '__jdu=1766075400; areaId=27; PCSYCityID=CN_610000_610100_610113; shshshfpa=a9dc241f-78b8-f3e1-edab-09485009987f-1585747224; shshshfpb=dwWV9IhxtSce3DU0STB1%20TQ%3D%3D; jwotest_product=99; unpl=V2_ZzNtbRAAFhJ3DUJTfhFcUGIAE1RKU0ZCdQoWU3kQXgcwBxJdclRCFnQUR1FnGF8UZAMZWEpcRhFFCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZHsfWwJmBRZYQ1ZzJXI4dmR9EFoAYjMTbUNnAUEpDURSeRhbSGcFFVpDUUcQdAl2VUsa; __jdv=76161171|baidu-pinzhuan|t_288551095_baidupinzhuan|cpc|0f3d30c8dba7459bb52f2eb5eba8ac7d_0_cfd63456491d4208954f13a63833f511|1585835385193; __jda=122270672.1766075400.1585747219.1585829967.1585835353.3; __jdc=122270672; 3AB9D23F7A4B3C9B=AXAFRBHRKYDEJAQ4SPJBVU4J4TI6OQHDFRDGI7ISQFUQGA6OZOQN52T3QYSRWPSIHTFRYRN2QEG7AMEV2JG6NT2DFM; shshshfp=03ed62977bfa44b85be24ef65fbd9b87; ipLoc-djd=27-2376-4343-53952; JSESSIONID=51895EFB4EBD95BA3B3ADAC8C6C73CD8.s1; shshshsID=d2435956e0c158fa7db1980c3053033d_15_1585836826172; __jdb=122270672.16.1766075400|3.1585835353'
}
try:
response = requests.get(url, headers = headers)
except:
print('something wrong!')
#获取json格式数据集
comments_json = response.text[20:-2]
#将获取到的json数据集转换为json对象
comments_json_obj = json.loads(comments_json)
#获取comments里面全部的内容
comments_all = comments_json_obj['comments']
for comment in comments_all:
with open(comments_file_path, 'a+', encoding = 'utf-8') as fin:
fin.write(comment['content'] + '\n')
print(comment['content'])
def batch_jd_comments():
#每次写数据之前先清空
if os.path.exists(comments_file_path):
os.remove(comments_file_path)
#我们指定page i的值时,它就可以获取固定页面的评论。
for i in range(30):
print('正在爬取'+str(i+1)+'页的数据....')
get_jd_comments(i)
#设置time用来模拟用户浏览,防止因为爬取太频繁导致ip被封。
time.sleep(random.random()*5)
#对获取到的数据进行分词
def cut_comments():
with open(comments_file_path, encoding='utf-8')as file:
comment_text = file.read()
wordlist = jieba.lcut_for_search(comment_text)
new_wordlist = ' '.join(wordlist)
return new_wordlist
#引入图片byt.jpg来制作相同形状的词云图
def create_word_cloud():
mask = imread('byt.jpg')
wordcloud = WordCloud(font_path='msyh.ttc',mask = mask).generate(cut_comments())
wordcloud.to_file('picture.png')
if __name__ == '__main__':
create_word_cloud()
关于"Python爬虫网站的代码怎么写"这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对"Python爬虫网站的代码怎么写"知识都有一定的了解,大家如果还想学习更多知识,欢迎关注行业资讯频道。
数据
网站
代码
爬虫
内容
用户
知识
篇文章
页面
浏览
登录
评论
相同
频繁
也就是
云图
价值
会员
图片
对象
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全工程师35岁以后
软件开发 看板 问题
单位网络安全工作指什么
网络安全法网站管理者
2k22提示服务器不可用
秒杀服务器
wifi模块给数据库发数据
2018三级网络技术教程
java获取数据库表
国家网络安全涵盖哪些方面
网络安全工程师考试百度网盘
英国网络安全应急管理
和平精英能更新什么服务器
web服务器安全重要性理解
服务器维护工程师怎么考
高速公路需要服务器吗
软件开发计啥科目
奶块哪种服务器好
校园网络安全应急处置制度
中医处方 数据库
如何用电脑当服务器远程上传
宝塔添加远程服务器
vps数据库地址
服务器内部端口
极市平台积水识别数据库
服务器美国加利福尼亚洛杉矶
为什么学无线网络技术介绍
网络安全教案小学反思
方舟手游调服务器
网络安全对网络影响