python如何爬取豆瓣各分类书单
发表于:2024-11-25 作者:千家信息网编辑
千家信息网最后更新 2024年11月25日,这篇文章主要介绍"python如何爬取豆瓣各分类书单",在日常操作中,相信很多人在python如何爬取豆瓣各分类书单问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"pyt
千家信息网最后更新 2024年11月25日python如何爬取豆瓣各分类书单
',re.S)这篇文章主要介绍"python如何爬取豆瓣各分类书单",在日常操作中,相信很多人在python如何爬取豆瓣各分类书单问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"python如何爬取豆瓣各分类书单"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
代码展示:
pachon2.5.py
# -- coding: utf-8 --
import urllib
import urllib2
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
class book: #豆瓣书籍的类
def init(self, types, page):
self.baseUrl = 'http://www.douban.com/tag/'
self.types = types
self.filename = 'doubanbook.txt'
self.page = page
def getContents(self): #爬取源代码
try:
#if self.page == 0:
url = self.baseUrl + self.types + '/book'
#else:
# url = self.baseUrl + self.types + '/book?start=' + str(self.page)
user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.65 Safari/537.36'
headers = { 'User-Agent' : user_agent}
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read() #.decode('utf-8')
pattern = re.compile('(.*?).*?>(.*?)
items = re.findall(pattern,content)
return items
except urllib2.URLError, e:
if hasattr(e, "reason"):
print u"豆瓣链接错误,错误原因", e.reason
return None
def writetext(self, items): #写入txt
for item in items:
print item[0],item[1]
files = open(self.filename,'a')
files.write(item[0])
files.write(item[1])
files.write('\n')
files.close()
def strat(self): #启动函数
self.writetext(self.getContents())
print u"""出现乱码为正常现象,在与本脚本相同的文件夹下会多出一个,
doubanbook.txt的文件里面有所爬书籍,如你把本脚本放在桌面,
文件便会出现在桌面"""
print u"结束输入 'O' , 联系作者输入 'A'"
end = raw_input('>')
if end == 'A':
print u"QQ邮箱:1021644861@qq.com"
raw_input('>')
else:
print "over"
到此,关于"python如何爬取豆瓣各分类书单"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
豆瓣
书单
分类
学习
文件
书籍
更多
桌面
脚本
错误
帮助
输入
实用
相同
接下来
乱码
代码
作者
函数
原因
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
池州网络安全考试课程
亿天嘉信软件开发
好兄弟软件开发
县医院服务器配置清单
eplan中的plc数据库
网络安全失败一次
c 可以开发什么软件开发
专科留在杭州做软件开发
2019nbl数据库
数据库字段属性有哪些
润软软件开发
学网络技术学费多少钱
无锡oa软件开发
南宁谷腾网络技术有限公司
前景好的服务器管理
数据库全外连接左外连接吗
查找苹果手机数据库
网络安全和信息化委员会讲话
网络安全教育真题班会
服务器只亮两个灯连接不上网
网络安全宣传周几时开始
软件开发工作分哪些条件
数据库字段属性有哪些
数据库创建临时表
阿里云计算软件开发工程师
我的世界服务器皮肤怎么没有了
凉州区网络安全保安支队
网络安全技术面试
全球互联网科技有限公司排名
多萌生活网络技术有限公司