python如何爬取豆瓣各分类书单
发表于:2025-02-01 作者:千家信息网编辑
千家信息网最后更新 2025年02月01日,这篇文章主要介绍"python如何爬取豆瓣各分类书单",在日常操作中,相信很多人在python如何爬取豆瓣各分类书单问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"pyt
千家信息网最后更新 2025年02月01日python如何爬取豆瓣各分类书单
',re.S)这篇文章主要介绍"python如何爬取豆瓣各分类书单",在日常操作中,相信很多人在python如何爬取豆瓣各分类书单问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"python如何爬取豆瓣各分类书单"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
代码展示:
pachon2.5.py
# -- coding: utf-8 --
import urllib
import urllib2
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
class book: #豆瓣书籍的类
def init(self, types, page):
self.baseUrl = 'http://www.douban.com/tag/'
self.types = types
self.filename = 'doubanbook.txt'
self.page = page
def getContents(self): #爬取源代码
try:
#if self.page == 0:
url = self.baseUrl + self.types + '/book'
#else:
# url = self.baseUrl + self.types + '/book?start=' + str(self.page)
user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.65 Safari/537.36'
headers = { 'User-Agent' : user_agent}
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read() #.decode('utf-8')
pattern = re.compile('(.*?).*?>(.*?)
items = re.findall(pattern,content)
return items
except urllib2.URLError, e:
if hasattr(e, "reason"):
print u"豆瓣链接错误,错误原因", e.reason
return None
def writetext(self, items): #写入txt
for item in items:
print item[0],item[1]
files = open(self.filename,'a')
files.write(item[0])
files.write(item[1])
files.write('\n')
files.close()
def strat(self): #启动函数
self.writetext(self.getContents())
print u"""出现乱码为正常现象,在与本脚本相同的文件夹下会多出一个,
doubanbook.txt的文件里面有所爬书籍,如你把本脚本放在桌面,
文件便会出现在桌面"""
print u"结束输入 'O' , 联系作者输入 'A'"
end = raw_input('>')
if end == 'A':
print u"QQ邮箱:1021644861@qq.com"
raw_input('>')
else:
print "over"
到此,关于"python如何爬取豆瓣各分类书单"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
豆瓣
书单
分类
学习
文件
书籍
更多
桌面
脚本
错误
帮助
输入
实用
相同
接下来
乱码
代码
作者
函数
原因
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
卓创网络技术
上海软件开发 驻场
视频底层软件开发
视力表下载软件开发
钉钉软件开发小哥
中国台湾文档软件开发推荐
医疗保障网络安全管理制度
工业互联网众合科技
安徽电脑软件开发公司
天津常见软件开发代理价钱
望远县政务软件开发公司费用
厦门汽车备件管理软件开发
医院信息系统网络安全ppt
MySQL数据库不支持的功能是
sql数据库与python
徐汇区辅助软件开发质量保障
江阴重型软件开发规范
北邮网络安全和信息安全
钦州市app软件开发团队
文件服务器设置权限
南邮和北邮网络安全哪个好
OMG翻译软件开发
新乡万润网络技术有限公司
白银之手服务器是哪个线
魔兽世界技能数据库9.0
天津免备案虚拟主机空间服务器
中小学校对网络安全渗透要求
网络安全检查举报
数据库怎么查字符限制
玉溪长期上门回收服务器