导航：首页 > 互联网科技 >

Python如何爬取MM照片

发表于：2024-11-22 作者：千家信息网编辑

千家信息网最后更新 2024年11月22日，这篇文章主要为大家展示了"Python如何爬取MM照片"，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下"Python如何爬取MM照片"这篇文章吧。1.URL的

千家信息网最后更新 2024年11月22日Python如何爬取MM照片

这篇文章主要为大家展示了"Python如何爬取MM照片"，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下"Python如何爬取MM照片"这篇文章吧。

1.URL的格式

在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1，问号前面是基地址，后面的参数page是代表第几页，可以随意更换地址。点击开之后，会发现有一些淘宝MM的简介，并附有超链接链接到个人详情页面。

我们需要抓取本页面的头像地址，MM姓名，MM年龄，MM居住地，以及MM的个人详情页面地址。

2.抓取简要信息

相信大家经过上几次的实战，对抓取和提取页面的地址已经非常熟悉了，这里没有什么难度了，我们首先抓取本页面的MM详情页面地址，姓名，年龄等等的信息打印出来，直接贴代码如下

import urllibimport urllib2import reclass Spider:    def __init__(self):        self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm'    def getPage(self,pageIndex):        url = self.siteURL + "?page=" + str(pageIndex)        print url        request = urllib2.Request(url)        response = urllib2.urlopen(request)        return response.read().decode('gbk')    def getContents(self,pageIndex):        page = self.getPage(pageIndex)        pattern = re.compile('.*?(.*?).*?(.*?)',re.S)        items = re.findall(pattern,page)        for item in items:            print item[0],item[1],item[2],item[3],item[4]spider = Spider()spider.getContents(1)

运行结果如下

3.文件写入简介

在这里，我们有写入图片和写入文本两种方式

1）写入图片

#传入图片地址，文件名，保存单张图片def saveImg(self,imageURL,fileName):     u = urllib.urlopen(imageURL)     data = u.read()     f = open(fileName, 'wb')     f.write(data)     f.close()

2）写入文本

def saveBrief(self,content,name):    fileName = name + "/">

3）创建新目录

#创建新目录def mkdir(self,path):    path = path.strip()    # 判断路径是否存在    # 存在     True    # 不存在   False    isExists=os.path.exists(path)    # 判断结果    if not isExists:        # 如果不存在则创建目录        # 创建目录操作函数        os.makedirs(path)        return True    else:        # 如果目录存在则不创建，并提示目录已存在        return False

4.代码完善

主要的知识点已经在前面都涉及到了，如果大家前面的章节都已经看了，完成这个爬虫不在话下，具体的详情在此不再赘述，直接帖代码啦。

spider.py

import urllibimport urllib2import reimport toolimport os#抓取MMclass Spider:    #页面初始化    def __init__(self):        self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm'        self.tool = tool.Tool()    #获取索引页面的内容    def getPage(self,pageIndex):        url = self.siteURL + "?page=" + str(pageIndex)        request = urllib2.Request(url)        response = urllib2.urlopen(request)        return response.read().decode('gbk')    #获取索引界面所有MM的信息，list格式    def getContents(self,pageIndex):        page = self.getPage(pageIndex)        pattern = re.compile('.*?(.*?).*?(.*?)',re.S)        items = re.findall(pattern,page)        contents = []        for item in items:            contents.append([item[0],item[1],item[2],item[3],item[4]])        return contents    #获取MM个人详情页面    def getDetailPage(self,infoURL):        response = urllib2.urlopen(infoURL)        return response.read().decode('gbk')    #获取个人文字简介    def getBrief(self,page):        pattern = re.compile('(.*?)
      
    





  
 





  
    
      
        站长推荐
        点击排行
      
      
        
          



      recovery是什么意思?电脑开机重启显示recovery蓝屏怎么办
      
        
          怎么在Linux中配置SSH和Xshell远程连接服务器
          
        
          VS2008无法直接查看STL值怎么办
          
        
          什么是RPC框架
          
        
          .net mvc超过了最大请求长度怎么办
          
      
      java怎么实现try/catch异常块
      
        
          PHP中如何处理上传文件
          
        
          php中require_once报错的解决方法
          
        
          PHP如何编写学校网站上新生注册登陆程序
          
        
          php中微信公众号开发模式的示例分析
          
      

          
        
        
          


      在vmware esxi6.5中将硬盘驱动类型由HDD变为SSD类型
     
      
        Vue中的匿名插槽与具名插槽是什么
        vscoder如何关闭错误提示
        vue3与vue2的区别以及vue3的API用法介绍
        老年机号码拉黑怎么解除（老年机号码拉黑怎么解除）
        qq群作业里为什么图片上传不了（qq群作业照片传不上去）
        京东以旧换新评估价和实际一样吗（京东以旧换新估价和成交价一样吗）
        录制的横屏视频怎么变成全屏竖屏（录制的横屏怎么变竖屏）
        拼多多注销后可以重开新用户吗（拼多多注销后重开算新用户吗）
      
      微信登录加载联系人失败怎么弄（微信加载联系人失败 点击重试）
  

          
        
      
    



    
      标签云
      


数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库安全章节测试
华大基因数据库安全性
数据库es安全性测试工具
数据库与云安全
微生物安全数据库
数据库个人信息安全吗
安全数据库降级
黑龙江数据库安全防护系统
数据库安全性实验例题
在国家公共安全数据库有记录


      
    


    

    
      猜你喜欢
      
        华为手机按键震动在哪设置关掉 按键振动怎么取消方法
        百度网盘PDF怎么转换成Word格式 PDF转Word操作教程
        陌陌无限注册教程（怎么注册陌陌新号）
        win10开机蓝屏终止代码SYSTEM_SERVICE_EXCEPTION的解决方法
        微信看不到朋友圈不显示一条横线（微信看不到朋友圈只有一条横线）
        VS2008无法直接查看STL值怎么办
        怎么将苹果手机中录音发给好友 iPhone传语音文件方法教程
        iis7.5中如何让html与shtml一样支持include功能
        快影怎么把视频弄成横屏播放 制作方法分享
        双卡发短信怎么设置（双卡怎么切换发短信）