python爬取人脸识别图片数据集/python爬去图片/python爬虫
发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768前言最近在
千家信息网最后更新 2025年01月31日python爬取人脸识别图片数据集/python爬去图片/python爬虫
本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768
前言
最近在做机器学习下的人脸识别的学习,机器学习这个东西有点暴力,很大程度上靠训练的数据量来决定效果。为了找数据,通过一个博客的指导,浏览了几个很知名的数据集。
几个大型数据集是通过发邮件申请进行下载,几个小型数据集直接在网页的链接下载,还有一个Pubfig数据集则是提供了大量图片的链接来让我们自己写程序来下载。
权衡了数据量的需求,最后选择Pubfig的数据集,于是就自己写了一个python图片采集程序,里面用了urllib和requests两种方法.
分析Pubfig提供的下载文件的特点
这个数据文件提供了在数据集中出现的所有人物
这个数据文件提供了每个人的urls
可以看出来这个数据集的处理其实非常简单了,可以通过readlines的方式存进列表用空格分开一下数据就可以把urls提取出来了。
处理一下urls文件
urls在文件的中后部,写个文件把它单纯地提取出来,方便使用。
我单独把Miley_Cyrus的部分提取出来放了一个txt文件
pic_url = []with open('./Miley_Cyrus.txt') as f: for i in f.readlines(): pic_url.append(i.strip('\r\n'))urls = []for s in pic_url: _, _, _, url, _, _ = s.split() urls.append(url)# 写入到文件里面with open('url.data', 'w') as f: for i in urls: f.write(i) f.write('\n')
爬取urls图片
1. Urllibs方法
import urllib.request as requestimport socketimport os# 在同级目录新建文件夹存图片os.mkdir('./img')# 为请求增加一下头user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36'headers = ('User-Agent', user_agent)opener = request.build_opener()opener.addheaders = [headers]request.install_opener(opener)# 设定一下无响应时间,防止有的坏图片长时间没办法下载下来timeout = 20socket.setdefaulttimeout(timeout)# 从文件里面读urlsurls = []with open('./url.data') as f: for i in f.readlines(): if i != '': urls.append(i) else: pass# 通过urllibs的requests获取所有的图片count = 1bad_url = []for url in urls: url.rstrip('\n') print(url) try: pic = request.urlretrieve(url, './img3/%d.jpg' % count) print('pic %d' % count) count += 1 except Exception as e: print(Exception, ':', e) bad_url.append(url) print('\n')print('got all photos that can be got')# 把没有抓取到的urls保存起来with open('bad_url3.data', 'w') as f: for i in bad_url: f.write(i) f.write('\n') print('saved bad urls')
2. Requests方法
import requestsimport socketimport os# 在同级目录新建文件夹存图片os.mkdir('./img')# 设定一下无响应时间,防止有的坏图片长时间没办法下载下来timeout = 20socket.setdefaulttimeout(timeout)# 从文件里面读urlsurls = []with open('./url.data') as f: for i in f.readlines(): if i != '': urls.append(i) else: pass# 为请求增加一下头,获取图片user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36'headers = { 'User-Agent': user_agent}bad_url = []count = 1for url in urls: url.rstrip('\n') print(url) try: pic = requests.get(url, headers=headers) with open('./img2/%d.jpg' % count, 'wb') as f: f.write(pic.content) f.flush() print('pic %d' % count) count += 1 except Exception as e: print(Exception, ':', e) bad_url.append(url) print('\n')print('got all photos that can be got')# 保存坏链接with open('bad_url.data', 'w') as f: for i in bad_url: f.write(i) f.write('\n') print('saved bad urls')
个人博客
8aoy1.cn
数据
文件
图片
方法
链接
学习
办法
博客
同级
文件夹
时间
机器
目录
程序
加一
长时
处理
人脸
很大
知名
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库安全技术意义
智慧医疗网络安全
设计一个数据库管理系统论文
网络安全漏洞 背景介绍
网络技术核定征收税收优惠
关于数据库索引描述错误的是
软件开发评估报告
网络服务器的优化配置操作
颐丰互联网科技有限公司
大悟县网络安全宣传活动
绿盟网络安全工程师
全球十大互联网科技
荆州网络技术公司电话
软件开发工程师的岗位目的
互联网项目提交显示服务器错误
sql两数据库关联查询
串口服务器 交换机
上海半马网络技术有限公司
黄浦区正规网络技术服务哪里好
金属服务器怎么开发
周村办公自动化oa软件开发
用自己电脑当服务器
设计一个数据库管理系统论文
服务器管理共享资源
小米盒子无法连接服务器
pingcap数据库认证
php向服务器发送数据
南开区网络安全工作
电脑软件开发专业怎么样
网络技术工资待遇怎么样