python读取mnist数据集的方法
发表于:2025-01-19 作者:千家信息网编辑
千家信息网最后更新 2025年01月19日,这篇文章主要讲解了"python读取mnist数据集的方法",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"python读取mnist数据集的方法"吧!数
千家信息网最后更新 2025年01月19日python读取mnist数据集的方法
这篇文章主要讲解了"python读取mnist数据集的方法",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"python读取mnist数据集的方法"吧!
数据集格式介绍
这部分内容网络上很常见,这里还是简明介绍一下。网络上下载的mnist数据集包含4个文件:
前两个分别是测试集的image和label,包含10000个样本。后两个是训练集的,包含60000个样本。.gz表示这个一个压缩包,如果进行解压的话,会得到.ubyte格式的二进制文件。
上图是训练集的label和image数据的存储格式。两个文件最开始都有magic number和number of images/items两个数据,有用的是第二个,表示文件中存储的样本个数。另外要注意的是数据的位数,有32位整型和8位整型两种。
读取方法
.gz格式的文件读取
需要import gzip
读取训练集的代码如下:
def load_mnist_train(path, kind='train'): '''path:数据集的路径kind:值为train,代表读取训练集''' labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind) images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind) #使用gzip打开文件 with gzip.open(labels_path, 'rb') as lbpath: #使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节 #这样读到的前两个数据分别是magic number和样本个数 magic, n = struct.unpack('>II',lbpath.read(8)) #使用np.fromstring读取剩下的数据,lbpath.read()表示读取所有的数据 labels = np.fromstring(lbpath.read(),dtype=np.uint8) with gzip.open(images_path, 'rb') as imgpath: magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16)) images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784) return images, labels
读取测试集的代码类似。
非压缩文件的读取
如果在本地对四个文件解压缩之后,得到的就是.ubyte格式的文件,这时读取的代码有所变化。
def load_mnist_train(path, kind='train'): '''path:数据集的路径kind:值为train,代表读取训练集''' labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind) images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind) #不再用gzip打开文件 with open(labels_path, 'rb') as lbpath: #使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节 #这样读到的前两个数据分别是magic number和样本个数 magic, n = struct.unpack('>II',lbpath.read(8)) #使用np.fromfile读取剩下的数据 labels = np.fromfile(lbpath,dtype=np.uint8) with gzip.open(images_path, 'rb') as imgpath: magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16)) images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784) return images, labels
读取之后可以查看images和labels的长度,确认读取是否正确。
感谢各位的阅读,以上就是"python读取mnist数据集的方法"的内容了,经过本文的学习后,相信大家对python读取mnist数据集的方法这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是,小编将为大家推送更多相关知识点的文章,欢迎关注!
数据
文件
两个
方法
代表
样本
格式
训练
个数
代码
内容
学习
字节
就是
网络
路径
高位
存储
测试
简明
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
北京宽捷网络技术有限公司
合肥泰格网络技术
网络安全防护体系的特点
数据库服务器名称改了之后
数据库中数据的形式
企业网络安全管理机构
服务器 上网记录
上海智慧门禁软件开发服务
为什么要制订网络安全法
如何网络安全进校
数据库时区用处
存储海量文本数据用什么数据库
有哪些最新的数据库技术
雅安公安网络安全招聘
边缘计算对网络安全有什么影响
软件开发外包公司工资
船上网络安全吗
微博系统数据库E-R图
软件开发多少课程
网络安全 股票龙头
打印机驱动管理服务器
协同软件开发的服务商
软件开发项目框架协议
二元期权软件开发
db2数据库删除日志文件
合肥网络安全技术培训
数字管理系统用什么配置的服务器
网络安全投资需要多少钱
时空猎人怎么连接服务器
ps4彩虹六号换服务器