python中数据索引怎么用
这篇文章主要为大家展示了"python中数据索引怎么用",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"python中数据索引怎么用"这篇文章吧。
前言
数据索引是数据分析中最关键的操作。在数据分析中经常需要选取固定的行列,在Excel中可以使用鼠标进行点选,但是敲命令的时候,例如python和R中不方便使用鼠标,这就需要灵活掌握数据的索引。如果数据索引不能熟练操作,就看不懂代码,后面的数据分析无法完成。
数据索引
数据索引,也称为数据切片和切块,是使用不同的列或索引切分数据,实现从数据中获取特定子集的方式。DataFrame为二维数据,每一列均为一个同一类型数据,所以为Series,每一行可以为不同数据类型,所以,每一行数据为DataFrame一个子集,数据类型依然为DataFrame。
pandas索引常用五种方法,loc iloc ix at iat。ix官方已不再推荐使用。其实笔者觉得pandas的索引操作不如R的方便。不过也够用。目前主要使用的为loc和iloc,两者比较容易混淆,这里按照官方方法提供一个简单的快速记忆方法loc代表location,使用标签来索引,也就是行名或者列名,而iloc中的i解读为integer,即integerlocation通过数字索引值来定位,也就是行号或者列号。
x.loc[ ['行名1', '行名2', '行名3'……] , ['列名1','列名2'……] ]x.iloc[ [行号1,行号2,行号3……] , [列号1,列号2……] ]
利用数字进行索引
pandas可以使用行名列名进行索引,也可以使用数字作为索引,具体使用哪种方式,要看具体使用场景,灵活使用,如果行列数太多,使用行名列名更加方便,如果要选取一个范围,使用数字更加方便。
如果要使用数字进行索引,则需要使用iloc标签,行在前列在后,中间用逗号","分割,如果全部选取,用冒号":"代替。其中冒号也可以用来表示一定范围。
特别注意, python中索引值从0开始。并且不包含右侧边界。例如0:15,代表从第一个值到第15个值。
使用数字索引
mtcars[0:5]mtcars.iloc[ 0:5 ,: ]mtcars.iloc[1]#负数索引mtcars.iloc[:,-1]
选取奇数行和偶数行
#奇数行mtcars.iloc[np.arange(0,32,2)]#偶数行mtcars.iloc[np.arange(1,32,2)]
利用行名列名进行索引
如果想选取固定的行,使用点号,是最方便的方式,类似于R中数据框索引使用"$",为什么行不行呢?因为数据分析中更多时候是按列处理数据。这里注意由于python中点号有特殊作用,所以,源文件列名中最好不要有点号和空白,可以使用下划线替代
mtcars.cylmtcars.cyl.size
直接使用行名列名选取数据
mtcars['mpg']mtcars[['mpg','cyl']]mtcars.loc[:,['cyl']]mtcars.loc[['Fiat 128','Valiant']]mtcars.loc[:,['disp','hp']]
删除固定行或列
#删除行列mtcars.drop(columns=['cyl','mpg'])mtcars.drop(index=['Valiant'])mtcars[mtcars.index != 5]mtcars[mtcars.index!='Volvo 142E']
以上是"python中数据索引怎么用"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!