1、理解层次索引
以下示例将创建一个 Series 对象, 索引 Index 由两个子 list 组成,第一个子 list 是外部索引,第二个 list 内层索引:
>>>importpandasaspd >>>importnumpyasnp >>>obj=pd.Series(np.random.randn(12),index=[['a','a','a','b','b','b','c','c','c','d','d','d'],[0,1,2,0,1,2,0,1,2,0,1,2]] >>>obj a0-0.201536 1-0.629058 20.766716 b0-1.255831 1-0.483727 2-0.018653 c00.788787 11.010097 2-0.187258 d01.242363 1-0.822011 2-0.085682 dtype:float64
2、MultiIndex 索引对象
试着打印上面的示例 Series 索引类型,会得到一个索引类型 MultiIndex 对象,MultiIndex 对象的levels属性表示两个层次中有哪些标签,codes属性表示每个位置的标签是什么,如下:
>>>importpandasaspd >>>importnumpyasnp >>>obj=pd.Series(np.random.randn(12),index=[['a','a','a','b','b','b','c','c','c','d','d','d'],1,2,0,0,1,0,1,0,1,0,1,0,1,2]]) >>>obj a00.035946 1-0.867215 2-0.053355 b0-0.986616 10.026071 2-0.048394 c00.251274 10.217790 21.137674 d0-1.245178 11.234972 2-0.035624 dtype:float64 >>> >>>type(obj.index) <class'pandas.core.indexes.multi.MultiIndex'> >>> >>>obj.index MultiIndex([('a',0), ('a',1), ('a',2), ('b',0), ('b',1), ('b',2), ('c',0), ('c',1), ('c',2), ('d',0), ('d',1), ('d',2)], ) >>>obj.index.levels FrozenList([['a','b','c','d'],[0,1,2]]) >>> >>>obj.index.codes FrozenList([0、0、0、1、1、2、2、2、3、3、3][0、1、2、0、1、2、0、1、0、1、2]]
通常可以使用 from_arrays() 该方法将数组对象转换为 MultiIndex 索引对象:
>>>arrays=[1,1,2,2]['red','blue','red','blue']] >>>pd.MultiIndex.from_arrays(arrays,names=('number','color')) MultiIndex(1,'red'), (1,'blue'), (2,'red'), (2,'blue')], names=['number','color'])
其它常用方法见下图:
3、提取值
对于具有多层索引的对象,如果只输入一个参数,将提取外部索引,包括所有相应的内部索引。如果输入两个参数,第一个参数表示外部索引,第二个参数表示内部索引,如下:
>>>importpandasaspd >>>importnumpyasnp >>>obj=pd.Series(np.random.randn(12),index=[['a','a','a','b','b','b','c','c','c','d','d','d'],1,2,0,0,1,0,1,0,1,0,1,0,1,2]]) >>>obj a00.550202 10.328784 21.422690 b0-1.333477 1-0.933809 2-0.326541 c00.663686 10.943393 20.273106 d01.354037 1-2.312847 2-2.343777 dtype:float64 >>> >>>obj['b'] 0-1.333477 1-0.933809 2-0.326541 dtype:float64 >>> >>>obj['b',1] -0.9338094811708413 >>> >>>obj[:,2] a1.422690 b-0.326541 c0.273106 d-2.343777 dtype:float64
4、交换分层和排序
MultiIndex 对象的 swaplevel() 该方法可以交换外层和内层索引,sortlevel() 该方法将首先对外部索引进行排序,然后对内部索引进行排序。默认情况下是升序。如果设置 ascending 参数为 False 会降序排列,如下:
>>>importpandasaspd >>>importnumpyasnp >>>obj=pd.Series(np.random.randn(12),index=[['a','a','a','b','b','b','c','c','c','d','d','d'],1,2,0,0,1,0,1,0,1,0,1,0,1,2]]) >>>obj a0-0.110215 10.193075 2-1.101706 b0-1.325743 10.528418 2-0.127081 c0-0.733822 11.665262 20.127073 d01.262022 1-1.170518 20.966334 dtype:float64 >>> >>>obj.swaplevel() 0a-0.110215 1a0.193075 2a-1.101706 0b-1.325743 1b0.528418 2b-0.127081 0c-0.733822 1c1.665262 2c0.127073 0d1.262022 1d-1.170518 2d0.966334 dtype:float64 >>> >>>obj.swaplevel().index.sortlevel() (MultiIndex([(0,'a'), (0,'b'), (0,'c'), (0,'d'), (1,'a'), (1,'b'), (1,'c'), (1,'d'), (2,'a'), (2,'b'), (2,'c'), (2,'d')], ),array(0,3,6,9,1,4,7,10,2,8,11,dtype=int32))
有关Python的更多信息,请单击Python视频教程!!