1、数据标准化,即归一化的方法
常用方法:最小-标准化,z-score标准化,小数量标准标准化
importpandasaspd df=pd.DataFrame(A.data[:,3:6]) df.columns=A.feature_names[3:6] #最小化-标准化,支持矢量运算 (df-df.min())/(df.max()-df.min()) #在sklearn中使用preprocesing模块 fromsklearnimportpreprocessing preprocessing.minmax_scale(df) #z-score标准化:结果=(数值-均值)/标准差,处理后的数据平均值为0,标准差为1 (df-df.mean())/df.std() #在sklearn中使用preprocesing模块 fromsklearnimportpreprocessing preprocessing.scale(df) #小数定标规范化:常见落在[-1,1]区间,通过移动小数点的位数,移动位数取决于属性绝对值的位数 #向上取整ceil importnumpyasnp df/10**np.ceil(np.log10(df.abs().max()))
2、连续属性离散化
常用方法:分箱法(等宽法、等频法)、聚类
importpandasaspd #等宽法,5个盒子,标签0-4 pd.cut(df.AGE,5,label=range(5)) #等频法 pd.qcut(df.AGE,5,label=range(5))
以上是Python数据转换的实现,希望对大家有所帮助。更多Python学习指导:python基础教程
本文教程操作环境:windows7系统Python 3.9.1,DELL G3电脑。