当前位置: 首页 > 图灵资讯 > 行业资讯> python数据预处理的三种情况

python数据预处理的三种情况

来源:图灵python
时间: 2024-07-21 20:31:01

1、处理缺失的数据

经常会出现导入数据的缺失,最简单的处理方法就是删除缺失的数据线。使用 pandas 中的 .dropna() 删除含有缺失值的行或列,也可以删除 删除特定列的缺失值 。

dfNew=dfData.dropna(axis=0)#删除含有缺失值的行

有时会填充缺失值或替换缺失值,这里就不介绍了。

2、处理重复数据

对于重复数据,重复行通常被删除。使用 pandas 中的 .duplicated() 可以查询重复数据的内容,并使用它 .drop_duplicated() 可删除重复数据,也可重复指定数据列。

dfNew=dfData.drop_duplicates(inplace=True)#删除重复的数据行

3、异常值处理

异常值可能包含在数据中, 指样本中的值明显偏离样本集中其他样本的观测值,也称为离群点。异常值可通过箱线图和正态分布图或回归和聚类建模识别。

箱线图技术是利用数据的分位数来识别异常点。箱图分析也超过了本文的内容,不能详细介绍。一般来说,通过观察箱图,可以检查整体异常情况,然后发现异常值。

dfData.boxplot()#绘制箱形图

以上是python数据预处理的三种情况,希望对大家有所帮助。更多Python学习指导:python基础教程

推荐操作环境:windows7系统Python 3.9.1,DELL G3电脑。