当前位置: 首页 > 图灵资讯 > 行业资讯> python中如何处理异常值

python中如何处理异常值

来源:图灵python
时间: 2025-03-14 17:56:33

打开pycharm开发工具,在操作窗口输入命令:

importpandasaspd#导入pandas库

e9265e06a750e5a33fb0973af98b2c5.png

输入数据集。

data=pd.DataFrame({'name':['A','B','C','D','E','F','G'],'cost':',[2,127,4,6,3,13,14];sales':(13、18、32、54、23、33、44)
print(data)

通过z-score法判断异常值,即对原始值X进行正态标准化:(X-mean(X))/std(X),样本值与中心的偏差程度根据计算结果来判断。

df1=data.copy()#为不影响原始数据集,复制数据集datata
print(df1)

f4859e375c9ce996286a6d0e5baf03a.png

平均值和标准差按列计算。

df1['cost']=(df1['cost']-df1['cost'].mean()/df1[#39;cost'].std()#标准化cost_z列

标准化sales列。

df1['sales']=(df1['sales']-df1['sales'].mean()/df1[#39;sales'].std()#标准化cost_z列
df1['sales']

查看标准化后的数据集。

print(df1)

标准化后的绝对值越大,数据就越有可能出现异常,是否根据设定的阈值进行异常判断。

0a9e1a2b0d7242538564d5ed32d606f.png

假设cost列阈值为2,通过以下方法找到异常值。

df1['cost'].abs()>2#判断数据是否异常
data[df1['cost'].abs()>2]#取出原始数据集中的异常点

python学习网,大量免费python视频教程,欢迎在线学习!

上一篇:

python 怎么读取xlsx文件

下一篇:

返回列表