一、信息增益与信息增益率
1、信息增益
根据特征划分数据集前后熵的差异。熵可以表示样本集的不确定性。熵越大,样本的不确定性就越大。因此,可以利用划分前后收集熵的差异来衡量样本集D划分效果的当前特征。
信息增益 = entroy(前) - entroy(后)
注意:信息增益意味着知道X的特征信息,降低Y的信息熵
2、信息增益率
增益率是利用之前的信息增益Gain(D, a)与属性a对应"固有值"(intrinsic value) [Quinlan , 共同定义了1993J的比值。
二、信息增益与python代码实现信息增益率
1、信息增益定义计算信息增益的函数:计算g(D|A)
defg(data,str1,str2): e1=data.groupby(str1).apply(lambdax:infor(x[str2]) p1=pd.value_counts(data[str1]len(data[str1] #计算Infor(D|A) e2=sum(e1*p1) returninfor(data[str2]-e2 print("学历信息增益:{}".format(g(data,"学历","类别"))) #输出结果为:0.0830074985783
2、信息增益率定义计算信息增益率的函数:计算gr(D,A)
defgr(data,str1,str2): returng(data,str1,str2)/infor(data[str1] print("学历信息增益率:",gr(data,"学历","类别")) #输出结果为:0.052371901428302