python中如何实现信息增益和信息增益率-图灵python

一、信息增益与信息增益率

1、信息增益

根据特征划分数据集前后熵的差异。熵可以表示样本集的不确定性。熵越大，样本的不确定性就越大。因此，可以利用划分前后收集熵的差异来衡量样本集D划分效果的当前特征。

信息增益 = entroy(前) - entroy(后)

注意:信息增益意味着知道X的特征信息，降低Y的信息熵

2、信息增益率

增益率是利用之前的信息增益Gain(D, a)与属性a对应"固有值"(intrinsic value) [Quinlan , 共同定义了1993J的比值。

二、信息增益与python代码实现信息增益率

1、信息增益定义计算信息增益的函数:计算g(D|A)

	defg(data,str1,str2):
	e1=data.groupby(str1).apply(lambdax:infor(x[str2])
	p1=pd.value_counts(data[str1]len(data[str1]
	#计算Infor(D|A)
	e2=sum(e1*p1)
returninfor(data[str2]-e2
	print("学历信息增益：{}".format(g(data,"学历","类别")))
	#输出结果为:0.0830074985783

2、信息增益率定义计算信息增益率的函数：计算gr(D,A)

	defgr(data,str1，str2):
	returng(data,str1，str2)/infor(data[str1]


	print("学历信息增益率：",gr(data,"学历","类别"))
	#输出结果为:0.052371901428302