1、什么是信息熵?
1948年,香农提出了信息熵(Entropy)的概念。
信息理论:
1、描述信息的完整性:
当系统的有序状态一致时,数据集中的地方熵越小,数据分散的地方熵越大。
2、描述信息的有序性:
当数据量一致时,系统越有序,熵越低;系统越混乱或分散,熵越高。
“信息熵” (information entropy)是测量样本集合纯度最常用的指标。
二、python实现信息熵的计算代码
1、导入库
importnumpyasnp importpandasaspd
2、 准备数据
data=pd.DataFrame( {'学历':['专科','专科','专科','专科','专科','本科','本科','本科','本科','本科', '研究生','研究生','研究生','研究生','研究生'], '婚否':['否','否','是','是','否','否','否','是','否','否','否','否','是','是','否'], '是否有汽车':['否','否','否','是','否','否','否','是','是','是','是','是','否','否', '否'], '收入水平':['中','高','高','中','中','中','高','高','很高','很高','很高','高','高', '很高','中'], '类别':['否','否','是','是','否','否','否','是','是','是','是','是','是','是','否']})
3、定义信息熵函数
#定义计算信息熵的函数:计算Inforr(D) definfor(data): a=pd.value_counts(data)/len(data) returnsum(np.log2(a)*a*(-1))
4、数据测试
#print(infor(data["学历"]))#测试结果为1.584962007156