业内人士常说,数据决定了模型效果的上限。机械学习算法通过数据特征进行预测,良好的特征可以显著提高模型效果。这意味着特征工程的重要一步是通过特征生成(即从数据设计中处理模型的可用特征)。
一、特征生成功能
1、提高特征的表达能力,提高模型效果;
(体重除以身高是表达健康状况的重要特征,单纯看身高或体重对健康状况的表达是有限的。)
2、设计特征可以整合到业务理解中,模型的可解释性可以增加。
二、特征生成方法
1、聚合方式
对于一对多的字段,统计平均值、计数、值等数据特征对应于多个记录分组聚合。
#自定义分组聚合统计函数 defx2_sum(group): returnsum(group**2) df.groupby('cust_no').C1.apply(x2_sum)
2、转换方式
对于字段间进行加减乘除等运算来产生数据特征的过程,对于不同的字段类型有不同的转换方法。