传统的特征工程方法是一个繁琐、耗时、容易出错的过程,通过人工结构特征。自动化特征工程是一个通过Fearturetols等工具自动从一组相关数据表中产生有用特征的过程。与手工生成的特征相比,该方法效率更高,重复性更高,模型建立速度更快。
什么是Featuretols?
Featuretols是实施自动化特征工程的开源库。
二、Featuretools三个基本概念
1、Feature Primitives(特征基元):
常用的生成特征的方法分为聚合和转换。
特征加工方法
importfeaturetoolsasft ft.list_primitives()
2、Entity(实体)
可视为类似Pandass DataFrame, 多个实体的集合称为Entityset。
关联关系Relationship可以根据关联键添加到实体间。
3、dfs(深度特征合成)
通过设置搜索深度,可以从多个数据集中创建新特征的过程(max_depth)控制特征生成的复杂性。