特征工程常用
常用特征处理:
- 常见时间日期类特征:年/月/时、第几周/周次、是否周末、节假日、时差等
- 日期类聚合特征:客户最活跃的月份、某类产品上周累计销售、特定客户的周末消费额等
- 常用统计类特征:最值、均值、唯一值、偏度、峰度、KStat、分位数等
更多时序类衍生特征可参考tsfresh概述
其他特征处理技巧:
- 多项式特征(
preprocessing.PolynomialFeatures
) - 分箱(数值型变量 转 类别型变量,
pandas.cut
) - 对数化(修正存在高方差的数值型变量,
numpy.log
)
缺失填充也可以是特征工