分类目录归档:MachineLearning

特征工程

特征工程常用

常用特征处理:

  • 常见时间日期类特征:年/月/时、第几周/周次、是否周末、节假日、时差等
  • 日期类聚合特征:客户最活跃的月份、某类产品上周累计销售、特定客户的周末消费额等
  • 常用统计类特征:最值、均值、唯一值、偏度、峰度、KStat、分位数等

更多时序类衍生特征可参考tsfresh概述

其他特征处理技巧:

  • 多项式特征(preprocessing.PolynomialFeatures
  • 分箱(数值型变量 转 类别型变量,pandas.cut
  • 对数化(修正存在高方差的数值型变量,numpy.log

缺失填充也可以是特征工

Read more