机器学习与量化交易实战04

1 大纲

  • OLS 线性回归
  • Ridge
  • Lasso
  • Kernels 核技巧
  • Cross-validation 交叉验证
  • Hands on: sklearn 代码实践

2 机器学习

Machine Learning is the field of study that gives computers the ability to learn without being explicitly programmed. ---- Arthur Samuel (1959)

机器学习应用举例:略

学习算法的三种类型:

  • 有监督学习:常见为回归和分类
  • 无监督学习:常见为聚类和降维
  • 增强学习:通过延迟奖励来“学会”做事情

内容和Three types of learning,不能说一模一样,只能说是非常相似了

附件/Pasted image 20210825165255.png

3 sklearn

sklearn 工作流程

train_x, train_y, test_x, test_y=getData()
model = somemodel()
model.fit(train_x, train_y)
prediction = model.predict(test_x)

score = score_function(test_y, prediction)

附件/Pasted image 20210825173220.png

skleran常见数据集示例

4 ridge回归与Lasso回归

讨论了线性回归正则化,并引出了ridge回归Lasso回归

ridge回归: $$Loss(\theta)= (y-X\theta)^T(y-X\theta)+\delta^2\theta^T\theta $$

还对岭回归进行了简单的公式推导(求导=0,可解得): 附件/Pasted image 20210825182358.png

lasso回归: $$Loss(\theta)= (y-X\theta)^T(y-X\theta)+\delta^2 \sum_{k=1}^n|\theta_i| $$

正则化的分析:随着$\delta$取值的增大,系数$\theta$趋近于0

非线性回归:将样本$X$转为$X^2$,甚至$X^3$进行拟合,实现线性模型的非线性拟合

5 核方法

2 核技巧

RBF:Radial basis function/径向基函数,RBF核也就是高斯核

6 调参

数据划分:训练集、验证集和测试集

常用划分比例:

  • 6:2:2
  • 7:1.5:1.5
  • 8:1:1

调参在验证集上验证;最终结果在测试集上统计

搜索法调参:Grid Search 附件/Pasted image 20210825190025.png

课外拓展-常见的量化分析技术指标

往年同期文章