1 大纲
- OLS 线性回归
- Ridge
- Lasso
- Kernels 核技巧
- Cross-validation 交叉验证
- Hands on: sklearn 代码实践
2 机器学习
Machine Learning is the field of study that gives computers the ability to learn without being explicitly programmed. ---- Arthur Samuel (1959)
机器学习应用举例:略
学习算法的三种类型:
- 有监督学习:常见为回归和分类
- 无监督学习:常见为聚类和降维
- 增强学习:通过延迟奖励来“学会”做事情
内容和Three types of learning,不能说一模一样,只能说是非常相似了
3 sklearn
sklearn 工作流程
train_x, train_y, test_x, test_y=getData() model = somemodel() model.fit(train_x, train_y) prediction = model.predict(test_x) score = score_function(test_y, prediction)
4 ridge回归与Lasso回归
讨论了线性回归和正则化,并引出了ridge回归和Lasso回归
ridge回归: $$Loss(\theta)= (y-X\theta)^T(y-X\theta)+\delta^2\theta^T\theta $$
还对岭回归进行了简单的公式推导(求导=0,可解得):
lasso回归: $$Loss(\theta)= (y-X\theta)^T(y-X\theta)+\delta^2 \sum_{k=1}^n|\theta_i| $$
正则化的分析:随着$\delta$取值的增大,系数$\theta$趋近于0
非线性回归:将样本$X$转为$X^2$,甚至$X^3$进行拟合,实现线性模型的非线性拟合
5 核方法
RBF:Radial basis function/径向基函数,RBF核也就是高斯核
6 调参
数据划分:训练集、验证集和测试集
常用划分比例:
- 6:2:2
- 7:1.5:1.5
- 8:1:1
调参在验证集上验证;最终结果在测试集上统计
搜索法调参:Grid Search