1.《动手学深度学习》前言

1 基础概念解释说明

目标函数(objective function)、机器学习(machine learning,ML)、深度学习(deep learning,DL)、数据集(dataset)、参数(parameter)、模型(model)、学习算法(learning algorithm)、输入(input)和输出(output)

样本(example, sample)、独立同分布(independently and identically distributed, i.i.d.)、数据点(data point)、数据实例(data instance)、特征(features)、协变量(covariates)、标签(label)、目标(target)、维数(dimensionality)

“输入的是垃圾,输出的也是垃圾。”(“Garbage in, garbage out.”)

目标函数(objective function)、损失函数(loss function,或cost function)、平方误差(squared error)、训练集(training dataset,或training set)、测试集(test set,或test dataset)、“过拟合”(overfitting)、梯度下降(gradient descent)

本书常用符号说明

2 常见机器学习应用概述

监督学习(supervised learning):回归(regression)、分类(classification)、多分类(multi-label classification)、搜索与PageRank、推荐系统(recommender system)、序列学习

无监督学习(unsupervised learning):聚类(clustering)、主成分分析(principal component analysis)、因果关系(causality)和概率图模型(probabilistic graphical models)、生成对抗性网络(generative adversarial networks)

离线学习(offline learning)与在线学习(online learning)

分布偏移(distribution shift):环境是否变化?例如,未来的数据是否总是与过去相似,还是随着时间的推移会发生变化?是自然变化还是响应我们的自动化工具而发生变化?

强化学习(reinforcement learning)、深度强化学习(deep reinforcement learning)、深度Q网络(Q-network)、AlphaGo

强化学习步骤:

  • Agent从环境接收一些观察(observation),并选择一个动作(action)
  • 动作通过某种机制(有时称为执行器)将其传输到环境获得奖励(reward)
  • 强化学习的目标是产生一个好的策略(policy)用于选择的“动作”
  • 强化学习的更新是根据动作、奖励与环境对策略的调整

学分分配(credit assignment):哪些行为是值得奖励的,哪些行为是需要惩罚的

马尔可夫决策过程(markov decision process):当环境可被完全观察到

上下文赌博机(contextual bandit problem):状态不依赖于之前的操作

多臂赌博机(multi-armed bandit problem):没有状态,只有一组未知回报的动作

3 拓展阅读与推荐

3.1 优秀人物

[雅各布•伯努利(1654–1705)](https://en.wikipedia.org/wiki/Jacob Bernoulli):伯努利分布

卡尔•弗里德里希•高斯(1777—1855):高斯分布、最小均方算法

罗纳德·费舍尔(1890-1962):算法(如线性判别分析)和公式(如费舍尔信息矩阵)、1936年发布的鸢尾花卉数据集

克劳德·香农(1916–2001):信息论

艾伦·图灵(1912-1954):《计算机器与智能》

唐纳德·赫布 (1904–1985):《行为的组织》,赫布学习-随机梯度下降算法的前身

3.2 经典论文

多层感知机 McCulloch & Pitts, 1943 、卷积神经网络 LeCun et al., 1998 、长短期记忆网络 Graves & Schmidhuber, 2005 和Q学习 Watkins & Dayan, 1992

Dropout Srivastava et al., 2014、神经网络噪声注入 Bishop, 1995、注意力机制引入Bahdanau et al., 2014

端到端记忆网络Sukhbaatar et al., 2015 和神经编程器-解释器 Reed & DeFreitas, 2015:允许重复修改深度神经网络的内部状态,从而执行推理链中的后续步骤,类似于处理器如何修改用于计算的存储器

并行和分布式训练改善,最近工作:《分布式机器学习系统与算法协同设计》由 Li, 2017 完成的,随后是 You et al., 2017的卷积神经网络的大批次训练 和 Jia et al., 2018也通过各种trick实现了快速高效的分布式训练并打破当时的记录

3.3 成功案例

2017年微软的语音识别准确度与人类持平Xiong et al., 2018

以ImageNet为基准,物体识别的Top5错误率由 Lin et al., 2010的28%降低到2017年的2.25% Hu et al., 2018

1997年深蓝AI打败国际象棋冠军Campbell et al., 2002;2016年AlphaGo横空出世 Silver et al., 2016;2017年Libratus在德州扑克比赛击败人类 Brown & Sandholm, 2017

往年同期文章