1.《动手学深度学习》前言

1 基础概念解释说明
2 常见机器学习应用概述
3 拓展阅读与推荐

1 基础概念解释说明

目标函数（objective function）、机器学习（machine learning，ML）、深度学习（deep learning，DL）、数据集（dataset）、参数（parameter）、模型（model）、学习算法（learning algorithm）、输入（input）和输出（output）

样本（example, sample）、独立同分布(independently and identically distributed, i.i.d.)、数据点（data point）、数据实例（data instance）、特征（features）、协变量（covariates）、标签（label）、目标（target）、维数（dimensionality）

“输入的是垃圾，输出的也是垃圾。”（“Garbage in, garbage out.”）

目标函数（objective function）、损失函数（loss function，或cost function）、平方误差（squared error）、训练集（training dataset，或training set）、测试集（test set，或test dataset）、“过拟合”（overfitting）、梯度下降（gradient descent）

本书常用符号说明

2 常见机器学习应用概述

监督学习（supervised learning）：回归（regression）、分类（classification）、多分类（multi-label classification）、搜索与PageRank、推荐系统（recommender system）、序列学习

无监督学习（unsupervised learning）：聚类（clustering）、主成分分析（principal component analysis）、因果关系（causality）和概率图模型（probabilistic graphical models）、生成对抗性网络（generative adversarial networks）

离线学习（offline learning）与在线学习（online learning）

分布偏移（distribution shift）：环境是否变化？例如，未来的数据是否总是与过去相似，还是随着时间的推移会发生变化？是自然变化还是响应我们的自动化工具而发生变化？

强化学习（reinforcement learning）、深度强化学习（deep reinforcement learning）、深度Q网络（Q-network）、AlphaGo

强化学习步骤：

Agent从环境接收一些观察（observation），并选择一个动作（action）
动作通过某种机制（有时称为执行器）将其传输到环境获得奖励（reward）
强化学习的目标是产生一个好的策略（policy）用于选择的“动作”
强化学习的更新是根据动作、奖励与环境对策略的调整

学分分配（credit assignment）：哪些行为是值得奖励的，哪些行为是需要惩罚的

马尔可夫决策过程（markov decision process）：当环境可被完全观察到

上下文赌博机（contextual bandit problem）：状态不依赖于之前的操作

多臂赌博机（multi-armed bandit problem）：没有状态，只有一组未知回报的动作

3 拓展阅读与推荐

3.1 优秀人物

[雅各布•伯努利（1654–1705）](https://en.wikipedia.org/wiki/Jacob Bernoulli)：伯努利分布

卡尔•弗里德里希•高斯（1777—1855）：高斯分布、最小均方算法

罗纳德·费舍尔（1890-1962）：算法（如线性判别分析）和公式（如费舍尔信息矩阵）、1936年发布的鸢尾花卉数据集

克劳德·香农(1916–2001)：信息论

艾伦·图灵（1912-1954）：《计算机器与智能》

唐纳德·赫布 (1904–1985)：《行为的组织》，赫布学习-随机梯度下降算法的前身

3.2 经典论文

多层感知机 McCulloch & Pitts, 1943 、卷积神经网络 LeCun et al., 1998 、长短期记忆网络 Graves & Schmidhuber, 2005 和Q学习 Watkins & Dayan, 1992

Dropout Srivastava et al., 2014、神经网络噪声注入 Bishop, 1995、注意力机制引入Bahdanau et al., 2014

端到端记忆网络Sukhbaatar et al., 2015 和神经编程器-解释器 Reed & DeFreitas, 2015：允许重复修改深度神经网络的内部状态，从而执行推理链中的后续步骤，类似于处理器如何修改用于计算的存储器

并行和分布式训练改善，最近工作：《分布式机器学习系统与算法协同设计》由 Li, 2017 完成的，随后是 You et al., 2017的卷积神经网络的大批次训练和 Jia et al., 2018也通过各种trick实现了快速高效的分布式训练并打破当时的记录

3.3 成功案例

2017年微软的语音识别准确度与人类持平Xiong et al., 2018

以ImageNet为基准，物体识别的Top5错误率由 Lin et al., 2010的28%降低到2017年的2.25% Hu et al., 2018

1997年深蓝AI打败国际象棋冠军Campbell et al., 2002；2016年AlphaGo横空出世 Silver et al., 2016；2017年Libratus在德州扑克比赛击败人类 Brown & Sandholm, 2017

个人笔记

Digital Garden | 王半仙