分类目录归档：基础统计算法

调查问卷分析

发表评论

1728 views

Delphi 专家函询
样本量估计
调查问卷的评价
统计学分析

调查问卷分析的一般流程：

初步设计调查问卷并严格评估合理性，比如文献研究，对象访谈，Delphi 专家函询
针对少量人群（40~60 人）展开预调查，了解调查问卷设置条目的合理性，完整性和可理解性
确保预调查结果质量，包括调查内容审核录入与信效度分析（此步骤也适用于正式调研阶段）
估计样本量，确定调查人群，完成调查员培训，分配调查任务并展开具体的正式调查
对调查结果进行数据分析，包括分布描述，独立性检验，方差分析，相关性分析，多因素分析等
根据初步分析结果，进行整理和深入的分析，得到可验证的结果，最后撰写调查报告

De

核密度估计

发表评论

2471 views

核密度估计（kernel density estimation，简称KDE）是核平滑对概率密度估计的应用，即一种以核为权重估计随机变量概率密度函数的非参数方法。由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）

核密度估计的实现：

假设$(x_1,x_2,...,x_n)$是来自同一个单变量未知分布中的独立样本
核密度估计可以根据这些样本推测出该分布的概率密度函数：

$$\hat{f}_h(x)=\frac{1}{n}\Sigma_{i=1}^nK_h(x-x_i)=\frac{1}{nh}\Sigma_

高斯过程回归

发表评论

4125 views

1 高斯过程
2 高斯过程回归
3 高斯过程深入理解
- 3.1 高斯过程可视化
- 3.2 高斯过程与Ridge回归
参考

1 高斯过程

给定均值向量和协方差矩阵，可以唯一确定一个高斯分布（Gaussian distribution）

给定均值函数和协方差函数，可以唯一确定一个高斯过程（Gaussian Process，GP）

假设自变量为时间$t$，则每一个时刻$t$，高斯过程都对应着一个高斯分布

当时间$t$是连续型变量时，整个高斯过程便对应着无数个高斯分布，所以高斯过程可看作无限维高斯分布

高斯分布的两

回归算法族

发表评论

2248 views

1 线性回归
2 Lasso回归
3 ridge回归
4 非线性回归
5 逻辑回归
6 自回归
其他进阶技巧
实战案例

1 线性回归

面对$N$个形式为$(x_i,y_i)$样本组成的样本集，线性回归就是为了寻找形式为$y_{N\times1}=X_{N \times d}\theta_{d\times 1}$的线性方程，使其能最大程度拟合样本，而第一步便是建立线性回归的损失函数/目标函数： $$Loss(\theta)= (y-X\theta)^T(y-X\theta) $$

其中$y$表示真实值，$X\theta$表示的预测值，所以损失函数$Loss(\theta)$表示的便是真实

最小二乘法

发表评论

1875 views

1 最小二乘法

1 最小二乘法

狭义上的最小二乘法，主要针对线性回归问题，以残差平方和的总和最小为原则，化一般情况下，运用矩阵运算寻找最优的系数解，具体实现可参考1 线性回归的求解过程。

广义上的最小二乘法，增加了针对非线性问题的处理，围绕均方误差构建损失函数，使用迭代优化策略（比如梯度下降法）解决最小化优化问题

狭义最小二乘法的算法分析：

求解方便，不需要迭代优化，可以直接通过矩阵运算求出解析解
仅能处理线性回归问题，当特征维度高时矩阵求逆的运算成本偏高

贝叶斯算法

发表评论

2023 views

朴素贝叶斯
贝叶斯神经网络
贝叶斯优化

贝叶斯定理： $$P(B|A)=\frac{P(A,B)}{P(A)}=\frac{P(A|B)P(B)}{P(A)}$$

其中 $P(B|A)$ 表示后验概率 $posterior$
$P(A,B)$ 表示联合概率，$P(A)$ 表示历史经验 $evidence$
$P(A|B)$ 表示似然估计值 $likelihood$，$P(B)$ 表示先验概率 $prior$

朴素贝叶斯

朴素贝叶斯（Naive Bayes classifier）以贝叶斯定理为基础的简单分类器，主要通过统计历史数据中各种事件的发生频率，并从中寻找统计上的相关性，以实现

个人笔记

Digital Garden | 王半仙

De

1 高斯过程

1 线性回归

1 最小二乘法

朴素贝叶斯