分类目录归档:基础统计算法

核密度估计

核密度估计(kernel density estimation,简称KDE)是核平滑对概率密度估计的应用,即一种以核为权重估计随机变量概率密度函数的非参数方法。由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)

核密度估计的实现:

  • 假设$(x_1,x_2,...,x_n)$是来自同一个单变量未知分布中的独立样本
  • 核密度估计可以根据这些样本推测出该分布的概率密度函数: $$\hat{f}_h(x)=\frac{1}{n}\Sigma_{i=1}^nK_h(x-x_i)=\frac{1}{nh}\Sigma_{

Read more

高斯过程回归

1 高斯过程

给定均值向量和协方差矩阵,可以唯一确定一个高斯分布(Gaussian distribution)

给定均值函数和协方差函数,可以唯一确定一个高斯过程(Gaussian Process,GP)

假设自变量为时间$t$,则每一个时刻$t$,高斯过程都对应着一个高斯分布

当时间$t$是连续型变量时,整个高斯过程便对应着无数个高斯分布,所以高斯过程可看作无限维高斯分布

高斯分布的两

Read more

中介效应分析

1 基本介绍

中介效应(mediation effect)分析能解释自变量 X 对因变量 Y 的影响是如何通过中介变量(mediator) M实现的,是多变量研究的重要统计方法。

中介效应 VS 间接效应(indirect effect)

  • 在只有一个中介变量的模型中,二者是等价的
  • 当中介变量大于1时,间接效应可以是某特定中介变量的中介效应,也可以是某几个或所有中介效应的和

中介效应 VS “遮掩效应” (suppression effects)

  • 当自变量 X

Read more

回归算法族

1 线性回归

面对$N$个形式为$(x_i,y_i)$样本组成的样本集,线性回归就是为了寻找形式为$y_{N\times1}=X_{N \times d}\theta_{d\times 1}$的线性方程,使其能最大程度拟合样本,而第一步便是建立线性回归的损失函数/目标函数: $$Loss(\theta)= (y-X\theta)^T(y-X\theta) $$

其中$y$表示真实值,$X\theta$表示的预测值,所以损失函数$Loss(\theta)$表示的便是真实

Read more

最小二乘法

1 最小二乘法

狭义上的最小二乘法,主要针对线性回归问题,以残差平方和的总和最小为原则,化一般情况下,运用矩阵运算寻找最优的系数解,具体实现可参考1 线性回归的求解过程。

广义上的最小二乘法,增加了针对非线性问题的处理,围绕均方误差构建损失函数,使用迭代优化策略(比如梯度下降法)解决最小化优化问题

狭义最小二乘法的算法分析:

  • 求解方便,不需要迭代优化,可以直接通过矩阵运算求出解析解
  • 仅能处理线性回归问题,当特征维度高时矩阵求逆的运算成本偏高

Read more

贝叶斯算法

1 朴素贝叶斯

朴素贝叶斯(Naive Bayes classifier)以贝叶斯定理为基础的简单分类器

贝叶斯定理: $$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$$

朴素贝叶斯主要通过统计历史数据中各种事件的发生频率,并从中寻找统计上的相关性,以实现对事件的预测。

假设事件$A$表示头疼,事件$B$表示感冒,可通过以下案例理解朴素贝叶斯的计算过程:

  • 假设存在一位经验丰富的医生,在过去的一年里曾面诊过1000位的患者
  • 其中出现头疼症状的患者有300位,即$P(A)=0.3$
  • 最终确诊为感冒的患者有500位,即$P(B)=0.5$
  • 确诊为感冒的患者

Read more