分类目录归档:基础统计算法

核密度估计

核密度估计(kernel density estimation,简称KDE)是核平滑对概率密度估计的应用,即一种以核为权重估计随机变量概率密度函数的非参数方法。由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)

核密度估计的实现:

  • 假设(x1,x2,...,xn)是来自同一个单变量未知分布中的独立样本
  • 核密度估计可以根据这些样本推测出该分布的概率密度函数: $$\hat{f}_h(x)=\frac{1}{n}\Sigma_{i=1}^nK_h(x-x_i)=\frac{1}{nh}\Sigma_{

Read more

高斯过程回归

1 高斯过程

给定均值向量和协方差矩阵,可以唯一确定一个高斯分布(Gaussian distribution)

给定均值函数和协方差函数,可以唯一确定一个高斯过程(Gaussian Process,GP)

假设自变量为时间t,则每一个时刻t,高斯过程都对应着一个高斯分布

当时间t是连续型变量时,整个高斯过程便对应着无数个高斯分布,所以高斯过程可看作无限维高斯分布

高斯分布的两

Read more

中介效应分析

1 基本介绍

中介效应(mediation effect)分析能解释自变量 X 对因变量 Y 的影响是如何通过中介变量(mediator) M实现的,是多变量研究的重要统计方法。

中介效应 VS 间接效应(indirect effect)

  • 在只有一个中介变量的模型中,二者是等价的
  • 当中介变量大于1时,间接效应可以是某特定中介变量的中介效应,也可以是某几个或所有中介效应的和

中介效应 VS “遮掩效应” (suppression effects)

  • 当自变量 X

Read more

回归算法族

1 线性回归

面对N个形式为(xi,yi)样本组成的样本集,线性回归就是为了寻找形式为yN×1=XN×dθd×1的线性方程,使其能最大程度拟合样本,而第一步便是建立线性回归的损失函数/目标函数: Loss(θ)=(yXθ)T(yXθ)

其中y表示真实值,Xθ表示的预测值,所以损失函数Loss(θ)表示的便是真实

Read more

最小二乘法

1 最小二乘法

狭义上的最小二乘法,主要针对线性回归问题,以残差平方和的总和最小为原则,化一般情况下,运用矩阵运算寻找最优的系数解,具体实现可参考1 线性回归的求解过程。

广义上的最小二乘法,增加了针对非线性问题的处理,围绕均方误差构建损失函数,使用迭代优化策略(比如梯度下降法)解决最小化优化问题

狭义最小二乘法的算法分析:

  • 求解方便,不需要迭代优化,可以直接通过矩阵运算求出解析解
  • 仅能处理线性回归问题,当特征维度高时矩阵求逆的运算成本偏高

Read more

贝叶斯算法

贝叶斯定理: P(B|A)=P(A,B)P(A)=P(A|B)P(B)P(A)

  • 其中 P(B|A) 表示后验概率 posterior
  • P(A,B) 表示联合概率,P(A) 表示历史经验 evidence
  • P(A|B) 表示似然估计值 likelihoodP(B) 表示先验概率 prior

朴素贝叶斯

朴素贝叶斯(Naive Bayes classifier)以贝叶斯定理为基础的简单分类器,主要通过统计历史数据中各种事件的发生频率,并从中寻找统计上的相关性,以实现对事件的预测

Read more