1 内生性问题
对于回归方程$Y = a + bX + e$,当解释变量$X$和误差项$e$存在相关性时,说明回归模型存在内生性问题
内生性问题的产生原因:
- 遗漏变量(比如在分析学历和收入的关系时,容易忽略个人能力的影响)
- 反向因果(比如分析政策对经济影响时,要意识到经济对政策也是有影响的)
- 选择偏误(样本选择偏误和自选择偏误)、以及测量误差等
内生性问题的后果:在小样本下,内生变量和外生变量估计系数都有偏。在大样本下,内生变量估计系数不一致。外
分类目录归档:algorithm
对于回归方程$Y = a + bX + e$,当解释变量$X$和误差项$e$存在相关性时,说明回归模型存在内生性问题
内生性问题的产生原因:
内生性问题的后果:在小样本下,内生变量和外生变量估计系数都有偏。在大样本下,内生变量估计系数不一致。外
核密度估计(kernel density estimation,简称KDE)是核平滑对概率密度估计的应用,即一种以核为权重估计随机变量概率密度函数的非参数方法。由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)
核密度估计的实现:
$$\hat{f}_h(x)=\frac{1}{n}\Sigma_{i=1}^nK_h(x-x_i)=\frac{1}{nh}\Sigma_
贝叶斯优化是一种通用的黑盒优化算法,不需要计算梯度便可快速解决最优化问题,贝叶斯优化适合处理目标函数计算成本高或求导困难的情况。贝叶斯优化最常用的场景是超参搜索(尤其是神经网络类算法,计算成本高,超参数还多)
贝叶斯优化(Bayesian Optimization,BO)
目的是要找到一组最优的超参组合x,能使评价/目标函数f(x)达到全局最优
由于评价/目标函数f(x)计算成
给定均值向量和协方差矩阵,可以唯一确定一个高斯分布(Gaussian distribution)
给定均值函数和协方差函数,可以唯一确定一个高斯过程(Gaussian Process,GP)
假设自变量为时间$t$,则每一个时刻$t$,高斯过程都对应着一个高斯分布
当时间$t$是连续型变量时,整个高斯过程便对应着无数个高斯分布,所以高斯过程可看作无限维高斯分布
高斯分布的两
中介效应(mediation effect)分析能解释自变量 X 对因变量 Y 的影响是如何通过中介变量(mediator) M实现的,是多变量研究的重要统计方法。
中介效应 VS 间接效应(indirect effect)
中介效应 VS “遮掩效应” (suppression effects)
一次性密码(英语:one-time password,简称OTP),又称动态密码或单次有效密码,是指计算机系统或其他数字设备上只能使用一次的密码,有效期为只有一次登录会话或交易。一次性密码一般会配合账号密码等安全登入机制,实现双因素认证(two-factor authentication)
HOTP和TOTP是两种常见的OTP算法
基于HMAC的一次性密码算法(英语:HMAC-based One-time Password algorithm,HOTP)
HMAC 是Ke
假设与定义:
瑞利熵(Rayleigh quotient)函数定义如下: $$R(A,x)=\frac{x^HAx}{x^Hx}$$
瑞利熵$R(A,x)$的重要性质: $$\lambda_{min}\leq R(A,x)\leq \lambda_{max}$$
拉普拉斯特征映射(Laplacian Eigenmaps,简称LE)是一种基于图的降维算法
LE算法核心思想:在低维空间内,尽可能保证局部样本间的结构不变
LE算法步骤:
LE算法分析:
谱聚类(spectral clustering):一种基于图的聚类算法
前置知识:图论基础概念、图论基础#3.1 理解拉普拉斯矩阵
核心思想:将数据转化为图的形式,距离近的数据间对应的边权重高,距离远的数据间对应的边权重低。之后通过切图的方式,使得不同子图间的边权值和尽可能低,子图内部的边权值和尽可能高,从而达到聚类的目的
核心思想:把每个样本看作一个节点,然后构建任意两点$(x_i,x_j)$间权重边$w_{ij}$
方法1