概率论基础

1 有偏方差VS无偏方差

有偏样本方差:$Var=\frac{1}{n}\Sigma_{i=1}^n(X_i-X_{mean})^2$

无偏样本方差:$Var=\frac{1}{n-1}\Sigma_{i=1}^n(X_i-X_{mean})^2$

当数据量较少时,无偏样本方差更合理;当数据量较大时,二者不存在明显差异

Python相关方差计算

  • numpy包中默认计算方差是有偏的,无偏计算需要设定参数ddof=1
  • pandas包中默认计算方差是无偏的,有偏计算需要设定参数ddof=0

2 条件概率密度函数

定义随机变量$X$的概率密度函数是$f_x$,随机变量$Y=X|X>c$的概率密度函数是$f_y$

其中$c$为常量,所以随机变量$Y$表示变量$X$在已知$X>C$的情况下的条件分布

通过贝叶斯定理可得: $$P(Y\leq y)=P(X\leq x | X>c)=\frac{P(X>c, X\leq x)}{P(X>c)}$$

上式转化为概率密度函数的形式: $$\int_{-\infty}^yf_ydy=\frac{\int_{c}^xf_xdx}{P(X>c)}$$ 由$Y$的定义可知,随机变量$Y$其不会出现小于等于$c$的情况,所以: $$\int_c^yf_ydy=\frac{\int_{c}^xf_xdx}{P(X>c)}$$ 由此可到$X$在$X>c$的条件下的条件概率密度函数$f_y=f_x/P(X>c)$

假设随机变量$X$的累积分布函数是$F_x$,则上式还可以表示为$f_y=f_x/(1-F_x(c))$

往年同期文章