单位根
单位根又叫(unit root)。
当一个自回归过程中:$$y_{t} = by_{t-1} + a + \epsilon _{t}$$ 如果滞后项系数b为1,就称为单位根。当单位根存在时,自变量和因变量之间的关系具有欺骗性,因为残差序列的任何误差都不会随着样本量(即时期数)增大而衰减,也就是说模型中的残差的影响是永久的。这种回归又称作伪回归。如果单位根存在,这个过程就是一个随机漫步(random walk)。
补充:解释变量(即滞后被解释变量)的系数应该有三种情况:
- 小于1:不存在单位根,此时被解释变量随时间会趋于收敛,期望,方差也会存在且与时间无关,即序列平稳。
- 等于1:时间序列均不平稳,等于1的情况就是存在单位根
- 大于1:时间序列均不平稳,这种情况被默认忽略了,因为现实中不可能出现。
平稳性
强平稳性:要求序列的所有统计性质都是关于时间平移不变的
弱平稳性:要求序列的期望和协方差不随着时间的推移而变化
强平稳的条件更严格,但不能说满足强平稳就一定弱平稳
弱平稳性的检验一般通过 DF 检验和 ADF 检验来实现
DF 检验
也就是 Dickey-Fuller 检验
$$y_t = \alpha+\beta t+\gamma y_{t-1}+\epsilon_t $$
公式解读:
- $\alpha$ 表示漂移项,即相当于回归中的截距
- $\beta$ 表示趋势项,趋势可通过线性回归的方式剔除
- $\gamma$ 表示滞后项,描述不同时间点的变量之间的自相关性
- $\epsilon_t$ 表示随机误差
DF检验主要通过构建分布进行假设检验的方式,验证$\gamma$的绝对值是否小于0,即过去对未来的影响是否会随着时间的推移消失。
- H0 假设就是$|\gamma|\geq1$
- H1 假设就是$|\gamma|<1$
统计量构建及其计算方法 #待补充
ADF 检验
ADF 检验也就是“增广的”Dickey-Fuller 检验,是 DF 检验的一种拓展,而 DF 检验也可以看作是 ADF 在 p=1时的特例。
$$y_t = \alpha+\beta t+\gamma y_{t-1} + \sum_{k=1}^{p-1} \zeta_i y_{t-i}+\epsilon_t $$
ADF检验就是判断序列是否存在单位根,所以ADF检验,也叫单位根检验。
如果序列平稳,就不存在单位根;否则,就会存在单位根。
- H0 假设就是$|\gamma|\geq1$
- H1 假设就是$|\gamma|<1$
所以,ADF检验的原假设含义就是存在单位根,如果得到的显著性检验统计量小于三个置信度(10%,5%,1%),则对应有(90%,95,99%)的把握来拒绝原假设。
自相关和偏自相关
自相关函数 (auto correlation function,ACF) $$ ACF(k)=\rho_k=\frac{\mathrm{Cov}(y_t,y_{t-k})}{\mathrm{Var}(y_t)} $$
- 度量了一个时间序列,现在值与其过去值的相关性
- 如果相关性为正,则说明现有趋势将继续保持
偏自相关函数(partial autocorrelation function,PACF) $$ x_t=\phi_1x_{t-1}+\phi_2x_{t-2}+\ldots+\phi_kx_{t-k}+\epsilon_t $$
- PACF 值的计算需要先构建自回归模型(上式),其中 $PACF(k)=\phi_k$
- PACF 描述了在考虑中间值的情况下,现在值与其过去值的相关性
奥恩斯坦-乌伦贝克过程
公式如下: $$dx_t=\theta (u-x_t)dt+\sigma dW_t$$ 主要分为两个部分:
- 前半部分的 $\theta (u-x_t)dt$ 描述的是一个
均值回归
的过程 - 后半部分 $\sigma dW_t$ 描述的其实是一个
布朗运动/随机游走
换成金融语言,就是指(价格的波动)与(价格均值和现价的差)成正比
赫斯特指数
无记忆性序列
- 假设我们有一组相互独立,均值为 0 方差为 1 的随机变量按时间依次出现,并组成了一个时间序列。这个时间序列在某段时间跨度 T 内的变化范围和 T 的 1/2 次方呈线性关系。我们熟悉的标准布朗运动的增量就满足这个性质(增量之间是相互独立的)。
长记忆性与赫斯特指数
- 1951 年,英国水文学家赫斯特(Harold Edwin Hurst)在研究尼罗河水位变化时发现了时间序列中存在的长记忆性(
long-term memory
),在诸如降雨量、树的年轮,太阳耀斑等自然现象中存在的很多时间序列,它们在时间跨度 T 内的变化范围并不是和 T 的 1/2 次方成正比,而是和比 1/2 更高的次方成正比。 - 这表明这些时间序列的取值之间不是独立的,而是相互影响,即时间序列的自相关系数不为 0。为了纪念他的发现,后人使用赫斯特指数(
Hurst exponent
,记为$H$)来刻画一个时间序列的长记忆性。
长记忆性与幂律衰减
- 长记忆性是和短期相关性(
short-term dependency
)相对应的。 - 一个具有短期相关性的时间序列它的自相关系数随着间隔(
lag
)的增大很快衰减为 0 或者按指数衰减;而对于具有长记忆性的时间序列,它的自相关系数衰减的更慢。 - 这个定义说明,如果一个平稳时间序列的自相关函数 [公式] 的衰减速度服从幂律衰减(即比指数衰减慢),那么这个时间序列就具备长记忆性。
- 记忆性体现在自相关函数的非独立性上,而
long
体现在衰减的慢。
Hurst 指数 H 就用来刻画这种长记忆性;它被用来测量一个时间序列的波动范围如何随时间跨度变化,即随着 $n \longrightarrow\infty$:
$$ E \left[\frac{R(n)}{S(n)}\right]= An^H $$
公式解读:
- $n$是时间序列观测点的个数,代表时间跨度大小
- $R(n)$是这$n$个观测点的变化范围(max-min)
- $S(n)$是这$n$个观测点的标准差(std)
- $\frac{R(n)}{S(n)}$表示通过$S(n)$对$R(n)$进行标准化,称为重标极差(
rescaled range
)- $A$ 是常数;$H$ 就是 Hurst 指数
$H$的取值范围在 0 和 1 之间(不包括 0 和 1)。当$H=1/2$ 时,该时间序列没有相关性。当 $H>1/2$ 时,该时间序列有长记忆性;当$H<1/2$时,该时间序列表现出反持续性,因此它表现出比纯随机更强的波动。