时间序列分析

单位根

单位根又叫(unit root)。

当一个自回归过程中:$$y_{t} = by_{t-1} + a + \epsilon _{t}$$ 如果滞后项系数b为1,就称为单位根。当单位根存在时,自变量和因变量之间的关系具有欺骗性,因为残差序列的任何误差都不会随着样本量(即时期数)增大而衰减,也就是说模型中的残差的影响是永久的。这种回归又称作伪回归。如果单位根存在,这个过程就是一个随机漫步(random walk)。

补充:解释变量(即滞后被解释变量)的系数应该有三种情况:

  1. 小于1:不存在单位根,此时被解释变量随时间会趋于收敛,期望,方差也会存在且与时间无关,即序列平稳。
  2. 等于1:时间序列均不平稳,等于1的情况就是存在单位根
  3. 大于1:时间序列均不平稳,这种情况被默认忽略了,因为现实中不可能出现。

平稳性

强平稳性:要求序列的所有统计性质都是关于时间平移不变的

弱平稳性:要求序列的期望和协方差不随着时间的推移而变化

强平稳的条件更严格,但不能说满足强平稳就一定弱平稳

弱平稳性的检验一般通过 DF 检验和 ADF 检验来实现

DF 检验

也就是 Dickey-Fuller 检验

$$y_t = \alpha+\beta t+\gamma y_{t-1}+\epsilon_t $$

公式解读:

  • $\alpha$ 表示漂移项,即相当于回归中的截距
  • $\beta$ 表示趋势项,趋势可通过线性回归的方式剔除
  • $\gamma$ 表示滞后项,描述不同时间点的变量之间的自相关性
  • $\epsilon_t$ 表示随机误差

DF检验主要通过构建分布进行假设检验的方式,验证$\gamma$的绝对值是否小于0,即过去对未来的影响是否会随着时间的推移消失。

  • H0 假设就是$|\gamma|\geq1$
  • H1 假设就是$|\gamma|<1$

统计量构建及其计算方法 #待补充

ADF 检验

ADF 检验也就是“增广的”Dickey-Fuller 检验,是 DF 检验的一种拓展,而 DF 检验也可以看作是 ADF 在 p=1时的特例。

$$y_t = \alpha+\beta t+\gamma y_{t-1} + \sum_{k=1}^{p-1} \zeta_i y_{t-i}+\epsilon_t $$

ADF检验就是判断序列是否存在单位根,所以ADF检验,也叫单位根检验。

如果序列平稳,就不存在单位根;否则,就会存在单位根。

  • H0 假设就是$|\gamma|\geq1$
  • H1 假设就是$|\gamma|<1$

所以,ADF检验的原假设含义就是存在单位根,如果得到的显著性检验统计量小于三个置信度(10%,5%,1%),则对应有(90%,95,99%)的把握来拒绝原假设。

自相关和偏自相关

自相关函数 (auto correlation function,ACF) $$ ACF(k)=\rho_k=\frac{\mathrm{Cov}(y_t,y_{t-k})}{\mathrm{Var}(y_t)} $$

  • 度量了一个时间序列,现在值与其过去值的相关性
  • 如果相关性为正,则说明现有趋势将继续保持

偏自相关函数(partial autocorrelation function,PACF) $$ x_t=\phi_1x_{t-1}+\phi_2x_{t-2}+\ldots+\phi_kx_{t-k}+\epsilon_t $$

  • PACF 值的计算需要先构建自回归模型(上式),其中 $PACF(k)=\phi_k$
  • PACF 描述了在考虑中间值的情况下,现在值与其过去值的相关性

奥恩斯坦-乌伦贝克过程

公式如下: $$dx_t=\theta (u-x_t)dt+\sigma dW_t$$ 主要分为两个部分:

  • 前半部分的 $\theta (u-x_t)dt$ 描述的是一个 均值回归 的过程
  • 后半部分 $\sigma dW_t$ 描述的其实是一个 布朗运动/随机游走

换成金融语言,就是指(价格的波动)与(价格均值和现价的差)成正比

赫斯特指数

无记忆性序列

  • 假设我们有一组相互独立,均值为 0 方差为 1 的随机变量按时间依次出现,并组成了一个时间序列。这个时间序列在某段时间跨度 T 内的变化范围和 T 的 1/2 次方呈线性关系。我们熟悉的标准布朗运动的增量就满足这个性质(增量之间是相互独立的)。

长记忆性与赫斯特指数

  • 1951 年,英国水文学家赫斯特(Harold Edwin Hurst)在研究尼罗河水位变化时发现了时间序列中存在的长记忆性long-term memory),在诸如降雨量、树的年轮,太阳耀斑等自然现象中存在的很多时间序列,它们在时间跨度 T 内的变化范围并不是和 T 的 1/2 次方成正比,而是和比 1/2 更高的次方成正比。
  • 这表明这些时间序列的取值之间不是独立的,而是相互影响,即时间序列的自相关系数不为 0。为了纪念他的发现,后人使用赫斯特指数Hurst exponent,记为$H$)来刻画一个时间序列的长记忆性。

长记忆性与幂律衰减

  • 长记忆性是和短期相关性(short-term dependency)相对应的。
  • 一个具有短期相关性的时间序列它的自相关系数随着间隔(lag)的增大很快衰减为 0 或者按指数衰减;而对于具有长记忆性的时间序列,它的自相关系数衰减的更慢。
  • 这个定义说明,如果一个平稳时间序列的自相关函数 [公式] 的衰减速度服从幂律衰减(即比指数衰减慢),那么这个时间序列就具备长记忆性。
  • 记忆性体现在自相关函数的非独立性上,而long体现在衰减的慢。

Hurst 指数 H 就用来刻画这种长记忆性;它被用来测量一个时间序列的波动范围如何随时间跨度变化,即随着 $n \longrightarrow\infty$:

$$ E \left[\frac{R(n)}{S(n)}\right]= An^H $$

公式解读:

  • $n$是时间序列观测点的个数,代表时间跨度大小
  • $R(n)$是这$n$个观测点的变化范围(max-min)
  • $S(n)$是这$n$个观测点的标准差(std)
  • $\frac{R(n)}{S(n)}$表示通过$S(n)$对$R(n)$进行标准化,称为重标极差(rescaled range
  • $A$ 是常数;$H$ 就是 Hurst 指数

$H$的取值范围在 0 和 1 之间(不包括 0 和 1)。当$H=1/2$ 时,该时间序列没有相关性。当 $H>1/2$ 时,该时间序列有长记忆性;当$H<1/2$时,该时间序列表现出反持续性,因此它表现出比纯随机更强的波动。

参考: 知乎-带你正确理解 Hurst 指数和分数布朗运动

#DF #DickeyFuller #ADF #平稳性 #检验 #单位根检验

#赫斯特 #Hurst #长记忆性 #OU过程 #OrnsteinUhlenbeck

往年同期文章