FAST：基于分层学习的股票预期利润排名

中文标题：FAST：基于财经新闻和推特的时间感知股票交易网络
英文标题：FAST: Financial News and Tweet Based Time Aware Network for Stock Trading
发布平台：EACL
发布日期：2021-01-01
引用量（非实时）：25
- 1 文章萃取
- 2 精读笔记
  - 2.1 FAST 模型细节
  - 2.2 实验结果与分析
相关资源

中文标题：FAST：基于财经新闻和推特的时间感知股票交易网络

英文标题：FAST: Financial News and Tweet Based Time Aware Network for Stock Trading

发布平台：EACL

ACL

发布日期：2021-01-01

引用量（非实时）：25

DOI：10.18653/v1/2021.eacl-main.185

作者：Ramit Sawhney, Arnav Wadhwa, Shivam Agarwal, Rajiv Ratn Shah

关键字： #FAST #股票排名

文章类型：conferencePaper

品读时间：2023-12-09 19:59

1 文章萃取

1.1 核心观点

财经新闻和社交媒体中存在的嘈杂数据和不规则时间间隔；为了应对这类限制，本文提出了一种新颖的分层学习排名方法 FAST。FAST 模型会先学习财经新闻和推文的时间感知表示，并使用分层时间注意力捕获相关的市场信号；最后，模型通过同时优化预测能力和股票的最佳排名来实现利润最大化

在两个基准的交易模拟（涵盖两个主要股指和四个全球市场，文本包括英文推文和中文财经新闻）中，FAST 模型在累积利润和风险调整回报方面比最先进的方法高出 8% 以上

1.2 综合评价

先进行日内注意力，再进行日间注意力；逻辑合理且更贴近现实场景

在日内编码器中引入 t-LSTM 机制，改善文本中细粒度时间的不规则性

模型实验充分，包含了模型对比、消融实验、解释性分析和灵敏度分析

1.3 主观评分：⭐⭐⭐⭐⭐

2 精读笔记

2.1 FAST 模型细节

FAST 模型结构：

FAST 通过嵌入层（BERT）对文本进行编码，并使用具备时间感知的 t-LSTM （根据时间间隔对短期记忆进行衰减）实现同一天内不同时间间隔的$K$个文本流的表示：

$$\begin{aligned}C_{k-1}^S&=tanh(W_dC_{k-1}+b_d)\quad\lfloor\text{短期记忆 }\rceil \\\tilde{C}_{k-1}^S&=C_{k-1}^S*g(\Delta k)\quad \lfloor \text{短期记忆衰减}\rceil \\C_{k-1}^{LT}&=C_{k-1}-C_{k-1}^S\quad \lfloor \text{长期记忆} \rceil \\C_{k-1}^*&=C_{k-1}^{LT}+\tilde{C}_{k-1}^S\quad \lfloor \text{调整后的记忆} \rceil \end{aligned}$$

其中$C_{k-1}$表示历史的单元记忆，$\Delta k$表示两次文本流之间的时间间隔，根据经验选择 $g(\Delta k) = \frac{1}{\Delta k}$；直观上，两条新闻或推文之间的间隔时间越长，它们对彼此的影响就越小

FAST 使用日内注意力机制（Intra Day Attention）挖掘可能对价格影响更大的文本，其中$\gamma$表示此阶段学习到的注意力权重；最终文本流加权汇总得到每日的文本表示
每日文本表示再通过 LSTM 和日间注意力机制（Inter-Day Attention）继续从时间维度感知依赖关系，得到每日文本表示的注意力权重$\beta$；最后加权聚合为一个整体信息表征，这一模块也被称为日间时序编码器（Inter-Day Temporal Encoder）
所有股票的整体信息表征$Z$，通过前馈神经网络和ReLU激活，实现最终回报率的预测；而最终的损失函数还会添加约束$TopN$股票排序顺序的损失

$$L=|\hat{r}^\tau-r^\tau|^2+\phi\sum_{i=1}^N\sum_{j=1}^N\max\left(0,-\left(\hat{r}_i^\tau-\hat{r}_j^\tau\right)\left(r_i^\tau-r_j^\tau\right)\right)$$

其中$\hat{r}^\tau$和$r^\tau$分别表示第$\tau$天已排序股票得分的预测值和真实值

2.2 实验结果与分析

实验数据说明：

美国：标准普尔 500 指数中 88 只高交易量股票，对应的文本信息包含 2014 年 1 月至 2015 年 12 月期间来自社交媒体平台 Twitter 的 109915 条英文推文
中国和香港：沪深或香港中 85 只交易量最高的中国 A 股股票，对应的文本信息包含2015 年 1 月至 12 月的 90361 条中文财经新闻（Wind 汇总）
英文文本处理：NLTK 清洗文本（URL、@ 和主题标签#）；采用 Bert 的预训练嵌入
中文文本处理：不需要清洗；采用 Chinese-Bert 的预训练嵌入

与其他主流模型对比（FAST 显著最优）：

在组件（components）中，T = 文本，P = 价格，A = 跨模式的注意力
IRR 表示累积投资回报率（内部收益率）；SR 表示考虑到风险收益的夏普比率

部分模型简述：

RankNet：基于情感和趋势分数来优化概率排名函数的 DNN（Song 等人，2017）

R-LSTM：利用 5、10、20、30 天的均值和收盘价训练 LSTM（Feng 等人，2019）

HAN：双向 GRU 编码器 +（新闻/时间）分层注意力网络（Hu et al., 2017）

消融实验：

颜色越深表示模型实际效果越好，粗体表示最佳结果，斜体表示次佳结果
s-LSTM 表示单个 LSTM 层；*和↑表示存在对应的改进存在显著性优势
日内注意力比日间注意力更重要，整体提升最大的技巧是 t-LSTM 操作

FAST 模型的注意力可视化和股票交易表现如下：

左侧三图为不同类型注意力的可视化；右侧为实际股票交易表现

其他细节：

使用网格法进行超参搜索，针对最终模型进行超参取值的灵敏度分析
伴随 t-LSTM 模块中时间颗粒度 $\Delta k$ 的增加，模型性能呈现下降趋势

个人笔记

Digital Garden | 王半仙