综述：基于深度学习的股票预测

中文标题：股市预测的深度学习技术：一项调查
英文标题：Stock Market Prediction via Deep Learning Techniques: A Survey
发布平台：预印本
发布日期：2023-02-09
引用量（非实时）：6
- 1 文章萃取
- 2 精读笔记
相关资源

中文标题：股市预测的深度学习技术：一项调查

英文标题：Stock Market Prediction via Deep Learning Techniques: A Survey

发布平台：预印本

发布日期：2023-02-09

引用量（非实时）：6

DOI：

作者：Jinan Zou, Qingying Zhao, Yang Jiao, Haiyao Cao, Yanxi Liu, Qingsen Yan, Ehsan Abbasnejad, Lingqiao Liu, Javen Qinfeng Shi

关键字： #股票 #深度学习

文章类型：preprint

品读时间：2023-11-30 16:09

1 文章萃取

1.1 核心观点

本文收集了与股市预测相关的 94 篇顶刊高质量论文，重点关注四个不同的任务：股票走势预测、股价预测、投资组合管理和交易策略。
本文针对股市预测领域，引入了一种新的深度学习分类系统。本文所回顾的文献是根据这种分类法组织的，探讨了各种深度学习模型，例如 RNN、CNN、GNN、Transformer 和 RL。此外还汇总了这些研究中使用的数据集、评估技术和模型输入。

1.2 综合评价

对过往的优秀股价预测模型进行了很好地归纳与总结

由于部分模型涉及多领域的交叉，因此很难做好分类

文章叙述先按照大分类后按照事物发展脉络徐徐展开

纳入分析的模型质量不一，部分细节还存在描述错误

1.3 主观评分：⭐⭐⭐⭐

2 精读笔记

内容概述

概述了股市预测的背景、研究动机和目标
回顾了之前关于该主题的调查，并确定了它们的局限性和需要改进的领域
详细介绍了审查论文所使用的方法/分类标准，例如会议、模型和出版年份
讨论了股市预测中使用的深度学习模型，并根据模型类型对论文进行了分析
讨论了所审查方法中使用的输入特征
介绍了股票市场预测中常用的评估指标
重点关注该领域的未决问题和潜在的未来发展
总结

2.1 背景介绍（略）

2.2 相关工作（略）

2.3 审查方法和标准

筛选过程：

确定NLP与AI顶刊：ACL、EMNLP、AAAI、IJCAI、ICAIF、NeurIPS 和 KDD
股票关键词：stock prediction, market, finance and portfolio
深度学习关键词：RNN, LSTM, and GNN, Transformer, and RL
搜索关键词找到与股市预测、金融、交易和投资组合相关的论文
过滤出股市预测相关的 39 篇论文（还排除页数小于 2 的情况）
根据这 39 篇论文的引用论文进行二次收集，最终有 94 篇高质量论文

图（a）展示了这 94 篇论文在不同顶刊的分布情况
图（b）展示了这 94 篇论文所使用的模型类型分布情况
图（c）展示了这 94 篇论文按照年份分组后的论文数变化情况

2.4 股市预测模型

四个关键的股市预测任务：

股价预测。利用时间序列数据预测股票和金融资产的未来价值
股票走势预测。通常将股票趋势分为三类：上升趋势、下降趋势和横盘趋势
投资组合管理。合理分配资源来实现最大化回报的同时最小化风险的目标
交易策略。预先制定的指导方针和标准（如事件驱动/数据驱动），做出交易决策

股市预测中使用的主流深度学习模型：

2.4.1 基于 RNN 的模型

常见模型：RNN、GRU、LSTM、BiLSTM

HPM：股票收益混合预测模型（原始论文，2015 ⭐⭐）

三种基础预测模型：RNN、指数平滑（ES）和自回归移动平均模型（ARMA）
混合模型结合了以上三种模型的预测，并使用遗传算法寻找最优权重

SFM：基于 RNN 的状态频率记忆（原始论文，2017 ⭐⭐⭐⭐）

受离散傅里叶变换 (DFT) 的启发，SFM 将存储单元的隐藏状态分解为多个频率分量，每个分量都模拟股票价格波动背后的潜在交易模式的特定频率
未来的股票价格将被预测为这些分量以傅里叶逆变换 (IFT) 方式组合的非线性映射
模型最终实现从股票市场中捕捉股票价格波动背后的多频率交易模式

SFM 在过去很长一段时间内都是最先进的股票预测算法，值得一看

对代码实现感兴趣的读者，可参阅项目 1 或项目 2 （ Python 2.7）

融合文本信息的 LSTM 预测模型（原始论文 2016 ⭐⭐）

通过预测上下文中的单词将文本片段映射到固定长度的向量
拼接所需预测的 10 家公司的文章向量和价格，实现未来价格预测
考虑时间因素，段时间内的所有文章向量取平均；没有文章则填补零向量

News2vec：带有注意力机制的 LSTM 模型（原始论文，2019 ⭐⭐⭐）

News2vec 通过构建新闻网络来捕获新闻之间的语义特征和潜在联系（先抽取关键实体、动作和名词，再根据 TF-IDF 构建新闻网络，然后基于随机游走对节点序列进行采样，最后基于 skip-gram 架构获得了新闻特征的向量表示）
在每个时间步，输入是当天新闻向量的加权平均值；在本文中$T=20$，即使用前20天的新闻文本信息预测第二天的指数走势（存在无法交易的空窗期？）
根据注意力模型，与股价走势密切相关的新闻被赋予较高的权重
News2vec 模型在股票走势预测和新闻推荐任务上实现了最先进的性能
News2vec++ 在语义特征的基础上，添加了五个新特征：按照日/周/月聚合的语义向量，字数、情绪（积极词与消极词的数量）；性能表现有显著提升

News2vec 模型的相关代码已开源

融合 TA-Lib 特征的 LSTM（原始论文，2017 ⭐⭐）

预测目标：未来 15 分钟内特定股票的价格是否会高于当前价格
输入数据包括开盘价、收盘价、最高价、最低价和交易量（时间颗粒度为 15 分钟）
使用 TA-LIB 库生成一组技术指标，并借助 LSTM 进行分类预测
最终的平均准确率高达 55.9%，在确保低回撤的同时保证了较高的收益

一种具有趋势回撤的时间加权LSTM模型（原始论文，2017 ⭐⭐）

该模型根据数据与要预测的数据的时间接近度为数据分配权重
不同时间加权函数的试验表明，股票数据的重要性与其时间序列之间的关系不是恒定的。相反，它属于线性和二次，大致是一个准线性函数
将 LSTM 与其他模型相结合/混合，以提高预测性能（最终准确率 83.91%）

GAN-HPA：基于生成对抗网络的混合预测算法（原始论文，2022 ⭐⭐⭐⭐）

该框架接受各种输入（如股票数据集和超参数），并使用线性/非线性模型进行特征的提取；处理结果会用作生成器（LSTM）的输入；生成器的输出和原始数据输入判别器（CNN），并使用贝叶斯近似来调整参数并更新预测结果

CLVSA：卷积 LSTM + 注意力机制（大锅炖）（原始论文，2021 ⭐⭐⭐⭐）

混合模型，序列到序列架构，随机递归网络+自/互注意机制+卷积 LSTM 单元
卷积 LSTM 单元：卷积核捕获局部特征，LSTM 基于局部特征捕获时间特征
由于卷积LSTM单元和注意力模块之间存在交互作用，因此使用双向箭头来连接
潜在变量 z 在训练过程中由后验变量（来自 Backward Decoder 模块）给出，在评估/测试过程中由先验变量（来自 Decoder 模块）给出
CLVSA 还利用了基于 Kullback-Leibler 散度的额外正则化器来防止过拟合问题
最终实验结果表明，与深度卷积神经网络、普通LSTM网络和Seq2Seq框架等基本模型相比，CLVSA 在所有6种期货中都提供了最高和最稳健的回报

DTRSI：深度神经网络+迁移学习（原始论文，2019 ⭐⭐⭐⭐）

先使用 LSTM 模型从多个不同股票获得的大量数据进行预训练，以优化初始参数
然后使用来自目标股票的少量数据和其他不同类型的输入特征（基于股票之间的关系构建）对基础模型（LSTM）进行微调，以提高性能
考虑股票关系的三个角度：最高余弦相似度（CS）、相似场（SF）和最高市值（HMC）
实验结果表明，迁移学习和利用股票关系信息有助于提高模型性能（改善了预测股价走势时数据量不足导致的过拟合问题），DTRSI 的预测精度也显著优于其他方法

ALSTM：结合注意力LSTM和对抗训练来预测股市走势（原始论文，2018 ⭐⭐⭐⭐）

基于股票数据进行常规训练，很容易导致过拟合；为此本文通过添加扰动来模拟价格变量的随机性，以学习股票走势预测并增强模型的泛化能力
随机性模拟：在输入特征上添加小的扰动来生成额外的样本；该方法实际应用时非常耗时，并且可能引起不同单元扰动之间的无意相互作用（不可控）
由于大多数深度学习方法在较高层中学习抽象表示，在高级预测特征上添加扰动能在保留随机性的基础上使得扰动更有效，还能减少计算成本（维度小于输入层）
最终实验表明，相比于普通训练，对抗训练模型能显著提高模型性能（准确率提高 3.95%）和泛化能力（合理决策的边界扩大了1.5倍）

基于LSTM关联网络模型的股价预测（原始论文，2019 ⭐⭐）

根据股票的历史价格相关的 7 个技术指标（开盘价、收盘价、最高价、最低价、交易额 Volumes、交易量 Money 、净值变动？Change），
模型特点是同时预测股票的三个关联值（第二天的开盘价 L1、最低价 L2 和最高价 L3）
实验表明，关联模型在同时预测多个值方面优于RNN/LSTM，预测准确率在95%以上（文中没看到准确率的定义，推测是1-预测误差/真实值？）

MSSPM：联合学习细粒度事件抽取与股票预测（2019 ⭐⭐⭐⭐）

FAST：基于分层学习的股票预期利润排名（2021 ⭐⭐⭐⭐⭐）

结合LSTM和GRU的集成深度学习模型（原始论文，2021 ⭐⭐）

采用开源工具（VADER）从不同新闻机构（华尔街日报/路透社/CBNC/财富新闻）获得情感评分
使用两种互补的基础神经网络模型（LSTM+GRU）来获得基于情感评分和历史数据的预测
使用全连接神经网络来作为集成模型融合两种基础模型的决策，以进一步改善预测结果
实验对比基线：均方误差从438.94降低到186.32，准确率提高了40%，召回率提高了50%

基于双层注意力机制的 GRU 网络（原始论文，2018 ⭐⭐）

上图左侧为模型整体架构，输入为过去7天内的股票相关新闻标题；标题文本经过嵌入层和注意力层实现文本信息的抽取（Day Embedding）和日内新闻权重分配（Attended Event）；然后模型通过GRU实现长短记忆区分，最后模型通过输出注意力层（Output Embedding）预测股票的上涨或下跌
上图右侧为输出注意力层结构，该模块主要用于实现日间信息融合；其中 Output Embedding 是可学习的注意力参数 $w_o$（存疑？）；相似性对角矩阵用于比较GRU的每日输出和$w_o$之间的相似性，并给出每日的注意力得分；最终的输出是GRU的每日输出按照注意力得分的加权值
其他实验总结：使用新闻标题比使用完整文章效果好；模型最终表现略高于baseline；模型的优势在于通过注意力机制实现了可解释性（举例：自动挖掘出了 Youtube 和谷歌之间存在控股关系）

MI-LSTM：融合注意力机制的多输入LSTM（原始论文，2018 ⭐⭐⭐⭐）

上图左侧为模型整体架构，输入为目标股票的历史价格序列$Y$和其他股票（包含正相关$p$、负相关$n$和指数$i$三种情况）的历史价格序列$X$；不同股票的输入经过共享参数的LSTM层处理后，再经过多输入LSTM和注意力层进行深层特征的提取和股票信息的交叉；模型的输出预测为目标股票的未来价格$\hat{y}_{T+1}$
上图右侧为多输入LSTM层的结构，其中包含多个门控记忆单元来分别处理目标股票信息$Y$、正相关股票信息$P$、负相关股票信息$N$和股票指数信息$I$，并通过注意力层进行信息的加权融合
最终实验考虑了269只股票，选取预期回报率最高的20只股票进行每日轮换，最后回测6个月（2017上半年）的收益率约为 4.69%，而同期沪指300收益率约为-0.39%，基准模型收益率约为-2.07%

HAN：规避低质量新闻的混合注意力网络（原始论文，2018 ⭐⭐⭐⭐）

上图左侧为模型整体架构，HAN 由两个注意力层组成，一个在新闻层面，另一个在时间层面；双向 GRU 层还用于对语料库向量的时间序列进行编码；最后通过判别网络进行分类
上图右上展示了中石油的股价波动与相关新闻（红色、绿色和黄色分别代表负面、正面和中性）
上图右下展示了模型的回测收益率，其中HAN模型10个月（2016-5~2017-3）收益率为40%，对比其他策略存在显著优势；而HAN模型+SPL机制则实现了超过50%的收益率
自定进度学习（SPL）机制：在模型训练的早期阶段自动跳过一些具有挑战性的时期的训练样本，之后逐渐增加训练样本的复杂性，从而增强了框架的最终性能

MFN：纳入专家投资信号的多视图融合网络（2020 ⭐⭐⭐⭐⭐）

HATR：基于分层自适应时间关系网络的股票预测（2021 ⭐⭐⭐⭐⭐）

2.4.2 基于 CNN 的模型

U-CNNpred：基于 CNN 架构的分层预训练（原始论文，2019 ⭐⭐⭐）

先选择好基础 CNN 架构后进行初步训练，实现不同层参数的初始化；然后将基础 CNN 分解为不同的 subCNN，并依次（优先选择权重较小的 subCNN）进行分层训练
分层训练使用来自许多金融市场的历史数据池，以便从不同市场中提取共同模式
由于 subCNN 结构较浅，每次学习的参数较少，因此避免了股票预测的过拟合问题
实际预测时，采用迁移学习的思路，使用分层训练后的模型针对新股数据进行微调
最终模型在不同指数/股票预测中表现显著优于 baseline；模型具备较好的泛化能力

KDTCN：一种知识驱动的时序卷积网络（原始论文，2019 ⭐⭐⭐⭐）

上图中，左侧为知识图谱和事件嵌入表示的构建，右侧为时序卷积网络（TCN）；KDTCN 模型的输入项包括股票价格、新闻预料和知识图，模型输出为股票二分类预测（上升/下降）
KG 模块：首先从财经新闻中提取结构化事件：先使用OpenIE 以主谓宾三元组的形式提取事件，如“（英国，退出，欧盟）”），然后进行事件清洗（剔除存在无用的形容词和副词的情况）。然后采用实体链接技术将文本中的命名实体与知识图谱中的预定义实体相关联，同时消除文本中的命名实体的歧义；最后使用 TransE 作为构建知识实体嵌入的方法，得到事件实体的嵌入表示
TCN 模块：其中包含 1维全卷积网络（FCN）、因果膨胀卷积、残差连接等结构；TCN 模块将事件嵌入和股票价格结合起来来预测股票趋势（上升/下降）
实验表明，KDTCN 可以对突发事件做出更快的反应，并且在股票数据集上优于最先进的方法；其次KDTCN 能较好地解释事件对价格预测的影响，尤其是针对突发事件

CNN-BiLSTM-AM 预测股票次日收盘价（原始论文，2021 ⭐⭐⭐）

该方法由卷积神经网络（CNN）、双向长短期记忆（BiLSTM）和注意力机制（AM）组成
CNN 用于提取输入数据的特征； BiLSTM 使用提取的特征数据来预测第二天的股票收盘价。 AM用于捕捉过去不同时间特征状态对股票收盘价的影响，以提高预测精度
针对上证指数的1000个交易日的次日收盘价预测结果表明，该方法的性能最好（对比了7个 baseline），MAE和RMSE最小（分别为21.952和31.694）， R^2 最大（0.9804）

FS-CNN-BGRU 混合股票预测模型（原始论文，2022 ⭐⭐⭐）

特征选择（FS），使用 Relief 法筛选特征后，对输入数据进行归一化处理
卷积神经网络（CNN）负责特征提取。它可以提取数据的局部特征，关注更多的局部信息，减少计算量；双向门控循环单元（BiGRU）可以处理具有时间序列的数据，从而对于具有时间序列属性的数据具有更好的性能
结果表明，混合模型（FS-CNN-BGRU）的性能优于其他单一模型，具备可用性

基于 CNN-LSTM 前瞻指标股价预测（原始论文，2021 ⭐⭐⭐）

每次预测的输入包括 30 天的 N 个特征（历史价格、期货期权等前瞻指标和其他价格相关数据），输入数据会转化为 2D 向量形式作为 CNN 层的输入”图像“；
卷积池化层会对信息进行加工和过滤，抽象出更高级别的特征；而 LSTM 会进一步提取高级特征，并实现最终预测；模型输出为价格趋势（上升/下降/不变）

TI-CNN：集成技术指标和卷积神经网络的股票交易模型（原始论文，2022 ⭐⭐⭐⭐）

从历史数据中提取10个技术指标作为特征向量。随后使用格拉姆角场（GAF）将特征向量转换为图像，并作为 CNN 的输入。模型预测目标为股票收盘价的三分类（卖出、买入和持有）
在纳斯达克和纽约证券交易所 2009 年 1 月至 2018 年 12 月的数据上进行了测试，以证明所提出的股票交易模型的有效性。实验结果表明，所提出的 TI-CNN 比其他模型具有更高的预测精度

2.4.3 基于 GNN 的模型

利用知识图谱整合公司信息的时态图卷积 TGC 模型（原始论文，2019 ⭐⭐⭐）

该论文是在另一篇论文《Temporal relational ranking for stock prediction)》的开源代码基础上的优化；后者先将股票时序数据输入 LSTM 以捕获顺序依赖性并学习股票的顺序嵌入，然后借助时态图卷积 TGC 模块来捕获关系嵌入，最后拼接两种嵌入并预测股票的排名
时态图卷积在普通GCN的基础上，添加了融入时间信息编码（来自顺序嵌入）的关系强度函数；该函数既可以显式建模（直接计算向量相似度作为额外的权重系数），也可以隐式建模（全部拼接到全连接层进行自适应评估）
本论文的改进点：1. 使用端到端的方式优化整个网络（LSTM+TGC）2. 使用滑动窗口的方式进行回测 3. 知识图从普通的行业图+wiki图改为日经价值搜索数据集（包含公司的供应商、客户、合作伙伴和股东关系）
实验结果：与市场基准相比，回报率和夏普比率分别提高了 29.95% 和 2.2 倍，与基线 LSTM 模型相比，分别提高了 6.32% 和 1.3 倍

用于股票预测的知识驱动事件嵌入（原始论文，2016 ⭐⭐⭐）

将来自知识图谱（使用 YAGO 的子知识图）的外部信息（类别知识 Categorical Knowledge 和关联知识 Relational Knowledge）合并到学习过程中，以生成更好的事件表示
事件嵌入表示：先使用 skip-gram 算法从大型财经新闻语料库中学习d维（d = 100）的初始单词表示；不同实体、动作的表示由单词嵌入表示的均值构成；
知识嵌入表示：随机替换实体构建负样本，而知识嵌入表示通过预测正确实体来实现
最后使用 CNN 模型进行二分类预测（上涨/下跌），相比普通词向量有显著性能提升

HGNN：用于股票分类的分层图神经网络（原始论文，2022 ⭐⭐⭐⭐）

构建股票关系图，合并从市场状态的多个视图（包括节点视图、关系视图和图视图）分层提取的股票信息，同时考虑历史序列模式和股票关系
引入层次结构，使得预测模型能够更全面地推断市场状态的层次属性
实验表示：HGNN 优于包括 ALSTM、GCN 和 GAT 在内的其他先进方案，准确率平均提高至少 3.54%；上交所和深交所的平均回报率分别提高了18.57%和8.75%

MSub-GNN：融合多源异构子图的股价预测（原始论文，2022 ⭐⭐⭐⭐⭐）

模型输入包括三种类型的子图：交易数据、股市新闻和图形指标
交易数据子图：5 个相邻交易日作为 5 个依次相连的节点，每个节点包含 6 种属性（开盘指数、最高指数、最低指数、收盘指数、交易量、交易额）；
股市新闻子图：每个新闻都是一个节点，节点特征为新闻的嵌入表示；不同节点之间的边权重由节点间的文本相似度来定义；实际训练或应用时会先根据边权重筛选最相关的 20 组新闻子图，每组新闻子图包含 100 个节点（新闻）
图形指标子图：主要考虑 K 线、5日/10日的EMA（指数移动平均）等图形指标，先提取颜色和位置构建嵌入表示，在过滤其中的冗余信息，将指标拼接为向量
MSub-GNN 通过子图构建三类异构数据，结合各指标的特点进行节点聚合；具体地，在子图之间设置边（可训练的权重矩阵）来连接子图聚合节点。权重通过模型训练更新，特定子图间数据融合所需的权重共享，权重可用于表征交叉指标之间的相关性

鉴于文本向量的复杂性，新闻子图采用LSTM方法进行邻域节点聚合，而图形索引子图和交易数据索引子图则采用GRU方法实现邻域节点聚合

对于聚合的顶点，MSub-GNN 使用基于节点和边的注意力机制图神经网络完成多源异构图数据的分类和预测。模型整体使用交叉熵损失函数来训练图神经网络
本文预测方法的准确率、F1值分别达到70.76%、0.8241，均高于其他基线模型；受2020年3月新型冠状病毒疫情影响，上证指数上涨4.73%，深证指数上涨3.17%，创业板指数下跌1.18%。本文提出的方法投资收益率为17.32%，为最高收益率

GAME：引导注意力多模态多任务网络（原始论文 2022 ⭐⭐⭐⭐）

GAME 的关键思想是利用注意力来指导不同来源和方式的信息之间的学习，GAME 输入为股价相关时序数据$X^{num}$和文本新闻数据$X^{txt}={X^{txt,loc},X^{txt,glo}}$（本地/全球），目标是预测未来范围内的平均值、波动性和相关性
GAME 包含几个重要组成部分：i）不同时间尺度和稀疏性模式之间引导潜在交叉注意力学习； ii) 基于公司间关系和从多模态信息学习的动态权重（关系不经常变化，但关系的重要性是动态的）的图引导表示学习； iii）引导全局和局部信息之间的交叉注意力学习。
GAME 接受多项任务（均值、波动性和相关性）的训练，以降低过度拟合的风险。在实验阶段，根据现实数据集的最新基线证明了 GAME 在预测任务和实际应用中的有效性

LSTM-RGCN：长短期记忆关系图卷积网络（原始论文 2021 ⭐⭐⭐⭐）

LSTM-RGCN 先通过文本编码器对新闻标题进行初步编码，然后根据历史价格评估股票间相关性并构建股票相关图（高度负相关/高度正相关，阈值为 0.6）
之后将节点的嵌入表示输入 LSTM-RGCN 模型以利用相关图结构，其中 RGCN 是 GCN 在多边类型（异质图）下的扩展；此外本文还在 RGCN 层之间引入了 LSTM，以动态选择需要传输的信息，缓解 GCN 容易存在的过度平滑问题
最终层节点的嵌入表示，将直接用于股价走势的预测；实验表示，LSTM-RGCN 预测 TPX500 和 TPX100 指数的准确率分别达到了 56.14% 和 58.71%

SRS：基于时间图卷积的关系股票排名

STHGCN：时空超图卷积网络（原始论文 2020 ⭐⭐⭐⭐）

超图结构模拟股票之间的关系，并使用空间超图卷积

MG-Conv：基于多图卷积神经网络的指数趋势预测（原始论文 2022 ⭐⭐⭐）

首先，提出数据归一化和一维卷积神经网络来提取历史交易数据的深层特征。然后定义了两种类型的相关图并进行多图卷积。静态图描述了指数间的固定内部关系（具有相同成分股的指数通常遵循相同的趋势）；动态图则根据历史趋势，构建指数间的趋势相关性；最后通过基于 GCN 的多图卷积实现趋势预测
实验阶段，选择42个中国 A 股的指数来评估 MG-Conv 的性能，与 LSTM、3D-CNN、GC-CNN 和 AD-GAT 等经典方法对比后表明。本文方法可使平均预测误差降低5.11%，具有较强的鲁棒性

HATS：用于股票走势预测的分层图注意力网络

MAN-SF 股票预测注意力网络（原始论文 2020 ⭐⭐⭐⭐⭐）

通过分层注意力捕获多模态信号（金融数据、社交媒体和股票间关系）来训练 GAT
MAN-SF 先基于 GRU 对股票时序数据进行编码（Price Encoder），然后通过时间注意力来寻找关键日期并进行特征的聚合；同时 MAN-SF 通过 USE 对 twitter 文本进行编码（Text Encoder），再通过 GRU 和注意力机制得到每日推文的信息向量
获得日期 $t$ 时的股票价格时序编码 $q_t$ 与每日推文信息向量 $c_t$ 后，MAN-SF 会继续通过双线性变换（Bilinear Transformation）实现信息的融合（以平移不变的方式得到两种特征的最佳组合）：$x_t=ReLU(q_t^TWc_t+b)$
最后 MAN-SF 会通过双层 GAT 网络融合 Wikidata 中的股票关系信息，得到每只股票的最终向量表示；该向量表示通过一个简单的前馈神经网络实现单个股票价格的预测（上涨/下跌）
回测实验表明，MAN-SF 具备较高的预测精度和盈利能力（显著高于 HATS）；消融实验表明，模型的每一个组件都起到了有效作用；定性分析阶段，能发现股价波动与推文情绪之间较强的相关性（注意力高）

AD-GAT：属性敏感的图注意网络对股票动量溢出效应建模

2.4.4 基于 Transformer 的模型

Multi-Transformer 预测股票波动率（原始论文 2021 ⭐⭐⭐）

Multi-Transformer 层的通过将 bagging 应用于注意力机制来提高稳定性和准确性
本文实证结果表明，与其他自回归算法或基于前馈层或 LSTM 混合模型相比，基于 Multi-Transformer 和 Transformer 层的混合模型更准确，可以产生更合适的风险度量记忆细胞

用于股票预测的分层多尺度高斯 Transformer（原始论文 2020 ⭐⭐⭐⭐）

本文针对 Transformer 的模型进行了一些增强：（1）多尺度高斯先验增强了 Transformer 的局部性（基于注意力得分满足高斯分布的假设，对注意力得分矩阵添加高斯噪声）。 (2)正交正则化避免了多头自注意力机制中学习冗余头（增强不同注意力头之间的多样性）。 (3) Trading Gap Splitter 使 Transformer 能够独立学习日内特征和周内特征（学习金融数据的层次结构）

TEA：基于 Transformer 机制的注意力网络进行股票预测（原始论文 2022 ⭐⭐⭐）

Transformer 包含一个多头注意力和一个普通的前馈神经网络，输入推文，输出高阶文本特征
高阶文本特征与价格信息串联后，作为LSTM和时间注意力机制的输入，最终实现准确的预测

TEANet：基于 Transformer 的注意力网络用于股票趋势预测（原始论文 2022 ⭐⭐⭐）

基于连续 5 日的小样本进行特征工程，并从中捕获金融数据的时间依赖性
利用 Transformer 和多头注意力机制来实现金融数据的特征提取和有效分析

DTML：通过多级上下文的数据轴 Transformer 进行多股票精准预测（原始论文 2021 ⭐⭐⭐⭐）

DTML 通过 a) 时间注意力学习每个股票内的时间相关性，b) 基于全球市场环境将生成的上下文扩展到多层次，以及 c) 利用变压器编码器来学习股票间的相关性（从多级上下文中学习不对称和动态注意力分数）
DTML 在从美国、中国、日本和英国各个股票市场收集的 6 个数据集上实现了最先进的准确性（准确性和马修斯相关系数分别提高到3.6分和10.8分），比最佳竞争对手高出 13.8%p 的利润，模拟年化投资回报率为 44.4%

<code>FinBERT</code> 是针对金融通信文本进行预训练的 BERT 模型

CapTE：基于 Transformer 的胶囊网络用于股票走势预测（原始论文 2019 ⭐⭐⭐）

该模型使用 Transformer Encoder 提取社交媒体的深层语义特征，然后通过胶囊网络捕获文本的结构关系。在本文中，我们用不同的基准评估我们的方法，结果表明我们的方法提高了股票走势预测的性能。

HTML：基于层次Transformer的多任务学习用于波动率预测

GT3：基于文本驱动股市预测的门控三塔 Transformer（原始论文 2022 ⭐⭐⭐⭐）

Channel-Wise Tower Encoder（CWTE）从转置的数值数据嵌入中捕获基于通道的特征
Shifted Window Tower Encoder（SWTE）从原始数值数据嵌入中提取和聚合多尺度时间特征
Text Tower Encoder（TTE）基于 vanila Transformer 获取高级文本特征
跨塔注意力机制：利用 SWTE 的时间特征来帮助模型学习每个日常文本表示中的趋势信息
通过自适应门层将 CWTE、SWTE 和 TTE 统一为 GT3 模型，实现端到端的股市预测

BELT：一种利用新闻预测股价的模板（Pipeline）（原始论文 2022 ⭐⭐⭐⭐）

模块 1：Twitter 爬虫，从高质量 Twitter 账号中抓取包含股票名称的新闻推文
模块 2：推文提取器，基于相关性去除无效推文（比如实体歧义或过度口语等情况）
模块 3+模块 4：基于 Bert 预训练模型进行情感分析的微调训练，获取文本嵌入表示
模块 5+模块 6：通过自回归 LSTM 融合语义信息与历史价格，实现股票价格的预测

使用 BERT 和 GAN 预测股价（原始论文 2021 ⭐⭐⭐）

使用 BERT 模型对有关 Apple Incorporation 的新闻和头条新闻进行情感分析。将情感分析后获得的情感得分作为输入向量。 GAN 中使用 GRU 和 CNN 作为生成器和判别器来连续生成数据。他们可以区分股票价格的真实样本和生成样本，以达到最终期望的预测效果。该模型的早期收敛通过使用情绪分数作为输入进行了优化
（感觉论文结构不太清晰，写的比较乱，就没怎么仔细看）

<code>AlBERTo</code> 是社交网络文本进行预训练的意大利语 BERT 模型

AlBERTino 用于股票价格预测：吉布斯抽样方法（原始论文 2022 ⭐⭐⭐⭐）

应用 AlBERTo 模型来确定与影响市场上报纸文章中某些股票的各种事件（正面和负面）相关的分数
然后计算平均情绪得分和极性，并使用蒙特卡洛方法生成（从文章发布之日起）接下来交易日的一系列可能路径，利用贝叶斯推理来确定新的系列基于分数的有界漂移和波动值；最后得到一个准确的“指导”价格。

应用 BERT 分析股市投资者情绪（原始论文 2020 ⭐⭐⭐）

首先，我们使用 Bert 模型从股票投资者发布的在线信息中提取情感值。其次，这些情绪值通过关注度进行加权，以计算投资者情绪指标。最后，通过两步横截面回归验证模型（消除样本中的异方差问题和数据的一致性问题），分析了投资者情绪与股票收益率之间的关系。
实验表明，本文使用的 Bert 模型对于投资者情绪的分析可以达到97.35%的准确率，优于 LSTM 和 SVM 方法

BERT 模型多层特征消融及其在股票走势预测中的应用（原始论文 2022 ⭐⭐⭐⭐）

基于滑动窗口技术将股票评论分为多个固定长度的适合 BERT 模型的短文本。然后根据上述几条短文本的主题识别结果对股评的主题进行评分。充分挖掘长文本中的信息，同时扩大样本量可以缓解过拟合问题
为了充分捕捉文本主题识别特征，需要从 BERT 模型的每一层中提取特征，并对得到的多层特征进行消融研究。具体来说，从最后一层到第一层对特征进行逐层加权融合，并选择文本主题识别中最具辨别力的多层特征
本文方法适用于长文本分析，能够有效全面地捕获文本特征，以便进一步在股票文本中使用

交易事件：基于新闻驱动交易的公司事件检测

选择性扰动掩蔽（SPM）文本增强并用于股票预测（原始论文 2021 ⭐⭐⭐⭐）

选择性扰动掩蔽（SPM）是一种语义保留的数据增强方法；SPM 根据相关 x 性和情感考虑，评估文本序列中每个单词的重要性，然后替换不重要的标记，在语义保留的基础上实现数据增强
根据几个公开可用的情绪分析数据集和现实世界的股票价格/风险变动预测场景进行评估的。实验结果表明，SPM 方法在所有数据集中都取得了更好的性能

2.4.5 强化学习模型

#待补充（等看完《动手学强化学习》，补补基础再说） https://ar5iv.labs.arxiv.org/html/2212.12717

2.4.6 其他深度学习方法

通过异构信息融合改进股市预测（原始论文 2018 ⭐⭐⭐⭐）

背后直觉：高度相关的股票彼此相关的人往往会受到同一事件的影响
与传统方法相比，该框架考虑了事件和公众舆论对投资决策的共同影响，通过整合包括网络新闻和社交媒体后期在内的多种信息源提出了一个股价走势预测框架
为了缓解数据稀疏问题并利用股票之间的共性，考虑特征之间的耦合效应以捕获它们的相关性
本文提出了一种耦合矩阵和张量分解方案来支持异构信息集成和多任务学习同步，并通过乘以因式分解的低秩因子矩阵，最终完成股价走势预测
模型在 A 股和港股市场上进行评估，分别可以达到 62.5% 和 61.7% 的准确率

Stocknet：深度生成模型根据推文和历史价格预测股票走势（原始论文 2018 ⭐⭐⭐⭐）

市场信息编码器（MIE）：对来自社交媒体和股票价格的信息进行编码，以提高市场信息质量，并输出市场信息特征 X；由于文章质量差异较大，因此融合注意力机制来对文章信息加权
变分股价趋势解码器（VMD）：使用 GRU 从编码的市场信息 $x_t$ 中循环提取特征并解码股票信号 $h_t^s$；使用深度神经网络 VAE 来拟合潜在分布，解码并输出潜在驱动因子 $z_t$ 和股价趋势 $y_t$

$$ \begin{equation} \left\{ \begin{gathered} h_t^s=\mathrm{GRU}(x_t,h_{t-1}^s) \ \\ h_t^z=\tanh(W_z^\phi[z_{t-1},x_t,h_t^s,y_t]+b_z^\phi) \ \\ \mu_t=W_{z,\mu}^\phi h_t^z+b_{\mu}^\phi;log\delta_t^2=W_{z,\delta}^{\phi}h_{t}^{z}+b_{\delta}^{\phi} \ \\ z_t=\mu_t+\delta_t\odot\epsilon \ \\ g_t=\tanh(W_g[x_t,h_t^s,z_t]+b_g) \ \\ {y}_t=softmax(W_yg_t+b_y),t<T \end{gathered} \right. \end{equation} $$

时序注意力辅助（ATA）：引入共享时间注意力机制，并分别计算信息质量得分和依赖性得分；最终得分是两种得分乘积后的归一化结果；该得分会用于修正最终的股价预测 $y^T$

Co-CPC：基于对比预测编码耦合了宏微观指标的股票表示

学习金融新闻文档的特定目标表示以进行累积异常收益预测（原始论文 2018 ⭐⭐⭐⭐）

提出了一种新颖的特定目标摘要引导的新闻文档表示模型。该模型利用新闻摘要的嵌入表示来指导注意力权重的计算，从而选择和组合信息最丰富的句子进行市场建模。
结果表明，与标题和摘要相比，文档表示可以在估计公司累积异常回报方面提供更好的性能。与句子级基线相比，我们的模型在用于组合来自多个文档源的信息时特别有效。

FactorVAE：融合概率动态因子的变分自编码用于横截面股票预测

2.5 数据集和模型输入

内在数据：历史股价、财务指标和其他技术分析数据

外在数据：文本信息、基础数据、行业知识图谱等

细节：略

2.6 评价指标

基于准确率的指标：准确率、召准率、召回率、F1、MCC
基于误差的指标：MSE、MAE、RMSE、MAPE
基于回报的指标：SR、IRR、AAR

细节：模型评价

风险指标：最大回撤（MDD）和年化波动率（AVol）

风险收益指标：卡尔玛比率（CR）、索尔蒂诺比率（SoR）和年化夏普比率（ASR）

2.7 未来方向和难题

提高股市预测的泛化能力（容易过拟合；自监督会是一个不错的方向）
结合在线学习和深度学习方法（缓解波动性、不确定性和噪音）
改进股市预测的评估和数据集（考虑更与金融相关的风险指标）
改进股市预测的时间序列异常检测（识别股票或市场的异常波动）
考虑融合多种任务的持续学习来进行股票预测（在不同任务中积累经验）
利用分布式强化学习进行股票交易（更好地评估收益分布，降低风险）
将股票交易视为部分可观察马尔可夫决策过程（POMDP）；

很多强化学习算法都是建立在充分观察的 MDO 基础上，在金融市场中许多假设可能并不正确

解决思路 1：收集所有交易以充分观察动态，这可能需要大量存储和计算资源解决思路 2：基于模型的强化学习场景中的观察来近似动态

个人笔记

Digital Garden | 王半仙