中文标题:事件交易:基于新闻事件驱动交易的公司事件检测
英文标题:Trade the Event: Corporate Events Detection for News-Based Event-Driven Trading
发布平台:ACL
发布日期:2021-01-01
引用量(非实时):17
DOI:10.48550/ARXIV.2105.12825
作者:Zhihan Zhou, Liqian Ma, Han Liu
关键字: #交易事件
文章类型:journalArticle
品读时间:2024-01-24 14:19
1 文章萃取
1.1 核心观点
本文将公司事件视为股票变动背后的驱动力,并旨在从公司事件发生时可能发生的临时股票错误定价中获利发生。本文引入了一种新颖的事件驱动交易策略,该策略可以从任意未标记的新闻文章中检测交易信号。
该策略的核心是双层事件检测模型:低级事件检测器先对每个 token 进行分类来识别描述特定事件的子序列,而高级事件检测器则根据低层事件检测器的预测结果,将其与输入文章的全局上下文信息相结合,以预测每个事件存在的概率
此外,本文还发布了一个经过精心注释的数据集 EDT,其中包含 300000 + 新闻文章,用于企业事件检测和基于新闻的股票预测基准;实验表明,本文提出的提出的策略在胜率、市场超额回报以及每笔交易的平均回报方面均优于所有基线
1.2 综合评价
- 双层事件检测模型,将宏观和细粒度的理解结合起来,以有效地识别企业事件
- 实验阶段对事件时效性进行了分析,论证了事件时效性对股票预测的重要影响
- 缺少消融实验,模型结构的合理性有待确定;不过使用的数据和代码均以开源
1.3 主观评分:⭐⭐⭐⭐
2 精读笔记
2.1 算法细节
模型整体架构:
- 通过在金融百科全书(6260个解释性文档)和金融新闻文章(9721 篇)上使用掩蔽语言模型(MLM)损失来训练模型来执行领域适应;训练期间,输入序列的 15% token 被屏蔽,训练目标是预测被屏蔽的 token;
- 事件检测模型以一篇文章为输入,分别从两个层面检测事件。每篇文章都与一个特殊的标记
[CLS]
连接;将[CLS]
的最后一个隐藏状态 $h$ 视为整篇文章的表示 - 低级事件检测器基于每个 token 的嵌入表示进行多分类(对应一个低级损失);高级检测器将低级预测以及整篇文章的表示连接起来,以计算每个事件存在的概率,其对应的也是一个多标签分类问题(对应一个高级损失)
其他算法细节:
- 股票代码识别器:对于每个给定的文章,和所有公司股票(名称/代码)对之间执行字符串匹配,选择出现频次最多的一只股票;与标题前几个单词匹配的公司股票对被分配更高的置信度
- 两种交易策略:在检测到事件后的第一个可用时间进行交易;策略 1(Trade-At-End,TAE),在交易闭市前考虑是否进行交易;策略 2(Trade-At-Best, TAB),在处于最佳价格(最高卖点/最低买点)时进行交易
- 交易策略补充:执行 20% 的止损先,即当股票下跌 20% 时立即卖出
2.2 实验分析
主要关注的事件类型:
- Guidance Increase (GI),公司对其即将到来的季度/财年收益的公开估计
- Acquisition (A),一家公司宣布购买另一家公司的全部或部分股份/资产时,即发生收购事件
- New Contract (NC),公司宣布获得新合同
- Stock Split (SS),公司将其现有股票分割为多股新股
- 反向股票分割 (Reverse Stock Split,RSS),股票分割的逆过程,即将现有股票数量合并为更少的股票
- Positive Clinical Trial & FDA Approval (CT),包含积极的临床试验结果、获 FDA 批准等事件
- 股票回购(Stock Repurchase,SR),包括宣布、恢复或增加股票回购计划
- Dividend (RD) ,公司支付给股东的部分利润的分配
- Dividend Cut (DC),指减少、停止或暂停预先宣布的股息
- Dividend Increase (DI),指定期股息的增加
- 特别股息 (SD),公司宣布向其股东支付非经常性股息
事件类型分布:
文章的价格标签包括:可交易第一分钟的开盘价/收盘价、随后1/2/3个交易日的最高价/最低价、随后1/2/3个交易日的收盘价、以及每个价格对应的分钟级时间戳
评价指标:胜率(收益大于 0 的交易占比),投资回报收益率,超额收益金额(初始资金为 1w 美元)
模型对比(单日交易,即在事件发生后的 24 h 内完成交易):
- TAB (Trade-At-Best) 策略的平均回报率明显更高
模型对比(双日交易,即在事件发生后的 48h 内完成交易):
不同事件类型的性能表现:
时效性分析(开盘交易 vs 收盘交易):
其他实验补充:
- 股票识别器的准确率是 98.15%(1643/1674)
- 随着投资规模的扩大,流动性可能会极大地限制模型的盈利能力
相关资源
- 论文在线地址
- 开源代码地址
- 本地文件地址:Zhou et al_2021_Trade the Event.pdf
- 本地Zotero地址:Zhou et al_2021_Trade the Event.pdf