交易事件:基于新闻驱动交易的公司事件检测

中文标题:事件交易:基于新闻事件驱动交易的公司事件检测

英文标题:Trade the Event: Corporate Events Detection for News-Based Event-Driven Trading

发布平台:ACL

ACL

发布日期:2021-01-01

引用量(非实时):17

DOI:10.48550/ARXIV.2105.12825

作者:Zhihan Zhou, Liqian Ma, Han Liu

关键字: #交易事件

文章类型:journalArticle

品读时间:2024-01-24 14:19

1 文章萃取

1.1 核心观点

本文将公司事件视为股票变动背后的驱动力,并旨在从公司事件发生时可能发生的临时股票错误定价中获利发生。本文引入了一种新颖的事件驱动交易策略,该策略可以从任意未标记的新闻文章中检测交易信号。

该策略的核心是双层事件检测模型:低级事件检测器先对每个 token 进行分类来识别描述特定事件的子序列,而高级事件检测器则根据低层事件检测器的预测结果,将其与输入文章的全局上下文信息相结合,以预测每个事件存在的概率

此外,本文还发布了一个经过精心注释的数据集 EDT,其中包含 300000 + 新闻文章,用于企业事件检测和基于新闻的股票预测基准;实验表明,本文提出的提出的策略在胜率、市场超额回报以及每笔交易的平均回报方面均优于所有基线

1.2 综合评价

  • 双层事件检测模型,将宏观和细粒度的理解结合起来,以有效地识别企业事件
  • 实验阶段对事件时效性进行了分析,论证了事件时效性对股票预测的重要影响
  • 缺少消融实验,模型结构的合理性有待确定;不过使用的数据和代码均以开源

1.3 主观评分:⭐⭐⭐⭐

2 精读笔记

2.1 算法细节

模型整体架构:

  • 通过在金融百科全书(6260个解释性文档)和金融新闻文章(9721 篇)上使用掩蔽语言模型(MLM)损失来训练模型来执行领域适应;训练期间,输入序列的 15% token 被屏蔽,训练目标是预测被屏蔽的 token;
  • 事件检测模型以一篇文章为输入,分别从两个层面检测事件。每篇文章都与一个特殊的标记 [CLS] 连接;将 [CLS] 的最后一个隐藏状态 $h$ 视为整篇文章的表示
  • 低级事件检测器基于每个 token 的嵌入表示进行多分类(对应一个低级损失);高级检测器将低级预测以及整篇文章的表示连接起来,以计算每个事件存在的概率,其对应的也是一个多标签分类问题(对应一个高级损失)

其他算法细节:

  • 股票代码识别器:对于每个给定的文章,和所有公司股票(名称/代码)对之间执行字符串匹配,选择出现频次最多的一只股票;与标题前几个单词匹配的公司股票对被分配更高的置信度
  • 两种交易策略:在检测到事件后的第一个可用时间进行交易;策略 1(Trade-At-End,TAE),在交易闭市前考虑是否进行交易;策略 2(Trade-At-Best, TAB),在处于最佳价格(最高卖点/最低买点)时进行交易
  • 交易策略补充:执行 20% 的止损先,即当股票下跌 20% 时立即卖出

2.2 实验分析

主要关注的事件类型:

  • Guidance Increase (GI),公司对其即将到来的季度/财年收益的公开估计
  • Acquisition (A),一家公司宣布购买另一家公司的全部或部分股份/资产时,即发生收购事件
  • New Contract (NC),公司宣布获得新合同
  • Stock Split (SS),公司将其现有股票分割为多股新股
  • 反向股票分割 (Reverse Stock Split,RSS),股票分割的逆过程,即将现有股票数量合并为更少的股票
  • Positive Clinical Trial & FDA Approval (CT),包含积极的临床试验结果、获 FDA 批准等事件
  • 股票回购(Stock Repurchase,SR),包括宣布、恢复或增加股票回购计划
  • Dividend (RD) ,公司支付给股东的部分利润的分配
  • Dividend Cut (DC),指减少、停止或暂停预先宣布的股息
  • Dividend Increase (DI),指定期股息的增加
  • 特别股息 (SD),公司宣布向其股东支付非经常性股息

事件类型分布:

文章的价格标签包括:可交易第一分钟的开盘价/收盘价、随后1/2/3个交易日的最高价/最低价、随后1/2/3个交易日的收盘价、以及每个价格对应的分钟级时间戳

评价指标:胜率(收益大于 0 的交易占比),投资回报收益率,超额收益金额(初始资金为 1w 美元)

模型对比(单日交易,即在事件发生后的 24 h 内完成交易):

  • TAB (Trade-At-Best) 策略的平均回报率明显更高

模型对比(双日交易,即在事件发生后的 48h 内完成交易):

不同事件类型的性能表现:

时效性分析(开盘交易 vs 收盘交易):

其他实验补充:

  • 股票识别器的准确率是 98.15%(1643/1674)
  • 随着投资规模的扩大,流动性可能会极大地限制模型的盈利能力

相关资源

往年同期文章