盘古:基于3D神经网络的中期全球天气准确预测

中文标题:基于3D神经网络的中期全球天气准确预测

英文标题:Accurate medium-range global weather forecasting with 3D neural networks

发布平台:Nature

Nature

发布日期:2023-07-05

引用量(非实时):1

DOI:10.1038/s41586-023-06185-3

作者:Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, Qi Tian

关键字: #3D神经网络 #天气预测

文章类型:journalArticle

品读时间:2023-07-08 18:49

1 文章萃取

1.1 核心观点

  • 本文介绍了一种基于AI的中期全球天气准确预测模型——盘古(Pangu),该模型的主要创新点在于将高度作为新的维度融合到模型中,并提出了一个三维(3D)地球专用Transformer架构(3DEST),从而能够捕获不同压力水平下大气状态之间的关系,从而显著提升模型的预测精度;其次,本文应用了一种分层时间聚合算法,使得中期天气预报所需的迭代次数大大减少,累积预报误差得到缓解
  • 盘古模型经过39年的全球数据培训,与世界上最好的NWP系统,即欧洲中期天气预报中心(ECMWF) 的运营综合预报系统相比,获得了更强的确定性预报结果,同时计算成本降低了1w倍。后续的实验分析表明,盘古模型也适用于极端天气预报(跟踪热带气旋)和集合预报

1.2 综合评价

  • 在气象预测领域取得了较大了突破,再次验证了神经网络的强大潜力
  • 实验分析充分详实,阅读体验也很棒,并且相关代码和模型均已经开源
  • 底层算法和模型架构较为常见,存在一定改进空间;最终性能瓶颈应该在数据层面
  • 这种模拟地球的思路成功引人遐想,很难想象当数据和算力充足的情况下还会发生哪些奇迹

1.3 主观评分:⭐⭐⭐⭐⭐

2 精读笔记

该模型目前可以在欧洲中期天气预报中心(ECMWF)网站查看:https://charts.ecmwf.int/?query=PANGU

2.1 背景知识

目前最准确的天气预测系统是数值天气预报(NWP)方法:

  • 该方法将大气状态表示为离散化网格,使用偏微分方程(PDE)描述大气状态离散网格之间的跃迁
  • NWP算法主要通过数值模拟进行求解,此过程的计算成本很高(未来十天的预测需要数百个超级计算机数小时计算)
  • NWP算法在很大程度上依赖于参数化,使用近似函数来捕获未解决的过程,而这种近似可能会引入错误
  • NWP算法的预测精度取决于网格的细分程度,但过于细分的网格会增加大量的计算成本

过往也引入了基于神经网络的天气预测方法,比如FourCastNet :

  • 训练一个深度神经网络来捕获输入(给定时间点的天气数据)和输出(目标时间点的天气数据)之间的关系
  • 此类方法的最大优势就是足够快(GPU+矩阵并行计算),FourCastN预测100次(集合预报)的24h预测只需要7秒
  • 但FourCastNet 的准确性(5天Z500预测的均方根误差 RMSE=484.5)低于传统方法(IFS,RMSE=333.7)

hPa(百帕)是一个气压单位,Z500表示500 hPa地势,对应平均海拔高度约为5500米

IFS:欧洲中期天气预报中心(ECMWF)运营综合预报系统,目前最好的NWP方法。包括一个复杂的数据同化系统(将最新的天气观测与最近的预报相结合,以获得对地球系统当前状态的最佳估计)和地球系统的全球数值模型(核心是大气模型,也会结合其他地球系统组成,比如海洋)

Swin Transformer是微软研究院在2021年提出的:

  • 该论文一经发表就在多项视觉任务中霸榜,并获得了ICCV 2021 best paper的荣誉称号
  • Swin Transformer使用了类似卷积神经网络中的层次化构建方法(Hierarchical feature maps)
  • 使用了Windows Multi-Head Self-Attention(W-MSA),在每个区域内部进行Multi-Head Self-Attention
  • 提出了Shifted Windows Multi-Head Self-Attention(SW-MSA),使得信息在相邻的窗口间进行传递
  • Swin Transformer引入了卷积的局部性和层次感知,在大幅减少计算量的同时也保留了Transformer在全局感知上的优势

2.2 方法说明

盘古天气(Pangu-Weather)是一个基于AI的天气预报系统,包含两处主要创新

  • 将高度作为新的维度融合到模型中,并提出了一个三维(3D)地球专用Transformer架构(3DEST);与FourCastNet 2 等二维模型相比,3D模型能够捕获不同压力水平下大气状态之间的关系,从而显著提升模型的预测精度
  • 应用了一种分层时间聚合算法,使得中期天气预报所需的迭代次数大大减少,累积预报误差得到缓解
2.2.1 3DEST 架构

  • 3DEST 架构整体还是传统的Encoder-Decoder模式,输入为过去的天气信息,输出为未来的天气信息
  • 天气信息主要包括13层高空变量和表面变量,输入信息分块(patch)进行embedding(GELU+线性层)以降低空间分辨率
  • 之后两类信息会合并(Merge),然后在Encoder环节将编码信息及其下采样(Down-sampling)输送给Decoder
  • Decoder会先学习解码过程,之后通过拆分(Split)和分块嵌入信息的还原(patch recovery)未来的天气信息
  • 整个3D深度网络模型包含16块Earth-specific block,解码器部分与编码器部分对称,整体约有6400万个参数

其他细节补充:

  • 输入数据中的维度$1440\times 721$分别是沿经度轴和纬度轴的空间分辨率,因此每个输入像素都对应地球的一个$0.25^o\times 0.25^o$区域
  • 由于南极点和北极点的纬度不一样,因此维度轴维度额外保留一个维度,用来区分南极点和北极点
  • 第二编码器层和第七解码器层的输出沿通道维度连接解码器,不同层之间通过下采样和上采样操作连接不同分辨率的相邻层
  • 为了降低运算使用了基于窗口滑动的注意力机制,由于经度轴是周期性的,因此左右边缘的半窗口可以拼接为一个完整窗口
  • 每个Earth-specific block都是在Swin Transformer的基础上引入基于地球坐标系的相对位置偏差,来表示注意力的平移不变分量

Earth-Specific位置编码:气象要素数据对应的经纬度网格是不均匀的,而不同的要素在不同纬度、高度的分布也是不均匀的。对这些不均匀性的建模,有利于学习气象数据背后潜藏着的复杂物理规律,如科里奥利力等。

这种相对位置偏差也方便引入地球相关先验,但是位置偏差相关的参数会因此增加527倍(位置偏差矩阵的维度和经纬度挂钩)

柯氏力又称科里奥利力,是为了解释运动物体由于坐标转动发生偏转的现象而引进来的一种虚构的力(惯性力)

2.2.2 分层时间聚合算法

为了适用不同场景下的不同预测提前量,本文训练了四个深度网络:

  • 其提前期(输入和输出之间的时间差)分别为1 h、3 h、6 h和24 h
  • 每个深度网络都经过了 100 个 epoch 的训练(在 192 个 NVIDIA Tesla-V100 GPU 的集群上大约需要 16 天)
  • 中期天气预报的提前期为7天或更长时间,因此需要迭代调用基础深度网络(1 h、3 h、6 h和24 h)

为了减少累积预测误差,本文引入了分层时间聚合:

  • 一种贪婪算法,算法目标是追求深度网络具有最大的可负担提前期。从数学上讲,这大大减少了迭代次数
  • 例如,当提前期为 56 小时时,我们将执行 24 小时预测模型 2 次,6 小时预测模型执行 1 次,1 小时预测模型执行 2 次
  • 与使用固定6小时预测模型的FourCastNet相比,该方法更快,更准确。方法中讨论了此策略的局限性

  • 上图中,$A_0$表示输入的当前天气状态,$\hat{A}_t$表示未来$t$小时后的预测天气状态

2.3 实验分析

为方便对比,本文使用和FourCastNet模型一致的数据范围:

  • 本次训练主要使用ERA5数据(下载地址),对应的时间分辨率为1小时
  • 训练集数据为1979~2017年(39年,341880个时间点),验证集为2019年,测试集为2018年
  • 天气信息考虑了69个特征,包含13种不同气压下的5个高空变量和4个表明变量
  • 为了降低过度拟合的风险,每个epoch开始时从训练数据中随机排列样本的顺序

相比于IFS(最好的NWP方法)和FourCastNet(最好的AI方法),盘古天气系统预测结果更好:

  • 上图中,第一行和第三行对比的是不同模型的RMSE(越低越好);第一行和第三行对比的是不同模型的ACC(越高越好)
  • Z500、T500、Q500、U500和V500分别表示风速500 hPa时的地势、温度、比湿度以及风力的u/v分量
  • Z850和T850分别表示850 hPa处的地势和温度。T2M表示地表2米温度,U10和V10分别表示地表10米风速的u/v分量

上图中的RMSE和ACC都和普通模型的评价有所区别,需要按照经纬度切分后分别计算并求均值,也可以是针对特定地区的计算

不同模型的最终输出结果的对比(因为是地球的全局视角,所以得仔细看能发现一点差异):

  • 不同行分别表示:风速500 hPa时的地势,风速800 hPa时的温度,地面2米高的温度,地面10米高的风俗
  • 第一列表示盘古预测结果,第二列表示IFS预测结果,第三列表示真实情况

模型对比:预测时间增益——达到相同预测精度的预测时间提前量

  • 盘古天气相比于IFS的预测时间增益为10~15h,在某些条件下(如特定湿度),增益能超过24h
  • 盘古天气相比于FourCastNet的预测时间增益超过了40h,说明了3D深度网络和时间聚合策略的优越性

追踪热带气旋:

  • Pangu-Weather预测未来天气,并寻找满足特定条件的局部最小MSLP(平均海平面气压)以跟踪气旋眼
  • 气旋的标注来自国际气候管理最佳轨道档案(IBTrACS)项目,其中包含热带气旋的最佳可用估计
  • 对比方法:ECMWF-HRES,一种基于高分辨率(9公里×9公里)运行天气预报的强气旋跟踪方法
  • 测试集使用2018年出现并被命名的88个热带气旋,主要对比指标是不同气旋的位置预测平均偏差

  • 图a和图b为模型针对西太平洋两个最强气旋“金刚雷”和“玉兔”的跟踪结果
  • 红色为盘古系统预测轨迹,蓝色为ECMWF-HRES预测轨迹,黑色为实际轨迹
  • 相邻点之间的时间间隔为6小时,相比于ECMWF-HRES,盘古提前2天预测出玉兔的正确路径(前往菲律宾)
  • 图c表示不同预测提前量下,盘古系统和ECMWF-HRES的气旋位置预测的平均偏差

由于Pangu-Weather 的计算成本低,因此在实际运行时可考虑集成预测:

  • 通过在初始天气状态中添加99种不同的随机扰动,即可构建100个基础模型
  • 100个模型的预测输出构成了预测分布,简单取均值后也可得到集成预测输出,实验分析如下所示:

  • 第一行对比不同场景下模型的RMSE,短期内(1d)单模型优于集成模型,而中长期(5-7d)集成模型显著优于单模型
  • 第二行对比的是连续排名概率得分 CRPS,针对概率预测情形对平均绝对误差MSE进行广义化,越低越好
  • 第三行对比的是传播技能比率(the spread-skill ratio, SSR),理想的集成模型产生的传播技能比率为 1.0(虚线)

关于CRPS和SSR这两个指标的更多理解,可参阅该论文

其他分析总结:

  • 相比于IFS的预测输出,Pangu-Weather产生了更平滑的等高线(这是包括神经网络在内的回归算法特性)
  • Pangu-Weather 在单个 GPU 上的推理成本为 1.4 秒,比运行中的 IFS 快 10000 倍以上,与 FourCastNet 相当
  • 未来可考虑使用参数共享或其他技术减少相对位置偏差的参数量,也可以在算力充足的情况下探索更高维的神经网络

局限性:

  • 训练数据为处理过的分析数据,和用于天气预报系统的真实数据存在一定差异
  • 忽略了一些因素导致模型的能力缺失,如忽略了降水数据导致不能预测部分极端天气(龙卷风)
  • 基于神经网络的预测结果更平滑,增加了低估极端天气事件的风险(在气旋跟踪实验中未发现类似问题)
  • 由于训练开销很大,没有对超参数进行详尽的研究,使用的模型架构也少于标准的Swin Transformer

2.4 文章后记

网络评价:

  • 业内首个精度超过传统数值预报方法的AI模型
  • 近年来中国科技公司首篇作为唯一署名单位发表的《自然》正刊论文

网络摘录:天气预测大模型方向近期进展

  • 22年2月,FourCastNet首次把分辨率提高到0.25°x0.25°,但实验结果还没有全面超过IFS
  • 22年11月,盘古这篇的结果首次在0.25°的高分辨率上超过了NWP最优方法,IFS的结果
  • 22年12月,DeepMind(谷歌)的GraphCast 在盘古Online后紧急上线,这篇工作的结果在99.2%的结果上超过了盘古
  • 23年1月,微软的ClimaX模型上线,提出了首个气候基础模型,在CMIP6数据集上进行预训练,在ERA5数据集上微调
  • 23年4月,上海人工智能实验室的FengWu模型上线,在80%的结果上超过谷歌的GraphCast的结果

作者补充资料:

相关资源

往年同期文章