阅读 168

2021AAAI-BestPaper-Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

作者以及单位

周号益 北航

解决问题

从论文作者演讲的ppt来看,Transformer存在一些严重的问题:二次时间复杂度、高内存使用率以及encoder-decoder体系结构的固有限制。

论文作者的ppt

简单的说本文解决的核心问题:比其他的sota工作,在设定预测时间更长的情况下,要更准!,如下图所示:长度从96开始,预测就走下坡路了。

问题说明

研究动机

纵观以下参考提供的两个视频原作者对自己工作的解读,我感觉本文最好的地方就是逻辑特别清晰,动机解释的 特别好,建议好好读一下原文。

原始Transformer的问题

1.self-attention的二次计算复杂度,self-attention机制的操作,会导致我们模型的时间复杂度为 ;
2.长输入的stacking层的内存瓶颈:J个encoder/decoder的stack会导致内存的使用为 ;
3.预测长输出的速度骤降:动态的decoding会导致step-by-step的inference非常慢。

本文的研究动机归为以下几点:

首先,LSTF任务具有重要研究意义,对政策计划和投资避险等多种需要长时预测的任务至关重要;
目前现有方法多专注于短期预测,模型缺乏长期预测能力;
Transformer具有较强捕获长距离依赖的能力,但是,在计算时间复杂度和空间复杂度以及如何加强长序列输入和输出关联上都需要优化;

上述三点对应Informer的主要贡献点:

ProbSparse self-attention,作者称其为概率稀疏自注意力,通过“筛选”Query中的重要部分,减少相似度计算。
Self-attention distilling,作者称其为自注意力蒸馏,通过卷积和最大池化减少维度和网络参数量。
Generative style decoder,作者称为生成式解码器,一次前向计算输出所有预测结果。

研究方法

左边:编码过程,编码器接收长序列输入(绿色部分),通过ProbSparse自注意力模块和自注意力蒸馏模块,得到特征表示。(堆叠结构增加模型鲁棒性)
右边:解码过程,解码器接收长序列输入(预测目标部分设置为0),通过多头注意力与编码特征进行交互,最后直接预测输出目标部分(橙黄色部分)。


核心架构

创新点

和上述动机对应的贡献是一样,对应以下这三点,现在分别简单叙述,详情请见论文。1.概率稀疏注意力机;2. 自注意力蒸馏编码器;3. 生成式解码器

1.概率稀疏注意力机制

我们首先对典型自我注意的学习注意模式进行定性评估。“稀疏性” self-attention得分形成长尾分布,即少数点积对主要注意有贡献,其他点积对可以忽略。那么,这个问题可以进一步推为如何区分它们?。我直接引用一些文章的分析,如下:


其实这一部分核心工作就是红框所示(解释和推理工作比较长)。

2. 自注意力蒸馏编码器

编码器的主要功能是捕获长序列输入之间的长范围依赖。在输入表示部分,笔者已经介绍过输入为 。包含了三个部分(卷积后的序列输入,全局位置嵌入,局部位置表示)。

预处理核心:scalar+stamp

作者的ppt

此后将输入送至自注意力模块,值得注意的是这里采用的是自注意力蒸馏操作,可以减少网络参数,并且随着堆叠层数增加,不断”蒸馏“突出特征。
具体而言,”蒸馏”操作主要为使用1D卷积和最大池化,将上一层的输出送至模型后的多头注意力模块之前做维度修剪和降低内存占用。
作者的图还是画的蛮好的

3. 生成式解码器

解决方法加入concat,不选择一个额定的标记作为标记,这样不用依赖前一个才能预测后一个(这个是问题核心)。在公式中,就是加 。

结论

无论是单变量的长序列预测还是多变量的长序列预测,Informer均能在多数数据集上取得最优表现。
Informer能获得AAAI的Best Paper确实有很多值得肯定的地方。首先,从逻辑上对本工作的研究动机、研究内容,讲故事的能力确实很重要。此外,实验部分比较充实,能够把动机提出的疑惑都一一解答了,堪称完美。
在研究内容上,Best Paper肯定不是靠A+B。确实,本文在self-attention模型的问题上认识较为深刻。

参考

作者 周号益视频讲解:
【AI TIME PhD AAAI-8】类Transformer模型的长序列分析预测新方向-周号益_哔哩哔哩_bilibili
B站讲解:
【AI Drive】AAAI 2021最佳论文:比Transformer更有效的长时间序列预测_哔哩哔哩_bilibili
源代码:
GitHub - zhouhaoyi/Informer2020: The GitHub repository for the paper "Informer" accepted by AAAI 2021.
基于Transformer的时间序列预测-Informer-AAAI21 BEST PAPER - 知乎 (zhihu.com)
AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! (qq.com)
Attention 注意力机制 - 知乎 (zhihu.com)

作者:andyham

原文链接:https://www.jianshu.com/p/5785cef118c1

文章分类
后端
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐