前天斯坦福 CS224N 客座讲座中讨论的线性注意力机制 (Linear Attention) 是一个很好的例子,展示了创新如何在历史研究与前沿科技之间架起桥梁。通过移除 softmax 函数,线性注意力保持了与传统注意力机制的数学等价性,同时将计算复杂度从O(n^2)降低到O(N)。这种高效性使其非常适合长序列处理,而传统 Transformer 在长序列上表现不佳。从概念上看,线性注意力随着时间的推移累积信息,这与 RNN (循环神经网络) 按顺序传播隐藏状态、保持时间依赖性 的方式相似。
一个有趣的类比是 线性注意力与人类记忆机制 的相似性。传统注意力机制会扫描所有过去的记忆以找到相关信息(就像重读整本书来找到一句格言来引用),而线性注意力则是在获取新信息时逐步累积上下文(就像在阅读过程中做简明的摘要笔记)。这种累积机制使线性注意力能够高效地保留上下文信息,而无需反复回顾之前的输入。
从历史上看,RNN 是序列处理自然语言的先驱,但由于梯度消失 (Vanishing Gradient) 和 长时记忆有限 的问题,一度被 Transformer 取代。线性注意力 通过高效的信息累积机制,启发了 RNN 的现代化,使其演变成 线性 RNN (Linear RNN)。
• 线性 RNN 保留了 RNN 的简单性,但融入了线性注意力的高效性。
• 它通过 线性累积信息(而非循环方式),线性RNN避免了梯度消失问题,同时更有效地捕获长距离依赖关系。同时,他的结构天然就适合捕获文字之间的位置相关性。
这种新旧思想的交互,展示了研究如何演变。就像 RNN 的序列处理思想 启发了 线性注意力 的设计,线性注意力 又反过来推动了 RNN 的现代化,使其重新焕发生机。
对基础思想的重新审视和创新往往能够发现新的灵感。
