摘要:近几日谷歌推出的Titan架构可谓是引发了不少讨论,这个架构不仅在效率上甩开了现有的Transformers和线性RNN,还能扩展到超过200万的上下文窗口,简直是深度学习领域的一次重大突破!如果你想知道Titan架构究竟是如何挑战现有技术的,继续往下看!
近几日谷歌推出的Titan架构可谓是引发了不少讨论,这个架构不仅在效率上甩开了现有的Transformers和线性RNN,还能扩展到超过200万的上下文窗口,简直是深度学习领域的一次重大突破!如果你想知道Titan架构究竟是如何挑战现有技术的,继续往下看!
近几日,关于谷歌推出的Titan架构的讨论非常热闹,这一架构的提出者Ali Behrouz在公开场合表示,Titan的效率要远远超过目前广泛使用的Transformers和现代线性RNN,并且可以扩展到超过200万的上下文窗口,这一点在其他架构上几乎是不可想象的。在诸如语言建模、常识推理、时间序列预测等任务上,Titan的表现也明显优于现有的SOTA(State of the Art)模型,而且在长文本处理上Titan依然能够保持90%的准确率。
Titan的研发团队成员除了Ali Behrouz之外,还有来自谷歌研究NYC算法和优化团队的钟沛林以及Vahab Mirrokni。我们知道,谷歌一直以来都是深度学习领域的领头羊,而此次推出Titan架构显然是要向Transformer架构发起挑战。
在此之前,Transformer凭借其卓越的性能几乎垄断了深度学习领域的多个方向,但是Titan的出现很有可能会打破这一格局,从目前曝光的信息来看,Titan架构的性能要更胜一筹。
借鉴人脑记忆原理
从我们了解的信息来看,Titan架构是以人脑的记忆原理作为借鉴,设计了一个神经长期记忆模块,以此来改善模型的记忆能力。在人脑的记忆过程中,并不是所有的信息都是长久保存的,而是根据信息输入时的大脑惊讶程度来判断,如果这个信息让大脑感到非常惊讶,那么它就会被记录下来,并且在以后的记忆过程中占据一个重要的位置,如果信息输入时大脑并没有表现出惊讶,那么这个信息很有可能就会被遗忘。
Titan架构中的长期记忆模块就是模拟了这一过程,在信息输入的时候,如果激活值非常高,那么就会形成记忆,如果激活值较低,那么这条信息就会被遗忘。在以往的深度学习模型中,记忆是一个比较薄弱的环节,即便有专门的记忆模块,也往往只能提供短期记忆,对于长期信息的储存和调用则显得力不从心。
Titan架构引入了动量机制和遗忘机制,这两个机制共同作用,可以帮助模型形成长期记忆,同时也能够擦除那些已经没有价值的旧记忆。这样的设计大大增强了模型的信息处理能力,在面对长文本和复杂任务时,Titan架构展现出了极大的潜力。
这一切都需要大量的实验数据来验证,在这方面,谷歌显然不缺少资源和技术。
三种记忆模块
此外,Titan团队还提出了三种将记忆模块融入深度学习架构的方法,分别是MAC、MAG和MAL。在这三种方法中,MAC是最基础的一种,也是其他两种方法的基础,其主要是在前向传播过程中将输入数据和记忆数据进行拼接,一起送入网络进行处理。在这个过程中,会产生新的记忆数据,并且根据一定的规则将其存储到长期记忆模块中。
而MAG则是在MAC方法的基础上进行了改进,加入了一个注意力机制,在生成新的记忆数据之前,会先对长期记忆模块中的所有记忆数据进行打分,只有得分较高的记忆才会和当前输入一起被用来生成新的记忆数据,这样可以保证那些已经过时的信息不会影响模型的学习。
而MAL则是在MAG的基础上进行了进一步的优化,将注意力机制拆分为两个部分,一个是对长期记忆模块的注意力,另一个是对当前输入数据的注意力,这样可以更好地平衡长期记忆和短期输入之间的关系。
我们知道,人脑在处理信息的时候往往并不是线性的,而是会根据多个信息之间的关联性来进行选择,对于那些联系不大的信息,大脑会自动将其遗忘,而对于那些经常被提及或者经常用到的信息,大脑则会主动加强记忆。Titan团队认为,Transformer的注意力机制就是这种短期记忆的体现,通过对输入信息之间关联性的计算来决定哪些信息该被提取出来,哪些信息该被遗忘。
但是面对大规模数据和复杂任务时,这种短期记忆显然是不够用的,因此Titan团队设计了神经长期记忆模块,并且结合动量机制和遗忘机制来增强模型对信息的处理能力。从目前曝光的信息来看,这一设计是相当成功的,在各项实验中都取得了优异的成绩。
总之,Titan架构的设计思路确实很有前瞻性,通过模拟人脑的记忆机制来提升模型的表现,这不仅让人感到耳目一新,更是对传统模型的一次有力冲击。你怎么看待这种创新的记忆模块?觉得Titan能否真正超越Transformer?欢迎在评论区分享你的看法,别忘了点赞支持哦!
来源:yoyo蔚蓝海