摘要:NeurIPS 2024时间检验奖公布,Ilya和Ian Goodfellow凭借Seq2Seq和GAN同时获奖!十年里,这两篇论文对研究领域产生了巨大影响,奠定了当今基础模型的研究,催生了今天的全世界大模型热,可谓实至名归。
编辑:编辑部 HYZj
【新智元导读】NeurIPS 2024时间检验奖公布,Ilya和Ian Goodfellow凭借Seq2Seq和GAN同时获奖!十年里,这两篇论文对研究领域产生了巨大影响,奠定了当今基础模型的研究,催生了今天的全世界大模型热,可谓实至名归。刚刚,NeurIPS 2024时间检验奖公布了!
今年共有两篇开创性论文纷纷获奖:一篇是Ilya Sutskever提出的Seq2Seq,另一篇是Ian Goodfellow的生成对抗网络(GAN)。
时间检验奖的宗旨,就是颁发给那些发表于10年前的论文。它们在十年中对研究领域产生了巨大的影响,而且经受住了时间的考验。
而今年,NeurIPS破例把奖项颁给了两篇论文,原因在于这两篇论文对整个领域的影响毋庸置疑,意义非凡。
截止目前,「Generative Adversarial Networks」已经被引用超过85,000次,堪称是生成式建模领域的奠基之作之一,并在过去十年间激发了无数研究进展。除了学术研究之外,它还推动了生成式建模在视觉数据及其他多个领域的广泛应用。
截至目前,「Sequence to Sequence Learning with Neural Networks」也已被引用超过27,000次。当前,大语言模型及基础模型的快速发展正在推动人工智能及其应用的范式转变,而这一领域的发展得益于该论文奠定的基础。这篇论文提出了编码器-解码器架构的核心理念,启发了后续基于注意力机制的关键改进,最终推动了当今基础模型的研究。
Seq2Seq论文作者Oriol Vinyals表示,自己在2014年的演讲也也经受了时间的考验,其中一张PPT称强大的模型等同于大型Transformer的观点引来许多的争议。
谷歌DeepMind首席科学家Jeff Dean发文表示了祝贺。
还有网友表示,Ilya Sutskever和Ian Goodfellow实至名归。
Generative Adversarial Networks
这篇论文的作者包括许多顶级大牛,除了AI圈大佬Ian Goodfellow外,还有图灵三巨头之一的Yoshua Bengio。
作者:Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio
机构:蒙特利尔大学
论文地址:https://arxiv.org/abs/1406.2661
Goodfellow在斯坦福大学计算机科学系读完了本科和硕士,师从AI大牛吴恩达。而他的博士生涯,就读于加拿大蒙特利尔大学,师从领域内赫赫有名的计算机科学家Yoshua Bengio和Aaron Courville。
14年6月,他提出了GAN,而这个发现,还有某种机缘巧合的味道。
一个晚上,他的几个朋友在喝酒庆祝时,请他帮忙一个棘手的项目:能自动生成图片的计算机程序。他们已经尝试过神经网络和算法,模仿人脑神经网络来创建数据,但效果很不理想。
Goodfellow喝着啤酒,忽然福至心灵:何不让两个神经网络对立起来?
他立刻尝试编写程序,对软件进行测试,没想到一次就成功了。
在职业生涯中,他在谷歌、OpenAI、苹果都留下了身影,最近一次,他离开苹果重返谷歌DeepMind,担任研究科学家。
在这篇著名的论文中,Goodfellow等人提出了一种新框架,基于对抗过程估计生成模型。
在这一框架中,他们同时训练了两个模型:一个生成模型G,用于捕获数据分布;一个判别模型D,用于估计样本是来自训练数据还是生成模型G的概率。
生成模型G的训练目标,是最大化判别模型D判错的概率。
该框架对应一个极小极大的双人博弈。
在任意函数G和D的空间中,存在一个唯一解,此时G恢复训练数据分布,而D在每个位置的输出均为1/2。
当G和D定义为多层感知器时,整个系统可以通过反向传播进行训练。
在训练或生成样本的过程中,无需依赖马尔可夫链或展开的近似推理网络。
使用mini-batch随机梯度下降对生成对抗网络进行训练
实验通过对生成样本进行定性和定量评估,展示了GAN的潜力。
从图2中可以看出,训练后从生成器网络中抽取的样本,比文献中的生成模型效果更好。
模型样本的可视化。最右边的列显示了邻近样本的最近训练示例,以证明模型尚未记住训练集。样本是公平随机抽取的,而不是精心挑选的
通过在完整模型的z空间坐标之间进行线性插值获得的数字
Sequence to Sequence Learning with Neural Networks
Seq2Seq论文还是Ilya在谷歌任职期间完成的奠基性研究,是机器学习和自然语言处理领域的里程碑式研究。
作者:Ilya Sutskever, Oriol Vinyals, Quoc V. Le
机构:谷歌
论文地址:https://arxiv.org/abs/1409.3215
2012年,Ilya毕业后在斯坦福跟随吴恩达做了两个月博士后,随后返回多伦多大学加入了Hinton研究小组的衍生公司DNNResearch。
当年,Hinton带着Ilya和另一名学生Alex Krizhevsky搭建了名为AlexNet神经网络,一举拿下了ImageNet的冠军。
紧接着,2013年3月,谷歌收购DNNResearch后,Ilya也正式加盟成为谷歌大脑的研究科学家。
在谷歌期间,他展示了如何将深度学习模式识别能力,应用到数据序列中,特别是在处理单子、句子方面。
由此,在2014年,Ilya与Oriol Vinyals、Quoc Le密切合作,共同创建了划时代的序列到序列Seq2seq学习算法。
论文中,Ilya团队提出的Seq2seq,是一种通用的端到端序列学习方法,该方法对序列结构的假设要求非常低。
他们的方法使用一个多层的长短期记忆网络(Long Short-Term Memory, LSTM)将输入序列映射为固定维度的向量,然后通过另一个深层LSTM从该向量解码出目标序列。
DNN VS Seq2Seq
具体来说,深度神经网络(Deep Neural Networks, DNN)通常由输入层、多个隐藏层和输出层组成。每一层的神经元通常与下一层的所有神经元相连。输入和输出通常是固定维度的向量,模型不能处理可变长度的输入和输出,适合静态输入到静态输出的映射(如分类和回归任务)。
而Seq2Seq则基于递归神经网络(RNN)或其改进(如LSTM、GRU),输入和输出可以是可变长度的序列,这使得Seq2Seq适合用于序列输入到序列输出的任务(如机器翻译、语音识别、文本摘要)。
实验的主要结果是:在WMT’14数据集的英语到法语翻译任务中,LSTM生成的翻译在整个测试集上的BLEU分数为34.8,其中BLEU分数因超出词汇表的词汇而受到惩罚。此外,LSTM在处理长句子时表现良好。
作为对比,一个基于短语的统计机器翻译(SMT)系统在同一数据集上的BLEU分数为33.3。当研究团队用LSTM对上述SMT系统生成的1000个候选翻译进行重排序时,BLEU分数提高到了36.5,接近该任务上的此前最佳结果。
此外,LSTM还学习到了合理的短语和句子表征,这些表征对词序敏感,同时对主动语态和被动语态具有相对的稳定性。
最后,作者发现,将所有源句单词的顺序反转(但不反转目标句)显著提高了LSTM的性能。因为这种操作在源句和目标句之间引入了许多短期依赖,从而使优化问题变得更容易。
以下是研究团队实验过程中一些由LSTM生成的长句翻译示例及其对应的真实翻译。
Meta AI研究科学家Zhuang Li强烈推荐了Ilya在NeurIPS 2014发表的Oral演讲,其中提到两个让人印象深刻的观点:
来源:新智元一点号