摘要:近日,来自北京大学的马唯硕和所在团队总结出了一套针对图自编码器(GAE,Graph Autoencoder)或以 GAE 为基础的模型的普适性优化方案,并通过实验来重估性能。结果十分令人惊讶:经过这些优化,GAE 这个相对“古老”的模型,竟能以更快的速度达到与
近日,来自北京大学的马唯硕和所在团队总结出了一套针对图自编码器(GAE,Graph Autoencoder)或以 GAE 为基础的模型的普适性优化方案,并通过实验来重估性能。结果十分令人惊讶:经过这些优化,GAE 这个相对“古老”的模型,竟能以更快的速度达到与最先进模型相当或更好的结果。例如,研究团队在美国斯坦福大学发布的大规模数据集 ogbl-ppa 上,取得了排行榜 Rank#1 的性能。
图 | 马唯硕(来源:马唯硕)
总结来看,本次成果的贡献主要有两点:首先,构建了优化版本的 GAE 模型并取得了 SOTA 结果,确认了本次基本方法所蕴含的巨大潜力;其次,归纳出了对以 GAE 为基础的链路预测模型普遍有效的一系列技术,有助于指导 AI 社区的后续模型构建。
“我们很荣幸地收到了一个接收(accept)意见和两个强烈接收(strong accept)意见。”谈及投稿过程马唯硕这样告诉 DeepTech。审稿人也认可了这一成果的核心观点——“精心优化的简单模型可以达到或超越复杂模型在链路预测任务上的表现”,并在原创性方面给予高度肯定。
从应用角度来看,这一成果最重大意义在于,研究团队证明在链路预测任务上,效率和性能在某种程度上是可以兼得的。经过他们优化之后的 GAE 模型,相较以前的一些模型,有着几十倍甚至上百倍的效率提升,这会为图神经网络链路预测模型的规模化扫清重要阻碍。
举例来说,在现代推荐系统任务中,部署图神经网络的一个重大阻碍是:建模出的物品-关系图可能有着数十亿甚至更多条边,这对图神经网络的效率提出了非常高的要求,复杂的模型所增加的额外计算成本,在这种情况下往往是不可接受的。而 GAE 模型的计算开销在这样的情境下有着天然的优势。总之,优化 GAE 架构在应用方面所能带来的核心优势便是,能在大规模部署场景下带来大幅度的效率优势。
谈及本次成果的研究背景,马唯硕表示链路预测——是图学习领域中最重要且基础的问题之一,在推荐系统、知识图谱构建等领域有着重要的应用,也是该课题组一直以来的重要研究方向之一。近年来,基于图神经网络的方法逐渐成为主流,并取得了良好的效果。但是,人们逐渐关注到,基础的图神经网络架构并不能有效捕捉到预测连边所需的结构特征。因此,该领域内的工作引入了大量复杂的模型架构改进来克服这一点,在获得性能提升的同时,计算成本也相应升高。
在追求复杂性的潮流中,研究团队观察到一个重要的评测缺陷:许多新发布的模型,其性能提升往往是被高估的,原因在于用来比较的基线模型,往往是多年前未经任何优化的原始版本,而近期模型往往都经过了非常精细的优化。这个问题可能导致人们不能正确评估模型所改进的效果,让 AI 社区过分关注模型本身的新颖程度,而忽视了对于基础模型潜力的挖掘。
基于这个观察,研究团队聚焦于近 10 年前提出的一个重要的模型——GAE,并提出了这样一个问题:在不改变模型简洁的核心架构的前提下,对 GAE 使用流行的现代优化技术进行全面优化,它的性能究竟能达到什么水平?总而言之,研究团队并不是在创建一个全新的模型,而是通过针对基础模型进行全面优化,为 AI 社区提供一个更公允、更强大的基线,并为后续模型设计提供优化方面的重要参考。
另据悉,本次课题组最开始是针对另一个课题的跟进。在此前课题里,研究团队主要研究负采样技术对于链路预测的促进作用,并侧重于强调其优秀的效率。因此,他们希望在这一课题的启示之下,寻求效率与性能平衡的新方向。当时,马唯硕作为一名本科实习生,得到了导师张牧涵教授和师兄们的信任与帮助,负责主导此次课题组的推进。“而这对我来说也是一个全新且激动人心的挑战。”马唯硕表示。
研究初期,他和其他团队成员开展了一系列的消融实验,逐个去掉了模型中的每个模块,直到只剩下 GAE 的基座模型部分。他们很快发现当去掉这些模块,并没有对性能造成较大冲击,其表现仍然远远好于早期测得的 GAE 基线结果。这让他们立刻意识到,很有可能 GAE 本身的表现是被大大低估的。后续实验很快证明他们的观察是正确的:即仅仅通过基础的模型架构改进,比如线性卷积等技术,以及最基本的参数调优,就能在部分数据集上取得不错的结果,那怕和当时最先进的基线相比依然如此。通过仔细审阅代码,他们确定没有出现数据泄露这类问题,即不存在会导致表现虚高的问题,基于此他们觉得这个方向值得继续挖掘。
为了探明 GAE 模型的全部潜能,马唯硕大量阅读了近期所有知名链路预测模型的源代码,以便确定它们的流水线中存在对于链路预测任务最有利的部分,并将其融入了 GAE 基线的基本架构中,同时设计了大规模实验方案来确定每一个优化技术的最佳实践。在针对每一个模块进行大规模实验研究与验证之后,他们逐渐总结出一套详尽的优化方案,并在该方案的指导之下做出了不错的结果。
当然,仅有实验结果是远远不够的,还需要从理论来进行阐释。实际上,人们之所以不信任 GAE 架构的一个主要原因在于,它在理论上存在表达能力限制,简单来说它不能捕捉到那些对于连边形成至关重要的结构信息。“而如果我们的模型能够表现出非常优秀的性能,那一定表明其通过某种方式突破了这个限制。”马唯硕表示。
实际上,他和所在团队在很早就意识到这个原因。此前,已有论文指出正交噪声可以用来估计公共邻居信息,这对于链路预测十分重要。而将这个结论与 GAE 相结合,研究团队发现当 GAE 使用正交初始化的初始节点表征,辅以线性的卷积传播和点积预测,这些公共邻居信息同样能够得以保留,而这是一个相当强的结构信号。这表明本次实验中展示出来的强大性能并非偶然。
研究推进到这里其实已经比较充分,但是他们最初并没有打算将其作为正式会议论文进行投稿,而是准备制作一份研究报告。转机在于该团队另一一篇中稿神经信息处理系统大会(NeurIPS,Conference on Neural Information Processing Systems)的论文,让本次成功在其他领域得到了验证。也让类似 GAE 这样既简单又强大的基础模型得到了广泛的认可。这坚定了他们的信心,让他们更加清楚地意识到此次工作对于整个领域可能具有重要价值。
所以在导师和师兄的支持之下,马唯硕决定将这一成果整理为论文并将其投稿到信息与知识管理国际会议(CIKM,Conference on Information and Knowledge Management)。在整个论文写作过程中,他和所在团队系统性地汇总了一系列的实验结果,并陆续迭代了数次论文叙述方式,确保每一个细节都做到最好。
“而值得一提的是,上述那篇 NeurIPS 论文也成为了我们在这篇论文写作过程中的重要行文结构参考。也很高兴这篇论文被 CIKM 最终接收,并获得了审稿人的良好反馈。”马唯硕表示。
他认为,扎实的基础理解和冷静的观察视角必不可少。相对浮躁的研究思路可能会让人们选择追求复杂性的潮流,从而会在完善的架构基础上继续增加复杂的设计,而不去将更底层的机制理解透彻。这样的方式很难做出真正的创新成果,也可能会错过基础架构中仍然存在的设计空间与优化可能。
后续,研究团队主要关注以下两个方向:
首先,他们希望可以把本次论文拓展到动态图之中。在动态图场景中,图是会持续变化的,这为图学习提供了全新的挑战。而由于它与工业场景比如推荐系统有着最紧密的结合,因此在近年来成为了最热门的方向之一。因此,他们希望能够研究基础架构在动态图设置下的潜能。
其次,他们计划研究图基础模型。近年来,构建一个单一的、强大而灵活的模型,以便处理不同图上的不同下游任务,是图学习领域的一贯追求。研究团队希望可以利用本次论文提供的对于 GNN 优化的一系列观察,为图基础模型的设计提供更多启发。
参考资料:
运营/排版:何晨龙
来源:DeepTech深科技一点号