云深不知处,何问轻重——专访CCF-IEEE CS青年科技奖获得者陈全

B站影视 日本电影 2025-10-13 10:35 1

摘要:陈全,博士,上海交通大学计算机系教授。长期从事计算机体系结构、计算机系统的研究。陈全博士在资源高效的异构数据中心体系结构及运行时系统方面做出了突出贡献。为此,CCF奖励委员会决定授予陈全博士2023年“CCF-IEEE CS青年科技奖”。

编者按:陈全,博士,上海交通大学计算机系教授。长期从事计算机体系结构、计算机系统的研究。陈全博士在资源高效的异构数据中心体系结构及运行时系统方面做出了突出贡献。为此,CCF奖励委员会决定授予陈全博士2023年“CCF-IEEE CS青年科技奖”。

Q

恭喜陈老师获得2023年CCF-IEEE CS青年科技奖!也感谢陈老师接受CCCF动态的专访,可否请陈老师介绍一下自己的研究经历?

陈全:我2003年开始在同济大学计算机系读本科,2007年进入上海交通大学计算机系读硕士,之后2009年开始在上交计算机系过敏意老师组里读博士,期间也先后在新西兰的Otago大学、哥伦比亚大学访学。2014年博士毕业之后我在美国密西根大学从事博士后研究,当时是在Jason Mars和Lingjia Tang的组里。

实际上,我一直专注于云相关的研究。我的研究始于2007年攻读硕士学位时,那时云计算刚刚兴起,成为热门研究方向。机缘巧合下,我开始涉足这一领域,成为国内最早一批研究云计算的学生。博士期间,我延续并扩展了这一研究方向,将多核调度纳入研究范围,这与我的获奖课题——异构数据中心资源管理密切相关。简而言之,云平台或数据中心可视为一台大型计算机,其任务调度和负载均衡颇具挑战。我的研究涵盖了服务器内部的多核调度以及跨服务器的负载均衡。博士期间,随着英伟达显卡开始具备通用计算能力,我探索了如何将显卡应用于数据中心并提高其资源利用率,这一研究方向一直延续至今。2017年,我的研究进一步扩展到云原生计算领域。云原生可理解为面向云平台的开发和运维,云作为具有超级分布式弹性的硬件,需要针对性的程序设计、开发、执行、调度和管理。当时,我与阿里云合作密切,致力于在云原生场景下实现实际应用,这部分研究内容也涵盖了我的获奖课题——异构数据中心资源管理。

Q

CCF的颁奖词是“陈全博士在资源高效的异构数据中心体系结构及运行时系统方面做出了突出贡献”,可否请陈老师介绍一下具体的研究工作?

陈全:其实我在这两方面的工作都是为了一个共同目标,即提升云上的资源利用率。云计算的基本思路是“封装→运行→扩展”:通过虚拟机封装操作系统,提供兼容的运行环境;应用保持不变,在虚拟机内运行;通过虚拟机复制实现资源扩展,从而高效支持传统负载的稳定应用。新一代的云原生计算在“封装→运行→扩展”全流程上实现了突破,提出了容器、微服务、服务器无感计算三大技术。容器无需内置操作系统,大幅降低了封装开销;微服务将应用解耦并封装于不同容器中,便于维护和更新;服务器无感计算则对各微服务进行独立扩展,效率更高。我关注的正是这些层面,包括最底层的体系结构和封装工具,中间层的运行系统,以及最上层的调度和扩展。

云原生计算的一般思路是“独立式封装→中心化触发→响应式扩展”,但存在资源竞争剧烈、运行依赖复杂、扩展决策滞后的问题。(1)大量独立封装的容器混合共存,自身占据大量资源;仅分配CPU忽略其他软硬件资源的竞争,导致性能不稳定。(2)微服务间依赖复杂,请求处理时间长:单个请求由多个微服务组成的微服务图处理。中心化触发导致与触发引擎的通信开销大。(3)扩展决策滞后,服务质量难保证:微服务间的负载级联阻塞效应会导致后继微服务无法及时感知到负载涌动,响应式扩展决策滞后。

我的研究则在传统的云原生计算思路之外,探索了一条“协作式封装→去中心触发→先验预扩展”的路子:从优化单容器封装转为高效的全局协作封装,从优化中心化触发转为去中心化触发,从优化响应式扩展转为破解级联阻塞效应实现预扩展,从而支持潮汐涌动负载。协作封装降低全局开销并减轻竞争,为运行和扩展提供更大空间;任务运行机制和资源扩展模型协同设计,共同降低端对端时延。

具体一些就是,在最底层:研究数据中心体系结构以及高效的虚拟化和封装技术。数据中心体系结构和计算芯片的体系结构不一样,指的是如何构建数据中心,比如说云上面运行了什么样的负载,不管是搜索,还是现在的大模型的推理,各种不同的负载,它需要的硬件是不同的,怎么选择最合适的服务器、最合适的加速器、最合适的互联来搭建数据中心,是数据中心的体系结构。另外,做的比较多的是GPU等加速器共享,例如时分复用空分复用等把硬件压榨到极致。在这个方面,主要提出了软硬资源全栈隔离的协作式容器封装方法。开拓了“只读层+可写层”分离处理思路,将容器划分为“只读层+可写层”且同节点上的容器共享只读层,降低海量容器的整体开销;通过可写层权限控制及按需加载,支持跨微服务的容器冷启动消除。

在中间层是运行系统:这方面就是关于如何快速的执行负载以满足服务质量(QoS)。快速执行的问题就在于云是一个超级分布式的状态,它需要进行频繁的数据传输来通信,如何降低通信的开销是执行中的关键问题。在这里研究去中心化触发的微服务高效运行机制。提出数据流模型驱动的去中心化触发运行机制,降低触发及通信开销;同时基于运行系统反馈和资源扩展决策,进一步实现容器之间的资源按需合并。

最上层是调度和扩展:在云上的负载潮汐性,类似于双十一或者DeepSeek大模型推理的忽然爆发,这会使得云上的负载强度呈现一个周期性的涌动。云需要能够处理这种波动性,也需要支持热升级,称之为抗涌性。在这方面设计运行阻塞图模型及其先验预扩展策略。构建了运行阻塞图模型实现微服务真实负载的及时更新,结合基于请求特征的微服务分类及基于代价模型的微服务预扩展和迁移。

另一个比较自豪的方面,就是我基于前面的理论和技术研究,和工业界一起做了一些软件和系统工具,也都有落地应用。比如落地在阿里巴巴集团Alibaba Cloud Linux、电商云平台,服务阿里云函数计算产品、内存数据库产品等。RunD容器是函数计算产品的底层容器;资源隔离工具内置于Alibaba Cloud Linux避免冲突。资源扩展工具用于电商云突变峰值时的资源扩展,支持天猫“双十一”时的突变峰值流量。应用于华为跨地域(Region-less)调度系统,支持华为云多地域数据中心的任务跨地域调度及异构资源均衡。应用于联想集团xCloud容器云平台、万全异构智算平台,实现共享资源的高效隔离,避免容器间的性能干扰;在万全异构智算平台,支持人工智能训练/推理负载的高效隔离,落地国家“东数西算”某算力枢纽。

Q

现在大模型火热,这将怎样影响异构数据中心体系结构及运行时系统?

陈全:起初,云服务的主要趋势是“万物上云”,即众多企业将各类业务迁移至云上。到了2016、2017年,随着电商和搜索引擎如百度的崛起,云服务主要聚焦于支持电商和搜索业务,这些业务通常由许多小型用户负载构成。随后,云上的人工智能应用逐渐增多,尤其是大模型的推理任务。目前,大模型的训练在云上相对较少,主要集中在推理服务上,即为用户提供实时的智能响应和服务。

这些变化反映到云上,表现为计算模式、通信模式和内存需求都在发生变化。从负载的角度看,云上单个用户的负载逐渐变重。例如,以前的搜索服务中,每个用户请求较为简单,可能单个节点就能处理;而现在,单个用户请求可能需要完成一次大模型推理,计算量显著增加。在这种情况下,单块显卡已无法满足需求,需要多块显卡甚至多台服务器协同处理。此时,显卡间、服务器间的通信变得至关重要。电商、搜索类服务对外通信需求较高,用户请求的并发量可能非常大;而大模型推理则对内部通信需求更高,对外通信开销相对较少。也就是说,过去云的瓶颈主要在于内外接口处,而随着大模型的兴起,瓶颈可能转移到云内部通信上。

目前,大模型爆发得非常猛烈,但在2025年这个节点上,主要手段还是靠堆资源来提高服务能力。随着服务爆发的持续增长,基于利润和性价比的考量,各大厂也在逐步关注云上大模型的推理优化,以提高云的利用率。

Q

刚才提到显卡,现在国内外硬件上的差距对云有影响吗?

陈全:从我的研究角度来看,无论提供什么样的硬件,我的关注点是如何利用这些硬件构建最优的云系统。目前,国内外半导体工艺确实存在差距,云上的网卡和路由主要依赖国外芯片。我也了解到,有一些研究甚至工业界的思考,探讨如何用较弱的硬件实现接近更强硬件的效果。然而,如果只有较弱的硬件,那么重点仍然是如何利用这些硬件构建一个高效的云系统。此外,从云的角度看,更多是多用户负载的场景。如果无法获得特别先进的显卡,处理速度就会较慢;如果显存不足,就需要分配更多的显卡,这意味着云上通信变得至关重要。相比之下,超算更注重如何快速完成大型任务,而云则更强调QoS,即低延迟和快速响应每个请求,同时还需要具备抗涌性。

Q

对于未来3年、5年和10年,陈老师觉得自己的方向有哪些激动人心值得投入的研究吗?

陈全:我认为关键在于全局资源的池化,也就是全局资源的虚拟化。简单来说,就是将所有的资源虚拟化并放入资源池中,根据负载需求从池中进行分配。正如我之前提到的,云上的负载是不断变化的,最适合的硬件并非一成不变。因此,未来可能会出现CPU、内存、加速器、网络等资源全部池化的情况,负载需要哪种资源,就从对应的池中获取。实现这一目标非常复杂,需要在体系结构、操作系统、运行系统、编程框架等各个层面进行长期且大量的投入。

Q

中美之间的竞争加剧,国内学术研究也越来越强调应用,陈老师对于现今国内科研形势变化怎么看待?

短期来看,科研强调应用可能是有益的。但从长期来看,比如5到10年,我认为仍然需要一批人在不同领域进行探索。如果所有人都过于强调应用,那意味着将未来的发展方向局限在一个狭窄的范围内。然而,要实现颠覆性的创新,仍然需要一些“仰望星空”的人,去探索更广阔的可能性。

Q

陈老师从事研究工作已经将近二十年了,从自身出发,对新的科研人员有什么建议?

陈全:第一,很重要的是做真的问题。我个人是不太喜欢通过读论文去找问题,我和企业交流得多,很多时候都是他们真实场景下遇到的问题,我来想办法解决它。这是我比较建议的思路,也是我自己做研究的一个方法。

第二,坚守。不能跟着热点起舞,热点来得快,去得也快,变化也快,不能跳来跳去地做研究。人工智能火热,不能说我就完全跳去做人工智能,这是不行的。

杜子东

CCF高级会员、体系结构专委会执行委员,《计算》编委,2016年CCF优博奖获得者。中国科学院计算技术研究所研究员。主要研究方向为智能芯片体系结构。

duzidong@ict.ac.cn

来源:CCFvoice

相关推荐