摘要:祝明发,联想集团首席科学家,北京航空航天大学计算机学院教授、博士生导师,我国高性能计算机事业的亲历者、开拓者,2023年“CCF王选奖”获得者。20世纪70年代,他担任中国第一台百万次计算机(北大150机)运算控制器研制组组长,1995年组织研制成功曙光100
祝明发,联想集团首席科学家,北京航空航天大学计算机学院教授、博士生导师,我国高性能计算机事业的亲历者、开拓者,2023年“CCF王选奖”获得者。20世纪70年代,他担任中国第一台百万次计算机(北大150机)运算控制器研制组组长,1995年组织研制成功曙光1000计算机系统(以下简称曙光1000),2002年研制成功世界上第一台万亿次机群,等等。他曾任国家智能计算机系统研究开发中心总工程师、副主任,国家高性能计算中心(北京)主任,中国科学院计算技术研究所研究员。获国家科学技术进步奖一等奖一项(排名第二)和二等奖四项(两项排名第一)。在其带领下,2018年以来,联想高性能计算机台数在世界TOP500上长期位居第一。
问
祝老师您好!首先祝贺您获得2023年“CCF王选奖”,该奖强调创新精神与家国情怀,您认为在当下算力竞争与人工智能(artificial intelligence, AI)浪潮中,中国计算机领域学者和从业者应秉持哪些核心科研价值观?
祝明发:核心科研价值观对我个人而言,主要是要刨根问底、做好基础研究,从基础和根源上解决“卡脖子”问题。这并不是我近年才意识到的价值观,而是在特定历史条件下自然生发出来的信念。我们那一代人,年轻人的选择和国家的需求基本是一致的。国家需要什么,我们就去做什么,从没想过还有别的选择。
问
您的大学时代是怎样度过的?或者说,您是怎样走向高性能计算研究之路的?
祝明发:我1964年考入北京大学(以下简称北大)物理系,接受了较为系统的物理教育。大学后期去半导体厂进行过实习。1970年毕业后,国家强调生产,我被留在北大,在北大电子仪器厂曾担任运算控制组,也就是中央处理器(central processing unit, CPU)组组长,参加中国第一台百万次计算机(北大150机)的研制。北京大学、国营738厂(原北京有线电厂)、(原)石油工业部三家单位总共几百位工程技术人员,团结在一起攻坚。当时提倡自力更生,完全不能进口,每个元器件都是中国人自己造出来的。当时世界顶尖水平的高性能计算机是每秒千万次,我们的高性能计算机能达到百万次,在技术上,和世界水平的差距并不如20世纪八九十年代大。
那个年代的环境比现在困难得多,技术上国外对我们全面封锁,存储器、晶体管、集成电路,各种元器件全靠自己做。当时关键技术差距比后来小,例如,那时美国大规模集成电路存储器存储量做到16KB,而我们做到了1KB(1个量级的差距其实不算特别大),也远远领先于日本和韩国。
正是在这样的环境中,我逐渐认识到:真正能推动中国科技进步的,不是追热点,也不是拼资源,而是敢啃硬骨头的精神。我原来是学物理出身,1970年毕业后参加集成电路研制工作。从1972年转入计算机领域到1978年的这6年,我结合工作从零开始自学,逐步掌握计算机总体和硬件设计技术。做设计工作,要头脑清晰、不回避问题、弄清楚关键细节、钻研图纸,我凭借自学和实践硬是转过来了。这让我始终相信:只要肯扎进去,肯用功,就没有跨不过去的门槛。
1978年,我考上了中国科学院计算所的研究生。两年后,被国家公派出国留学,在美国密西根州立(韦恩)大学拿到了硕士和博士学位,之后进行了两年关于人工智能的前沿研究。
问
您对如何解决“卡脖子”问题怎样看?
祝明发:今天我们面对的是算力竞争、AI浪潮,看上去问题在“规模”上,但根子其实仍然在“基础”。芯片制造为什么难?难就难在其要求具有超高的清洁度和精确度,这不是大而化之可以做成的,是要靠物理、化学、材料等方面的专家一步步深入研究。同样,AI真正的突破,也不在于堆多少算力,而在于能不能搞清楚底层的机理。中国的计算机从业者应当研究基础问题,不回避问题,需要有敢于和问题硬碰硬的精神。
问
回到20世纪80年代,人工智能开启第二次发展浪潮,计算能力需求凸显。在这样的历史背景下,你们承担自主国产智能计算机研制项目。面对彼时的专用计算和并行计算两条技术路线,你们选择了并行计算并研制成功曙光1000大规模并行计算系统。能否为我们介绍一下当时的情况?
祝明发:20世纪80年代,人工智能正处于以“专家系统”为代表的第二次发展高潮,日本提出了第5代计算机计划,试图通过研发专用硬件系统来实现智能,引发了国际上的广泛关注。我国于1986年启动了“863”计划,其中信息技术领域设立了“智能计算机”主题,即306主题,并依托中国科学院计算技术研究所组建了国家智能计算机系统研究开发中心(简称智能中心)。1987年我回国后,参与了智能中心的组建工作。
当时,国外在技术路径上存在两条主要路线:一是日本主推的专用智能计算系统;二是美国发展的通用并行计算系统。306主题和智能中心的专家们展开了深入的分析与讨论,逐渐形成共识:日本依赖逻辑程序运行在专用计算机上的思路存在根本性缺陷,难以真正实现通用人工智能。相比之下,在通用并行计算平台上运行智能程序,不仅具有更好的可扩展性,也更贴近技术发展的主流趋势。因此,306主题专家组将“智能型并行分布式计算机”确立为主要研究方向。
基于这一技术判断,我们决定放弃当时流行的专用架构路线,转而投入通用并行计算机的研制工作。在技术实现上,我们首先采用了共享存储多处理器系统,并基于引进的摩托罗拉处理器进行开发。这种结构在可扩展性方面存在一定限制,系统最多可以扩展到32个处理器。但在当时,它在性能和实现难度之间取得了较好的平衡。这套系统即是曙光一号,是曙光系列高性能计算机发展的开端。
智能中心承担了“863”计划“306主题”中的一个关键课题“智能型分布式并行计算机”(课题编号:863-306-61-01),时任智能中心主任的李国杰研究员为课题负责人。1992年,课题任务正式签订,其核心目标是研制一套“智能化分布存储并行计算机系统”,这正是后来著名的曙光1000大规模并行计算系统。随着时间推移,日本的智能计算机计划逐渐淡出人们视野,而我们选择的通用并行计算路线却随着新一轮人工智能浪潮的到来显示出强大的生命力。
问
在人工智能第三次浪潮席卷的今天,传统超级计算的定位是否发生了变化?您认为中国的高性能计算还存在哪些值得提高的方面?
祝明发:今天所谓的“人工智能第三次浪潮”,以大语言模型和深度学习为代表,但实际上它与最初以逻辑推理为核心的人工智能已经有很大的不同。现在主流的做法是通过学习大量参数与特征值来做比对,本质上仍是图像处理、模式识别、计算机视觉和机器学习那套东西,而不是原来的“智能推理”。
这些应用并不要求非常精确的计算,而是大量近似计算,因此可以使用FP32、FP16,甚至FP8精度来完成,这使得图形处理器(graphics processing unit, GPU)成为主要的计算平台。然而,过去GPU和人工智能几乎毫无关系,GPU擅长规模很大的并行计算,其实更像是早年的专用加速芯片。20世纪90年代中期,美国研发千万亿次级别的计算机时曾尝试用将数据靠近处理机的方式做专用计算芯片,但这些芯片发展速度不如CPU,很长时间内仅仅用于图像处理。直到2007年以后,GPU在深度学习的推动下才真正发展起来,进入高性能计算和智能计算领域。
这种基于GPU算力的人工智能的发展存在明显局限性:一是能耗极高,数据越多、计算越复杂,能耗就越大,人工智能的产生是非常不“智能”的,人类获得同样的智能只需要很小的能量;二是对数据的依赖过强,而现实中大量有价值的数据并不在数字世界,人也不需要记住所有的资料来产生智能,人脑能记住的东西很少,但智能程度却很高。
因此,我认为未来的人工智能发展有两条路值得关注:一是提高能效比,做真正高效的计算(例如人脑这个智能系统的能耗远低于大模型);二是跳出当前范式,另起炉灶,寻找突破现有瓶颈的路径。目前的大语言模型远未达到通用人工智能(artificial general intelligence, AGI)的水平,我们还有很长的路要走。对于中国的高性能计算来说,我们既要保持硬件性能提升、关注能效比提升,也要在人工智能基础理论的领域深耕,避免陷入单纯依赖“堆算力”的误区。
问
您在20世纪90年代支持和培养了在蛀洞路由芯片(wormhole routing chip, WRC)研制中发挥重要作用的曾嵘以及多名后续取得非凡专业成就的人才。您是如何在关键项目攻关的过程中,兼顾对年轻科研人才的培养的?
祝明发:曙光1000是“863”计划“智能型并行分布计算机”项目的关键目标,要求实现36个结点的分布存储并行系统,具备基于自主研制的蛀洞路由芯片的通信网络,配套开发并行操作系统、编译器、调试器、自动并行化工具等一整套系统软件与高效运行环境。这包括多方面的挑战,这不仅依赖技术路线的制定,更需要研发队伍的工程攻关能力。当时国内还不具备制造大规模并行计算机的全部条件,CPU是引进英特尔的,关键的通信芯片则必须自研。我们只能从哈佛大学的一篇公开论文中了解蛀洞路由机制,真正芯片如何实现,并无详细资料可查,完全要靠自己摸索。
当时的蛀洞路由芯片研发任务主要由年轻的科研人员承担,其中曾嵘是一位很有才华的工程师,是高庆狮院士的研究生。他原本参与人工智能和围棋程序的研究,此次转向通信芯片开发,确实面临许多全新的挑战,条件很艰苦。我们从智能中心和中国科学院计算所抽调了大批年轻博士和硕士,组成硬件和系统软件2个研制大组,之下又分成若干小组,每个小组负责一个板卡或一个子系统研制,在此基础上尽快建立原型试验系统。
我们做了一个3×3的小规模试验系统,它包括一个3×3的纵横交叉网络,每个交叉点上放一块自主设计的WRC 通信芯片,每台结点机通过通信芯片与通信网络相联,任意两台结点机可以通信。试验开始后,在大多数情况下结点机间能正常通信,但偶尔会出现故障,消息传输无法中止。这种不能稳定复现的问题最难调试解决,年轻的科研人员们连续排查了一个多月也未能查出原因,团队人员心情沉重,失去了信心。
作为整个系统研制工程的组织者和技术负责人,我通常只抓目标实现,对于具体的研制细节,我秉承“不代替、不干预”的原则。但在当时的情况下,我不能只当指挥员, 我要当战斗员,越是艰险越向前。我用一周时间观察和思考出现的问题,我注意到课题组在设计中采用了消息尾标记机制来结束一次信息传输,而不是传统DMA11,方式中通过传输长度归零来结束传输。如果尾标记丢失或识别失败,消息传输就会无法结束。我判断这是外购的外部处理器芯片不能正确处理消息尾标记所致。我把我的判断告诉课题组, 大家尝试通过放弃尾标记机制,改回DMA方式来验证判断,问题果然迎刃而解,系统研制也因此迈过了最关键的一道坎。
试验系统问题解决之后,同事们心情振奋,队伍空前团结,整个工程进展显著提速。硬件系统各部分很快就绪,由一个插件箱组成的曙光1000系统上线调试通过,系统软件也在半年内基本就绪。为了保障研制工程的质量和顺利推进,我们引入了严格的工程管理制度,建立了开发、审查、批准三级责任制,通过会议系统总结问题教训,进一步增强了团队协作。时任国务委员兼国家科委主任宋健同志来参观的那天上午,我们刚刚装好一个插件箱,系统成功运行,下午又装好另一个插件箱,全机系统运行起来了,标志着整个工程的重要突破。
在老中青三结合的研制队伍中,年轻人拥有活跃的思维和良好的编程能力,但工程经验不足,在面对不确定性和系统性问题时难以应对。因此,我在管理上坚持放手让他们多思考、多尝试,让他们试错, 必要时给予关键性引导。我的体会是:要把重大项目作为人才培养的大课堂,一方面通过实际任务让年轻人边做边学;另一方面在关键节点给予点拨和方向性的指导,帮助他们建立系统观念和提高解决复杂问题的能力。在这样反复实践与启发中,他们不仅能掌握前沿技术,更能快速成长为独当一面的骨干。
团队中有不少人后来在各自领域发展成非常出色的专家和技术带头人,其中曾嵘在蛀洞通信机制芯片设计方面做出了重要贡献,后来出国深造。这些都是当时那段共同奋斗中积累下来的成果,也体现了项目攻关与人才培养的深度融合。回顾来看,曙光1000的成功不仅是一台计算机系统的诞生,更是一次工程组织方式、科研体制机制和人才成长模式的成功实践。
问
作为国内最早从科研院所转型至产业界的科学家之一,您是在2001年带领团队加入联想。您当时做出这样的决定,是基于什么样的考虑?这一转型对您的科研工作和事业发展产生了哪些影响?
祝明发:还是要从曙光1000的研制成功说起,那不仅是中国科学院计算所第一个获得国家科学技术进步奖一等奖的项目,也是我科研生涯中的一个重要转折点。曙光1000研制成功后,我意识到,科研院所研发出成果来,仅仅是第一步;要让高性能计算机真正发挥作用还需要把技术成果产业化,产生实际的应用价值。在探索曙光1000产业化的过程中,我看到了巨大的潜力,也意识到要真正形成产业,仅仅靠科研院所的体制非常困难,必须依托有市场能力的大公司。当时恰逢联想提出“高科技的联想、服务的联想、国际化的联想”,对技术非常重视。我和团队的几个骨干与原中国科学院计算所所长、时任联想董事长曾茂朝沟通,最终决定加入联想,以技术为基础、以产业化为目标,组建了一支高性能计算机业务团队。
在联想的第一战就是参与中国科学院数学所的高性能计算机项目投标。我们提出在不增加预算的前提下,将计算机系统规模扩大一倍。最终,联想战胜包括国际商用机器(IBM)公司在内的国内外公司中标。我们维持了客户的报价,但实际使用了近两倍的研发成本,技术指标超过标书要求的一倍。 这台机器是中国第一台每秒一万亿次的计算机联想深腾1800,也是世界上第一套万亿次机群系统, 在世界范围内引起广泛关注。2002年8月初,世界著名计算中心美国劳伦斯·利弗莫尔计算中心主任大卫·凯耶斯(David Keyes)和消息传递接口(message passing interface, MPI)1,的发明人比尔·格罗普(Bill Gropp)特地来到北京上地联想公司考察。他们难掩兴奋之情,参观后凯耶斯写道:“We see the future of cluster computing”(我们看到了机群计算的未来)。这个留言也是预言,几年后预言成真,机群成为世界高端计算机的主流。这个留言也准确地预言了深腾1800的历史地位。
这次转型之所以成功,一方面是我们有明确的眼光和判断,能够在科研与市场之间找到契合点;另一方面,是因为我们有一支值得信赖、愿意全心投入的团队。我们坚持“高举高打”,把产品做成标杆来建立市场信任,而不是靠广告宣传去推销产品。
问
联想的高性能计算机在TOP5003,占比自2018年以来连续位居世界第一,是很过硬的历史成就,是国家自身科技的长足进步,也是中国对世界的贡献,这些离不开您的卓越领导以及团队的长期积累,能否请您揭示或总结一下成绩背后的原因?
祝明发:第一,我们团队进入联想的初衷就是为了推动高性能计算的产业化。这背后最根本的原因是我们始终坚持技术落地和成果转化的理念。在当时研究所的体制下,很难将科研成果真正转化为市场上的系列化产品,很多项目完成交付就算结束,无法形成持续的工程积累和产业规模。而联想具备将科研成果推向真正产业化的土壤和资源。从曙光一号开始,到曙光1000、曙光1000A,再到后来的曙光天潮系列,我们逐步摸索出了国产高性能计算机从研制向产业转型的技术路线和组织模式。这些经验成为我们在联想开展技术创新和产业化落地的基础,也让团队形成了共同的技术理念和成功信心。在联想的平台上,我们把项目成果变成了可持续交付的产品,这点至关重要。
第二,是主动寻找和把握契机。刚才讲的中国科学院数学所采购机群架构的超级计算机,参与投标的有多家有实力的单位,像惠普(HP)公司、IBM公司、SUN公司和国内的顶尖公司,报价都比较高。我们提出以不变的预算,做出性能加倍的系统,目标是达到每秒一万亿次的水平。他们之所以相信我们,是因为我们是中国科学院计算所和曙光1000的原班人马,有长期的技术积累,也有成功交付的记录。为了实现这一目标,联想还自筹了部分经费,并在半年内如期交付系统,不仅性能达到预期,还获得了国家科学技术进步奖二等奖。这个项目完全是市场驱动,没有花国家一分钱,这是新机制的成功,说明高性能计算机在中国是可以真正做成产业的。
第三,我们从一开始就主张“高举高打”,树立标杆。高性能计算这个行业,打广告没什么用,真正有用的是能做出具有代表性的产品和工程。我们不是坐办公室等客户,而是技术专家带着销售人员去用户单位讲解怎么使用,帮他们把系统用起来。后来像大庆油田的项目也是这样,我们在和国际大公司的竞争中中标,靠的是对技术的深刻理解和系统解决方案的可靠性。这样的能力是在长期工程经验与应用实践中积累出来的。
到2003年,联想4台高性能计算机进入世界TOP500榜单,带动了国内许多研究所和应用单位的采购,推动国产高性能计算进入良性发展轨道,联想高性能计算的品牌就这样一步步树立起来。从2018年开始,联想深腾系列超级计算机长期占据世界超级计算机TOP500份额第一位。这些成绩,既是国家科技进步的缩影,也是中国为世界计算能力发展作出的重要贡献。这背后最核心的,是我们坚持以技术为基础,以及长期积累的一支可靠、有战斗力的队伍。没有团队,就没有持续地领先。这是我个人深切的体会。
问
当前,人工智能是科研院所与科技公司合作最为紧密的领域之一。两者在共同愿景的推动下,有着各自的优势:科研院所拥有扎实的理论基础和丰富的人才储备,而科技公司则具备强大的计算能力和广泛的应用场景。基于这一现状,您认为今天科研院所与科技公司应如何深化合作以推动AI的发展?
祝明发:今天的人工智能热潮,其实正处在一个关键的转折点上。过去几年,国内有关大语言模型的学术交流会议相当多,DeepSeek突破出现后,这些交流反倒冷下来了。这是一个好事,国内企业首先取得了突破,走到前面去了,国内科研院所和大学应在新一轮技术变革中找到更合适的自身定位。以前更多是跟着美国公司走,有用的创新其实不那么多;而真正有用的创新,一定是要自己开路的。
DeepSeek的成功,并不是偶然。它背后有北大、清华等高校长期积累的研究成果,尤其是北大计算语言学研究所的人才贡献很大。这些人继承了老一辈扎实的基础研究传统,比如马希文那样的数学天才,尽管没留下像王选的中文激光照排那样的工程性成果,但他们打下了底层理论的根基。
所以说,高校和科研院所的根本使命,还是要回到原创性基础研究上来,以基础研究成果引领企业,不能一味跟着企业跑。科技进步不能光靠发表论文,必须有几项基础研究成果是“别人要跟着我们走”的。只有这样,才能跳出一波又一波的“技术泡沫”:从网格计算到云计算、大数据、再到AI,每一波浪潮,如果没有转化成生产力,最终都会破掉。技术的发展是不断地波浪式演进的,有泡沫,也不全是泡沫,是一个扬弃的过程。
问
人工智能及计算机领域的年轻科研人员在选择职业发展路径时,如何在科研院所与科技公司之间做出抉择?您如何看待发表论文与产业化之间的关系?
祝明发:年轻人选择职业路径,其实最核心的问题是:你研究的东西到底有没有意义,是真正开创性地面向未来的问题,还是只是顺着别人走、甚至重复别人做过的事?
20世纪80年代中期,我在国外参与过智能驾驶的研究,当时搞的是计算机视觉,但直到今天,智能驾驶还是面临这方面的安全问题,这是人工智能碰到现实应用时最关键的难点。应用导向的AI会被边界条件限制,而科研导向的AI则要追求底层原理的突破。这就决定了你选择在哪个平台发展,要看你更倾向哪条路径。
在科研院所待下去,优势在于更有可能接触基础、长期的东西,但也意味着不能指望快速得到市场反馈。而如果研究的方向本身就不贴近应用,又只是在已有框架上做改进,那么发表论文可能也只是短期内的成果积累,而难以形成真正影响。公司则更适合将自己所学的东西应用落地。不论在哪儿,真正有价值的工作,最终都能被认可。
发表论文只是手段,目的是实现产业化,形成生产力。有价值的论文分2种,一是论文提供了能用于或指导产业界的有真知灼见的看法,二是论文提供了短期或中长期能被用于产业界的关键技术。
问
您取得了非凡的专业成就,同时和蔼可亲,具有很高的人格魅力,受到师生和同事的广泛爱戴,您在领导团队和为人处世方面,对年轻一代计算机科技工作者有什么建议?
祝明发:我认为在科研工作中一项成果的诞生,既依赖技术积累,也深受团队氛围和工作方式的影响。在领导团队方面,我最看重的是如何在一个长期复杂的系统工程中建立起信任和协作。以曙光1000为例,当时团队以年轻人为主,虽然有专业知识,但在项目初期因工程经验不足,对流程、规范和调度不够适应,团队协作的意识也有待提升。
我们后来采取了一系列管理措施,包括制定统一的技术规范、明确责任分工、引入经验丰富的老同志传帮带,并通过建立例会机制和进度跟踪体系,把大家逐渐拧成了一股绳。我个人的做法是,在日常工作中充分放手、鼓励年轻人探索和尝试,但在关键时刻必须站出来承担责任、解决问题。比如通信芯片测试过程中出现“软故障”,项目陷入停滞,我连续几天在现场观察调试,最终提出解决方案并实施验证,问题得到解决,团队也由此重新凝聚起信心,既得到员工的信任,管理工作也好做了。作为管理者,不能同下属争功,但要能在危难之处显身手,越是艰险越向前。
科研从来不是一场短跑,它更像是一段长期磨合的过程。面对复杂任务时要沉得住气,面对团队分歧时要稳得住心,面对年轻人的成长节奏也要放得下手。希望今天的年轻科技工作者,既要努力钻研技术,也要注重在团队中锤炼协调能力、增强团队意识,把科研当作一份可以持续投入、值得一生做下去的事业。
问
您日常如何锻炼身体、劳逸结合?
祝明发:退休前基本没有太多的时间锻炼,以前在公司的时候工作压力比较大,同时还在中国科学院研究生院承担教学工作,只有礼拜天偶尔出去走走。退休后会时常在天气好的时候出去散步。我会开车,但没有买车,上下班乘坐公共交通或骑自行车。我习惯在车上思考问题,如果开车就不能深入思考了,否则要出事故。有很多关键问题就是在公交车或地铁上想通的,并不受环境嘈杂影响。
问
听了您的分享,很受教育,今天中国辉煌的高性能计算事业不是凭空产生的,离不开像您这样的科学家数十年如一日的专注,筚路蓝缕地开拓,精准独到的眼光,对核心技术转化为生产力的追求。年轻一代要虚心向您这样的老一辈科学家学习。
祝明发:年轻一代大有可为。
脚注
1 DMA是一种允许外围设备(如磁盘驱动器或网卡)直接与系统内存进行数据交换的技术,而无需通过CPU的直接干预。DMA的主要目的是减轻CPU在数据传输过程中的负担,从而提高系统的整体效率和性能。
2 MPI是一种用于多个处理器之间通信的协议和接口标准,主要用于并行计算环境中。MPI定义了一组可移植的消息传递标准,使得开发者可以编写能在多种平台上运行的并行程序,这些平台包括从多核个人计算机到大型超级计算机等。
3 世界最快的前500台计算机排行榜,每半年更新并发布一次。
本文发表在《计算》第5期
刘宇航
CCF高级会员,《计算》编委。中国科学院计算技术研究所副研究员。主要研究方向为计算机体系结构、高性能计算、存储系统、智能并发系统。liuyuhang@ict.ac.cn
孙奕帆
CCF专业会员,CCCF前编委。百度资深研究员。主要研究方向为计算机视觉、光电成像系统。sunyf15@tsinghua.org.cn
来源:CCFvoice