摘要:每天,Bob编写的CUDA内核要在数十万张GPU上执行万亿次,精度要求极高、出错即重训。更令人震惊的是,这样一项“地狱级难度”的任务,居然由一个人独立完成。
在AI热潮席卷全球的当下,OpenAI内部一位代号为“Bob”的工程师,正悄然撑起了整个公司最关键的推理基础设施。
每天,Bob编写的CUDA内核要在数十万张GPU上执行万亿次,精度要求极高、出错即重训。更令人震惊的是,这样一项“地狱级难度”的任务,居然由一个人独立完成。
这只是个人英雄主义的炒作吗?
当我们深入了解前同事对他的评价、技术文献的蛛丝马迹、以及Meta对其身份的狂热追踪时,不得不承认,这位“GPU魔法师”正在撬动整个硅谷的神经。
至于Bob的真实身份,舆论普遍指向Scott Gray。
Scott是OpenAI早期成员,2016年加入,拥有物理与计算机双学位背景。他曾在2017年OpenAI官方博客上发表《Block-sparse GPU kernels》,这篇论文提出的稀疏矩阵计算方法,正是当前注意力机制高效实现的核心。而“Bob内核”的功能,正与这类优化高度吻合。
Scott曾在Reddit上的一段发言中,详细描述了自己为OpenAI开发并部署CUDA内核的全过程,包括FP16/FP32优化、对P100和P102 GPU的适配。这些内容细致到具体的实现策略和性能测试,显然不是外围开发者能够掌握的深度。
这些线索拼接起来,几乎可以确认:Scott Gray就是“Bob”本人。
据传,扎克伯格在得知此人存在后,反应异常激烈,甚至将“找到Bob”列为招聘会议的最优先事项之一。
过去一年,Meta已从OpenAI等实验室陆续吸纳了多位核心研究员,包括赵晟佳、Lucas Beyer与Alexander Kolesnikov等人。对于Meta这样的科技巨头来说,与其争显卡资源,不如直接争人。而能提升显卡效率、压榨出极致性能的CUDA工程师,才是最核心的“资产”。
据业内估计,全球能独立编写高性能训练用CUDA内核的人,不超过100个。
从Scott Gray身上,我们看到的是技术世界中一种被低估的力量。
他没有公开露面,也不参与商业谈判,却靠着一套内核代码,在AI训练成本、模型效率和算法安全性上,发挥了远超职级的影响力。他不是明星科学家,也不是创业CEO,但却成为了OpenAI继续保持领先的关键。
在显卡价格不断飙升、AI训练成本日益增加的今天,或许真正比GPU更稀缺的,是那些能把GPU性能发挥到极致的人。
来源:妇产科医生小永