摘要:神经网络的概念,是上世纪40年代后期提出的(提出人不是辛顿)。当时的想法是,既然人类通过神经网络进行思考,那么只要让机器模拟神经网络,机器就能思考了。
上周的《李飞飞自传》读后感[1],还有后续。
那篇文章的结尾是,2012年一支加拿大团队使用神经网络算法,夺得了 ImageNet 比赛冠军。
今天就来说说,这支加拿大团队的故事。
大家看了就知道了,神经网络算法是怎么诞生的,背后的推手又是谁。
(1)杰弗里·辛顿(Geoffrey Hinton,1947-)
辛顿出生于英国,后移居加拿大。他是神经网络算法的奠基人和主要发明者。
神经网络的概念,是上世纪40年代后期提出的(提出人不是辛顿)。当时的想法是,既然人类通过神经网络进行思考,那么只要让机器模拟神经网络,机器就能思考了。
但是,那只是一个概念,并没有具体的算法。机器怎么模拟思考,人们并不知道。
1984年,辛顿在加州大学担任博士后,与两个同事一起提出了反向传播算法。
这个算法可以建立多层网络,产生一个输出结果,让神经网络变成了现实,也是后来更高级算法的基础。
由于它需要多层计算,后一层在前一层的结果上学习,所以被称为“深度学习”,辛顿因此成为“深度学习之父”。
辛顿后来因为这个贡献,获得了图灵奖(2018年)和诺贝尔物理学奖(2024年)。
(2)杨立昆(1960-)
杨·安德烈·勒坎(Yann André Le Cun,中文名杨立昆)是法国人。上个世纪80年代,他是多伦多大学博士后。
这一时期,辛顿也来到了多伦多大学任教,担任他的指导教师。
所以,杨立昆是辛顿的大弟子,继承和发展了辛顿的算法。他的主要成就是,为神经网络引入了卷积算法,并且做出了第一个有实际用途的神经网络。
1990年代,他用神经网络识别银行支票的手写数字,成功获得了企业的采用。
但是,这个应用也暴露了卷积神经网络的弱点:它需要大量样本的训练,耗费巨大的算力。银行支票只需要识别10个阿拉伯数字,如果是更多样化的场景,当时的计算能力难以做到。
学术界因此认为,卷积神经网络只适用特定的、计算量较小的场景,不具备推广的价值。这导致这种算法,以及辛顿和杨立昆,被冷落了二十年。
这二十年,杨立昆一直混迹于企业实验室和大学教研室。等到世界重新认识卷积神经网络,他在2018年与辛顿一起获得了图灵奖,现在是 Meta 公司的副总裁和 AI 首席科学家。
(3)亚历克斯·克里泽夫斯基(Alex Krizhevsky,1986-)
亚历克斯·克里泽夫斯基是乌克兰人,少年时随家人移民到加拿大。2007年,他进入多伦多大学,成为辛顿的博士生。
这时距离杨立昆提出卷积神经网络,已经过去快20年了。辛顿始终没忘记它,他鼓励亚历克斯和稍后要提到的伊尔亚·苏茨克维,使用这种算法,去挑战李飞飞的 ImageNet。
亚历克斯就写了一个程序,用 ImageNet 的1500万图片,来训练他的卷积神经网络。但是,计算量太大了,他的个人计算机根本跑不动,他就买了两块 Nvidia 显卡,每天24小时一刻不停地运算。
事实证明,卷积神经网络+大训练集+高速计算硬件,超过了其他一切已知的算法。最终,他们的三人团队以巨大优势,夺得了2012年第三届 ImageNet 算法比赛冠军。
这件事轰动了业界,各大互联网公司纷纷邀请辛顿和他的学生加入。百度也伸出橄榄枝,邀请辛顿担任首席科学家,但是最后输给了谷歌。
2013年,谷歌以4400万美元收购了辛顿成立的空壳公司,将辛顿、亚历克斯、伊尔亚三个人一起招入麾下。
2017年,亚历克斯辞职,现在一家创业公司研究 AI 技术。
(4)伊尔亚·苏茨克维(Ilya Sutskever, 1986-)
伊尔亚·苏茨克维出生于前苏联,后去了以色列,然后来到加拿大。他是亚历克斯·克里泽夫斯基在多伦多大学的博士同学,也是辛顿的博士生。
他与亚历克斯组成团队,共同赢得了2012年的 ImageNet 算法比赛。辛顿作为指导老师,也是团队一员。
他在2013年跟随辛顿加入谷歌,2015年辞职,成为 OpenAI 的联合创始人和首席科学家,后来是 ChatGPT 的主要作者之一。2024年,他离开 OpenAI,现在创立了自己的 AI 公司。
(5)安德烈·卡帕斯(Andrej Karpathy,1986-)
安德烈·卡帕斯出生于斯洛伐克,15岁随家人来到加拿大,在多伦多大学读完了本科。
他跟伊尔亚·苏茨克维很可能大学里就认识。但是,他没在多伦多大学读博士,而是去了斯坦福大学,指导老师就是李飞飞。
他的方向也是卷积神经网络,博士期间开设了斯坦福大学第一门深度学习课程,担任主讲。
2015年,他跟随伊尔亚一起加入 OpenAI,成为主要研究人员。
2017年,他离开 OpenAI,去了特斯拉,担任特斯拉 AI 总监,2022年离职。
(6) 总结
上面五人是神经网络算法的主要创立者和推动者。没有他们,就不会有今天的 AI 大模型。
但是,单单靠他们的算法,AI 不会成功。因为算法需要大量的数据进行训练,而训练需要高速计算的硬件。这三者缺一不可。
只有等到2012年,才万事俱备。神经网络算法 + 李飞飞的 ImageNet 训练集 + Nvidia 高速显卡,同时出现了。
历史于是翻开了新的一页,AI 时代正式来临。
来源:ruanyf