摘要:OpenAI的首席科学家JakubPachocki和首席研究官MarkChen,最近在a16Z的播客里透了个大消息,他们想在后GPT-5时代搞出“自动化研究员”AI,就是能自己发现新知识、推进科学的那种。
OpenAI的首席科学家JakubPachocki和首席研究官MarkChen,最近在a16Z的播客里透了个大消息,他们想在后GPT-5时代搞出“自动化研究员”AI,就是能自己发现新知识、推进科学的那种。
还聊了GPT-5是咋设计的,以及以后咋实现这个大目标。
在GPT-5出来前,OpenAI其实有俩模型路线。
一个是大家熟的GPT系列,从2到4,特点是快,问啥能马上给答案,另一个是o系列推理模型,得慢慢琢磨,才能出高质量结果。
这就给用户出了难题,到底该用哪个?选不对还影响效果。
MarkChen说,他们就是不想让用户遭这罪。
团队做了好多研究,就想弄明白“面对一个问题,AI该想多久才够”。
最后把这俩模型的优点揉进了GPT-5,现在用它不用选模式,默认就能深度思考,有点像给AI加了“自动思考”功能。
老实讲,这步挺实在的,以前选模型跟纠结点外卖选套餐似的,现在省事儿多了。
但新问题又冒出来了,咋判断GPT-5好不好用?YakaPohotsky说,以前那些评估指标都快“饱和”了,比如把准确率从96%提到98%,看着是进步,其实没多大实际意义。
而且现在AI靠强化学习能在特定领域特别厉害,但这跟“啥都能干”的泛化能力不是一回事。
本来想觉得换个指标就行,后来发现他们想的更透,以后不看“分数”了,看AI能不能“发现新东西”。
Yaka举了个例子,比如AI在数学、编程竞赛里的表现,要是能解出没人解过的题,那才叫真本事。
这思路其实是给后面的“自动化研究员”铺路,毕竟搞研究核心就是发现新东西。
聊完GPT-5,俩人就说了五年内的核心目标,搞“自动化研究员”。
不是让AI帮着整理资料那种,是真能自己琢磨出新想法,还能推进数学、物理这些领域的研究。
咋判断这AI行不行?关键看“能想多久”。
现在AI在高中水平的竞赛里,能集中思考1到5小时,快赶上大师级了。
但搞研究可不止几小时的事,可能要几周、几个月。
所以他们接下来要让AI“记性更好、规划能力更强”,能长时间盯着一个问题琢磨。
可问题也来了,想的时间越长,出错的概率就越高。
Yaka说,这其实就是让AI“长时间保持逻辑一致”。
就像解复杂数学题,试一种方法错了,得知道错在哪,再换个思路。
MarkChen说,这跟人做研究一样,得在失败里调整,不能一条道走到黑。
更难的是,以后AI还要碰“没标准答案”的领域。
比如证明一个数学猜想,得先想“要不要找其他学科的知识帮忙”,这种开放性问题,连人都得琢磨半天。
所以“自动化研究员”不光要会解题,还得会“提对问题”,这可比写代码难多了。
想搞成“自动化研究员”,俩技术方向很关键。
一个是强化学习,另一个是编程工具。
Yaka说,强化学习以前总受“环境”限制,比如想让AI练某个技能,得先搭个模拟场景。
但现在有了大语言模型就不一样了,AI能理解人类语言,等于有了个贴近真实世界的“练习场”。
比如让AI读科研文献,读错了能收到反馈,慢慢就能越读越准。
还有就是刚发布的GPT-5Codex,专门帮着写代码的。
以前AI写代码可能只看对不对,现在还管“好不好用”,比如代码风格统一不统一,能不能应对复杂项目。
Yaka自己就是老程序员,他说现在用GPT-5Codex,15分钟就能把30个文件的代码重构好,换以前得熬半天。
除了技术,OpenAI的组织文化也很重要。
他们招人的时候,不看你在网上名气大不大,就看你有没有“解决难题的经历”。
比如有人以前是学物理的,没做过AI,但能搞定量子计算的难题,照样能进。
而且研究员不用被产品需求牵着走,有足够时间琢磨1到2年后的研究方向。
最后聊到“要是有更多资源,先投啥”,俩人都说是“算力”。
Jakub不认同“AI以后缺数据不缺算力”的说法,他觉得“能做多少事,全看有多少算力”。
MarkChen更直接,说“谁要是觉得算力够了,来我这待个周末就知道了,没人会说‘我算力够了’”。
说实话,这也能理解,搞AI前沿研究,算力就像燃油,没它跑不起来。
从现在年轻人靠AI“氛围编程”写代码,到以后AI自己“氛围研究”搞科研,OpenAI这目标确实不小。
虽然现在还有不少难题,比如AI长时间思考容易出错,还得会提问题,但要是真成了,以后搞科研可能都得换个思路。
毕竟让AI帮着找新发现,总比人单打独斗快多了。
来源:奇史怪谈