摘要:它不再依赖学术试题,而是直接取材于每年创造约3万亿美元经济价值的真实工作任务,从撰写法律意见书到设计工程图纸,覆盖44种职业。
9月27日OpenAI推出了一套名为GDPval的新型评估体系。
它不再依赖学术试题,而是直接取材于每年创造约3万亿美元经济价值的真实工作任务,从撰写法律意见书到设计工程图纸,覆盖44种职业。
AI究竟能在多大程度上,像一位真正的行业专家一样工作?
初步结果显示,顶尖模型在一部分任务上的表现已逼近人类专家水平,而其成本与速度却呈现出数量级的优势。
在当今这个科技日新月异的时代,AI 已然成为了最热门的话题之一,一步步将我们带入了一个充满未知与可能的智能时代。
曾经,AGI 作为人工智能领域的璀璨之星,承载着人们对智能机器的诸多美好憧憬各界都对其发展拭目以待,相关讨论也是热火朝天。
然而,时光流转,科技的车轮滚滚向前,AI 领域的发展方向出现了新的变化。
AGI 竟已渐渐淡出人们关注的焦点,取而代之的是一个全新的概念,ASI吸引了整个行业的目光。
在这样的大背景下,OpenAI 作为行业内的中流砥柱,一举一动都备受瞩目。
其首席科学家所透露的研究路线图,将重点聚焦于推理这一方向,并且雄心勃勃地计划在未来五年打造自动化研究人员。
让 AI 具备自动发现新想法、自主开展机器学习研究等一系列令人惊叹的能力,这无疑预示着 AI 即将踏上一段更为波澜壮阔的发展征程。
可是,我们该如何去清晰且准确地知晓 AI 这些能力到底发展到了何种地步?
毕竟在以往,大模型的评估大多局限在学术测试或者编程挑战这类相对单一的维度上。
虽说这些评估方式在一定程度上确实推动了模型推理能力的进步,但它们和现实世界中复杂多样、千变万化的工作场景之间隔着一道难以逾越的鸿沟。
就好比在实验室里培育出的奇花异草,放到大自然中却不一定能茁壮成长一样。
那些在学术测试里表现优异的大模型,一旦应用到实际的工作当中,到底能不能发挥出应有的作用,又能发挥多大的作用?
这一系列的疑问,促使 OpenAI 下定决心要打破常规,另辟蹊径,着手去开发一套全新的、更贴合实际且更具经济意义的评估方法。
而 GDPval 评估体系就这样在 AI 发展的浪潮中应运而生了,承载着为人们照亮 AI 真实价值与能力的重要使命,成为了当下 AI 发展之路上不可或缺的关键环节。
GDPval 评估体系有着令人惊叹的丰富内容与严谨架构。
它所覆盖的范围极为广泛,足足涉及 9 大行业,涵盖了 44 种不同的职业,将众多与人们生活和经济息息相关的领域都囊括其中。
而这背后所关联的经济价值更是不容小觑,每年高达 3 万亿美元。
这一庞大的数字足以彰显其在现实世界中的分量,也意味着它所评估的对象是实实在在影响着经济发展的关键所在。
整个任务集里,有着 1320 个高度专业化的任务,它们可不是随意拼凑而成的。
其中,还有 220 个金标任务子集,并且这部分已经大方地开源了,这无疑为众多研究者和开发者们打开了一扇深入了解。
这些任务的来源,皆来自于真实的工作产出,它们带着浓厚的现实生活气息。
无论是严谨的法律意见书,还是充满创意与技术含量的工程图纸,亦或是日常的客服对话记录,以及关乎人们健康的护理计划等等。
每一个任务都仿佛是从真实的工作场景中直接 “摘取” 而来,它们就像是一面镜子,真实地反映着现实世界中不同工作所面临的各种情况和要求。
为了确保这些任务的质量和有效性,每一项任务都要经历多轮严格的审核流程。
必须要高度贴近实际工作场景,这意味着它不能是脱离实际的空中楼阁,而是要实实在在地与现实中的工作内容、流程相契合,让模型在评估时能够真正模拟实际操作。
要可由同领域的专业人士独立完成,这保证了任务的专业性和权威性,毕竟只有专业的人才能评判出在专业领域里的优劣。
最后,还要有着明确的评估标准,能够清晰地衡量出模型在各项任务中的表现到底如何。
每项任务平均要经历 5 轮专家评审,参与评审的团队也是阵容强大,汇聚了其他任务撰写者、独立职业评审专家等各路专业人士,他们还会辅以模型可行性与清晰度校验,不放过任何一个可能影响评估准确性的细节。
与传统的评估方式相比,GDPval 的独特之处更是展露无遗。
它跳出了以往简单的文本提示任务的局限,它要求模型不仅仅是对简单的文字提示做出回应,而是要能够处理完整的参考材料以及工作背景。
而且,它的输出形式也极为丰富多样,不再仅仅局限于单调的文字。
而是拓展到了文档、PPT、图表、电子表格,甚至多媒体内容等多个维度,这使得模型的表现能够更加立体、全方位地呈现出来,更贴合现实工作中多样化的成果形式。
尽管目前它还存在一定的局限性,尚未能完全覆盖现实知识工作中任务的复杂性。
在 GDPval 这一严苛又极具现实意义的评估体系的 “审视” 之下,各大主流模型如同舞台上的选手,纷纷亮出了自己的看家本领,展现出了精彩纷呈的表现。
像 Claude Opus 4.1、GPT-5 等这些备受瞩目的模型,在不同维度上各显神通,为我们带来了诸多惊喜。
Claude Opus 4.1 在美学表现方面有着令人赞叹的造诣,当涉及文档排版、PPT 布局等任务时,它总能巧妙构思,将页面打造得赏心悦目,色彩搭配和谐,元素布局合理。
仿佛赋予了这些冰冷的文档和 PPT 以独特的艺术灵魂,每一处细节都彰显着它在审美上的独特 “天赋”。
而 GPT-5 在准确性上有着卓越的表现,尤其擅长精准地定位专业知识点。
面对复杂的知识问答或是需要严谨逻辑推理的任务,它总能凭借自身强大的 “知识捕捉” 能力。
快速且准确地给出答案,展现出深厚的知识底蕴,让人不得不佩服它在信息处理方面的强大实力。
从 GPT-4o 到 GPT-5 的演进过程中,其在 GDPval 任务上的平均表现近乎翻倍。
这清晰的线性让我们直观地感受到了 AI 发展那势不可挡的迅猛速度。而且,这些顶尖模型在完成 GDPval 任务时,和人类相比,在速度和成本方面有着巨大的优势。
平均仅是人类的 1%,意味着它们能以约快 100 倍的速度、便宜 100 倍的成本来完成任务,这一数据着实令人咋舌。
不过,这仅仅统计了模型推理时间与 API 调用成本,尚未涵盖人类监督、迭代修改以及实际集成等现实工作流程所需投入的资源。
若进一步深入不同场景的测试中,比如算法任务、Web 开发、视觉推理等,GPT-5 和 Claude Opus 4.1 更是展现出了差异化的表现。
在前端页面设计任务里,GPT-5 虽然能实现功能的完整搭建,但在视觉效果上与原设计往往存在较大偏差。
而 Claude Opus 4.1 却能近乎完美地还原设计,让页面呈现出与预期高度一致的视觉美感。
在算法题测试环节,GPT-5 能够迅速给出答案,可 Claude Opus 4.1 的回答则更加详细,不仅包含完整的思考过程,还会附上测试用例,让人能更清晰地理解解题思路。
随着 AI 凭借在处理重复性强、结构清晰的任务时展现出远超人类专家的效率,劳动力市场正悄然发生着结构性的变化。
就拿那些自由接单做 PPT 的设计师来说,由于 AI 的介入,市场上的单价开始出现下降趋势。
然而,这一评估体系也并非毫无争议,它目前只针对美国的 44 种职业进行测试,并且任务设定为一次性交稿,没有给修改完善的机会。
这与真实职场中充满沟通、反复修改的复杂情况有着不小的差距。
如此一来,外界难免对其评估结果能否真实、全面地反映 AI 在复杂工作场景中的实际能力产生质疑,仿佛它是一把不够精准的尺子,在衡量 AI 价值时存在一定的偏差。
尽管存在着这些争议点,但我们也不能忽视它给行业发展带来的积极推动作用。
众多企业也从中受到启发,开始思考如何巧妙地利用 AI 来提升自身竞争力。
例如微软积极将 Claude 塞进 PowerPoint Designer,不断探索 AI 在不同应用场景中的最佳使用方式,试图挖掘出 AI 更多的潜在价值。
在 AI 发展的漫漫长路上,GDPval 评估体系宛如一座灯塔,照亮了我们认识 AI 价值与能力的方向。虽有争议,但它对行业影响深远,推动着模型优化与应用拓展。
从模型表现到市场变革,再到未来展望,我们看到 AI 的无限潜力与挑战。相信在不断完善中,AI 将更好服务人类,共同谱写科技与生活交融的精彩篇章。
来源:快看张同学一点号