摘要:编辑| 郑玄没有刷不了的榜,只有还没 over-fitting 的数据集;没有搞不定的第一,只有还没加够 XX 领域,XX 尺寸,XX 语言的限定词。尽管自 2012 年深度学习复苏之日起,AI 打榜就成为了行业默认惯例,但历来如此,就是真的正确吗?去年 9
「第一」「最强」叙事,是对复杂场景的简单化。
作者 | Cynthia
编辑 | 郑玄没有刷不了的榜,只有还没 over-fitting 的数据集;没有搞不定的第一,只有还没加够 XX 领域,XX 尺寸,XX 语言的限定词。尽管自 2012 年深度学习复苏之日起,AI 打榜就成为了行业默认惯例,但历来如此,就是真的正确吗?去年 9 月,一篇 LLM 味爆棚的反讽文章,在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》,(别搞大模型了),你只需要在测试集上预训练就够了。01
最佳大模型的傲慢与偏见一定程度上,基准测试失真,于大模型而言,表面上看是标准问题,实际上是宣传问题,本质上则是如何落地的商业模式难题。Scaling law 的主导下,进入万亿参数时代的大模型强者恒强成为唯一的生存密码:根据公开信息披露,仅 GPT4 就有约 1.8 万亿参数,其训练过程,需要消耗约 2.15e25 FLOPS 算力,更直观来说,需要约 25,000 个 A100 GPU,马力全开,训练足足 100 天。以云上每个 A100 GPU 每小时 1 美元来算,理想情况下,一次训练的成本就需要花费至少 6000 万美元。与此同时,头部大模型玩家,平均两个月左右,就会迎来一次技术或产品的迭代;而形成鲜明对比的是,国内的大模型六小龙,即使如今估值最高的智谱,算上最新一轮融资,其总融资额,也不过 55 亿。一边是不断膨胀的参数,不断增加的成本;一边是盲盒黑箱式的技术原理,与用户之间的不断加深的认知壁垒。如何在这场强者恒强的生存竞赛中证明自己的价值,打榜自然也就成了最直观的捷径。但这一切的前提是,大模型落地,真的存在所谓的最强大模型吗?答案或许是否定的。技术落地与研究不同,具体到场景之中,强如 Open AI、谷歌与 Anthropic 也不得不面临技术、时延和成本之间的不可能三角。因此面对不同需求,往往对应着不同的最优解法:其中 Anthropic 的 Claude 分为增强版 Sonnet 与轻量版 Haiku;GPT 4o 分为标准版与 mini 版;谷歌 Gemini 则分为增强的 Pro 版与尝鲜的 Flash 版。而一个违背直觉的数据是,各大模型的增强版与 mini 版,在实际部署中,往往是拥有更低时延与低成本优势的 mini 版本,会更受欢迎。02
Choice is All You Need「最强」=无敌,只是技术至上者的傲慢,以及对用户真实需求的偏见,这一点已经在无数行业中被反复证实。二十一世纪初期,许多经济学家、产业学家,在观察了日本一众历史优势产业的发展之后都发现了一个怪状:无论电视机,亦或半导体,乃至汽车,日本无疑是「最强」叙事的顶级推崇者,以及最佳实践案例,但最终的解决却无一例外,集体走向没落。比如,日本的电视,在显像管时期做到画质最高,却在短短几年被更轻薄的液晶打败;日本面向大型机时代研发的存储芯片,一度做到保质期 30 年,却在消费电子浪潮中被韩国三星质量参差不齐的低价「次品」打败;日本的汽车,在燃油车时代无疑是最耐用、最保值的代名词,甚至是新能源时代,也一步到位发展了最清洁的氢能源燃料电池,却唯独错过了近十年来最大的汽车产业变革热潮——电动化。为什么「强者」最先被淘汰?生物学家给出了解答——日本产业,陷入了加拉帕戈斯陷阱,一个在如加拉帕戈斯群岛般单一的环境中进化出的「最佳」,往往在面对复杂的真实场景与需求会显得格格不入,乃至不堪一击。相比「最佳」,行业更需要的是,需求被看见,过程有的选,结果更适合。就像数据库领域,即使传统的 SQL 数据库已经常年占据统治地位,依然会有各种各样的 noSQL 数据库冒出,甚至在 noSQL 数据库还会区分出图数据库、文档数据库等不同类型。AI 框架,也是个最好的例子,TensorFlow 之前,cafe 就足以满足市场的需求,但此后 TensorFlow 出现,一统天下,然而,没几年后,PyTorch 就横空出现,从学术领域出发逆袭,成为一代新的框架之王,但与此同时,TensorFlow 以及其他小众 AI 框架,依旧在工业领域占据相当的市场份额。套用大模型 er 们的经典句式——Choice is All You Need。亚马逊 CEO Andy Jassy 在不久前的举办的一年一度的云服务 re:Invent 大会上,就分享了这样一个观察:03
亚马逊云科技的 Choice matters事实上,让客户有的选,是各大公有云厂商都在宣传的口号。但何谓有的选,选择的范围如何,背后的定义却往往各有千秋。亚马逊云科技无疑是其中,最开放、最激进的一个。在亚马逊云科技,有的选,可以被解读出三重含义。第一重,性能还是成本,用户有的选。re:Invent 期间,亚马逊云科技推出全新发布的自研 Nova 基础模型,一共包括 Micro、Lite、Pro、Premier 四个版本。其中,可以做到 210 tokens/s 的 Amazon Nova Micro 是纯文本模型,主打高效级;其余三大多模态大模型中,Lite 主打轻量级,Pro 主打平衡,旗舰模型 Amazon Nova Premier,则主要用于应对复杂任务。04
尾声在经济学中,有一个有趣的悖论叫古德哈特定律。其提出背景是,一旦我们过度关注乃至管理一个经济指标时,往往会为了达成这一指标而扭曲真实目的,以至于牺牲其他方面的利益,以至于指标本身失效。AI 领域同理,当参数与性能变成唯一指标,其强大的扭曲力场会让真实的用户需求被忽略。尽管,用 AI 替代客服所以更关注成本,用 AI 帮助手残画出想要的画面所以更关注多模态能力,用 AI 帮助企业完成质检优化所以更关注效率这样无数的细小变革,才是 AI 改变世界的真正组成。而在这一过程中,用户的真实需求被看见,被尊重,有选择,正是一切进步发生的基础。*头图来源:视觉中国本文为极客公园原创文章,转载请联系极客君微信 geekparkGO极客一问大模型跑分会成为一门生意吗?来源:极客公园
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!