摘要:据了解,小米在成立大模型团队时就已经有了6500张GPU,而只有拥有1万张卡级别的GPU的集群,才能训练复杂的大模型,这需要百亿规模的投入,即使对任何一家大型企业,都需要很大的决心。
海闻社讯 雷总不是说小米汽车是他最后一个创业项目吗?
12月26日,据报道,小米正着手搭建自己的GPU万卡集群,将对AI大模型大力投入。
“在AI硬件这件事情上,最核心的是手机而不是眼镜,小米在这个领域不‘all in’是不可能的。”小米董事长雷军如此表述他的想法。
据了解,小米在成立大模型团队时就已经有了6500张GPU,而只有拥有1万张卡级别的GPU的集群,才能训练复杂的大模型,这需要百亿规模的投入,即使对任何一家大型企业,都需要很大的决心。
那么问题来了,大模型是什么?GPU又是什么?
大模型,准确来说,是大型语言模型,指在大量数据上训练的高级人工智能算法。
说人话就是,给AI灌输大量的人的数据,教会AI像人一样思考。
AI不再是“人工智障”,而是人工智能,就是靠大模型在支撑。
经过过去一年的集体冲刺,国内的大模型格局基本稳定下来。
大厂们集体依靠充足的资金优势和技术能力加深布局,最早布局大模型的百度,目前大模型产品文心一言的用户规模已达到4.3亿。稍晚入局的腾讯和字节,也相继推出大模型应用元宝和豆包,依靠本来的用户基本盘,一下子带来大量的活跃用户。快手虽然在通用大模型上没有作出比较明显的优势,但其文生视频能力已经达到全球领先水平。
前排领先的创业公司也基本站稳了脚跟,在大量资本如饥似渴的投资下,AI“六小虎”,也就是智谱AI、月之暗面、MiniMax、百川智能、零一万物和阶跃星辰急速狂飙,估值已经均超过百亿,其他行业找不到的融资在这里几乎是过剩的。
而GPU,最早是用在个人电脑上的图形处理器,后来,通用GPU诞生后,统一渲染架构让其计算能力大大提升,也成为了当前训练大模型的主要工具之一。
假如大模型是金矿,GPU就是挖金矿的铲子,这也是为什么近两年“卖铲子”的英伟达在全球市场受到如此热切的追捧。
根据金融时代文章《Microsoft acquires twice as many Nvidia AI chips as tech rivals》,2024年微软大约购买了 48.5 万张GPU,字节跳动买了23万张,腾讯买了23万张。
搞量化基金的幻方,为了发展其deepmind模型,早在2019年,就开始囤GPU,到2021年已经拥有超1万张GPU,如今可能也是拥有比较多GPU的企业之一。
这么看来,小米其实入局算非常晚了,为了迎步赶超,小米也做了不少大动作。
比如幻方deepmind的参与者罗福莉,就得到了雷军的亲自“挖墙脚”,或供职于小米AI实验室,领导小米大模型团队,据了解薪资将超过千万元。
当前小米大模型团队的负责人栾剑,也是此前从微软挖来的,是微软小冰首席语音科学家及语音团队负责人。
雷军表示:“对于大模型,我们当然会全力以赴,坚决拥抱。我们正在研发一些有趣的技术和产品,等我们打磨好了,再给大家展示。”
他还称,小米大模型技术的主力突破方向为轻量化、本地部署。
也就是说,小米主要做端侧的针对化大模型,用于小米的家电、手机和汽车上。
基于该原则,小米的大模型团队研发了MiLM系列模型,并于今年11月升级至第二代——MiLM2,其中,模型参数最小为0.3B,最大为30B,多数在端侧部署,MiLM2-30B专为云端场景设计。
作为最新成果,小米已初步跑通手机端侧大模型(13亿参数级别),在部分场景效果接近云端60亿参数级别的大模型,将同步推送升级大模型版本的小爱同学。
在大模型领域,Scaling Law被普遍推崇。所谓Scaling Law,指的是随着参数规模、训练数据集及计算资源越多,大模型的性能将越好。
但随着规模发展到一定地步,高质量训练数据逐渐枯竭,大模型能力的进化速度与去年相比有所放缓,能力并没有十分明显的提升。这意味着,大模型赛道的领跑者们不得不放慢脚步甚至停下来等一等,这也给了赶超者更多的时间窗口,这也是为什么,小米在这时候宣布要加快投入AI。对此,你怎么看呢?你认为小米能像造车一样,在大模型领域后来者居上吗?
来源:海闻财经一点号