摘要:不到8000行代码就把ChatGPT的全流程给复现了,更绝的是,你只要有一台GPU,花大概4小时,成本百来块钱,就能拥有自己的“小ChatGPT”。
前特斯拉AI总监Karpathy最近整了个大活,直接开源了个叫nanochat的项目。
不到8000行代码就把ChatGPT的全流程给复现了,更绝的是,你只要有一台GPU,花大概4小时,成本百来块钱,就能拥有自己的“小ChatGPT”。
这项目刚上GitHub不到12小时,星标就冲了4.2k,还在不停涨,关键全是社区自来水推的,不得不说,Karpathy在AI圈的号召力是真没话说。
本来想觉得这热度可能是虚的,毕竟现在开源项目多了去了,但后来发现,这项目跟他之前搞的nanoGPT真不一样。
以前nanoGPT只覆盖预训练,想搞个能对话的模型,还得自己补后面的步骤。
这次nanochat直接把全流程包圆了,从数据准备、预训练,到中期的对话训练、多项选择题训练、工具使用训练,再到SFT、RL微调,最后连推理部署都包含了。
之前想自己搭个LLM框架,光找不同工具整合就得费半天劲,nanochat这么一弄,相当于把“半成品”直接做成了“即食餐”,对咱们这种非巨头团队或者个人开发者太友好了。
而且代码量控制得特别好,8000行看着多,其实每部分都很干净,想改改试试自己的想法也不费劲,启动的时候就跑一条脚本,4小时后就能在网页上跟自己训的模型聊天,这体验感直接拉满。
聊完项目本身,咱再说说大家最关心的成本和效果。
这项目最让人惊喜的就是成本控制,100美元左右就能起步,用的是8XH100的节点,训练4小时就能出来个能对话的模型,能写点小故事、小诗,回答些简单问题。
要是多花点时间,训12小时,效果还能超过GPT-2的核心指标。
之前听人说训LLM得花好几万,甚至几十万,nanochat这百来块的成本,简直把LLM的门槛拉到了普通人够得着的地方。
要是预算再往上提提,到1000美元左右,训练时间延长到41.6小时,模型就会更连贯,能解决简单的数学题、写点基础代码,甚至还能做多项选择题。
还有个数据特别直观,训练24小时的模型,算力差不多是GPT-3Small的125M参数水平,虽然只有GPT-3的1/1000,但在评测里表现不算差。
MMLU能到40分段,简单说就是能应付不少基础常识判断;ARC-Easy能到70分段,差不多接近小学生的推理水平;GSM8K能到20分段,简单的加减乘除问题能搞定。
可能有人觉得这成绩不算顶尖,但你得想啊,这可是百美元级成本训出来的,跟那些动辄上千万美元的大模型比,这个性价比已经很能打了。
Karpathy还放了示例对话和可视化的成绩单,里面把模型规模、训练耗时、评测性能都列得清清楚楚,没有藏着掖着,这种透明感也挺圈粉的。
而且这些示例对话还挺有意思的,能看出来模型虽然小,但已经有了对话的逻辑,不是那种只会说套话的“机器人”。
比如让它写个小故事,它能把情节串起来,虽然偶尔会有小漏洞,但作为“入门级”模型,已经超出预期了。
如此看来,nanochat其实不是要跟那些大模型抢市场,而是给普通人提供了一个“亲手实践”的机会,让大家能真实感受到LLM是怎么训出来的。
怎么一步步变好的,这种“可触摸”的体验,比光看论文要实在多了。
说到这,就不得不提Karpathy之前搞的nanoGPT了。
那时候nanoGPT更像个“教学工具”,主要教大家怎么从零实现Transformer,相当于“教你造大脑”。
而这次nanochat更像个“实战工具”,直接“教你造ChatGPT”,两者一结合,正好形成了从“基础原理”到“产品级应用”的闭环。
Karpathy最牛的不是他技术有多顶尖,而是他总能把复杂的技术“拆”成普通人能理解、能实践的样子。
之前他搞VibeCoding的时候,就经常直播编码讲LLM原理,几十万开发者跟着看,那种“边做边讲”的方式,比纯讲理论好懂多了。
这次nanochat其实也是这个思路的延续,他一直想降低LLM研究和复现的门槛,让每个人都能亲手训练自己的模型。
这种“民主化”的理念,在现在LLM技术大多被巨头掌握的情况下,显得特别有意义。
毕竟技术只有扩散开来,才能产生更多创新,要是只握在少数人手里,很多有意思的想法可能就没机会实现了。
Karpathy自己也说,希望nanochat能成为未来研究的基线,或者开源社区的实验平台。
之前nanoGPT就做到了,成了很多高校LLM课程的教学案例,还衍生出了好几十个微调版本。
nanochat以后大概率也能做到,说不定会有很多开发者用它来测试新的微调策略、新的数据处理方法,甚至针对某些垂直领域做优化。
比如有人可能会用它训个专门的“宠物知识助手”,有人可能会训个“小众爱好问答模型”,这些小而精的应用,其实正是大模型覆盖不到的地方。
nanochat不光是一个开源项目,更像是Karpathy给普通开发者递的一把“钥匙”。
以前锁着LLM技术的大门,现在普通人也能推开看看里面的结构,甚至自己动手改改。
这事儿可能不会立刻改变LLM行业的格局,但它会让更多人参与到LLM的探索里来,而这种“全民参与”的氛围,才是技术进步最需要的。
毕竟,谁也说不准,未来某个改变行业的想法,就来自某个用nanochat实践的普通人。
来源:律行僧
