成本不到50美元,李飞飞团队成功复制Deepseek,性能媲美顶级AI

B站影视 2025-02-08 12:40 2

摘要:1月27日,国产AI“Deepseek”登录美国地区应用商场,凭借着低成本和性能好的优势,成功的超越ChatGPT。

本文陈述所有内容皆有可靠信息来源,赘述在文章结尾

1月27日,国产AI“Deepseek”登录美国地区应用商场,凭借着低成本和性能好的优势,成功的超越ChatGPT。

图片来源于网络

这瞬间让美国美国政界和企业看不过去,对Deepseek提出了指控,美国总统特朗普还表示,DeepSeek的出现“给美国相关产业敲响了警钟”。

图片来源于网络

然而,就在DeepSeek火爆全球之际,李飞飞团队用不到50美元的费用成功“打造”出一款名为s1-32B的人工智能推理模型,性能媲美顶级AI。

李飞飞

这立刻在AI界掀起了一场飓风,那么,s1推理性的性能到底有多出色?成本真的只有50元吗?

这段时间AI圈子真是让人惊讶,之间就有DeepSeek的出现,直接轰动了科技界,要知道DeepSeek成立于2023年7月,至今也不过一年半的时间。

图片来源于网络

虽然成立时间比较短,但是能力却是非常强的,凭借着DeepSeek在全球掀起了广泛的关注,双双登顶苹果中、美应用商城免费APP下载排行榜榜首,成功的超越了行业的老大哥Chat GPT。

根据官方的数据得知,截止到1月25日,DeepSeek移动应用的下载量已经达到了160万次,在中国、新加坡、美国、英国、澳大利亚、加拿大国家的苹果应用商店都排名第一。

图片来源于网络

这让不少人都对DeepSeek产生了好奇,大家都想知道,它到底是如何做到的,然而,能够让DeepSeek成功的从众多的AI中脱颖而出,主要是它成本的下降。

毕竟在AI领域,高昂的训练成本一直都是遏制许多公司发展的瓶颈,可DeepSeek却像是一个不按常理出牌的“黑马”。

DeepSeek

通过算法优化和工程创新,以极低的成本就实现了与GPT4.0同样的推算能力,跟OpenAIo1对比下,大约是它运行成本的三十分之一。

这不禁让人想起了电商界的“拼多多”,也是用低价策略迅速崛起,打破了传统电商巨头的垄断格局,因此DeepSeek也被冠名为“AI界拼多多”。

DeepSeek

除了成本低之外,就连性能方面DeepSeek也有着优秀的表现,有网友表示,自己用DeepSeek写了一篇以祖母为原型的故事。

让人意外的是,在故事写完之后,DeepSeek还对其表示安慰,这让网友根本没有想到,直言:“没有想到,有一天我会为AI流泪。”

DeepSeek

然而,DeepSeek的优秀是几家欢喜几家愁,像美国政界和企业就对DeepSeek提出了多项指控,美国总统特朗普更是公开表示:DeepSeek的出现给“美国相关产业敲响了警钟”。

只能说DeepSeek的出现不仅重塑了大模型产业的格局,更是推动了相关产业发展的模式,给大家一个新的思路。

DeepSeek

可就在DeepSeek火爆全球的时候,一款更加低价成本的AI推理模型悄然登场!

有报道称一项来自斯坦福大学和华盛顿大学等机构的研究成果引起了市场的关注,李飞飞等研究人员以不到50美元的云计算费用成功的训练出了一个名为s1的AI推理模型。

李飞飞

研究成果表明,在数学与编码能力测试中,s1的表现与DeepSeek的R1、OpenAI的o1等模型难分伯仲。

在竞赛数学问题上,更是比o1-preview高出27%,凭借着低成本、高效能的成绩再一次引发了科技界热议的话题。

李飞飞

从公开的论文上可以得知,研究团队先是构建了一个由1000个经过精心筛选的问题组成的S1K数据集,这些问题配有从

从技术的角度来看,李飞飞团队证明的是数据样本的高质量以及简单的测试时间扩展可能带来的模型训练效率大幅提升,Gemini Thinking Experimental提炼出的推理过程和答案。

图片来源于网络

基于这个数据集,在对Qwen2.5-32B-Instruct语言模型进行监督微调,李飞飞团队在16个H100GPU上,仅用26分钟就完成模型训练。

此外,李飞飞团队还从16个来源收集了59029道高质量题目,里面包含了数学竞赛问题、博士级别的科学问题、奥林匹克竞赛问题等。

李飞飞

李飞飞团队于S1模型训练期间,开发出一项“预算强制”技术,该技术可控制模型测试时的计算量,进而影响模型推理深度与最终答案。

简单的来说,如果模型生成的推理token超过了设定的上限,那么就会强行的结束推理过程,并附加思维结束,促使模型进入答案生成阶段。

论文《s1: Simple test-time scaling》

更让人惊讶的是,模型在生成答案的时候,还可以检查答案到底对不对,如果有错误,还会进行修改,提高答案的准确程度。

李飞飞团队推出的s1也引发了行业的担忧,有专业的人士质疑,如果任何人都能够轻易的复制和超越现在的顶级模型,那么对于大型公司来说受到的威胁是巨大的。

图片来源于网络

毕竟大型公司投入多年的研发和技术积累,可到最后,却让一个低成本的团队超过,这以后肯定会乱套。

尽管蒸馏技术在较低成本复现AI模型方面表现出色,但是对其新AI模型性能的提升效果并不显著。

图片来源于网络

同时,低成本的AI也不是随便出现的,就像s1是站在“巨人肩膀”上的,它是基于阿里云Qwen模型监督微调而成,且50美元的成本也没有涵盖Qwen模型的训练费用。

更关键的是,在特定测试里,s1或许超越了o1 - preview,然而,它并未超越满血版的o1以及DeepSeek - R1。

只能说,一分价格一分货,毕竟成本仅50美元,能够媲美Deepseek-R1就已经是不容易了,相信在未来有人能够研究出来,更加低价和好用的AI。

信息来源:

原文记载于新浪财经2025年02月01日关于:Deepseek登顶,冲击全球算力股,美国AI界从想赢到怕输

原文记载于第一财经2025年02月07日关于:李飞飞团队低成本复刻DeepSeek-R1模型?算力成本桎梏正在被打破

原文记载于每日经济新闻2025年02月07日关于:李飞飞团队“50美元”复刻DeepSeek-R1?一文读透“白菜价”背后的真正逻辑

原文记载于华尔街见闻2025年02月06日关于:成本仅50美元,性能媲美Deepseek-R1,李飞飞带着S1来炸场了

来源:漫步空影

相关推荐