中国 AI 大模型震撼海外,成本低却媲美顶级,美国媒体慌了!

B站影视 2025-01-06 15:02 2

摘要:DeepSeek V3:由深度求索公司研发,参数规模高达6710亿,训练成本仅600万美元。它采用混合专家架构,在14.8T高质量数据上进行预训练,上下文长度达128K。在内部基准测试中超越了包括OpenAI的GPT-4o和Meta的Llama3等顶尖模型,在

2024年12月26日,杭州深度求索人工智能基础技术研究有限公司发布DeepSeek-V3。

DeepSeek这个公司我们很多人听都没听说过。

然而该公司最新的开源大模型DeepSeek-V3一经发布,就引爆海内外,震撼美国AI行业。

不论科技圈、投资圈,还是普通使用者都在讨论。

其能力超越了主流开源模型,并和世界顶尖的闭源模型不分伯仲。

更重要的是,V3的训练成本极低,仅为GPT的1/20

美国媒体CNBC连续报道,埃里克·施密特(谷歌前CEO)称中国AI迎头赶上威胁美国人工智能主导地位

DeepSeek V3:由深度求索公司研发,参数规模高达6710亿,训练成本仅600万美元。它采用混合专家架构,在14.8T高质量数据上进行预训练,上下文长度达128K。在内部基准测试中超越了包括OpenAI的GPT-4o和Meta的Llama3等顶尖模型,在代码和数学方面表现优异,在全球引起轰动。

2024年12月27日起至2025年2月8日,DeepSeek-V3的API服务价格为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。

不仅如此,2024年6月7日阿里云发布的开源模型——通义千问Qwen-32B,只用320亿参数就达到了GPT-4的性能,可以本地运行,每百万token才花2毛钱,而GPT4要花10美元。

此外,巴黎奥运会上,通义大模型辅助赛事解说,也是大秀一把。

仅仅两周,硅谷每家公司的收入来源都被摧毁了,中国用技术狠狠地把他们按在地上摩擦。

通义千问Qwen2-72B:阿里云发布的全球性能最强的开源模型。Qwen2系列首波开源了五款模型,涵盖各个规格的参数,超越了美国最强的开源模型标杆Llama3-70B,其前代Qwen1.5版本曾在全球权威的开源大模型排行榜上登顶榜首,累计下载量已突破1600万。

而,2024年8月17日在IXDC2024国际体验设计大会上发布的Motiff妙多大模型也不遑多让。

作为看云控股集团旗下AI设计工具平台Motiff妙多研发的国内首个UI大模型。Motiff妙多大模型在UI领域的效果和能力上超越了GPT-4o和苹果的Ferret UI模型技术,并追平了训练数据多40倍的Google ScreenAI大模型,所用训练数据不到Google ScreenAI的2%。

这两个都还处于追赶美国状态,直到DeepSeek-V3问世,美媒彻底慌了。

美国CNBC报道称,记者亲自测试后惊呼DeepSeek-V3的能力完全能和OpenAI掰手腕。

《华尔街日报》报道称中国人工智能创业公司发布的大模型表明,他们追赶美国领先AI模型的速度比业内许多人预期的更快。

《福布斯》杂志发文指出,中国足以重塑全球AI格局,中国制定了2030年成为世界主要人工智能创新中心的远大目标,在AI领域是一股足以重塑国际格局的力量。

国外独立评测机构ArtificialAnalysis的测试结果显示,DeepSeek-V3在多个基准测试中表现优异,在开源模型中位列榜首,与世界顶尖的闭源模型如GPT-4o和Claude-3.5-Sonnet不相上下。

在英语、代码、数学、汉语以及多语言任务上表现出色,在AGIEval、CMATH、MMMLU-non-English等一些任务上甚至远远超过其它开源大模型,在MATH 500、AIME 2024、Codeforces上都有明显优势。

来源:光头老莫·一点号

相关推荐