摘要:DeepSeek V3:由深度求索公司研发,参数规模高达6710亿,训练成本仅600万美元。它采用混合专家架构,在14.8T高质量数据上进行预训练,上下文长度达128K。在内部基准测试中超越了包括OpenAI的GPT-4o和Meta的Llama3等顶尖模型,在
2024年12月26日,杭州深度求索人工智能基础技术研究有限公司发布DeepSeek-V3。
DeepSeek这个公司我们很多人听都没听说过。
然而该公司最新的开源大模型DeepSeek-V3一经发布,就引爆海内外,震撼美国AI行业。
不论科技圈、投资圈,还是普通使用者都在讨论。
其能力超越了主流开源模型,并和世界顶尖的闭源模型不分伯仲。
更重要的是,V3的训练成本极低,仅为GPT的1/20
美国媒体CNBC连续报道,埃里克·施密特(谷歌前CEO)称中国AI迎头赶上威胁美国人工智能主导地位
DeepSeek V3:由深度求索公司研发,参数规模高达6710亿,训练成本仅600万美元。它采用混合专家架构,在14.8T高质量数据上进行预训练,上下文长度达128K。在内部基准测试中超越了包括OpenAI的GPT-4o和Meta的Llama3等顶尖模型,在代码和数学方面表现优异,在全球引起轰动。
2024年12月27日起至2025年2月8日,DeepSeek-V3的API服务价格为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。
不仅如此,2024年6月7日阿里云发布的开源模型——通义千问Qwen-32B,只用320亿参数就达到了GPT-4的性能,可以本地运行,每百万token才花2毛钱,而GPT4要花10美元。
此外,巴黎奥运会上,通义大模型辅助赛事解说,也是大秀一把。
仅仅两周,硅谷每家公司的收入来源都被摧毁了,中国用技术狠狠地把他们按在地上摩擦。
通义千问Qwen2-72B:阿里云发布的全球性能最强的开源模型。Qwen2系列首波开源了五款模型,涵盖各个规格的参数,超越了美国最强的开源模型标杆Llama3-70B,其前代Qwen1.5版本曾在全球权威的开源大模型排行榜上登顶榜首,累计下载量已突破1600万。
而,2024年8月17日在IXDC2024国际体验设计大会上发布的Motiff妙多大模型也不遑多让。
作为看云控股集团旗下AI设计工具平台Motiff妙多研发的国内首个UI大模型。Motiff妙多大模型在UI领域的效果和能力上超越了GPT-4o和苹果的Ferret UI模型技术,并追平了训练数据多40倍的Google ScreenAI大模型,所用训练数据不到Google ScreenAI的2%。
这两个都还处于追赶美国状态,直到DeepSeek-V3问世,美媒彻底慌了。
美国CNBC报道称,记者亲自测试后惊呼DeepSeek-V3的能力完全能和OpenAI掰手腕。
《华尔街日报》报道称中国人工智能创业公司发布的大模型表明,他们追赶美国领先AI模型的速度比业内许多人预期的更快。
《福布斯》杂志发文指出,中国足以重塑全球AI格局,中国制定了2030年成为世界主要人工智能创新中心的远大目标,在AI领域是一股足以重塑国际格局的力量。
国外独立评测机构ArtificialAnalysis的测试结果显示,DeepSeek-V3在多个基准测试中表现优异,在开源模型中位列榜首,与世界顶尖的闭源模型如GPT-4o和Claude-3.5-Sonnet不相上下。
在英语、代码、数学、汉语以及多语言任务上表现出色,在AGIEval、CMATH、MMMLU-non-English等一些任务上甚至远远超过其它开源大模型,在MATH 500、AIME 2024、Codeforces上都有明显优势。
来源:光头老莫·一点号