摘要:国内人工智能公司杭州深度求索(DeepSeek)宣布全新系列模型DeepSeek-V3首个版本上线并同步开源。DeepSeek V3允许开发者下载和修改以用于大多数应用程序,包括商业应用。
国内人工智能公司杭州深度求索(DeepSeek)宣布全新系列模型DeepSeek-V3首个版本上线并同步开源。DeepSeek V3允许开发者下载和修改以用于大多数应用程序,包括商业应用。
DeepSeek V3可以处理一系列基于文本的工作负载和任务,例如编码、翻译以及根据描述性提示撰写文章和电子邮件。
根据深度求索内部基准测试,DeepSeek V3的表现优于可下载的“公开”可用模型和只能通过API访问的“封闭”AI 模型。在编程竞赛平台Codeforces举办的编码竞赛子集中,DeepSeek V3的表现优于其他模型,包括Llama 3.1 405B、GPT-4o和通义千问2.5 72B。
DeepSeek V3在Aider Polyglot测试中也击败了竞争对手,该测试旨在衡量模型是否能够成功编写出可集成到现有代码中的新代码。
深度求索声称DeepSeek V3是在包含14.8万亿个token的数据集上进行训练的,在数据科学中,token用于表示原始数据的位- 100万个token相当于约75万个单词。
DeepSeek V3庞大的不仅仅是训练集,DeepSeek V3的规模也十分巨大:拥有6710亿个参数,在AI开发平台 Hugging Face上则有6850亿个参数(参数是模型用来进行预测或决策的内部变量)这大约是Llama 3.1 405B的1.6倍,后者有4050亿个参数。
而参数数量通常与技能相关;参数较多的模型往往比参数较少的模型表现更好。但大型模型也需要更强大的硬件才能运行,未优化的DeepSeek V3版本需要一组高端GPU才能以合理的速度回答问题。
来源:93913虚拟现实