deepseek大模型实行开源是否是战略性错误

B站影视 2025-01-31 20:06 1

摘要:印度铁道、通信以及电子和信息技术部长阿什维尼·瓦伊什瑙当地时间1月28日称赞DeepSeek以低成本的AI模型震撼了行业,并提到印度政府努力建立本地化AI模型 。印度去年3月宣布了价值12.5亿美元的人工智能投资计划,名为印度AI使命,包括为AI初创企业提供资

印度icon这是想要在deepseek大模型基础上蒸馏icon出自己的大模型啊,看来deepseek开源是不是一个战略失误?毕竟ChatGPTicon也没有开源啊!

一、从印度有关部门相关看法及潜在鼓励背后的考量。

印度铁道、通信以及电子和信息技术部长阿什维尼·瓦伊什瑙当地时间1月28日称赞DeepSeek以低成本的AI模型震撼了行业,并提到印度政府努力建立本地化AI模型 。印度去年3月宣布了价值12.5亿美元的人工智能投资计划,名为印度AI使命,包括为AI初创企业提供资金并开发自己的AI基础设施 。

从印度方面来看,DeepSeek的成功给他们很大的启发。DeepSeek仅用550万美元就开发出非常强大的模型,对比印度自己的投入和想要达成的目标,他们希望借鉴DeepSeek的成功经验,在大模型发展道路上走得更快更稳。这并不意味着只要基于DeepSeek蒸馏模型就是完全认可其所有方面,只能说明DeepSeek有很多值得印度在发展AI时去学习和利用的优势,比如在成本控制、模型功能提升等方面。而且这种鼓励也反映出当下人工智能领域竞争激烈,各国都想通过合适的方式在大模型发展上占得一席之地,印度看到了DeepSeek开源带来的便利和优势。

二、deepseek大模型开源情况

DeepSeek新模型已经开源,例如1月20日正式发布的推理大模DeepSeek - R1采用MIT许可协议,支持免费商用、任意修改和衍生开发等 。目前在国外大模型排名榜ChatbotArena上,DeepSeek - R1的基准测试排名已经升至全类别大模型第三,与OpenAI的ChatGPT - 4o最新版并列,并在风格控制类模型(StyleCtrl)分类中与OpenAI的o1模型并列第一 。并且DeepSeek不仅将R1训练技术全部公开,还蒸馏了6个小模型向社区开源,允许用户借此训练其他模型 。从其技术指标和商业使用友好度上来说都展示出了开源模式下的优势。Meta首席AI科学家YannLecun认为,DeepSeek - R1的发布意味着开源大模型正在超越闭源模型,开源大模型受益于开放研究,类似于Meta的PyTorch和Llama,可以通过提出新想法并在他人工作的基础上进行实现,每个人都能从公开和开源的工作中获益,这体现出开源背后强大的可发展动力 。而且对与DeepSeek相关的股东来说,他们对商业化变现需求没有那么强烈,主要依靠算法突破和资源优化,而开源可以吸引全球开发者参与模型优化,进一步实现算法突破和资源优化 。例如DeepSeekR1模型的推理速度经社区贡献后提升了47%。还有已经有来自非洲国家的开发者基于DeepSeekR1模型开发了斯瓦希里语代码助手,展示出技术普惠的影响力 。

三、ChatGPT未开源的原因

ChatGPT未开源主要是因为背后有诸多复杂的因素。首先从商业角度看,ChatGPT自问世以来,用户数量已经达到上亿级别,背后隐藏着巨大的商业潜力,其是由OpenAI训练的大型语言模型,开发过程使用了OpenAI独有的训练数据和计算资源,这些资源的获取和投入是非常昂贵的,例如ChatGPT大模型完成单词训练的成本大约在1200万美元,耗时1个月;并且其训练和维护需要大量的人力和技术支持,一旦开源可能导致商业利益难以得到保障 。

从竞争优势保护来说,目前ChatGPT在对话机器人领域占据着很高的市场份额和影响力,如果开源可能使得竞争对手轻松获取其核心技术来创建类似产品,对其在市场中的主导地位构成威胁。从风险管控方面,由于这些模型非常强,而且会变得越来越强,如果开源被恶意使用可能造成很大伤害,例如信息泄露、恶意攻击等,并且随着性能的提高,保持闭源更能把控风险 。虽然OpenAI总体是以开放为原则,但其认为目前阶段将ChatGPT开源并不合适。

四、开源大模型的战略影响

促进技术迅速发展,开源大模型的优势众多。首先是可定制性,通过LoRA等技术可以在几个小时内在消费级硬件上完成语言模型的定制和微调,而闭源模型难以做到这样的快速和灵活调整,开发者和用户能依据自己的需求对开源模型进行定制和优化,满足各种特殊场景的需求。例如在医疗领域针对特定病症诊断或者金融领域针对风险评估进行定制等。其次是数据效率方面的优势,开源大模型更加注重高质量的数据而不是海量的数据,可以通过精心挑选的数据集在很短时间内完成训练,在数据获取成本限制和数据质量要求高的环境下,这是一个巨大的优势 。

构建广泛的应用生态系统。一方面,开源大模型具备强大的可扩展性,拥有广阔的应用生态系统,个人和组织可以在其基础上开发定制化应用,从简单的手机APP到复杂的企业级软件等都可以基于开源大模型构建,吸引了大量开发者参与开发相关的衍生产品。另一方面,在创新能力上,开源大模型的未来发展空间更大,能够吸引更多研究人员和资源的参与来实现技术突破。全球的研究人员在开源模型基础上进行改进和创新,有助于新的算法、技术、应用的出现。相比之下闭源模型的创新和改进通常受限于开发团队的能力和资源。最后是许可证优势,开源大模型相比于商业模型受到的许可证限制更少,这使其在发展和应用上更加自由,使得应用的开发、分发、部署等更加便捷,这是在商业化发展路径上的决定性优势 。

降低门槛获取更多资源。从硬件需求来看,开源大模型技术部署门槛更低。其一是运用LoRA技术可以使模型微调成本大幅降低,普通PC就可以完成相关操作;其二是实时推理不需要太高的算力,普通GPU或CPU就可以满足;其三是许可证限制更少,个人开发者更容易获取和部署。这有利于吸引更多的开发者投入到开源大模型相关的技术研究和应用开发领域。从市场受众角度来看,由于开源大模型通常是免费或者低成本提供给用户,无论是个人的学习研究、小型企业的产品开发还是大型组织的项目应用,能够以更低的成本获取使用技术权利,有利于技术的快速普及和推广。对于发展中国家或者资源有限的地区来说也能因此进入到大模型应用的领域,打破技术的地理和资源限制 。

五、deepseek开源是否为战略失误的分析

DeepSeek开源并非战略失误。从技术进步层面,开源吸引了全球的开发者参与其中,在社区智慧的汇聚下,不仅仅是提升了模型本身的性能比如DeepSeekR1模型推理速度经社区贡献后提升了47%,还促进了技术的交流和学习。从技术的影响力扩张角度来说,已经有来自非洲国家的开发者基于DeepSeekR1模型开发产品,能够低成本、快速的在全球范围内扩散技术价值。而且开源也有利于其本身在行业内建立威信,展示公司自信,吸引更多的人才和合作资源。

而对比ChatGPT,它们所处的环境和背景有很大差异,ChatGPT由于背后商业公司的大量资金和人力等投入,从商业利益保护来说不能轻易开源,而deepseek的开源是基于量化基金的全额资助,无需依赖外部融资或短期盈利压力,目的更多是为了技术突破以及技术普惠等。而且从全球竞争格局来说,开源使得DeepSeek的影响力迅速增长,部分破解了美国想要从技术封锁方面限制的战略,比如通过开源后全球开发者都能参与使用并改进,很难通过传统技术管制手段来阻挡其技术发展和传播,同时也让中国在AI领域建立起一种新的领导形象。所以综合多方面因素,DeepSeek开源不是战略失误。

来源:襄遇人为峰

相关推荐