共赢还是封禁?特总如何应对来自杭州“六小龙”之一的神秘力量?

B站影视 2025-02-07 15:06 3

摘要:在人工智能这片充满无限可能与挑战的领域中,新的参与者如雨后春笋般不断涌现,为行业带来了新的活力与变革。不久前,一位白宫发言人表示,美国总统唐纳德·特朗普将于当地时间周五在白宫紧急召见英伟达(NVIDIA)首席执行官黄仁勋。业界普遍认为,由于DeepSeek问世

在人工智能这片充满无限可能与挑战的领域中,新的参与者如雨后春笋般不断涌现,为行业带来了新的活力与变革。不久前,一位白宫发言人表示,美国总统唐纳德·特朗普将于当地时间周五在白宫紧急召见英伟达(NVIDIA)首席执行官黄仁勋。业界普遍认为,由于DeepSeek问世,给予英伟达为代表美国科技企业在AI领域发展预期沉重一击,加重了投资者对美企在AI领域领先地位的担忧,受此影响美国科技股总市值一度蒸发约1万亿美元,其中英伟达股价一度下跌17%,创下历史上最大抛售之一

与此同时,美三巨头宣布相继接入DeepSeek

英伟达宣布,NVIDIA NIM已经可以使用DeepSeek-R1。为了帮助开发者安全地试验这些功能,并构建自己的专门代理,DeepSeek-R1模型现已作为NVIDIA NIM微服务预览版上线使用。

微软宣布,目前已将DeepSeek-R1正式纳入Azure AI Foundry,成为该企业级AI服务平台的一部分。微软作为OpenAI的最大股东,长期资助OpenAI之余,还深度整合其AI技术。

亚马逊表示,DeepSeek-R1模型现在已可以在Amazon Web Services上使用,该公司首席执行官安迪·贾西告诉用户“尽管用”。席卷互联网的中国人工智能应用DeepSeek现在可以通过该公司的云服务使用。

DeepSeek是什么?

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于 2023 年 7 月 17 日,虽然它诞生的时间不长,但在人工智能领域的发展可谓是突飞猛进。这家创新型科技公司专注于开发先进的大语言模型(LLM)和相关技术,致力于通过人工智能技术的突破,为全球用户带来更智能、更高效的服务体验。

1

杭州六小龙之一

去年 12 月,DeepSeek 发布了新一代大语言模型 V3,同时宣布开源。测试结果显示,它的多项评测成绩超越了一些主流开源模型,并且还具有成本优势。这一成果的发布,让 DeepSeek 在人工智能领域初露锋芒,吸引了众多业内人士的目光。然而,这仅仅是 DeepSeek 辉煌篇章的前奏。

1 月 20 日,世界经济论坛 2025 年年会开幕当天,DeepSeek 再次重磅出击,发布了其最新开源模型 R1。这一模型在技术上实现了重大突破,它用纯深度学习的方法让 AI 自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性能比肩美国开放人工智能研究中心(OpenAI)的 o1 模型正式版。更令人惊叹的是,该模型延续了 DeepSeek 高性价比的优势,其训练成本仅为 560 万美元,远远低于美国开放人工智能研究中心、谷歌、“元” 公司等美国科技巨头在人工智能技术上投入的数亿美元乃至数十亿美元。

(最后一排右边第6个是梁文锋,来源:湛江发布)

DeepSeek-R1 的发布,犹如一颗重磅炸弹,在全球人工智能领域掀起了轩然大波。模型发布后,热度持续飙升,其影响力迅速蔓延至全球各地。截至 1 月 27 日早上,DeepSeek 在中国和美国区苹果 App Store(应用商店)免费榜上的下载量均排在第一位,超越了 AI 聊天机器人 ChatGPT,以及 Meta 公司旗下的社交媒体平台 Threads,还有 Google Gemini、Microsoft Copilot 等美国科技公司的生成式 AI 产品 。这是首次中国应用能同期在中国和美国区苹果 App Store 占据第一位,此前小红书和 Temu 也曾成为美国区 App Store 下载冠军,但未能实现在中国也同步站上首位。

DeepSeek-R1 的成功,不仅仅是技术上的突破,更是对现有 AI 生态格局的一次强有力冲击。它向世界展示了中国人工智能企业的创新实力和无限潜力,也为全球 AI 技术的发展注入了新的动力。在接下来的内容中,我们将深入剖析 DeepSeek-R1 的技术亮点,以及它对当前 AI 生态产生的深远影响。

模型发布与性能亮点

在实际应用中,DeepSeek-R1 的表现令人惊叹。例如,在处理复杂的数学问题时,它能够快速准确地给出答案,其解题速度和准确率甚至超过了一些专业的数学软件。在代码编写方面,它可以根据用户的需求,快速生成高质量的代码,大大提高了开发效率。在自然语言处理领域,它能够理解和生成自然流畅的语言,无论是文本翻译、文本摘要还是对话交互,都表现得游刃有余。

除了 DeepSeek-R1,DeepSeek 还发布了 Janus-Pro 等多模态模型。Janus-Pro 首次采用统一的 Transformer 架构,突破了传统 AIGC 模型依赖多路径视觉编码的限制,实现了理解与生成任务的一体化支持。在图像理解和生成方面,Janus-Pro 展现出了强大的能力。它可以准确地识别图像中的物体、场景和关系,还能根据文本描述生成高质量的图像,甚至可以进行图像编辑和转换。在视觉问答、地标识别、文字识别等任务中,Janus-Pro 也表现出色,能够准确地回答用户的问题,识别出图像中的地标和文字内容 。

与其他主流模型相比,DeepSeek 的模型在性能上具有明显的优势。以 OpenAI 的 DALL-E 3 和 Stable Diffusion 为例,在 GenEval 和 DPG-Bench 等基准测试中,Janus-Pro-7B 的性能优于它们。在处理复杂任务时,DeepSeek 的模型能够更加准确地理解用户的需求,提供更加优质的解决方案。而在成本方面,DeepSeek 的模型更是具有无可比拟的优势,其训练成本仅为 560 万美元,远低于其他主流模型的开发成本,这使得更多的企业和开发者能够使用这些模型,推动 AI 技术的普及和应用。

简单来说:

1、强大。比肩o1的推理能力,暂时没有之一;

2、便宜。参数少,训练开销与使用费用小了一个数量级;

3、开源。任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的mini模型;

4、免费。官方目前提供的服务完全免费,任何人随时随地可用;

5、联网。暂时唯一支持联网搜索的推理模型(o1还不支持);

6、本土。深度求索是一家很小规模的年轻中国公司,由没有海外经历甚至没有资深从业经验的本土团队开发完成。

然而,随着 DeepSeek 的知名度和影响力不断提升,它也面临着一些争议与挑战。正所谓树大招风,DeepSeek 的快速发展引起了一些竞争对手的关注和质疑。

一些人对 DeepSeek 的数据隐私问题提出了质疑。在 AI 技术的发展中,数据隐私是一个至关重要的问题。由于 AI 模型的训练需要大量的数据,这些数据的收集、使用和存储是否符合相关的法律法规,是否会对用户的隐私造成威胁,成为了人们关注的焦点。尽管 DeepSeek 表示在数据处理方面严格遵守相关法律法规,采取了一系列措施来保护用户的隐私,但这些质疑仍然对其形象产生了一定的影响。

DeepSeek 还面临着来自欧洲的隐私调查。欧洲在数据隐私保护方面有着严格的法律法规,任何涉及数据处理的企业都需要遵守这些规定。此次隐私调查,给 DeepSeek 在欧洲市场的发展带来了一定的不确定性。如果调查结果对 DeepSeek 不利,可能会导致其在欧洲市场的业务受到限制,甚至面临巨额罚款。

在美国,DeepSeek 也遭遇了商标纠纷。商标纠纷不仅会耗费企业的时间和精力,还可能影响企业的品牌形象和市场份额。对于 DeepSeek 来说,如何妥善解决商标纠纷,维护自身的合法权益,是一个亟待解决的问题。

网络攻击也是 DeepSeek 面临的一大挑战。随着 DeepSeek 的影响力不断扩大,它成为了网络攻击者的目标。网络攻击不仅会影响 DeepSeek 的正常运营,还可能导致用户数据泄露,给用户带来损失。为了应对网络攻击,DeepSeek 需要加强网络安全防护,提高自身的安全防范能力。

这些争议和挑战对 DeepSeek 的发展带来了一定的压力。如果不能妥善解决这些问题,可能会影响其在全球市场的拓展,阻碍其技术的进一步发展。但同时,这些挑战也为 DeepSeek 提供了改进和完善的机会,促使其在数据隐私保护、品牌建设和网络安全等方面加强管理,提升自身的竞争力。

技术发展新方向

在 AI 技术的发展历程中,算力一直被视为推动技术进步的关键因素。然而,DeepSeek 的出现,为我们带来了新的思考。它在算法、架构等方面的创新,让人们看到了除了依赖算力之外,注重算法优化同样可以实现 AI 技术的重大突破。

在算法方面,DeepSeek 采用了一系列创新技术,如数据蒸馏技术、组相对策略优化(GRPO)等。数据蒸馏技术通过提炼和优化数据中的关键信息,使得小模型在计算成本大大降低的情况下,能够逼近甚至接近大模型的性能。这一技术的应用,不仅降低了模型的训练成本,还提高了模型的效率和可扩展性。组相对策略优化(GRPO)则通过分组评分来估计基线,避免了使用与策略模型相同规模的批评模型,显著降低了训练成本。这些创新算法的应用,使得 DeepSeek 在保持高性能的同时,能够实现低成本的训练和运行。

在架构方面,DeepSeek-V3 采用了创新性的混合专家(MoE)架构,开创性地提出动态偏置调整机制,成功实现无辅助损失负载均衡策略。在这种先进架构下,每个 MoE 层精心配置了 1 个共享专家与 256 个路由专家,每个 token 能够精准激活 8 个专家,实现了前所未有的细粒度专家分配与共享机制,极大地提升了模型的学习效率与灵活性。这种架构创新,为 AI 模型的设计和优化提供了新的思路和方法。

DeepSeek 的这些创新,对 AI 技术的发展方向产生了深远的影响。它让人们认识到,单纯依赖算力的提升并非是推动 AI 技术发展的唯一途径,通过优化算法和架构,同样可以实现性能的大幅提升。这将促使更多的研究人员和企业将目光投向算法优化和架构创新,推动 AI 技术朝着更加高效、智能、低成本的方向发展。

开源生态的繁荣

开源,一直是推动 AI 技术发展的重要力量。它促进了知识的共享和技术的创新,让全球的开发者能够共同参与到 AI 技术的研究和应用中。DeepSeek 深知开源的重要性,自成立以来,始终坚持开源策略,其发布的多个模型,如 DeepSeek-V3、DeepSeek-R1 等,均实现了完全开源。

DeepSeek 的开源策略,犹如一颗投入平静湖面的石子,在 AI 开发者社区和开源生态中激起了层层涟漪。它吸引了大量开发者和研究人员的关注,他们纷纷加入到 DeepSeek 的开源项目中,为模型的改进和应用开发贡献自己的力量。据统计,DeepSeek 的开源项目在 GitHub 等平台上获得了大量的星标和 fork,参与贡献的开发者数量也在不断增加。

在模型改进方面,开发者们通过对 DeepSeek 开源模型的研究和实践,发现了许多可以优化的地方。他们提出了各种改进方案,如调整模型参数、优化算法流程、增加训练数据等,这些改进方案不断提升了模型的性能和效果。例如,有开发者通过对 DeepSeek-R1 模型的改进,使其在某些特定任务上的准确率提高了 10% 以上。

在应用开发方面,DeepSeek 的开源模型为开发者们提供了强大的技术支持。他们基于这些模型,开发出了各种各样的 AI 应用,涵盖了教育、医疗、金融、娱乐等多个领域。在教育领域,有开发者利用 DeepSeek 的模型开发了智能辅导系统,能够根据学生的学习情况提供个性化的学习建议和辅导;在医疗领域,有开发者开发了疾病诊断辅助系统,帮助医生更准确地诊断疾病;在金融领域,有开发者开发了风险评估系统,为金融机构的决策提供支持。

DeepSeek 的开源策略,还促进了知识共享和技术创新。开发者们在参与开源项目的过程中,相互交流、学习,分享自己的经验和见解。这种知识的共享和交流,激发了更多的创新灵感,推动了 AI 技术的不断进步。同时,DeepSeek 也积极与开发者社区互动,倾听他们的需求和建议,不断改进和完善自己的开源项目。

共赢还是封禁?

英伟达从来不担心DeepSeek对其威胁,因为基底还是GPU,只是预期应用量多寡罢了,AI公司离不开英伟达。

欢迎投稿,请在后台留言,届时会有专人与您联系

参考文献及图片来源:均来自互联网及相关企业公众号,由AI整理编辑,如涉及作品内容、版权等问题,请联系平台删除。

来源:工业界

相关推荐