摘要:3月26日,微软CEO Satya Nadella在韩国的微软AI巡回活动中发表演讲。他指出,Scaling Law 的力量体现在三个根本性的突破上,分别是用户体验(更自然的多模态交互)、推理与规划能力(可以将其与长期记忆和上下文相结合),这将引领我们进入一个
原创 数字开物 数字开物
3月26日,微软CEO Satya Nadella在韩国的微软AI巡回活动中发表演讲。他指出,Scaling Law 的力量体现在三个根本性的突破上,分别是用户体验(更自然的多模态交互)、推理与规划能力(可以将其与长期记忆和上下文相结合),这将引领我们进入一个极其丰富的 AI Agent 世界。
演讲中,Satya Nadella介绍了微软的多项Agent新产品及服务。微软推出2款推理AI agent,Researcher 能深度分析内外部数据以生成研究报告,Analyst 能像数据科学家一样从复杂数据中快速提取洞察与可视化结果。
Copilot Studio通过集成推理模型,支持用户构建具备复杂推理能力的定制化AI Agent。
即将推出的Swe Agent(软件工程Agent)通过自动化软件工程任务(如处理代码审查)来提升开发者生产力。此外,还将 AI Agent 应用到了整个安全领域,并开放生态系统以集成第三方Agent。
同时,微软大力推广Copilot PC平台,Copilot PC作为新的计算平台,具备强大的本地NPU算力,支持混合AI应用,开创新的交互体验。
以下是本次演讲实录
经数字开物团队编译整理
01
人工智能浪潮与根本性突破
非常荣幸能再次来到韩国首尔,并参加此次 AI 巡回活动。每当经历这种十年一遇的平台转型时,来到韩国总是令人兴奋。我亲身见证了从客户端-服务器、Web、移动和云计算,到如今 AI 的演进历程。
我认为,尤其在这样的场合,理解我们共同乘势而上的这股力量及其威力是至关重要的。谈及AI,多数人会提到Scaling Law。令人难以置信的是,这些Scaling Law在经验层面持续得到验证。如同摩尔定律,它们似乎是能长期有效的经验性观察结果。Scaling Law仍在延续,随着深度学习革命,特别是Transformer的出现,将摩尔定律的18个月周期缩短为每六个月翻一番。在此基础上,我们现在又有了“测试时计算Scaling Law”(test-time compute scaling law),这是技术革命中典型的S型曲线叠加现象。这种测试时计算建立在预训练Scaling Law之上,使得能力每三个月就翻一番。
正是测试时计算与预训练Scaling Law的结合,在某种意义上真正创造了这样的局面:在需求具有弹性的地方,更多的供应随之而来。这就是人们所说的“杰文斯悖论” (Jevons paradox) ——效率提升反而可能导致总体消耗增加。接下来,我认为关键在于优化“性能/美元/瓦特”(performance per dollar per watt),这才是衡量任何国家、公司产出或附加值的真正标准。看到这一切的发生令人振奋。
可以说这些Scaling Law的力量体现在三个根本性突破上:首先是用户体验层的突破,我们生活中与计算交互的方式将变得更加自然、多模态(无论是通过语音、文本还是视频进行输入输出)并且根本上是围绕语言进行的。因此,这将彻底改变所有的计算界面。
然后,体验会变得更加丰富,因为你现在拥有了推理和规划的能力,并且可以将其与长期记忆和上下文相结合。
正是这三点,使我们能够构建日益丰富的 AI 系统或智能系统,我相信我们将在各处看到它们的身影。所以,对我们而言,这将引领我们进入一个极其丰富的 AI Agent 世界。你将拥有能在个人、组织或团队乃至端到端业务流程的上下文中发挥作用的 AI Agent。这正是得益于 AI 的强大力量而诞生的 AI Agent 网络。
02
微软的使命与Copilot平台赋能
对微软而言,我们始终回归到“赋能地球上的每一个人和每一个组织,帮助他们取得更大成就”这一简单而意义深远的使命。我们希望驾驭AI的力量,最终赋能每一个人和每一个组织,让他们能够利用AI在各自的国家、社区、行业和公司里做有意义的事情。
这一切始于普通消费者。无论是娱乐、购物、商业、新闻资讯还是搜索研究,所有这些场景都将因AI而改变。我们期待自身及整个生态系统在消费领域的创新。同样,对于组织而言,AI正在改变根本性的员工体验、客户服务、业务流程乃至核心创新。无论身处哪个行业,都能利用AI加速创新进程。
为实现这些转型目标,我们正在构建三个平台。微软的核心是一家平台与合作伙伴公司,我们总是思考如何构建技术,让其他人能基于这些平台创造更多技术。
首先是Copilot平台,可以将其想象成AI层的用户界面(UI)层。我们希望将AI融入并成为日常体验的一部分,就像今天的操作系统、浏览器和应用程序。目标是将AI带入这些现有界面,并最终让操作系统、浏览器、应用程序在某种意义上“隐身”。这种面向AI的UI层将带来变革。多模态体验正被引入Copilot,彻底改变我们与计算的交互方式。
例如,我已将Copilot设置到iPhone的操作按钮上,通勤听播客时会通过Copilot与转录文本对话。在PC上,语音浏览器常开,Copilot Vision甚至能看到屏幕内容,辅助完成工作,这已超越了经典的浏览器体验,更像是一种Copilot体验。
在工作中,我们将Copilot引入常用应用程序。一个例子是医生使用Copilot为肿瘤委员会会议做准备:查阅报告、制定议程、在Teams会议中专注讨论(AI负责记录高保真笔记),会后利用笔记在Word中整理,并创建PowerPoint教学演示文稿。这个简单的工作流利用了Teams、Word等工具,并通过Copilot处理关键事务。
更进一步,我们发现出现了新的工作产物和工作流程。例如,我使用Copilot页面收集信息。在进行聊天会话时收集信息,整理到页面中,多个聊天会话和页面间存在多对多关系。这些页面默认是协作式的,我与AI一起“思考”,同时与同事实时协作。这种让你能够以全新方式与AI及同事协作的页面概念,我认为是一种我们所有人都在逐渐适应的新型工作流程。
Copilot的潜力不止于此,Copilot Studio允许用户轻松构建AI Agent。未来,人们将与自己的Copilot以及成千上万个AI Agent协同工作。构建AI Agent应该像创建文档或电子表格一样简单。在Copilot Studio中,通过提示和指令,赋予其知识(如SharePoint站点、Dynamics CRM数据库),就能构建一个可从Copilot调用的特定领域AI Agent(如现场服务Agent)。
当然,这一切的基础是数据资产。公司内部的通信与协作数据库(如Microsoft 365底层数据)蕴含着巨大价值,直到现在都未被充分利用。而现在,你可以连同所有其他企业数据(ERP、CRM、分析数据仓库等)以及网络数据一起挖掘这些数据的价值。通过Dataverse、Power BI、Fabric等工具,将世界知识与迄今分散在多个信息孤岛中的所有组织知识汇聚到一起,为你的LLM或智能层以及Copilot层提供支撑基础,从而让你能够从过去多年投资的所有事物中获得更大的价值。这就是数据平台的意义所在。
Copilot系统已产生巨大影响,带来了生产力和经济增长。在微软内部,客户支持速度提升12倍,营销转化率提高超20%,销售人员业绩实现两位数增长,IT人力资源自助服务请求分流率提高35%。在韩国,各行各业的客户(游戏、零售、制造等)也正利用这项技术驱动切实的投资回报(ROI)和显著的生产力增长。例如,GS Retail 使用 Microsoft 365 Copilot 驱动一线员工体验,并构建了销售AI Agent。
03
推出推理AI Agent:Researcher与Analyst
今天,我们激动地宣布推出一系列“推理AI Agent”或称“思考AI Agent”,这将开启Copilot内部新一轮创新浪潮。
首先是Researcher。它运用推理模型,不仅处理网络信息,更能处理整个丰富的企业数据(如Microsoft Graph、ERP、供应链、CRM等)。想象一下,创建一份高保真的项目报告、市场研究报告或毛利率改进计划时,Researcher能整合所有来源的信息,执行“思维链”推理,构建一份完整的研究报告。
其次是Analyst。我们对其进行了优化,使其能像熟练的数据科学家一样思考。它可以处理任意复杂的数据集(例如,包含数千行和多标签页的原始客户收入数据),理解数据内容,执行Python代码来解答问题,并在几分钟内从原始数据中获得洞察,生成可视化图表。用户可以随时查看其“思维链”和运行的Python代码,验证其思考和处理方式。
此外,我们将这些推理整合到Copilot Studio中,用户可以构建自己的推理轨迹,进行“思维链”和强化学习训练,定制满足特定业务需求的AI Agent。
(此处演示环节展示了Researcher如何根据提示进行澄清、制定计划、跨工作数据和网络进行推理,生成详细报告;以及Analyst如何处理复杂数据集,通过Python代码进行分析并生成可视化结果。)
这些新Agent的意义非凡。最初我们为员工配备办公软件,促进了知识工作的普及。然后我们提供了Copilot,让人们能提问并获得答案。现在,请想象一下,如果我们每个人在工作时,都有一位研究员、一位分析师、一位数据科学家随时待命,帮助我们完成知识工作,那我们能做到什么程度。我认为这将彻底改变我们任何人在工作中所能达到的广度和深度,而且我认为这将产生极其深远的影响。
04
构建坚实的AI基础设施与开发者生态
Copilot是AI的用户界面层,而支撑它的是Copilot和AI技术堆栈,这是我们在Azure中逐层构建的体系。Azure被视为世界的计算机,在韩国,我们设有两个区域(韩国中部和南部),并不断扩展规模,引入最尖端的技术和基础设施。
构建AI基础设施需从系统角度出发,实现规模、性能和成本的最佳化。这包括合作伙伴(Nvidia、AMD)和自研(Maya)的芯片创新,它们是庞大计算集群的重要组成部分。AI工作负载也需要传统计算和存储资源,特别是推理任务,需要存储和计算资源紧密配合。我们正在将从数据中心到芯片,再到网络、存储系统,以及其上运行的所有软件,都视为一个整体的系统问题来考量,并以一体化的系统设计思路来着手解决。
基础设施之上是数据资产层。将数据汇聚到靠近智能层的地方至关重要。我们确保用户可以引入所有类型的数据:云原生操作型数据库(如支撑ChatGPT的Cosmos DB)、事务型数据库(PostgreSQL及其他SQL资产)、分析能力平台(Fabric)。同时支持引入Databricks、Snowflake甚至Oracle的数据。这样就能在智能层旁边构建完整的数据版图,支持各种应用开发。
在此之上,我们在Foundry中构建顶级的AI应用平台。它解决了应用开发者重复构建评估(evals)或可观察性(observability)系统的痛点,并能轻松访问超过1800种模型(小型、前沿、开源、闭源)。Foundry的角色,本质上就像是Web服务器或IIS对于Web应用构建的意义一样,Foundry就是AI应用构建的基石。
拥有基础设施、数据和应用服务器后,还需要世界级的工具。微软近50年前以工具公司起家,至今仍在VS Code、GitHub及GitHub Copilot上不断创新。在韩国,GitHub发展势头强劲,用户数增长近20%,达到225万,并持续高速增长。我们将继续创新,例如即将推出的Swe agent(软件工程Agent)。
如同Researcher和Analyst改变知识工作模式,我认为Swe agent将是开发者生产力领域的下一个重大变革点。开发者可以直接将一个PR(Pull Request)分配给Copilot(Swe agent),它会展示其计划和规格说明,执行跨多个文件的代码库更新,并将修改后的PR发回审批。拥有Swe agent的理念将带来颠覆性的变革。
05
韩国客户案例
目前,在韩国有大量客户和合作伙伴正基于这个技术堆栈进行创新。我与多位企业家和公司代表交流,他们正在开展出色的工作:
· Galaxy公司:利用Sora等多模态能力为K-pop艺人创作视频,并探索利用AI重现甚至超越个体生命长度的记忆。
· Q CELLS公司:重新定义能源管理,涵盖能源交易、电网管理及整个能源供应链和价值链。
· LG公司:研发的机器人不仅具备与人共情的情商(EQ),还能控制家电,担当智能家居中枢。
· C-GENE公司:构建平台,让全球科学家能创造更好的诊断方法。他们结合图谱检索增强生成(Graph RAG)技术和高性能计算(HPC),将LLM与基因信息、相关文献关联,寻找诊断方法。
· Amorepacific公司:开发聊天机器人,重新定义美容顾问的角色和体验。
Amorepacific的案例完美体现了构建AI解决方案的平台化方法的精髓。他们使用OneLake来汇集所有数据,将合适的数据加载并准备好在Fabric中使用,然后在Foundry之上利用这些数据,最终构建出他们的AI应用程序。这种使用统一技术栈支持多个AI应用的方法,是未来公司可以采取的高效模式。很高兴看到一个组织能够通过平台化方法实现其价值。
06
将AI扩展至边缘:Copilot PC
除了云端的丰富创新,同等水平的创新也将在边缘发生。Copilot PC现在拥有算力超过40 TOPS的NPU。看到如此强大的计算能力真是太棒了。这意味着随着推理模型效率的提升,我们将能够在边缘设备上直接运行功能非常强大的模型,实现真正的混合AI能力。
新一代AI应用程序正在诞生,它们是真正的混合型应用,同时利用云端和客户端(本地)的能力,融合成统一的体验。例如照片编辑或未来的“记忆”应用,都可以利用Copilot PC这样的新平台来构建功能极其丰富的应用程序。新的交互方式,如Recall(回顾)、click to do(点击执行)、generative fill(生成式填充)、super resolution(超分辨率),正成为与应用程序和计算机互动的新途径。
这是本地处理能力、AI以及云端能力结合起来所能释放的力量。而且我认为,对于应用程序开发者来说,能够同时利用云平台和客户端平台这两个平台进行创新,这简直是妙不可言。
07
信任、安全与量子计算未来
所有这三个平台(Copilot、AI Stack、Copilot PC)都必须建立在信任的基础之上。计算能力要在我们生活中扮演更重要角色,我们必须从根本上信任它们。这意味着需要对可信赖AI采取有原则的方法,包括我们的安全未来倡议、隐私原则和AI安全原则。
我们不仅提出原则,更将其转化为实实在在的创新。在AI安全方面,我们发布了如“基准性API”(groundedness API)等功能,用于评估模型和应用的可靠性,将幻觉问题视为一个可解决的工程挑战。在隐私和安全方面,我们持续创新机密计算技术。
我们已将AI Agent应用到安全领域,推出安全Agent协助处理网络钓鱼攻击、提供威胁情报、确保条件访问执行和发出数据保护警报。这不仅仅是微软的Agent,我们开放了我们的安全Copilot生态系统,以整合由众多第三方开发的各种Agent。这再次印证了我们的平台化方法。安全是一项团队运动,并非任何一家公司能独自完成,而是需要我们所有人共同努力,汇聚所有的创新力量。因此,我们非常激动能引入AI Agent来帮助应对我们在网络和网络安全方面面临的日益严峻的风险。
除了AI,我们也在开拓新领域,持续推动系统架构发展。量子计算正在兴起并取得切实进展。几个月前,我们公布了在Majorana 1方面的基础物理学突破,这是20年研究的成果,确认了Majorana zero modes 的物理存在,我们相信这是构建实用规模量子计算所必需的物理学突破。Azure Quantum不仅包括我们自研的量子计算,也涵盖其他公司的量子计算,同时提供Q#编程语言和纠错技术,构成完整的系统架构。
如果说AI是自然的模拟器,能在计算化学、生物学等领域缩小搜索空间,那么量子计算机就是自然的模拟器。因此,当你将这两者结合起来……今天我们拥有HPC+AI。明天我们将拥有Quantum+AI。我认为这两者的结合能够改变科学发现的进程,并以前所未有的速度加速它。所以我们对此感到非常兴奋。
归根结底,我们是一家科技公司,但根本动力源于我们的使命:赋能全球每一个人、每一个组织。这项使命始于每一个国家、每一个社区。每年回到韩国,亲眼见证韩国企业家、企业、公共部门的创新成果,看到健康、教育的改善和本地创造的价值,至关重要。没有你们的参与和创造,所有技术本身将毫无意义。
在此背景下,我们为能与KT合作感到自豪。我们将共同确保带来更高水平的能力,这些能力将在本地基于我们的平台构建,旨在赋能韩国经济的其他领域。我们也非常高兴能围绕这些平台,建立起人们对这项技术的更高层次的信任。与KT的合作是一份莫大的荣幸,我们期待这一伙伴关系在未来蓬勃发展。
同时,我们深知,共同面临的最重要任务之一是确保AI相关技能得到广泛普及。这关乎韩国的人力资本和AI能力,两者的结合,我相信,将共同创造一个能够长远繁荣的经济。在这方面,我们再次与KT合作,共同推出一项覆盖全国的AI技能培养计划,让所有在校大学生都有机会获得AI领域的微学位。我们非常非常激动能真正确保在全国范围内普及这些技能,使大家能够充分利用所有这些创新成果,并为韩国乃至全世界创造更多的创新。
来源:人工智能学家