摘要:这个数据令每位企业软件采购者心有余悸:95%的人工智能试点项目以失败告终。自从美国麻省理工学院(MIT)公布这项研究后,它便成为采购会议中屡被引用的论据。但我采访了医疗、通信及食品科技领域服务数百万用户的AI企业创始人后,发现了研究未曾触及的关键。
本文为深度编译,仅供交流学习,不代表智子说观点
这个数据令每位企业软件采购者心有余悸:95%的人工智能试点项目以失败告终。自从美国麻省理工学院(MIT)公布这项研究后,它便成为采购会议中屡被引用的论据。但我采访了医疗、通信及食品科技领域服务数百万用户的AI企业创始人后,发现了研究未曾触及的关键。
成功企业不仅在打造更优质的AI,更在构建本质迥异的商业模式——这种差异决定了一切。
大卫·巴格达萨良(David Bagdasaryan)拥有多数人工智能创始人缺乏的视角。作为美国Krisp公司首席执行官,其人声隔离技术每月处理逾十亿分钟的语音机器人流量,这让他对人工智能领域的实际运作情况有着独到洞察。
他对95%失败率的分析直指核心:“我认为95%的失败主要集中在AI智能体领域。”
“当前AI产品分为两类,”巴格达萨良阐释道,“一类是自主运行的AI智能体,尤其面向客户的智能体;另一类则是辅助人类的协同助手。”
这种区分看似简单,其深层机制却极为复杂。AI智能体独立运作——语音机器人接听客户来电,聊天机器人处理支持工单,AI系统安排预约。协同助手则增强人类能力——通话降噪、会议记录、诊疗过程中的文档起草。
“我们客户的实际情况印证了这点。语音机器人开发者的增长曲线远低于预期,”巴格达萨良指出。“由于技术限制,我们尚未真正攻克这一难题。现有技术目前还无法实现突破。”
技术瓶颈并非源于基础能力——现代语言模型在窄领域任务中常可媲美人类表现。症结在于一致性和错误恢复能力。一个准确率达95%的自主代理,其5%的失误仍会造成灾难性后果,且这些失误发生在客户面前时无法获得人工干预。
与此同时,协同助手的普及曲线截然不同。“这类项目通常不会失败。其成功率高,是源于风险较低——首席信息官无需承担巨大风险即可部署,因为这本质上是提升生产力的方案。”
但更深层的原因在于:“它不会破坏客户对话,因为背后始终有人类把关。”
这揭示了关键差异:当协同助手出错时,人类能在触达客户前及时纠正,错误仅成为内部流程中的微小摩擦点;而当自主智能体出错时,错误直接暴露在客户面前,可能摧毁历经数月乃至数年建立的信任关系。
自主客服机器人在成功指标明确、信任门槛低的狭窄领域表现优异——例如欺诈检测、算法交易、垃圾邮件过滤。这些领域之所以可行,是因为错误对人类的影响有限,且成功可量化。但在需要判断力且错误显而易见的客户服务场景中,容错阈值存在根本性差异。
巴格达萨良直言:“我确信人工智能代理尚未跨越鸿沟,当前人工智能领域增长最快的产品仍是协同操作系统。”
相较于完全替代人类的解决方案,那些能显著提升人类效能的方案更易被采纳——这并非源于对自动化的偏见,而是因为容错要求存在不对称性。
美国Ambience Healthcare公司的创始人吴(Mike Ng)创立公司,旨在解决临床文档问题——这是导致医生职业倦怠的主要因素之一。但他的方法揭示了一个至关重要的规律:人工智能的竞争优势是如何形成的。
“每个专科都有其独特的工作任务:医疗服务提供、工作流程及报酬模式,”吴解释道,“现实情况是,当你开发Ambience时,并非在打造单一产品,而是构建近百种差异化产品。”
吴的团队服务于美国克利夫兰诊所(Cleveland Clinic)——这家机构涵盖逾百个专科领域。“多数情况下,这些都是其他机构尝试解决却无果的极端复杂病例。”
这对专业性的要求极高。以肿瘤科为例:“70%的就诊属于复诊。而复诊时,医生实际花费大量时间查阅过往病历、实验室报告,翻找电子健康记录中的历史信息。”
横向AI解决方案仅能转录对话。但Ambience意识到:“此时你本可在患者到诊前完成大部分病历记录。”这需要开发能在就诊前整合历史数据的患者摘要工具。
“除非你真正融入工作流程协助临床医生,否则你将面临临床医生记录与环境监听记录并存的局面。”“如何整合这两部分内容就成了难题,”吴指出,“环境监听本身作为独立产品是远远不够的。”
战略价值的突破点正在于此。多数企业软件在跨行业扩展时,难度会增加——每个新行业都增加复杂性却无法创造协同效应。但Ambience发现了不同之处:垂直深度能创造复合优势。
“从病历对话到患者摘要再到环境监听,所有模块都在统一语言模型和基础设施下协同运作——整合后效能更佳。”
其机制精妙而强大:每个专科都为底层模型注入医疗推理、文档模式及临床工作流的独特知识。肿瘤科需理解治疗进程与反应模式,心脏科需掌握慢性病的时序推理,儿科则需洞悉发育里程碑与家庭沟通动态。
这些并非分散模型能力,而是持续丰富其内涵。第50个专科的适配比第10个更轻松,因为基础设施已吸收更多医疗推理的变量。深度得以累积,因为模型并非学习100个独立任务,而是掌握医学在不同场景中运作的深层结构。
当竞争对手专注于单一专科的功能对等时,Ambience构建的基础设施让进入下一个专科比前一个更轻松。**深度本身成为护城河,其价值并非源于复杂性,恰恰在于复杂性。**竞争者若想追赶,不仅要匹配功能,更需复制整个复合式学习曲线。
这种模式仅适用于解决具有深层结构的问题——即在特定领域内可跨场景迁移的模式。并非所有市场都具备这种特性。但当这种特性存在时,纵向深度便能创造横向广度永远无法企及的网络效应。
美国Fireflies公司的克里希·拉米尼尼(Krish Ramineni)将公司产品打造为首批实现大规模普及的人工智能笔记工具。如今他的公司以120人的全球分布式团队服务数百万用户,但早期遭遇的抵触情绪相当强烈。
“品牌知名度不足时,用户常质疑‘什么是笔记工具?会议中的机器人在做什么?是在监视吗?’这无疑是初期的重大挑战。”
多数企业通过政策应对信任问题——隐私声明、合规认证、服务条款。而拉米尼的团队另辟蹊径:他们通过架构设计让信任变得可视化。
“记录工具的存在本身就增强了透明度,因为有些工具会在后台悄无声息地录制,”他解释道,"当人们不知情时,发现有东西在捕捉会议内容会更愤怒。至少你能看到记录者并将其驱逐。"
这不仅是优秀的产品设计——更是对职场信任形成机制的深刻理解。程序性信任需要阅读政策并相信承诺;而架构性信任只需观察系统运作方式即可建立。
二者的差异在于可扩展性。程序性信任一旦有人质疑政策或公司动机就会崩溃。“我怎么知道他们真的删除了我的数据?”架构信任具有自明性:你能看见机器人,能将其踢出,机制完全透明。
拉米尼尼还通过类似架构决策构建了制度信任。"我们绝不使用客户数据训练模型。默认情况下,数据归您所有,您可随时要求清除数据等。另一项措施是为企业级用户提供私有存储空间。数据可存储在自有服务器或私有存储容器中。"
这些设计不仅是功能——更是无需依赖企业承诺的信任机制。私有存储意味着数据物理上永不接触Fireflies的服务器。选择性训练则确保系统除非用户明确授权,否则无法学习用户的数据。这些保障源于架构设计,而非流程承诺。
用户认知的转变印证了这种策略的有效性。“有客户告诉我:‘我曾抵制Fireflies笔记功能,如今却离不开它。若开会时没有笔记工具,我会感到焦虑。’”
这种从抵触到依赖的心理转变,源于架构信任促成的行为改变。当用户对系统建立足够信任而尝试使用时,其实用价值便无可辩驳。但若信任建立在阅读隐私政策的基础上,用户永远无法体验到这种价值。
发展最快的企业将信任植入架构而非服务条款。它们深知在企业环境中,怀疑是默认状态。胜出的产品并非承诺最华丽者,而是其系统运作机制本身就体现着可观察的信任。
以色列Tastewise公司的阿隆·陈(Alon Chen)运营着一个面向餐饮业的人工智能平台,仅凭110人团队就服务于《财富》500强品牌。该公司从数据解决方案转型为工作流解决方案——这种转型足以摧毁多数团队。
“成功的关键在于速度,”陈表示,“尤其对初创企业而言,速度是当下唯一的护城河。”
但他对速度的定义颠覆了传统认知:“真正让我彻夜难眠的是思考、感知、分析各部门动态,不断自省我们是否真正保持高速运转。”
他衡量的并非功能交付速度,而是组织的不懈动能——即识别停滞状态并推动变革的能力,在僵化形成前及时扭转局面。
"不同人拥有不同技能。因此,当初与你共同创业的人未必是能长期留任、助你发展公司的人。"
这话乍听严苛,但若理解其深层逻辑便不难接受。**在稳定行业,企业追求的是专业知识的积累;而在快速演变的领域,专业知识存在半衰期。**两年前学到的AI知识如今已部分过时,非AI时代掌握的市场拓展策略也难以完全适用。
陈在招聘中贯彻了这一理念:“我们确保所聘人员对变革充满热忱。因为今天是通用人工智能,明天就会出现新事物。昨天还是机器学习,今天已是通用人工智能,而世界正迈向智能体时代。我希望团队始终保持变革心态。”
但陈在处理中面临一个容易被忽视的矛盾:没有记忆的躁动终将演变为混乱。既需要快速适应的人才,也需要承载过往尝试及其失败原因的机构记忆。
在Tastewise转型期间,陈并未全盘更换团队。有人适应了新方向,有人未能跟上。留任者不仅是技术最精湛的——他们更能同时把握旧有背景与新方向。他们既能指出“两年前我们尝试过类似方案,当时失败的原因是...”,又能阐明“但如今不同之处在于...这或许能促成成功”。
这正是招聘“不安分者”的高级版本:你需要的是既能从变革中汲取能量,又能严谨汲取历史教训的人才。
这一原则不仅适用于招聘,更延伸至组织架构。转型期间,陈刻意打破团队结构、调整关键绩效指标并重新分配人员。但他同时保留了某些稳定要素——客户关系、核心技术基础设施、文化价值观。彻底颠覆会引发混乱,而战略性颠覆则能催生适应力。
“变革思维、变革管理能力,以及在小型企业相较于大型企业更强的颠覆能力”,最终成为核心竞争力。
那些历经多次技术变革仍存活的企业,不仅容忍变革——它们将变革内化为生命力。它们构建的组织以适应性为基本要求,且机构学习能力随每次变革持续累积而非归零。
痴迷于利用率指标Ambience公司的吴(Mike Ng)团队对细粒度使用指标的痴迷看似过度,但当你理解其对AI与传统软件的差异化意义时便豁然开朗。
“我们创建共享仪表盘,让医疗系统合作伙伴能实时查看每周活跃用户、每月活跃用户及使用率——不仅按专科维度,更细化到就诊类型维度。”
传统软件采用二元化使用模式:要么使用要么不用。而人工智能采用连续化使用模式:用户虽在使用,但信任程度与实际工作流程的融合度存在差异。
这种可视性揭示了聚合数据掩盖的问题。“此前我们面临一个难题:儿科健康检查的利用率偏低。”
团队调查后发现意外情况:“临床医生常提供诊疗服务,却未记录相关信息,导致工作成果未获认可。”
具体问题在于:“当母亲带儿子来做健康检查时,常会说‘顺便看看这片皮疹好吗?’医生会处理急性症状,却因时间紧迫未单独记录。但实际上他们本应获得‘修饰符25’的诊疗报酬。”
关键在于:人工智能在技术层面是有效的——它能准确转录对话内容。但它未能创造临床医生真正需要的价值。AI的失败往往并非技术缺陷,而是价值对齐的失败。
传统软件的故障显而易见——功能失效、系统崩溃、错误提示。AI的退化则隐蔽得多——技术上可行却与工作流程脱节,解决错误的问题维度,或在系统其他环节制造新摩擦。
精细化的使用指标能及早发现这些问题。若儿科常规诊疗使用率仅40%,而肿瘤科随访使用率达85%,问题必然出在工作流程适配性而非技术本身。
Fireflies公司的拉米尼尼(Krish Ramineni)同样追踪此类行为信号。从“我不想用这个机器人”到“没有它反而焦虑”的转变绝非偶然,传统采用率指标也无法捕捉这种变化。衡量标准不仅在于用户是否使用产品,更在于其使用体验——更重要的是当产品缺失时用户产生的感受。
这种精细化度量在人工智能领域尤为关键,因为技术能力与实际价值之间的鸿沟远大于传统软件。传统软件要么有效要么无效,而人工智能可能在技术层面完美运行却毫无价值,甚至产生抵消其效益的摩擦。
成功扩展人工智能的企业不仅追踪采用率,更以最精细的粒度追踪价值创造。它们能区分人工智能真正革新工作流程的场景与仅增加复杂性的场景,并根据使用模式(而非仅凭用户反馈)决定功能的淘汰或重构。
喧嚣的讨论总是围绕着模型本身:更大、更快、更多的参数。但那5%的成功者,似乎在凝视着相反的方向。他们关注的是技术与现实交汇处那些混乱、粗糙的触点。他们明白,人工智能的失败,鲜少是因为算法错误,而是因为信任的崩塌、流程的笨拙,或是它所承诺的价值与使用它的人背道而驰。真正的护城河不在于代码,而在于那套精心设计的信任架构,在于对人类工作方式的深刻洞察。技术终究是为人服务的。与其说他们在构建更聪明的人工智能,不如说,他们在构建一种能抵御技术自身持续颠覆的组织韧性。
在你的行业中,你认为AI落地最大的障碍是什么?欢迎在评论区分享。
作者:塔伦·加拉加利(Taran Gagarani)
来源:无敌浩克一点号
