继图形、触摸之后,硅基数字人代表的智能交互将带来互联网的第三次交互革命。作者 | ray摘要:成立七年多,在数字人行业,一半人在摸着硅基智能过河,一半人看不懂硅基智能。一方面,融合了大模型与数字人多种热门科技元素于一身,成立七年多,硅基智能却是业内罕见的不烧钱的玩家。在业务规划上,这家公司走的是难得的稳扎稳打的玩法:在人人比拼大模型参数与价格战的时候,
编辑 | 郑玄成立七年多,在数字人行业,一半人在摸着硅基智能过河,一半人看不懂硅基智能。一方面,融合了大模型与数字人多种热门科技元素于一身,成立七年多,硅基智能却是业内罕见的不烧钱的玩家。在业务规划上,这家公司走的是难得的稳扎稳打的玩法:在人人比拼大模型参数与价格战的时候,硅基智能已经凭借最基础的智能外呼赚到了第一桶金;没过多久,公司的做法成为金融领域智能外呼的标准模板,硅基智能开启了公司的第二曲线。再后来,疫情期间,数字人赛道爆火,凭借着智能外呼积累起的交互经验以及逼真的数字人形象,还有强悍的渠道,硅基智能一度将旗下数字人直播间数量推到五万家之多。以此为基础,硅基智能公开放言要成为国内第一家营收百亿的 AI 企业;与此同时,能否帮助用户赚到 100 万,被写进了这家公司对产品的 KPI 考核。如今,这两个目标,均已进展大半。但仍有一半人看不懂硅基智能。在过去两年,元宇宙的星辰大海中,3D 一度成为创投风口的背景下,硅基智能屡次发声坚持 2D 思路,为此,创始人司马华鹏甚至被踢出了同行群聊。而在大模型如火如荼的当下,所有人都在试图打造一个全知全能 AI 之时,司马华鹏却在试图颠覆传统意义上对图灵测试的认知:在智能程度上,无法区分人与机器,只是一级的图灵测试;让 AI 拥有情感,完成人与机器的双向情感交互,是二级的图灵测试;人与 AI 死生相契,这是三级的图灵测试,也是我们打造人工智能的终极目标。如何定义 AI 的情感,以及如何完成跨越硅基碳基的死生相契,一千个用户有一千个哈姆雷特。但这些并不影响硅基智能在这个行业的分量:成立仅七年,硅基智能已经连续获得九轮融资,其投资人,既包括红杉中国这样的顶级 VC, 招银国际这样对风险回报严格控制的银行资本,同样不乏腾讯、360 这样的产业巨头。在 C 端的破圈,则始于 2022 年百万粉丝大 V 刘润的年终演讲,视频中,刘润展示出的硅基智能为其制作的数字人效果几乎真假难辨,引来台下一片惊呼的同时,硅基智能也随之声名鹊起。紧随其后,ChatGPT 在 2022 年年底发布,数字人被装上进化版大脑。自此,抖音、快手、视频号,各大视频内容平台中,硅基智能的数字人产品成为全行业最炙手可热的明星。然而,仅仅一年时间,平台风向突变,抖音对数字人直播的态度,从鼓励变为打击封禁,硅基智能在抖音最多十万多的直播间,到如今只剩几千家。司马华鹏的频繁对外发声中,也自此杠上了巨头抖音。足够吸引眼球,也足够有争议。一定程度上,读懂硅基智能,也就读懂了数字人产业的过去与未来。
01
数字人直播间破万后的困惑无论是否承认,在数字人产业,硅基智能都是一个让人望而生畏的对手。在这家公司的历史中,你不难看到这样的战绩:2023 年,硅基智能为某酒旅品牌打造的数字人直播间,销售 GMV(商品交易总额)突破十亿;某咖啡品牌的数字人直播间,5 小时收获了 85.6 万营收,数据之亮眼,也吸引了国内电商直播龙头谦寻与其共同打造 AI 数字人直播系统。趁着这波平台的流量窗口,凭借公司多年累积起的 120 多项授权专利,硅基智能一举将旗下人工智能相关的矩阵号推到了上百个,每天上亿次的播放,累积起超过千万的粉丝量。公司业务在这一时期,覆盖了金融、政府、运营商、保险等多个行业,拿下了包括工商银行、中国银行、招商银行在内多家巨头客户。这不仅成为硅基智能当时的核心业务,也让其打造了 AI 领域最大的账号矩阵,将公司估值一举推到近 10 亿美金。如果这一趋势持续,那么到了 2025 年,硅基智能将轻松完成自己定下的目标——为全球打造 1 亿硅基劳动力。对于这种高举猛打,司马华鹏将其定性为对第一性原理的尊重,以及对乔布斯引起的第三次交互革命 Siri 的延续与变种——互联网的革命本质是交互的革命。历史上,Mac OS 与 Windows 将计算机从代码交互变为图形交互,自此产生了 PC 产业;智能机将手机交互从键盘按键改为触摸,APP 绑定人类的衣食住行,全世界范围内的移动互联网浪潮就此掀开;第三次交互革命,则是 Siri 掀开从触摸到语音的升级,几十万年的历史演化,已经将语言、语音与沟通的强绑定,刻进了人类乃至所有动物的 DNA。然而,革命注定不是一帆风顺:Siri 功业未半而乔布斯中道崩殂,硅基智能数字直播间正加速狂奔,突然迎来抖音的平台风向突变:2023 年到 2024 年,抖音开始对数字人直播进行严查,不到一年时间,硅基智能旗下 AI 数字人直播间就从几万个,掉到了几千个。尽管抖音失利后,硅基智能立刻转战淘宝、天猫、拼多多、美团,新的直播间再次风生水起,但司马华鹏想不通:为什么 2022 年,为了快速占领直播市场,还率先引入了数字人直播的抖音,如今却对数字人的态度一改往常?为什么一个诞生之日起,就强算法导向弱编辑干预的平台,唯独如此抗拒算法内容的生成?更深一层,「为什么我们的数字人被封禁了,但是剪映生成的内容却还在大行其道?」「故人」戴上了帽子,怎么突然就成了「敌人」?业内一个被广泛认可的解读是 AI 大行其道,所产生的内容参差不齐,会影响平台的用户体验。但算法的内容产出一定低于真人,更生动的视频只能依靠真人动捕吗?硅基智能不这么认为。02
参数的 scaling law 与情感的 L1-L5最近几个月,在硅基智能,所有员工发现,老板司马华鹏突然之间变得无处不在。最近司马华鹏频繁地开会、与销售一起见客户;一线产品与研发遇到问题,司马华鹏第一时间会给出回应;公关职能部门的主导下,司马华鹏还密集的参加行业大会以及采访交流,高强度对外发声。各种内外事务交织,这位老板的日常用忙得脚不沾地形容,也算不上夸张。但是打开网络,这位 CEO 却仿佛还同时活在直播间,不停地回答各种网友的提问,国学、技术、教育,无所不能。在这背后,是司马华鹏在面对「如果生命只剩一年的提问」后,把自己上传到了大模型世界中所打造的「simahuapeng.ai」。在他看来,亲情不只是血缘关系的天然绑定,而是超越生物学意义上的回忆、形象、思想、经历、交流的总和。因此,在 simahuapeng.ai,司马华鹏将自己的思想、记忆、情感和人格特征通过几百万字的数据输入传递给 AI,形成了自己在硅基世界中的分身,除了像传统的大模型一样「博学」,数字人一样逼真之外,还同时具备思考能力、情绪感知与回应能力,以及与外界互动的能力,在交互体验中,与一位坐在直播间对面的真实主播交流别无二致。当然,这种语音识别、情感理解、视觉感知、真人级形象等前沿能力不只能被用来复刻司马华鹏。基于以上技术,从而衍生出的涵盖情感陪伴、知识传承和个人品牌塑造在内的硅基分身能力,在未来可能无限大。比如,陪伴与数字永生,正接棒直播,成为新的营收发力点,最近硅基智能在忙的一件事情,就是通过数字人让民族实业家张謇「复活」。不过,与这种能力进化形成鲜明对比的是,「simahuapeng.ai」的开发,在内部,只花了团队大约一周时间。支撑起这种高效的,则是硅基智能自主研发的 DUIX ONE 多模态大模型。DUIX ONE 的大模型参数量达到 700 亿个,因此,在处理复杂任务和理解自然语言方面表现显著提升,进而与用户产生足够聪明的互动。此外,实时推理上,DUIX ONE 的单次推理时间大约在 300 毫秒,因此只要网络状况允许,完全可以提供与真人交互同等级别的流畅体验。交互的深度上,DUIX ONE 则能够处理长达 10,000 个字符的上下文,确保对话连贯性。此外,针对不同场景,DUIX ONE 的数据训练,还涵盖了医疗、教育、娱乐在内等多个领域,让模型做到天文地理无所不知,并支持超过 50 种语言的理解与生成,满足全球用户需求。与此同时,不同于市面上一些数字人「形象」与「思考」的分离,导致数字人说话时的口型、表情不一致;DUIX ONE 除了发力多模态,在文本基础上增加图像、视频、声音和形象的处理能力,同时还支持文本、音频和视频的端到端处理,所有操作均在统一模型中完成,无需模态转换,音画同步成为可能。对于用户比较在意的 AI 数字人「赛博油腻」「不真实」的痛点,DUIX ONE 在交互中,对面部、情绪和背景声音的识别准确度再次提高,可以输出情绪饱满的音频之外,视觉上,还支持高达 4K 分辨率的图像输入,并能够识别超过 10,000 种不同类别的物体,准确率达到 98%。因此,与 DUIX ONE 就像一个真人,不仅能听懂语音,更可以根据产生相应的动作、情绪、表情作出回复,真正将大模型与数字人技术结合,实现了 「All in One」。但数字人,一半是数字,另一半是人。在大模型朝着 scaling law 一路狂奔的时候,司马华鹏无疑是这场游戏中最热情的参赛者之一。另一方面,围绕「人」或者「生命」,司马华鹏对大模型智能的评判标准,在 scaling law 之外,还有一套独特的情感的 L1-L5。思考的来源,源于他陪伴儿子成长的过程。儿子是 14 年出生的,司马华鹏在 2017 年创业时候儿子只有 3 岁。陪伴孩子成长的过程,也影响到了司马华鹏创业的思路:「小朋友的大脑的发育是个很有趣的现象,他五六岁的时候,不会深度思考,但是他已经可以很好地表达了,比一个无所不知的大模型,更生动、更灵活,拥有更多可能。」得到启发,NLP 的 P 或许除了 processing,还有 performance 的含义,至少在数字人的打造中,表演、表达与情感是重要一环。比如在过去,硅基智能被很多人认识,就是源于克隆大 V。但数字人能否学会大 V 生动的面部情绪,声音起伏,才是用户决定是否接受大 V 数字直播的根本。只有智能的 AI 显然无法做到。与此同时,数字人直播,用户进来之后,如何留住,这依旧需要情感的能力进化。而这些也就成为司马华鹏提出图灵测试三等级的根本:智能通关之外,还应该人机双向情感交互,最终达成死生契阔。但情感进化,可以等同于一个完美的数字人直播商业模式吗?答案是否定的。03
3000 块与 100 万如何评价一个大模型是否有用,在硅基智能,答案简单而粗暴「能不能帮用户赚 100 万。」如果不行,参数再多,技术再先进,也无法保证技术路线是不是掉进了加拉帕格斯陷阱自娱自乐。产生这个判断的逻辑很直白,司马华鹏经常举的一个例子是红杉的一份报告:全世界投了五六千亿美金在大模型算力,但是整个 AI 加起来的回报还不到 1, 000 亿,中间隔着几千亿 gap,全都是泡沫。未来,这些不能赚到钱的 AI,迟早会高峰跌落。但一个有趣的现象是,多次对外发声中,司马华鹏也坦言:如果说你买一个月 3000 块钱的数字人就能把公司的电商盘活,那这个数字人就不止 3000 块了。两句话似乎都很有道理,但连在一起,却多少显得有些矛盾?事实上,「矛盾」的根源,在于如何定义 AI。一次对外采访中,司马华鹏做了这样一个比喻,「数字人只是包饺子过程中的葱花,我能保证我的葱花是最新鲜的,但你不能说,饺子好不好吃,全指望葱花。数字人不是一个充分必要条件,它只是一个重要条件。所以,大家要对 AI 直播的预期和价值链有清楚的思考。」大模型与数字人本质是个工具,但工具发挥效益,却需要一个完整地从供应链到策划、投流、运营的体系。过程中,企业对 AI 直播的预期是什么?答案是节省主播培训费用,主播带货费用、实体直播间整体搭建费用。作为硅基智能的合作伙伴,谦寻曾经算过一笔账,一个日播的店播品牌直播间每个月至少有 10 万的基础投入费用,数字人直播如果进行大规模应用,保守估计能够帮助品牌降低一半的成本,品牌方每个月只需投入数千元,就可以打造自己的直播间。更关键的是,既降低了主播的试错成本,也没有主播跳槽的风险。更进一步,当用户掌握了数字人的能力之后,场景其实不止局限于直播。司马华鹏曾开过一个脑洞:用 AI 做一个「爷爷」数字人,孙子或者是孙子的更晚的晚辈过来给爷爷磕个头,谁磕头心意更诚,数字人就能给谁支付宝到账更多红包。为了将脑洞进一步延伸,硅基智能还推出了一项 10 亿元补贴计划,为 5000 万大学生免费提供 AI 技能培训和数字人技术支持。比如,支持一个五音不全,但颜值情商过关的大学生,成为顶流数字人娱乐主播。这样的场景很多,但司马华鹏给公司画出的红线是,不要去预设,不去过度伸手,「simahuapeng.ai」的打样之后,硅基智能的目标依旧是能不能让客户赚到 100 万。在 AI 的落地的 4*100 接力中,AI 与数字人只是个杠杆,用户才是能否撬动 100 万的收益,决定最后能不能夺冠的最后一棒——万能的锤子,敲出什么样的作品,全看将它用在什么场景。但对硅基智能来说,只要沿着乔布斯第三次交互变革的路线,做好过程中的加速,就足以成就一个足够伟大的商业模式。极客一问你看懂硅基智能了吗?来源:极客公园
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!