摘要:在数字经济快速发展背景下,全球电子商务行业正经历深刻变革,随着人工智能、大数据和云计算等前沿技术不断进步,电商模式正从货架式销售向更加互动和个性化的直播电商转型,并进一步演进为以数字人为代表的AI驱动型电商。
在数字经济快速发展背景下,全球电子商务行业正经历深刻变革,随着人工智能、大数据和云计算等前沿技术不断进步,电商模式正从货架式销售向更加互动和个性化的直播电商转型,并进一步演进为以数字人为代表的AI驱动型电商。
当前主流数字人主播存在语言机械、缺乏真实感、互动能力弱、商业转化能力低、场景适配性差等短板,且技术门槛高、部署成本大,制约了其应用拓展。大模型赋能下的数字人直播成为破局关键,如同为数字人安装上大脑,不仅可以提升数字人主播在语言理解、情感表达、实时交互、形象塑造等方面的能力,还可以帮助电商企业降低成本、提高效能,真正使电商行业进入“以技术驱动增长”的新阶段。
目前,制约数字人直播电商发展的重要问题是商家难以获得简单易用的数字人制作工具,使其具备“一键托管式开播”能力,百度旗下智能电商品牌百度优选推出的数字人直播平台慧播星相当于为商家解决了痛点,帮助他们实现一键开播的链路优化。2025年6月17日,慧播星与其首席体验官、交个朋友直播间首席好物推荐官罗永浩联合发布的新一代高说服力数字人,开启一场技术赋能的“强人工智能”实验,拓展了我国数字经济领域的潜力与可能性。
缘起:百度与罗永浩“交个朋友”
百度与北京交个朋友数码科技有限公司(简称交个朋友)携手推出数字人主播罗永浩,基于双方共同的“复制”罗永浩目标,即利用先进的数字人技术,塑造无数数字人主播,降低甚至摆脱对真实主播的依赖。
对于百度而言,进入电商行业是其增强用户黏性和扩大行业影响力的重要战略,数字人技术可以帮助百度依托技术优势增强其在电商行业的地位。相较于腾讯、阿里等科技企业,百度在用户连接工具方面的不足限制了其用户基数增长及用户黏性的深化。长期以来,百度试图通过布局电商补足短板。从2008年推出综合性在线购物平台“百度有啊”,到2015年推出“百度MALL”,再到2023年基于自身技术优势,“以AI重构人货场”为战略方向推出智能电商品牌百度优选,标志着百度电商向智能电商转变,确立了其不同于其他电商平台的差异化优势。百度优选致力于构建覆盖电商全链路的AI基础设施,技术能力包括AI导购、数字人制作、智能营销等。其中,提供AI全栈式数字人直播解决方案的慧播星平台,以其降本增效潜力备受青睐。
对于交个朋友来说,数智赋能可以帮助其减少对公司创始人罗永浩的倚重。交个朋友是一家成立于2019年的综合性直播电商服务机构,作为中国最早一批进入直播电商领域的头部机构,交个朋友成立以来凭借创始人罗永浩的巨大影响力迅速崛起。随着业务模式不断演进与组织战略深度调整,公司逐步实现从单一明星IP向多元化、矩阵化运营模式转型。据公开数据显示,罗永浩在交个朋友直播间的实际直播时长占比已低于1%。
为进一步摆脱对罗永浩的依赖,交个朋友试图依托技术赋能,推动全链路电商流程智能化,形成以数据驱动为核心的直播电商运营闭环。2025年上半年,百度优选找到罗永浩寻求合作,双方于5月23日推出第一场真人直播,并在6月17日推出数字人主播罗永浩。
探索:百度数字人发展历程与突破
数字人技术的发展历程可划分为四个阶段。
2015年前后,数字人进入萌芽期(1.0 数字化阶段),主要依赖基础建模和动画技术,实现虚拟人物的外形和声音模仿,但存在表情僵硬、语音机械,互动性较差等问题;
2018―2020年,随着深度学习和AI语音合成等技术的进步,数字人迈入超拟真阶段(2.0阶段),能够实现数字人高精度形象克隆,使其具备自然的动作表现和语言生成能力,但复杂情境下数字人决策能力有限,适应性和灵活性有待提高;
2021―2024年,大模型技术推动数字人向高说服力阶段(3.0阶段)跃迁,数字人具备感知、决策与行动能力,能够进行智能场控和脚本创作;
未来,数字人将进入超越真人阶段(4.0阶段),具备多任务并行处理能力,作为知识大脑,数字人有望成为真正意义上的超级智能体。
百度自2016年起布局数字人技术,早期以语音合成、图像建模为核心方向。伴随AI大模型发展,百度在2021年推出基于文心大模型的虚拟数字人平台,实现从形象克隆到语音驱动的全链路智能化升级。2022年之后,百度进一步将数字人技术落地至电商直播领域,推出多个可实时互动、自主运营的数字人主播。百度敢于在这个竞争激烈的领域持续投入,不仅源于其在AI技术方面的积累,更在于看到了数字人技术在数字经济领域不可替代的战略价值。从早期以在传媒、政务和金融等少数领域提供问答等基础服务为主,到现在逐渐向直播电商、教育等场景拓展,数字人技术的商业化变现能力逐步提升。
目前,数字人技术正迈向3.0高说服力阶段,百度推出的“高说服力数字人”代表了这一技术的发展方向。“高说服力数字人”指集成“形象+感知决策+行动”能力的超级智能体。首先,它作为数字人主播出现,外形、表情、声音和动作都能达到与真人高度一致的逼真效果,且可根据不同场景和需求自动生成和调整脚本;其次,这种数字人配备AI大脑,后者赋予它们自主思考与决策能力,使其能在各种环境中智能判断,特别是在处理复杂任务时,协调管理多个智能体,确保指令高效执行。
罗永浩数字人主播作为业内首个真正意义上的强IP数字人,在体验、内容、视觉和效果四方面实现突破。
体验方面,通过复刻罗永浩及其搭档朱萧木,打破了单一数字人直播带来的单调感;
内容方面,能够自动生成结构化、个性化、富有感染力的直播脚本,精准捕捉消费者需求;
视觉方面,数字人形象高度还原真实主播特征,语言与动作相得益彰,栩栩如生;
效果方面,首次直播成交总额超过5500万元,具有强大带货能力。
以上成绩得益于两个关键因素:一是慧播星平台作为数字执行系统和用户界面,能够提供快速、标准的数字人制作流程;二是文心多模态大模型可为慧播星平台提供复杂计算和智能处理能力,实现文字、语音与视觉效果协同统一,不仅克服了数字人不像真人的“死亡谷”,而且确保数字人高质量呈现。
▲目前,制约数字人直播电商发展的重要问题是商家难以获得简单易用的数字人制作工具,百度慧播星平台作为数字执行系统和用户界面,能够提供快速、标准的数字人制作流程,帮助商家解决了痛点。
路径:慧播星平台全栈式数字人直播方案
2024年4月,百度正式发布数字人制作平台慧播星,该平台能够利用AI技术,通过标准流程,帮助商家创建数字人主播,并自动生成直播脚本和互动对话,优化直播间布局。通俗讲,我们可以把慧播星平台理解为商家打造数字人直播间的操作界面,通过界面引导,帮助商家实现从数字人主播制作到直播间开播的数字人直播电商全流程操作,助力商家实现数智化转型目标。新一代高说服力数字人直播间生成过程如下。
1. 生成数字人主播
慧播星平台通过上传真人视频,利用高精度克隆技术生成高度还原的数字人主播。相比之前的数字人直播技术,慧播星平台具有诸多创新和升级之处:支持单主播或双主播模式,并可按需求设定主副角色,更加贴近真实直播场景;从仅依赖唇形驱动扩展到动作、手势、表情等高表现力行为,并且与文本、动作匹配,表现力和沉浸感进一步增强;语音高度拟真,融入口头禅、语言风格等个性化元素,具备情绪感染力和语言魅力,能够打动观众,提升直播效果;支持声音与动作协调配合,实现场景化话题的自由切换与自然互动。
2. 选择商品
选择商品是连接内容生产与商业转化的重要环节。商家可基于慧播星平台提供的服务,根据直播目标设定商品结构,明确主推品、次推品和福利品,从而构建有层次的推广策略。与此前的数字人直播方案相比,慧播星平台目前可通过调用专业知识库弥补真人主播在产品理解方面的短板,使讲解更具权威性和说服力,同时支持多种讲解风格,实现在幽默风、文学风、科学风等不同风格间的切换,满足不同用户群体偏好,使带货效果更专业、更精准、更具吸引力。
3. 剧本创作
剧本创作是构建高质量直播间内容的核心环节。商家可基于数字人主播的人设、商品详情、商品属性及电商知识库,自动生成结构化、多模态的讲解剧本。与传统数字人直播间仅包含文本的单模态脚本不同,慧播星平台将“脚本”升级为“剧本”,实现从单一语言表达到神态、形态、音容等多维度、多模态统一,解决了上一代数字人主播换场生硬、互动不足等问题。
剧本创作步骤如下:首先,明确剧本要素,包括角色(主播、助播)、视觉(表情、动作)、声音(语音、语调、画外音)及互动机制(讲品、福袋、问答环节);其次,整合商品信息、品牌背景和主播人设,确保内容准确且符合风格定位;再次,将多维信息输入文心大模型,进行定制化训练,使生成的剧本贴合主播个性与消费者需求;最后,输出完整、可执行的直播剧本。系统还可根据观众进入、退出等行为,调整主播话术,生成“文字积木”,在不同场景中自动呈现,增强临场感。
4. 多智能体配置
在慧播星全栈式数字人直播解决方案中,多智能体配置是提升直播间运营和互动能力的重要环节。该环节通过模拟真实直播间角色,如场外主播、助播、场控、运营等,构建高度协同、反应灵敏的虚拟直播团队。平台基于AI大脑技术,实时分析直播间互动热度、用户行为、评论内容等信号,动态调度智能体,增强数字人主播的应变能力,使直播过程更智能化、自动化。
具体操作流程为:首先,在系统中设定所需智能体角色及功能,如运营智能体负责多媒体素材制作与多机位切换,互动智能体承担邀评、多轮问答等任务,场控智能体执行送锦鲤、发福袋等福利操作,助播智能体则用于气氛烘托和节奏引导;其次,AI大脑根据直播过程中用户的实时反馈,自动优化调度与之匹配的智能体,实现智能决策与高效协作,如在罗永浩数字人直播间中主要应用互动智能体增强与观众之间的沟通效果。
值得一提的是,慧播星平台提供的智能场控能力,不再依赖人工场控人员,可根据在线人数、直播节奏、商品分布(爆款、引流品、利润品)等数据,自动调节氛围、安排抽奖、发放红包等,帮助商家实现高效的流量转化。
5. 数字人直播间生成与线上开播
数字人直播间生成与线上开播是慧播星全栈式数字人直播解决方案的最终呈现环节,标志着从内容策划到实际落地的全面完成。这一阶段,平台将前述步骤中生成的各项内容整合输出,构建神情意兼备、互动自然、专业度高的虚拟直播间。数字人主播能够根据人设和脚本,为消费者提供专业细致的商品讲解,同时具备实时问答和灵活互动能力,提升用户参与感与商品转化效率。
与以往数字人直播相比,该阶段实现了从“答对答全”到“妙语连珠”的跃升。系统可自动识别用户问题的类型,如闲聊调侃型、时效评论型、商品信息咨询型、库存物流型等,并基于语义理解和用户意图分析定制化回复,且能聚合同类评论统一高效回答。此外,慧播星平台还可结合百度热搜内容实现实时造梗并自然植入直播话术,增强语言趣味性和传播力。商家还可通过手动添加、Excel导入、AI辅助等方式录入常见问题答案,构建专属知识库,为数字人主播提供精准的问答支持。
作为底层AI能力,慧播星提供的全栈式数字人直播方案可以帮助商家全面覆盖多元化消费场景,除直播领域,已拓展至短视频内容生产。目前,慧播星平台已接入京东、淘宝、拼多多等货架电商平台及快手等媒体电商平台。数字人罗永浩背后的支撑技术——新一代数字人技术NOVA已于2025年7月26日正式发布,并将于10月向全行业开放,普通用户能够以较低门槛获得媲美头部主播的专业带货能力。
底座:基于文心大模型的多模协同技术
数字人制作涉及语音合成、文本合成与视觉合成三项技术,在百度多模态大模型加持下,慧播星平台不仅克服三项技术各自存在的问题,且通过剧本生成实现三者之间的多模协同,做到语言、语调、动作协调一致,让数字人主播达到类似真人并超越真人的效果。
文本、语音、视觉合成技术分别负责数字人生成的不同方面。文本合成负责生成或转换文字内容,语音合成负责将文字信息转化为语音输出,而视觉合成则涉及创建逼真的面部表情、身体动作等视觉表现。在百度推出高说服力数字人之前,语音、文本与视觉合成技术三者彼此分离且各有不足,慧播星平台基于文心大模型找到应对之道。
文本合成方面,数字人生成需要提供贴合主播个性的多样化风格,慧播星平台风格建模技术通过深度学习算法和大规模数据训练,生成风格多样的播报文本。成功的人设打造与真实还原真人主播特点至关重要,慧播星平台利用真人数据挖掘、仿写以及提炼技术实现精准还原。在直播内容的专业化和真实性方面,慧播星平台提供的知识增强技术支持数字人基于事实讲解,并保证内容的专业性和权威性。
语音合成方面,一方面,与传统数字人主播生成字正腔圆的朗诵式语音不同,电商数字人要求语音流畅自然、抑扬顿挫,情绪饱满,富有激情,文本自控的语音合成大模型可结合主播风格、用户特征等信息,实现所需要的语音控制效果;另一方面,知名主播语音高度复原、双人配合讲解是语音合成的难点,慧播星平台通过加入对话上下文解码器,采纳历史和当前信息推理计算,解决上述难题。
视觉合成方面,数字人技术在数字人形象生成和驱动、大表情与大动作等高表现力动作生成、人货场之间复杂交互、超长直播等方面面临挑战,慧播星平台综合输入历史视频、剧本、语音及骨骼信号,通过高一致性高品质长视频生成技术,构建上下文感知机制,确保人物形象、语音特征、动作节奏长时间稳定运行。
若文本、语音、视觉三者不统一、不协调,容易让数字人出现多维信息传达不一致、真实感缺失与情感表达不足等问题。慧播星平台通过融合多模规划和深度思考的剧本生成技术,以及剧本驱动的数字人多模协同技术,可实现表情、动作、语言协调一致,提升数字人主播的表现力,使其自然、生动、富有感染力,提高信息传递效率,改善用户体验。
本文刊发于《企业管理》杂志2025年第9期
来源:企业管理杂志