火爆全球的“数字人”,南京造!

B站影视 日本电影 2025-03-19 16:57 1

摘要:3月9日,南京硅基智能科技集团(以下简称硅基智能)宣布在GitHub(全球最大开发者社区)开源旗下AIGC数字人模型HeyGem.ai,同时发布基于该模型的同名数字人工具硅基数字人克隆的本地安装包,迅速成为AI开源领域现象级事件。短短一周,几万名来自全球的开发

3月9日,南京硅基智能科技集团(以下简称硅基智能)宣布在GitHub(全球最大开发者社区)开源旗下AIGC数字人模型HeyGem.ai,同时发布基于该模型的同名数字人工具硅基数字人克隆的本地安装包,迅速成为AI开源领域现象级事件。短短一周,几万名来自全球的开发者会聚硅基智能线上社区,GitHub点赞超3000颗星。

“为什么开源,不怕没了技术壁垒吗?”3月18日,面对记者的提问,硅基智能创始人兼CEO司马华鹏淡定回答道:“既然选择开源,就代表了技术上的自信。扎根南京这片科技创新沃土,我们又和江苏省产业技术研究院共建了JITRI—硅基智能联合创新中心。在科技创新和产业创新深度融合的过程中,公司必然能不断拿出更好的产品。同时,我们也希望能推动产品优势向生态优势转变,在全球形成品牌影响力,从南京出发,迈向全球。”

01

科产深融“造人”

多国媒体点赞南京AI

其实早在开源前,硅基智能就在国际上名声很响,相关报道见诸《麻省理工科技评论》、德国第一电视台、日本共同社、法兰西24台等国外媒体。法国一家电视台参与报道的记者杜瓦尔更是直言:“中国的人工智能技术已经非常成熟,我们相信硅基智能的AI数字人技术一定有着光明的前景。”

美德法日媒体争相报道硅基智能。

司马华鹏将这一切归功于科产深融带来的技术突破。

他告诉记者,硅基智能虽然才成立不到8年,但始终高度重视技术及创新发展。

一方面,健自身“筋骨”,公司算法等研发人员占员工总数的70%以上,研发费用持续3年过亿元;另一方面,强校企合作,聚焦数字人生成、虚拟现实引擎、智能编码等多个领域的前沿技术,和南京大学、东南大学等众多高校深度合作,逐步建立以企业为主体、市场为导向、产学研结合的自主创新体系。

同时,硅基智能还积极外拓创新“朋友圈”,两年前与江苏省产业技术研究院共建了JITRI—硅基智能联合创新中心。

司马华鹏深信,创新,永远不能靠单打独斗,“我们有自研武器,但也需火力支持。大家合力研发,将创意转化为实际的产业应用,从10发展到100,甚至更大规模。”

联合创新中心成立后,硅基智能结合当下数字人发展情况,第一时间列出10项技术需求,涉及自主意识与情感反应数字人系统、多模态融合智能处理框架、直播数字人的音频驱动口型、多模态智能人机交互的语义关联信息融合技术等。

“每一项都是我们一线最迫切的需求。如今,已经有一半都对接解决了。剩余5项,正借助江苏省产业技术研究院的创新网络在全球‘张榜’。”司马华鹏说,在科技创新和产业创新深度融合的过程中,公司“造数字人”技术稳步迈向国际水平,特别是在“拟人”上实现巨大突破,获得较为成功的应用效果。

截至目前,硅基智能已拿下全球发明专利授权135件

02

技术迭代升级

为数字人注入“灵魂”

在取得一系列成果的基础上,硅基智能的技术研发脚步并未停歇,而是持续迭代升级。

采访当天,记者正巧碰见一场关于“多模态深度学习模型架构”的研发小组会议。会议室内,数十台笔记本电脑屏幕上闪烁着复杂的数据与代码,研发人员的讨论热烈又冷静。

“这是一场接力创新赛。”连山易(公司内部花名)已在硅基智能研发组工作多年,会后主动留下擦白板、整理会议室,“两年前联合创新中心建立后提出一批技术需求,对于已解决的,我们要接着在创新之上再创新;对于还没解决的,我们自己必须上,不能干等人家‘揭榜’帮忙。”他手指点了点白板上还残留着的“层次化”“融合”“桥梁”等字样。传统Transformer架构处理单类数据(如文本或图像)表现出色,可现实中,人们接收文字、图片、声音等多元信息时,Transformer就难以将不同类型数据有效融合理解,显得力不从心。“现在,我们找到了方法,要给不同模态的数据搭建一座‘桥梁’。”他说。

这座“桥梁”能让文本、图像和声音等数据相互交流、融合。连山易进一步解释道:“这样可以让数字人整合周围环境,你的表情、声音等信息一起,形成一个对外部环境更全面、更准确的理解,从而提供更丰富的交互体验和更准确的信息传递。”

硅基智能创造永恒的kodry.ai,为6000公里外的外国妈妈圆梦。

据了解,当前,硅基智能正瞄准3个核心技术方向展开研发,分别是融合式多模态深度学习模型架构、实时上下文感知与自适应决策系统、跨模态一致性与高效输出保障平台。连山易打了个比方,“当前行业正在共同突破的技术目标是‘如何让数字人变得更像一个人’。你可以把这3个方向简单理解为我们在试图注入‘灵魂’,要让数字人的‘大脑’更像人一样去思考,‘眼睛’更像人的眼睛一样去看懂世界,‘讲话’更像人一样在避免歧义的同时进行个性化表达。”

03

开源建生态

推动“数字人”产业创新发展

硅基智能用AI技术还原了闻一多、梅兰芳、谢晋等。

走进硅基智能,第一感觉是“人潮”汹涌。这里随处可见显示屏,屏幕上是数字人律师、数字人主播、数字人医生、数字人老师、数字人企业家……屏幕外,数字人研发者不仅是“造人者”,也是其研发产品的长期使用者。

场景应用驱动技术创新。司马华鹏说,开源也是基于这一逻辑。

他将话题转回科产深融,以此举例道:“你看,我们原来以自研为主,后来和大家联合研发。开源也是一样的道理,只有走出去,让越来越多的人接触数字人、使用数字人,形成一个良好的生态环境,产业才能发展得越来越好。”司马华鹏表示,中国企业要以开放的姿态制定行业新标准,让数字人技术真正“飞入寻常百姓家”,让技术红利惠及全球开发者与普通人,而非囿于垄断与封锁。

硅基劳动力赋能各行各业。

来源:江南水乡生活见闻

相关推荐