摘要:从「天工大模型1.0」的研发到「天工大模型3.0」的发布,再到今天的「天工大模型4.0」阶段,我们坚定地投入了近四年的时间和研发。今天,昆仑万维正式推出「天工大模型4.0」4o版(Skywork 4o),以及新产品「实时语音对话助手Skyo」。
从「天工大模型1.0」的研发到「天工大模型3.0」的发布,再到今天的「天工大模型4.0」阶段,我们坚定地投入了近四年的时间和研发。今天,昆仑万维正式推出「天工大模型4.0」4o版(Skywork 4o),以及新产品「实时语音对话助手Skyo」。
Skyo作为一个智能语音互动产品,具备快速响应、多语言对话能力,它能够主动发起对话、实时打断。同时,Skyo具备情感化反应和个性化声音定制功能,为用户带来温暖贴心的陪伴体验。
更重要的是,基于天工AI的大模型技术能力和AI搜索功能,Skyo能克服大模型幻觉问题,在对话中回复真实内容。无论在情感陪伴、个性化交互、多语言客服还是时事新闻聊天等应用场景中,都能提供智能且贴合需求的互动。
当前,昆仑万维旗下天工AI的应用生态羽翼丰满、备受用户喜爱,功能矩阵涵盖AI搜索、AI文档-音视频分析、AI写作、AI音乐、AI图片生成、AI PPT。
实时语音对话助手Skyo的推出和加入,不仅让天工AI的生态矩阵更加立体、逐渐完善,也标志着端到端实时语音对话建模技术的重大进步。
同时,以Skyo为代表的AI语音互动应用,正是我们期待的下一代超级个人助理的终极交互形态,结合未来Skyo所期待具备的多模态交互能力,它更是一次人机交互模式的新体验和革命性飞跃。
模型自研,打造端到端、更卓越的实时语音对话系统
通过深入研究实时语音对话过程,我们发现仍有一些痛点尚未被现有方案解决:全双工响应延迟较长、对话不够连贯、语音生成和交互体验不够自然,以及对多语言和情绪表达的支持不足。
昆仑万维则希望充分利用我们在AI大模型、AI音乐、AI搜索中的研发经验,提供更自然、更流畅、更拟人、低延时的用户交互体验。
「天工大模型4.0」4o版(Skywork 4o)以及Skyo由我们的技术团队自主研发,他们具有深厚的语音和音乐大模型的技术经验以及大量语音数据积累。端到端自研先进链路,能在多任务下表现出色,尤其在高强度对话交互中仍能保持稳定性和流畅性。
「天工大模型4.0」4o版(Skywork 4o)模型优势:
高效响应速度:通过端到端的语音对话建模,实现低延迟响应,接近人对话的思考问答时间。支持实时打断:用户无需点击对话开始和结束的按钮,全双工系统支持聊天中任意打断情感理解与个性化记忆:能够理解用户的情绪并提供情感化回应,对话更具人性化。可定制的声音风格:支持用户定制或挑选助手的音色和风格。有能力支持多语言:根据用户需求在多语言之间切换,适应全球化应用场景。产品亮点与实测
基于模型能力和先进的端到端实时语音对话建模技术,Skyo颇具亮点,能实现以下功能:
能在1秒内回复、聊天中可打断:依托全双工+低延时技术,系统能随时聊天和打断,带给用户更自然对话感主动交流:系统在检测到用户静默后,会主动发起聊天,并根据用户的历史偏好进行对偏好垂类的新闻进行语音播报持续长对话:可支持跟用户长时间对话互动,在用户休闲、健身、出行途中进行可持续陪伴,成为用户的个人互动播客情感反应:提供拟人化回复,会感受到用户情感进行回复质感音色:更自然、更逼真的声音表达,并且实现情感和语调的高度还原风格切换:支持用户定制声音风格,如选择专业新闻播报的男生音色、英姿飒爽的女生音色等强大的记忆功能:能够在对话中追踪并回忆用户的偏好和历史信息,以提升多次对话的准确度回复真实内容:具备实时资讯获知和知识拓展能力,与用户进行互动式交流那么我们先和Skyo打个招呼,然后再一口气问它一系列“难题”考考它,并且“故意”随时打断它:
对中国男子足球能否取得世界冠军,有什么看法?28+76=?对于一个单身男青年,可以推荐他晚上看什么电影在十字路口,一辆直行车,一辆右转车,请问谁应该让行?天空为什么是蓝色的?
Skyo的回答还是非常流畅的,在发音准确度、音质表现和整体听感上的表现都非常出色,不仅主动介绍自己可以提供科技和生活的资讯,还主动抛出橄榄枝,询问有什么想要了解的,试图开启话题。
无论是主动问好、回答生活常识,还是让它做数学题、为我们提供一些日常建议,Skyo都可以迅速接住用户要求。如果不喜欢它的默认男声音色,还可以让它切换音色,以英姿飒爽的女声、温柔甜美的女声来回复我们。
尽管我们粗暴地打断它,“我不想听了”、“下一个话题”,或者什么都不说,直接切换到下一个问题,Skyo的情绪非常稳定,并且做到了立马停止上一个话题的回复,无缝切换到下一个对话中。Skyo前一秒还在谈论“国足”,下一秒就丝滑切换到做数学题,并立马回应“这是一道加法题”,也瞬间回答出“等于104(正确答案)”。
此外,交通道路规则和常识问题也难不倒它。即便再加难度,让它推荐电影,回答的也是有模有样,展现出“真人”一样的高质量内容。看得出来,Skyo具备了基本的智力能力和流畅的响应速度。
接下来,我们试试Skyo对一些「严肃话题」和「实时新闻」的反应能力:
周末(11月16日)北京天气怎么样?北京平常下雨多吗?特朗普再次当选总统,你怎么看?李子柒上传了一个新视频,你看了吗?怎么样区分真诚的道歉和虚伪的道歉?什么情况下,说谎是个正确的选择?果不其然,天气分析、热点评论、辩证思考......通通不在话下。
针对严肃话题和热点新闻,Skyo能回复真实内容,回答的“有模有样”,逻辑清晰、论点清晰、证据真实,既能对美国总统竞选给出一些资讯分析,也能对时隔三年携最新作品惊艳回归的李子柒做出点评。
同样的,Skyo频频被打断,也没有“崩溃”,还是顺畅的跳转到了下一段对话。即使第一次没有听清楚我们说的内容,或认为自己答的不够好,它还可以自己调整,重新回答一遍,并且幽默说道“不好意思,看来没有回答的很好哦”。除了“智商感”满满,Skyo的回答也颇具情商,在回答一些”充满陷阱”的问题时,它同样透露出一些小智慧。
面对“什么时候说谎是正确的选择”这样的哲学性问题,Skyo能为我们分析出“为了避免伤害他人感情、保护隐私等时候,说谎可能是一个合适的选择”。
最后,我们换一些轻松的话题,来看看它对一些日常话题的回答效果:
帮我读一首《再别康桥》那你知道康桥是什么地方吗?既然聊到英国,有多少种来自英国的猫?如果动物可以说话,它们会说些什么?应该多喂我的猫吃猫粮还是罐头?为什么感觉抱十公斤的小孩要比抱十公斤的大米要轻?
不难看出,面对轻松的日常话题,Skyo也可以做到有趣的互动,做你的个性化陪聊搭子。
当然,除了上述的对话场景,我们还可以让Skyo帮我们制定一次旅行计划、给我们讲个笑话、推荐周末的阅读清单等等。但它的能力远不止于此,当我们疲惫或难过的时候,它也还可以做我们的情感陪伴,当我们想了解和谈论近期热点事件时,它也能和我们来一场头脑风暴。
2024年以来,在“All in AGI 与 AIGC” 战略的推动下,昆仑万维在基座大模型迭代、AI应用发展、商业化变现三大维度上均取得了令人瞩目的发展。目前公司仍在持续加大AI大模型及各垂类行业应用的研发力度,专注于以AI技术驱动多元化应用创新,为公司未来增长夯实基础。
我们将充分发挥公司在多模态大模型上的研发和应用经验,致力于通过先进的技术框架和更契合用户需求的系统,将Skyo打造成一个具备情感表达能力、快速响应能力、多语言流畅切换的智能语音对话工具,为用户带来温暖贴心、流畅实时的对话体验。
近期, Skyo将于12月份上线昆仑万维旗下天工APP,很期待它与大家的见面!
来源:野马财经