摘要:说起时空壶,差友们应该不陌生了,毕竟之前差评君已经跟大家聊过好几次这个做AI翻译产品的品牌。
说起时空壶,差友们应该不陌生了,毕竟之前差评君已经跟大家聊过好几次这个做AI翻译产品的品牌。
远的不说,就在3个月前,我们举办了一场别开生面的“人机大战”,作为AI翻译代表出征的时空壶AI同传耳机,就让大家看到了其不同于人工同传的优势。
但您猜怎么着,前几天我刷视频的时候猛然发现,时空壶居然上了新闻联播,并且播了得有近4分钟。
咱们都知道新闻联播一般也就播个30分钟,如果不是在经济、文化和科技等领域有突出表现的企业,不太可能有这么长的报道篇幅。
不儿,哥们这么有实力的吗?
正好咱们前阵子刚聊过9.9美刀的AI翻译耳机,以及接下来苹果也将会给AirPods上实时对话翻译功能。
要不趁着这波热度,咱们一起到时空壶那里看看,他们到底和市面上一众“实时翻译耳机”有啥区别,凭啥能上新闻联播?
于是我和同事们一起来到了时空壶位于深圳南山的“老巢”。
到了他们公司后,我二话不说就开始嘎嘎体验产品。
然后我就发现,虽然都叫“实时翻译耳机”“AI翻译耳机”,但是时空壶跟我之前体验的其他产品,完全就是两个东西。
举个很典型的例子:其他产品在翻译时,但凡你普通话不是很标准,把“人工同传”说成“人工同床”,它就没法给你识别和纠错。相比之下,时空壶就能给你翻译准确。
其他翻译耳机的APP界面
那对于这种体验上的差异,时空壶又是怎么看的呢?
一方面,他们觉得目前市场上的翻译产品,在能力上还是参差不齐,需要有个统一的标准来划分技术等级,不然会把本就不太成熟的AI翻译市场给玩坏。
另一方面,时空壶之所以在翻译准确度领先别人,也是因为他们更新了大模型翻译技术。
先说第一点,他们目前已经在跟同传领域的专家和学者们,一起研究搞AI翻译技术分级。
具体怎么去分级呢?
他们参考了自动驾驶的分级标准,也是划分了L1到L5五个等级。
其中L1是最基础的文本翻译,相当于你自己查电子词典,效率是最低的,延迟大概数十秒。
L2是从文本翻译进化为语音翻译,比如手持翻译机、带翻译功能的蓝牙耳机,可以给你播放语音翻译,延迟大概十多秒。
L3已经是语音同传翻译了,在能力上非常接近人工同传,基本能做到5秒延迟,可以让对话双方实现自由地交流。
时空壶给自己目前的定义就是L3级别。
L4进化为高级译员同传翻译,如果说L3是接近人,那么L4就是等同于人,到了这个级别,它能够把你的语气和情绪都给翻译出来。
比方说,你说话的时候是带着疑问还是愤怒,这些都可以在翻译结果中体现出来。
而L5就属于是超越人的范畴了,它可以基于多模态能力去观察你想要表达的意思,比如你的表情,或者是你过去积累的一些表达习惯。
这个东西就相当于一个会“察言观色”的智能助理,真正的贾维斯了属于是。
如果这个翻译技术分级能真正落地,我觉得对于行业和消费者都是件好事。
有了分级,行业不再是一片混乱,想要割一波就走的企业没法浑水摸鱼;而消费者也能清楚自己花钱买到的产品到底是个什么水平。
再来说说,他们的大模型翻译技术是如何去提升准确度的。
产品经理跟我说,过去的机器翻译无法理解语义和语境,主要依赖逐字直译,不仅没法识别各种语气词、停顿词和重复词,还容易闹出一些笑话。
比如在点菜这个场景下,传统机器翻译由于没法很好地识别“点”的意思,会给你翻译成英语的“Click”,变成点击的意思。
对于这些问题,他们开发了全新的AI同传翻译大模型,并且国内也会接入豆包和DeepSeek等大模型。
在大模型的加持下,它能像人工同传那样,根据当下的主题和背景,联系上下文,分析对话的主旨,把你想要传达的真正意思翻译出来。
时空壶已经从以前的直译进化为意译了。
比如,同样是“同传”和“同床”的问题,时空壶就可以结合你的上下文,知道你当前聊天的内容与同声传译有关,从而对翻译内容进行纠错。
在听懂人话、传达你的真正意图这件事上,时空壶无疑又先于同行们迈出了一步。
而在跟他们聊了一下午后,我算是明白了,他们的成功秘诀就是:
愿意在自己看好,但别人不看好的领域,投入大量的精力和技术,然后埋头苦干。
更具体的,咱们接下来再好好唠唠。
说起当时为啥会想到做AI翻译耳机,时空壶的创始人田力表示,其实一开始他也没想到去做这个东西。
2016年的时候他意识到AI技术是未来,于是从华为出来创业后,就想着朝AI应用这个方向发力。
一次偶然的机会让他发现过去的翻译产品始终存在局限性。
他的父母有次去欧洲旅游,虽然他提前帮父母下载了很多翻译软件,但当他妈妈在阿尔卑斯山突发高原反应时,却无法通过翻译软件跟说法语的医生进行很好的交流。
后来,他也自己尝试着使用翻译软件去跟老外交流,结果发现这种按着说话、松开翻译,只能你说一句、我说一句的翻译体验,压根没法实现长时间的对话。
过往的这些经历和观察,让田力意识到,即便翻译技术在当时已经非常成熟,但是在具体的对话场景中,两个说着不同语言的人压根没法很自然地交流。
在找到了场景痛点后,田力就着手组建团队开发产品。
但刚开始做,他们就碰了一鼻子灰。
原本他们的想法很简单,就是把一个翻译软件直接塞进蓝牙耳机。
至于具体的实现方案,他们觉得能在深圳找到合适的方案供应商,毕竟在电子产品这块,华强北啥都能给你搓出来。
然而事实证明,他们当时选择的是一条无人走过的赛道,行业也没有可行性方案供他们选择。
于是他们刚开局就遇到了行业的第一大难题:通信。
是的没错,跟很多人想的不一样,做AI翻译耳机最难的还不是AI,而是通信技术。
那它难在哪呢?
是这样的,他们一开始设想的场景是,两个人各戴一只耳机进行交流。
但在产品开发阶段却发现,标准的蓝牙耳机走的是单通道录音,压根不支持两只耳机同时录音。
也就是说,两个人各戴一只耳机对话时,只有一个人的声音能被录进去。
这样一来,他们的设想就失去意义。
估计当年大厂们围坐一起讨论蓝牙协议的时候,也没想到多年后会有一家初创企业有如此疯狂的想法——基于蓝牙协议去做多人录音。
听他们说,当时甚至还找了高通和海思等芯片厂商的工程师咨询,但都没有一个很好的解决方案。
由于没有先例,行业里也找不到现成的解决方案,所以时空壶只能够自己搞。
他们从2017年开始自研通信技术,经过4年的埋头苦干,终于在2021年发布的时空壶W3上,实现了两只耳机同时录音的“双向通信”技术。
但你以为搞定通信技术就够了吗?
显然不是的。
因为他们发现AI翻译耳机要提升沟通效率,还要解决另一个难题:录音降噪。
简单来说,当两个人各戴一只耳机进行交流时,你的声音很容易串到对方的耳机里,对方的声音也是如此。
同时,环境的杂音也容易对录音效果造成影响。
而翻译耳机不同于普通耳机,它对于声音的质量有更高的要求。
正在进行降噪测试的W4 Pro
因为机器需要对声音内容进行识别并翻译,而机器对错误声音的容错率比人耳低,毕竟咱们可以靠自己脑补嘛。。。
对于这个问题,市面上的一些翻译耳机搞了个“土办法”,那就是用手动控制的方式,来避免两个耳机出现串音——
打个比方,两个人在交流时,需要一个人按下按钮讲完话后,另一个人才能在耳机听到翻译结果,然后接着同样的操作进行交流。
“这种类似交替翻译的形式,沟通效率是非常低下的,甚至不如你用传统的翻译APP。”时空壶的产品经理这么跟我说道。
相对而言,时空壶的解决方案是,给耳机用上三麦克风阵列+矢量降噪技术。
相当于通过算法判断声音的方向和距离,确保只录入佩戴者的声音,然后对其他无关的声音进行抑制。
这样哪怕是周围环境非常嘈杂,耳机也只会收到你自己的声音。
那实际效果是不是有他们说的那么牛X呢?
我们也替大家试了一下。
即便是在耳机旁边播放动感舞曲和增加人声干扰,经过降噪处理后,它也能保证只录进佩戴者的声音,消除掉其他噪音。
除了沟通效率的问题外,产品经理跟我说,准确度和延迟也算是行业内的技术难点。
关于准确度,咱们开头已经聊过了,这里就不再啰嗦了。
而说到延迟,产品经理表示:过去的文本翻译,只要网络好,它甚至可以做到零点几秒给你出结果,并且还能不断地根据上下文去调整翻译结果。
但是语音翻译不行,因为语音一旦开始合成播放,它没法像文字一样随时纠正,这就导致了在快速地播放翻译结果时,大概率会出现翻译结果越来越歪的情况。
所以你会看到,目前市面上的很多AI翻译耳机,为了保证准确率,它都会等你说完一整段话后,才开始出语音翻译结果。
为了解决这个问题,他们搞了个叫做AI语义判断的技术。
让AI实时判断每句话的语义,一旦它觉得你这句话的意思不会发生改变了,那么它就会开始输出语音翻译结果。
按照他们的测试结果,行业内其他家能做到的最低语音延迟也就是十几秒。
相比之下,时空壶是已经做到了5~8秒的平均延迟,跟人工同传大概3秒左右的翻译延迟相比,算是很大的进步了。
总之,跟他们这么一顿聊下来,我感觉做好一个AI翻译耳机,远没有大家想的那么简单。
市面上类似的产品千千万,但实际想要搞好体验,蓝牙通讯、录音降噪、翻译引擎、语义判断。。。等等等等,每一座“大山”都不好啃。
而时空壶作为开拓者,显然给行业证明了这条赛道的可行性。
按照他们的说法,在AI翻译设备这个品类中,时空壶在北美亚马逊的市占率已经做到40%,过去3年里他们实现了产品销量年均100%的增长。
并且今年海关总署还将他们的产品,作为2024年“中国制造升级”案例进行展示。
图片来自深视新闻
可以说,时空壶已经成为AI出海企业的标杆。
从攻克各种技术难关,建立技术壁垒,再到提出翻译分级标准,时空壶确实贯彻了他们创始人的创业哲学——
“在混沌中寻找出路才是小公司的出路。”
目前来看,他们的出路似乎已经找到,但随着他们不断探索AI翻译领域的“无人区”,面临的挑战也会越来越多。
这里咱也只能祝愿他们能够一路披荆斩棘了。
来源:差评一点号