摘要:4月22日,小红书上一条“说狗语挑战”的笔记收获了近万点赞和千次收藏。不少养狗人士将狗子的叫声翻译成了人话,同时还将自己的指令翻译成汪汪语言,播放给自家的狗狗听,真正实现了“人狗对话”。
这年头,AI发展得风生水起,连人都听得懂狗叫了。
4月22日,小红书上一条“说狗语挑战”的笔记收获了近万点赞和千次收藏。不少养狗人士将狗子的叫声翻译成了人话,同时还将自己的指令翻译成汪汪语言,播放给自家的狗狗听,真正实现了“人狗对话”。
比如,视频中的主人让自己的狗子“Ellie”拿遥控器给他,这段话被AI翻译成了汪汪声,接着,Ellie仿佛接收到了信息,真的咬着遥控器跑来了。这一视频片段仅在YouTube上播放量就超过了1154万。
5月16日,“新华每日电讯”在小红书发布资讯“能让狗子说话的AI产品Traini火了”,该笔记获赞超8.3万,播放量近100万。
图片来源:新红数据工具
其中,充当主人和狗子之间“中介”角色的产品“Traini”,是一款能够翻译狗语的AI应用。
据Data.ai数据显示,过去一年,Traini iOS应用下载量超75万,注册用户数近百万。在YouTube上,Traini相关视频播放量已超4500万,不少网友分享了和自家宠物互动的视频内容。
借助AI,如何实现跨物种交流?任何狗语都能被听懂并成功翻译?如何保证翻译内容准确?带着这些问题,我们实测了Traini,并联系了创始人孙邻家Arvin聊了聊。
百万用户靠它识别“狗语”,
Traini为何让人上头?
2023年,Arvin和其他两位华人共同创立了宠物AI共情应用Traini。成立之初,Traini的定位是一款“宠物服务应用”。
这一定位在Traini应用端的分类上也可初见端倪。目前,Traini应用上方一共有4个栏目,包括Translation、PetGPT、Discover和Services。
而此次之所以火起来,主要原因之一在于它上线了“狗语翻译”(Translation)的功能,可以将狗狗叫声翻译成英语,同样也可以将主人的指令翻译成狗语,实现人宠语言互译。
一打开软件,就会自动跳转到该功能。我们只要按下录制键,收录一段狗狗的叫声,就可以将其“翻译”为人类语言。比如,我将这段狗狗兴奋跑来的叫声上传给了Traini。
视频备注:翻译等待过程经过剪辑
可以看到,Traini分析了这段叫声,并以狗狗的视角来告诉主人它的感受和状态。
“Something definitely feels off about this situation! I cant seem to shake this unsettling feeling I have, so we should proceed with extra caution moving forward.”
这种情况肯定有点不对劲!我似乎无法摆脱这种令人不安的感觉,所以我们应该更加谨慎地前进。”
Traini认为这一叫声是“它处理不了自己的兴奋和不安状态,想带你离开这里。”
结合当时的情景,这只边牧确实摇头晃脑想邀请主人出去玩,加上我的“脑补”,这一翻译还算准确。
我还试了试网友上传的狗狗声音:一只貌似在撒娇的狗狗。但Traini“翻译”提示,这只狗遇到了危险,所以在提醒主人快点离开。
“撒娇呜咽声”和“内心不安”的发声很相似,遇到这种情况时,如果不结合画面和狗狗的表情,Traini的“翻译”就会出现偏差。
不过,Traini不光可以分析叫声背后的含义,同样可以识别图片、视频等画面,分析出狗狗的状态。当我们把一只想要出去玩耍的狗狗上传给Traini后,它的回答是这样的:
Environment:indoor settings that likely belong to a home……a kitchen area with tiled flooring and a microwave. Both analyses imply that the environment is domestic and well-lit.
环境:整张图片显示出狗狗处在室内环境,铺有瓷砖、带微波炉,有点像在厨房。这是一个舒适的、家中环境......
Behavior:Both analyses indicate that the dogs are in calm dispositions. The dog appears alert and engaged (with a relaxed but focused stance)……sitting in a relaxed posture, appearing neutral or slightly curious.
两项分析都表明狗狗处于平静状态。这只狗看起来很警觉,很投入(姿势放松但专注)……以放松的姿势坐着,显得中立或有点好奇。
Traini分析了狗狗所处的环境、行为和姿势,认为这只狗在一个熟悉和舒适的环境中,急需主人给予“更有趣的互动”。结合画面情境后,Traini给出的结论也比“翻译”功能更详细、更准确。
但使用过程中,Traini仍会出现卡顿和不稳定的情况。 我们上传过一条20秒左右的宠物视频,想让Traini识别宠物的状态,但它的回复和响应速度明显变慢了。
不过,创始人Arvin和我们透露,接下来Traini会发布新模型,能够更快响应用户的提问和需求。
实现人狗互译,如何保证准确性?
在我的实际体验中,翻译的准确性不仅和狗狗的品种相关,还和狗的相熟程度、交流习惯有关。即便是同一只狗,我和狗主人的效果也不同。
另外,Traini翻译宠物叫声的准确性,远高于翻译我向宠物发出的指令。如果在宠物店找一只随机且陌生的狗,就只能靠Traini“翻译”狗的叫声,用它发指令完全没效果了。
Arvin认为,现在用户面临最大的问题是:他不知道他的狗在说什么、想什么,所以Traini想先将这个问题解决掉。
当然,也有不少网友质疑,主人对狗狗下达的指令都是“长时间社交”带来的习惯性行为,并非它真的能听懂语言。像让狗狗拥抱、亲吻,都是因为主人身体下意识做出了动作,让狗接收到了指令,并非靠“狗语翻译”。
面对这些质疑,Arvin也很坦然。他认为其中存在一种可能性,就是“狗听懂了,但它不愿意去做。”
他向我们表示,我们和狗交流,其实还涉及到“效率”问题。“在我们和狗的交流中,如果不用狗叫的方式,只用日常指令来和狗狗交流,它也能听得懂的话,就不必非得将所有话语都转化为狗叫形式。更重要的是狗能理解人类的指令和表达,这才是交流的关键所在。”
Arvin解释称,狗的神经元数量远少于人类,因此将人类的复杂语言和行为全部翻译成狗能理解的形式本身不太可能。在和狗狗交流时,我们只能翻译部分语言让狗理解,交流会受到一定限制。
为了让更多人能够理解自家毛孩子的情绪表达,Traini团队自主研发了宠物行为分析模型,将宠物语言Token化,通过不同国家、地区和品种的狗的语音数据训练,能够让模型具备推理能力,用AI的方式去理解宠物的行为,解读它们的语言。
严格意义上来说,动物的叫声属于“有限信息的语言”,把它翻译成语言就需要先做定义,再结合肢体和表情等方面进行多模态处理,才能实现宠物犬的翻译工作。
目前,Traini团队收集了超过百万只狗狗的声音和面部表情图像,拥有庞大的数据基础,这样模型就能够理解狗所想表达的意思。
“宠物行为的翻译模型是我们自研的PEBI,为了让输出结果和表述更丰富,我们会调用市面上的大模型进行调优,这些LLM训练得很好,就没有必要我们自己再做了。”Arvin补充道。
在他看来,数据来源和数据标注是宠物行为模型的基础。数据样本不足,就难以保证模型的准确性。只有将宠物行为学家的知识变成标准和数据,再通过大量的图片、视频和内容来标注,建立起专家标准,才能不断提升模型的效果和正确率。
由于Traini是一款面向海外市场的应用,目前暂不支持中文。因此,Arvin也坦言现在的数据量覆盖有局限性,“翻译”的准确性肯定还有提升的空间。
AI创业,要专注做“1米宽100米深”的事
截至目前,Traini注册用户数突破了100万,最多的时候Traini 30天内注册用户数同比增长了5.5倍,活跃用户数增长了4倍多。
据之前媒体报道,2024年下半年,Traini成功获得了千万元融资,但是Arvin透露,实际融资额度比这个多很多,用于AI宠物共情模型的研发。值得一提的是,Traini联合创始人Jason曾是OpenAI数学对齐开发工程师,现在主要负责模型的搭建和训练。
在Traini团队看来,宠物行为翻译无疑能够发掘出大模型的能力。另外,从商业化程度考虑,无论是海内外市场,宠物经济也一度“狂飙”。此前,互联网上流传这样一个段子,论消费能力,少女>少妇>老人>宠物>男人,可见宠物市场的需求和前景。
数据显示,目前全球宠物市值为2610亿美金,美国市场就占据了一半的规模。Arvin也举了一个例子,整个美国有超9000万只狗,平均下来一只狗一年花掉近1300美金,整个美国的宠物狗市场规模超1000亿美元。
AI宠物共情赛道的核心需求也源于全球宠物经济的蓬勃发展。人和宠物之间的沟通对话本就包含丰富的情感,宠物已经从一个工具性的存在,转换为“情绪陪伴”的角色存在。因此,共情赛道的市场需求不断增长,随之同样涌现了不少类似功能的产品和应用。
比如,谷歌推出DolphinGemma大模型,能让人类听懂海豚的语言,更早之前,对抹香鲸的语言研究也甚嚣尘上。
DolphinGemma;海豚音的可视化图谱
随之而来的一个问题是,为什么Traini只专注做“狗语”翻译?
“我经常会被问到,为什么不做猫猫,甚至是婴儿的。但现在狗语翻译还有很多需要调整优化,这个还没做好,我为什么要去做其他的?我觉得我们要做的是‘1米宽、100米深’的事,创业就是这样,最难的就是控制欲望。”
对Arvin来说,尽管从技术路线上来说,猫语、婴语翻译是可行的,但如果把所有可能性都做了,这一定不是创业者的选择。Traini最大的优势便是专注“人狗翻译”,未来一年内,还会实现实时对话能力,并且推出相关的硬件产品。
在对话过程中,Arvin常常提到“产品力”这一词,“Midjourney用小团队+垂直领域+极致产品的方式,证明了这一模式在AI时代可以成功,他们的用户粘性依旧很高。这就是产品力,也是最终的制胜关键。”
无论是AI,还是宠物行业,都处于快速发展时期,难免会出现泡沫或吸引众多参与者涌入,大家也都希望在大的机会中占据一席之地。“我认为这是正常的。但市场的自我调节机制会去伪存真、去除泡沫。对产品的理解、对技术的把握以及对行业的洞察,最终都会体现在产品的实际能力和表现上。”Arvin说。
来源:新榜一点号