摘要:许多人认为,自然语言处理和对话界面将彻底改变我们与计算机的互动方式,甚至成为未来人机交互的终极形态。然而,本文将深入探讨对话式交互是否真的能够成为AI交互的终极答案。
许多人认为,自然语言处理和对话界面将彻底改变我们与计算机的互动方式,甚至成为未来人机交互的终极形态。然而,本文将深入探讨对话式交互是否真的能够成为AI交互的终极答案。
人机交互方式,被认为是AI时代最重要的变化之一。
在这个交互革命的故事里,以对话为代表的自然语言被认为将取代传统GUI(图形界面)的交互方式。原因看上去很简单,因为对话更接近于人类现实世界的沟通方式。
但并不是所有人都这么认为的。不久前,国外一位名叫Julian Lehr的作者,就写了一篇《反对对话式界面(LUI)的理由》文章。
在这篇文章里,作者从数据传输的视角,详细阐述了分析人机交互方式的逻辑,最终得出结论:语音这种新的交互形态更多是现有交互形式的补充,并不能完全取代GUI交互。
01 自然语言的第N次革命每隔几年,就会出现一个耀眼的人工智能新进展,科技界人士就会大呼“就是它了!下一个计算范式来了!以后我们只会用自然语言了!”。
但之后一切实际上都没发生改变,我们仍然像以前一样使用计算机,直到几年后这场争论再次浮出水面。
我们已经经历过几次这样的周期:虚拟助手(Siri)、智能扬声器(Alexa、Google Home)、聊天机器人(“对话商务”)、AirPods即平台,以及最近的大型语言模型。
不知道为什么大家都会对对话很痴迷。或许是人们看到“自然语言”这个词,就会想:“好吧,如果它是自然的,那它一定是合乎逻辑的最终状态。”
但我告诉你,事实并非如此。
02 自然语言,一种数据传输机制当人们说“自然语言”时,他们指的是书面或口头交流。自然语言是人类之间交换思想和知识的一种方式。换句话说,它是一种数据传输机制。
在数据传输机制里,有两个关键因素:速度和损耗。
速度决定了数据从发送方传输到接收方的速度,而损耗则是指数据传输的准确性。理想情况下,数据传输能以最高速度(即时)和完美保真度(无损)进行,但这两个属性通常需要权衡。
那么,自然语言在速度上表现如何呢?
需要指出的是,这些数据点只是非常简化的平均值。这张表格中重要的部分并非单个数字的准确性,而是整体模式:我们接收数据(阅读、聆听 )的速度明显快于发送数据(写作、说话)。这就是为什么我们可以以2倍速收听播客,但不能以2倍速录制。
为了更好地理解书写和说话的速度,我们以每分钟1000-3000个单词的速度形成思维。自然语言虽然很自然,但它却是一个瓶颈。
然而,想想你与他人的日常互动,你会发现大多数交流都感觉非常快捷高效。这是因为自然语言只是我们众多可用的数据传输机制之一。
比如,与其说“我觉得你刚才说的主意很棒”,我不如直接竖起大拇指,或者点点头,或者干脆笑一笑。
手势和面部表情实际上是一种数据压缩技术。它们以更紧凑但损耗更大的形式对信息进行编码,以便更快、更方便地传输。
自然语言非常适合需要高保真度的数据传输(或作为异步通信的数据存储机制),但只要有可能,我们就会切换到其他更快捷、更省力的沟通方式。因为速度和便捷永远信息交互中,最重要的事情。
我最喜欢的真正轻松沟通的例子,是我对祖父母的记忆。在早餐桌上,我的祖母从来不用开口要黄油——我的祖父似乎总是会下意识地把黄油递给她,因为结婚五十多年后,他能感觉到祖母要黄油了,他们就像心灵感应一样。
这就是我想要与我的计算机建立的关系类型。
03 为什么对话不是最佳答案?与人与人之间的交流类似,人与计算机之间也存在不同的数据传输机制来交换信息。在计算机发展的早期,用户通过命令行与计算机交互。这些基于文本的命令实际上是一种自然语言界面,但需要精确的语法和对系统的深入理解。
GUI(图形用户界面)的引入主要解决了一个发现问题:无需记住确切的文本命令,现在可以通过菜单和按钮等可视化元素导航和执行任务。这不仅让操作变得更容易,也更加便捷:点击按钮比输入长文本命令更快。
今天,我们生活在一个将图形界面与基于键盘的命令相结合的生产力平衡中。
我们仍然使用鼠标来导航并告诉计算机下一步做什么,但日常操作通常以快速键盘按下的形式来传达:⌘ b将文本格式化为粗体,⌘ t打开新选项卡,⌘ c / v快速将内容从一个地方复制到另一个地方,等等。
然而,这些快捷方式并非自然语言。它们是另一种形式的数据压缩。就像竖起大拇指或点头一样,它们帮助我们更快地沟通。
现代生产力工具将这些数据压缩快捷方式提升到了一个新的高度。在Linear、Raycast或Superhuman等工具中,每个命令都只需按一下键即可完成。
一旦建立了肌肉记忆,数据输入就会变得毫不费力。这几乎就像在早餐桌上有人递上黄油,而无需开口索要一样。
触控界面被认为是人机交互进化史上的第三个关键里程碑,但它一直以来都更多地是对桌面计算的增强,而非替代。智能手机非常适合“远离键盘”的工作流程,但重要的生产力工作仍然在桌面上进行。
这是因为文本并非移动设备原生的输入机制。
实体键盘感觉就像身心自然延伸,但在手机上打字总是有点不方便——这体现在数据传输速度上:移动设备上的平均打字速度仅为每分钟36个字,明显低于桌面设备上每分钟约60个字的速度。
我们已经能够用移动设备专用的数据压缩算法(例如表情符号或Snapchat自拍)取代自然语言,但我们从未找到过与键盘快捷键相当的移动端应用。
想想看,为什么iPhone推出近20年后,我们仍然没有一款真正以移动为先的生产力应用?
你可以会说,语音为什么不会取代文本?
从数据上看,语音信息的使用量正在增加。
虽然说话(每分钟150字)确实比打字(每分钟60字)传输数据更快,但这并不意味着它就是一种更好的与计算机交互的方式。
过去我们总认为,Alexa或Siri这样的语音界面之所以失败,是因为AI不够智能。但这只是故事的一半。
交互的核心问题从来不是输出功能的质量,而是输入功能的不便:
像“嘿,谷歌,今天旧金山的天气怎么样?”这样的自然语言提示,比直接点击主屏幕上的天气应用要花10倍的时间。
大模型(LLM)并不能解决这个问题。它们的输出质量正在以惊人的速度提升,但输入方式却与我们现有的相比大相径庭。我明明可以直接按个按钮或键盘快捷键,为什么还要用自然语言描述我想要的操作呢?直接递给我黄油就行了。
04 对话式UI,更像是现有交互的增强这并不是说大模型不好。事实上,这篇文章就是在大模型帮助下完成的。
但与典型的人机指令不同,与大模型的交互更像是一次真诚、深入的对话和思想交流。在这种特殊的工作流程里,交互的速度并不是最重要的因素。
值得注意的是,ChatGPT开辟了一个新的应用场景,而没有取代现在其他的软件。
这就是我的核心论点:对话界面的不便性和较差的数据传输速度,使得它们不太可能取代现有的交互模式,他只是对现有计算交互的一个补充。
让我印象比较深刻的对话式交互的应用案例是,在一次黑客马拉松比赛中,个团队将亚马逊Alexa改造成了《星际争霸II》的游戏内语音助手。语音没有取代鼠标和键盘,而是作为一种额外的输入机制,增加了数据传输的带宽。
你会发现,同样的模式适用于任何类型的知识型工作,当你忙于其他事情时,语音命令就成了一种便捷的交互方式。
我们不会用聊天界面取代Figma、Notion或Excel,也不需要在这些工具和大模型之间频繁切换。
相反,AI应该充当一个始终在线的命令元层,可以调用所有工具。用户应该能够通过简单的语音提示从任何地方触发操作,而无需中断当前正在使用鼠标和键盘的操作。
要实现这一点,AI需要在操作系统层面发挥作用。它不仅是单一工具的界面,而是跨工具的界面。
正如Kevin Kwok写道:“生产力和协作不应是两个独立的工作流程。”虽然他指的是人与人之间的协作,但在人与人工智能协作的世界里,这句话更加贴切,因为生产力和协作之间的界限正变得越来越模糊。
我们要做的的第二件事是。如何压缩语音输入以加快传输速度。
比如,在语音交互里,什么话相当于竖起大拇指或键盘快捷键?或许我能用简单的声音和口哨更快地提示克劳德吗?ChatGPT是否应该有权访问我的摄像头,以便它能够根据我的面部表情实时更改答案?
毕竟,作为辅助界面,速度和便利性才是最重要的。
05 总结我并不是反对对话界面,而是反对将其作用过度夸大。
我们花了太多时间思考人工智能如何替代(界面、工作流程和工作),却很少思考它如何补充。
从过去看,技术的进步很少遵循简单的替代路径。它往往开启了全新的、前所未有的事物,而不仅仅是取代之前的一切。
这一点也在AI上也同样适用。未来,聊天界面并不是要取代现有的计算范式,而是要增强它们,使人机交互变得轻松自如。
来源:人人都是产品经理