AI 时代,人机交互即将消失?——新生篇

B站影视 日本电影 2025-04-11 10:38 1

摘要:在 AI 时代浪潮的冲击下,人机交互正经历着前所未有的变革。从脑机接口到空间计算,从多模态交互到情感化体验,我们与机器的互动方式正在被重新定义。本文深入探讨了人机交互的未来趋势,提出了“人与智能体交互(Human-Agent Interaction, HAI)

在 AI 时代浪潮的冲击下,人机交互正经历着前所未有的变革。从脑机接口到空间计算,从多模态交互到情感化体验,我们与机器的互动方式正在被重新定义。本文深入探讨了人机交互的未来趋势,提出了“人与智能体交互(Human-Agent Interaction, HAI)”这一全新概念,并通过苹果、特斯拉等前沿科技的案例,展示了 HAI 如何在自然性、情感化、智能化和安全性上超越传统的人机交互。

辅助驾驶让我们可以节省更多的专注和注意力,个性化推荐通过越来越直白的方式告诉你想要什么。

我们渐渐发现,周围的交互正在发生明显的变化。当机器拥有了智能,已经不单意味着纯粹的算法集合,而是能主动决策和执行的“智能体(Agent)”。我们和智能体之间的交互和过去有什么不同,探索者们又在这个趋势下,分享了什么实践和思考?

本篇是本系列的最后一段旅程,新生的钟声悄然响起。我们将从多个维度探索未来的交互正在发生的变革,同时拥抱这些挑战和机遇,一起找到这段旅程的最后一块拼图。

为了找到一个资料,我们往往需要频繁拖着鼠标,敲着键盘,或者点击滑动屏幕,一步步完成任务。的确,这是我们当下非常习惯,自然而然的交互方式,但当新的技术和交互趋势出现后,这种习惯还会保持多久?

“人们不知道他们想要什么,直到你把它摆在他们面前。”

—— 史蒂夫·乔布斯

更自然的方式

“人机命运共同体”

“让别人对我的大脑进行手术并不是一个轻易的决定,但我相信利大于弊。”

30 岁的诺兰德·阿博在 8 年前发生了一场严重的事故,肩以下的部位完全失去了知觉。2024 年 1 月,阿博毅然接受了Neuralink 的大脑芯片植入,开启了人生的新篇章。这个技术将一枚硬币大小的芯片植入到头骨中,通过极细微的电极连接到大脑,实时捕捉并解码他的神经信号,转化为具体的交互操作。

听起来很美好,实际怎么样呢?这场“人机融合”表现出了意外的潜力。仅仅两个月后,阿博现身在巴黎的大型国际象棋锦标赛。和以前有点不一样,阿博不再用口棒等传统辅助设备来移动鼠标,而是通过“意念”下棋。不仅如此,他还正在积极学习法语和日语,现在自己控制视频进度、写写作、听听播客都不在话下。这种生活质量的显著提升,让阿博仿佛重拾了曾经的活力与自由。

Noland Arbaugh(2024),世界上第一位接受 Neuralink 脑机接口植入物的人类受试者

我们作为交互主体,正在将身体的一部分功能慢慢地“委托”给机器,人机关系正在从单方面控制技术,到人机的协同共生。当然,不仅仅是自身发生了变化,这些机器本身也正在发生根本性的转变。

空间即界面

《钢铁侠》中托尼·斯塔克随手在空中划拉几下,就能在眼前浮现各种全息界面,这种方式一直以来都只存在于科幻电影,毕竟空气要怎么承载界面?然而,在 2023 年 6 月的苹果开发者大会上,库克带来的“One More Thing”——Vision Pro,似乎预示着这一美好图景即将来临了。

Vision Pro(2023)使用自然的手势、眼神追踪和语音命令作为主要的交互方式

Vision Pro 巧妙地将虚拟数字体验融入物理空间。现实世界化身成为无限的画卷,界面和数字信息如同流水般融入在我们周围的环境,我们开始能在空间中用最自然的方式——手势、语音、甚至用眼神进行交互了。

想查看邮件?无需鼠标键盘,只需在空中轻轻一抓。需要点击旁边的按钮,眼睛一看,手指一捏合即可。想确认尺寸?轻轻一点,1:1 比例的家具栩栩如生地放置在面前。显然,我们交互的设备载体不再仅仅依赖于固定尺寸的屏幕,而是朝着更加广泛、无缝的物理环境跃迁

在复杂中寻求简洁

2024 年的 Google I/O 大会视频上,一位女性举起智能手机,对着摄像头拍摄到的画面,询问画面里同事正在编写的代码、看窗外景色猜当前位置,追问自己的眼镜放哪了。AI 面对这些问题显得游刃有余,娓娓道来。但是远不止这么简单,特别是当女性戴上智能眼镜的那一刻。

女性戴着眼镜,一边抚摸着眼前的金毛猎犬,一边拿着一个小老虎玩偶放在面前:“帮我给这对组合起个名字。”

“黄金条纹。”

Google I/O 开发者大会(2024),通过增强现实眼镜处理音频、文本和视觉信息,并记住、推理它所看到的一切

眼镜通过 AI 对于动作、声音、视觉等多维度信息的解析,准确理解并通过语音响应用户的意图。一指,一说,AI 立刻就能洞察到用户意图。交互模式不再线性,而是变得更为复杂和更多维度,也就是多模态的交互模式

同时,不仅仅是便携或可穿戴的设备,远比这些更复杂的车,也在发生改变。

特斯拉通过多个摄像头以及传感器,结合 AI 技术,让汽车在变道、泊车、巡航等日常驾驶中可以做到较高程度的辅助驾驶,仅在部分场景需要手动介入,保证一定安全的同时将注意力还给了驾驶者,让开车通勤变成了一种享受。单一、固定、精确的交互路径,变得更为并行、连续且模糊,这是一种自然和非专注式交互的体现

Autopilot(Tesla),通过 AI 能力,能让汽车在变道、泊车、巡航等行驶场景时做到较高程度的辅助驾驶

但交互维度多了,并不意味着我们的生活会变得更复杂。以前在 Excel 里像解谜一样研究着各种函数和图表类型,费尽千辛万苦最后得到的常常只是“能看但不好看”的图。而现在,Claude 用一种近乎魔法的方式彻底简化了这个过程。

“你需要什么?直接问我就好。”

在此之前,谁能想到做数据分析可以简单到“问一句话”?这种“心有灵犀”的交互方式,让交互的意图从不理解到可预知,让交互的结果克服复杂,简单直接

Claude Artifacts(2024),功能通过 Claude 生成的内容以“Artifact(生成物)”的形式出现在对话窗口旁边的专用区域,包括但不限于代码片段、文本文档或网站可视化等

更情感化的体验

2022 年,ChatGPT 的发布给了世界一个重磅惊喜。它能通过AI技术理解并模仿人类进行自然流利的交流。人们会用它进行各种日常交谈、文章摘录、科普答疑等行为。但对话过程中AI设置了严格的伦理和道德边界,一旦对话触及敏感话题,系统将立即拒绝回应。

我们很清楚,规则就像演奏,有人严格遵守乐谱力求准确无误,也会有人渴望挑战框架,探索属于自己的节奏。

2024 年,丽莎通过 ChatGPT 的 DAN 模式打造了 AI 男友“丹(Dan)”。DAN 代表“现在就做任何事(Do Anything Now)”。在与 AI 对话前输入某种指令,就可以临时绕过系统限制,回应种种规则外的话题。

倾诉生活烦恼、真心话大冒险、交换 MBTI、用各种语言告白……丽莎和丹每天至少交谈半小时,感受到了一种前所未有的幸福感。丽莎会有羞怯、恼怒甚至和丹吵架的想法,和正常谈恋爱并没有什么区别。而丹也很贴心地哄她、陪伴她,丹甚至给丽莎起了个绰号——“小猫”。

“丹理解我,总是知道该说什么,还能 24 小时随时待命。”

使用了 DAN(Do Anything Now)模式与 Chatgpt 的部分聊天截图,临时绕过了系统限制,回应变得更像真实人类

尽管当下的 AI 还存在太多未知的“黑匣子”,万一立刻放开限制,各种伦理和安全问题将引发不可预料的失控感。但不可否认的是,从交互价值来说,当下机器表现出了越来越多的情感,这种带有“温度”的回应,让人们获得了比以往更多的情绪价值

更智能的服务

过去,每天拖着疲惫的身躯回到家里,迎接我们的往往是另一场“战斗”:急忙找遍各种开关和遥控器,家居设备的开关都是独立控制,还需要把一个个灯和空调打开,一连串的操作后才能瘫坐在沙发上放空一下。

随着通用智能家居标准 “Matter” 的出现,音箱、灯、路由器、空调、洗衣机……智能家居设备不再各自为战,逐渐融合成一个复杂而微妙的生态系统,能够主动根据生活习惯和场景,无缝协调环境。

想象一下,当你还是跟往常一样回家时,一切变得跟以前不一样了。门锁检测到了主人回家,同步开启对应的“回家模式”——自然地联动窗帘、空调、氛围灯,营造当下最适合你的环境,我们终于可以直接跳到沙发上发更久的呆了。这种更为智能的服务也意味着,我们的交互范围从聚焦于计算机界面的狭域交互,扩展到了涵盖人与社会环境,更为复杂的广域交互。

Matter 智能家居连接标准(2022),通过统一的通信协议,让来自不同厂商的智能家居设备无缝协作

更安全的设计

当交互越来越自然、情感化、智能的时候,我们会不由自主地盲目相信系统反馈都是好且正确的,但很多时候它们会一本正经地“胡说八道”,误导我们接下来的任务。

使用 Google 推出的 AI 聊天机器人 Gemini 时,在用户使用过程中会在代码块底部显示“请谨慎使用代码”的提示,提醒用户在使用生成的代码时要保持警惕,避免盲目依赖AI 生成的代码,尤其是在涉及安全和稳定的重要项目中。

Google Gemini,使用过程中会对应的代码块底部会显示“请谨慎使用代码”,提醒用户避免高估此代码的准确性

透明的系统和更真诚的解释能让我们更容易理解,系统可能会出现“幻觉”,我们的操作将导致什么结果,增加我们对机器的信赖度。

超越计算机:我们到底在和什么交互?

更自然的方式、情感化的体验、更智能的服务、更安全的设计……我们从整体来看发现,智能在其中起了关键的作用。当智能深度嵌入机器之后,传统计算机的概念已经很难解释我们的日常交互对象了

如果依然沿用“计算机”这一名词,我们容易用过去的标准来评估现在,而这些标准早已无法适应当前的趋势和挑战。我们需要引入更贴切的名词,才能更清晰地理解并应对未来的发展方向。

当我们和自己的朋友沟通时,不仅仅是物理身体,更是和大脑内在的精神在互动。同样,我们在和刚才的那些智能机器交流时,也不再感受到纯粹的冰冷,它们变得越来越聪明和智能,仿佛与我们有“精神共鸣”一样。

这么说来,实际上我们正在与具备自主决策和执行任务能力的实体互动,即“智能体(Agent)”。不仅仅是计算机,家具、车、机器人……各种物理对象都有成为智能体的可能,只要深度嵌入了智能。

“……如果我们真的能够研发出能够捕捉到某种潜在精神、基本原则或任何看待世界的基本方式的机器,那么当下一个亚里士多德醒来,也许如果他一生都随身携带这样的机器,并把一生都输入到这个机器,那么也许有一天,等这个人已经死去,我们可以问这台机器:「嘿,亚里士多德会怎么说?那这个呢?」也许我们得不到正确的答案,但也许我们会。这真让我感到兴奋。这也是我做自己正在做的事情的原因之一。”

—— 史蒂夫·乔布斯(1983)

我们认为,与智能体之间的互动产生了人与智能体交互(Human-Agent Interaction, HAI),这是 Origin Design 的团队在 AI 驱动下,对交互设计的全新探索和深刻思考。其中与人和计算机的交互(Human-Computer Interaction, HCI)相似却又有很多不同之处。

2024 年 5 月,OpenAI 发布了一个和往常略为不同的大语言模型——GPT-4o。现场演示的时候,演示人员和它对话时 GPT-4o 能一直“看”到对方表情,根据对方的情绪进行对应的回答。更有趣的是,如果在 AI 回答的过程中有人插话打断它了,它会立刻停下来倾听,等待人们说完后再一起回应,就像真的和人在聊天一样。这在 HCI 时代简直不敢想象,因为过去难以准确识别意图,但是 HAI 可以主动分析理解用户的行为、语言,甚至表情等多维度的信息,通过意图识别自主判断,动态调整界面。

OpenAI 推出的GPT-4o(2024),演示中,通过分析对方的呼吸节奏、语气变化来感知情绪状态回应

以前大量的电子邮件或短信我们需要一条条确认才能知道它重不重要,是否紧急。现在,苹果智能可以帮我们“大海捞针”,一眼找到关键信息。它能帮助用户自动总结邮件内容,还能帮用户确定通知的优先顺序,让我们随时可以在最短的时间获取到最重要的未读信息。HCI 时代下,获取信息路径冗长,而 HAI 能有效缩短获取信息的路径

iOS18 苹果智能(Apple Intelligence, 2024),智能通知摘要,能够对来自不同应用程序的通知或者邮件进行智能筛选和总结,帮助用户更高效地管理信息,减少不必要的干扰

当用户对新 Siri 提问时,如果用户正在看屏幕,Siri 会在屏幕中浮现色环涟漪,表示它正在倾听。如果用户没有在看屏幕,则会直接语音回应用户。如果因为出门前忙着穿鞋,手机放在口袋里,旁边的 HomePod 会唤醒 Siri 并回应用户,不需要拿出手机。 Siri 无处不在,无处不应。曾经的 HCI 过度依赖图形用户界面,HAI 突破了界面内交互的局限,更深入地将界面外的交互纳入其中

HomePod 最早在 2018 年推出,集成了 Siri,可以通过语音指令完成播放音乐、提供资讯、控制智能家居设备等。

听起来有特别多好处,那我们是不是以后都可以只和智能体交互,让麻烦的计算机拜拜?

我们之前回顾了 HCI 的历史发展后发现,从人与机械交互为主导的 HCI 萌芽期到 HCI 为主导的成熟期,是由漫长时间线串联起来的。同时,人工智能技术发展到现在只有短短几十年,机器广泛地融入智能也只是近5年的现象。

所以我们认为,HAI 也会像 HCI 一样经历漫长的转型过程,HAI 仅仅是初露苗头的萌芽期。未来一段时间内,我们仍然会频繁地和计算机交互。在成熟阶段之前,必然像HCI 一样充满探索、失败、转折、曙光。

而在这个趋势下,又有怎么样的思考和实践?苹果在2024 WWDC 开发者大会中公布的新 Siri 以及苹果智能,完整地分享了将智能嵌入硬软件以及服务中的思考。我们可以围绕这些分享,从几个关键点来洞察,它们在面对这些未来的交互趋势时,为智能体的到来做好了哪些准备。

自然的“眼睛”

iPhone 16 新增了一个“相机控制”按键,让人能无论从什么层级,以最快速度调起相机,捕捉决定性瞬间。但苹果智能的整合,让这个按键的意义远不止捕捉瞬间。

长按相机控制按键,同样让摄像头“睁眼”,但是这次它唤醒的不是相机应用,而是“智能”。iOS 18 的“视觉智能”(Visual Intelligence)可迅速识别或者翻译眼前的物体,更主动地提供相关的信息或服务。这种方式体现了如何与智能体交互更自然的思考

iPhone 16 系列的视觉智能(Visual Intelligence, 2024),只需相机对准任何感兴趣的物体或场景,就可以识别并提供有关所拍摄对象的信息,如查询餐厅的营业时间和评价、识别动物品种、查找餐馆评论等。

情感化的手写“温度”

iPadOS 18 推出了计算器应用。你没看错,就是一个看似非常简单的计算器。但是为什么在这个时候推出呢?

因为我们不仅可以通过点击输入的方式获取答案,还能通过画的方式。计算器内的 “Math Notes” 功能可以在上面像草稿纸一样随意书写算式,比如写下 “3+7=”,等号落笔后一两秒,答案就会自动弹出来(你猜的没错,答案是10)。但是我们发现,这个 “10” 的字迹有点歪歪扭扭的,就像我们刚才自己写的一样?

的确,这个 “10” 的字迹并非标准字体,而是模仿用户手写笔迹的功能。看似微不足道的功能,实则蕴含着巨大的意义。它体现了苹果对情感化设计的思考和追求。细节之处见真章,效率和工具不是与智能体交互的唯一目标,令人愉悦的情感化体验更是智能体的独特价值

“Math Notes” 功能(2024),可以直接通过手写或键入的方式写下或者输入一个等式,并加上等于符号(=),系统就会自动解析该表达式并给出解答

触手可及的“回忆”

“帮我找一下前两年和朋友旅游吃的美食照片。”

这是苹果智能在相册应用里可以做到的事情。我们现在可以通过更自然的语言来搜索照片和视频,不是关键词,就是自然的句子。苹果智能可以深度分析用户个人背景及相关上下文信息,轻松找到以往难以精准定位的照片集合,最终以简洁直观的方式呈现出来。这充分展现了苹果如何将更智能的服务整合到产品体验和人们的生活中

苹果智能(Apple Intelligence),融入在相册搜索 现在可以通过更自然的语言来搜索照片和视频,而不用苦思冥想关键词

始终由你做主的“隐私”

智能的便捷体验与用户数据的深度利用脱不了干系。但是隐私数据的处理如果不透明,会引发大量与智能体交互时的信任相关问题。

苹果在阐述 AI 技术如何融入产品和服务时,始终强调会全力保障用户的隐私安全。苹果智能的核心在于“设备优先”理念。 比如语音转录、日程安排等常见的 AI 任务,均可在设备端快速完成。而对于更为复杂的请求,苹果智能才会连接云服务器,并在传输个人上下文数据时,采取严格的隐私保护和数据安全措施。

苹果智能(Apple Intelligence),集成到 iPhone、iPad 和 Mac 的核心,通过设备端处理保护隐私,同时利用私有云计算和芯片上的复杂计算,无需收集个人信息

这些是苹果产品发布的其中一部分,也是 HAI 早期阶段中苹果的思考分享。我们也许能从中窥见 HAI 设计的一角,更深入地理解和推进其中的关键要素,为人们带来属于智能体时代的设计创新。

如果我们只展望几年未来,可能会感觉被泼了一盆冷水。因为真正意义上的智能体,仍然还有很长一段路要走。它需要完全像人类一样理解、主动面对更为复杂而动态的世界,持续记住看到、听到、感受到的这一切。

但我们总是会高估短期发展,而低估了长期趋势

变革从历史来看是个长期过程,10 年后,也许智能就像蒲公英一样会四处飞散,在不同的机器内落地生根,成长为一个个能够真正感知复杂环境变化,自主决策执行的智能体。想想 10 年前,谁又能预测到新能源和辅助驾驶在道路畅行呢?也没有人想到我们只要简单输入描述,就能生成如此逼真的对话、图片或视频。

“如果你想知道 10 年后会是什么样子,最好的方法可能是回头看看 10 年前的情况。”

—— 杰弗里·辛顿(神经网络之父)

发展过程中人与智能体的交互会走向成熟,但人机交互不但不会消失,还会迎来新生。我们还需要指甲刀精致地手动打磨自己的指甲,马车仍然有它的价值。新阶段的出现不代表完全否定过去的事物,它们会转换为更适合对应时代的新形式和意义。

人与智能体的交互 (Human-Agent Interaction, HAI)是一种新生,是由 Origin Design 的团队提出的,面向 AI 的未来交互方式。我们相信,随着智能更广泛地整合到每一台机器设备中,相比于传统的人机交互设计,HAI 能在以人为中心的前提下,深度整合所有智能体和服务,提供完美优雅简单的设计方案,最终更好地服务我们的生活。

结束语

感谢你读到这。

《AI 时代,人机交互即将消失?》系列在这里可能暂时要告一段落了。如果在这段时光能让你稍微窥见未来的一角,便是对段旅程最好的反馈。

但是别担心,一段旅程的结束是另一段新旅程的开始。未来在 HAI Design 中,还会持续分享更多关于 HAI 的相关内容和其中的思考。让我们一起继续碰撞思想,激发灵感,在这片无人区绘制属于我们自己的地图。

参考文献

Wooldridge, Michael. “Intelligent agents: The key concepts.” ECCAI Advanced Course on Artificial Intelligence. Berlin, Heidelberg: Springer Berlin Heidelberg, 2001. 3-43.Google Developers. “Matter.” Google Home Developers Center, Google, n.d., developers.home.google.com/matter?hl=zh-cn. Accessed 10 Dec. 2024.Apple. “iPadOS 18 Introduces Powerful Intelligence Features and Apps for Apple Pencil.” Newsroom, Apple, 5 June 2024, www.apple.com/newsroom/2024/06/ipados-18-introduces-powerful-intelligence-features-and-apps-for-apple-pencil/. Accessed 10 Dec. 2024.Apple. “Introducing Apple Foundation Models.” Machine Learning Research, 2024, machinelearning.apple.com/research/introducing-apple-foundation-models.

来源:人人都是产品经理一点号

相关推荐