摘要:10 月 22 日,OpenAI 正式发布了其首款 AI 浏览器 ChatGPT Atlas,旨在为用户提供更个性化、更具颠覆性的上网体验,并代替用户执行预订、填表等一系列复杂任务。
10 月 22 日,OpenAI 正式发布了其首款 AI 浏览器 ChatGPT Atlas,旨在为用户提供更个性化、更具颠覆性的上网体验,并代替用户执行预订、填表等一系列复杂任务。
在 OpenAI 位于旧金山教会区的第二办公点,Fast Company 见到了 Darin Fisher——ChatGPT Atlas 的核心工程师团队成员。“对我来说,有机会来到 OpenAI,将 AI 模型融入所有这一切,并思考这如何能真正改变体验,是件超级有趣的事。”
在加入这家 AI 超级初创公司之前,Fisher 花了 25 年的时间致力于开发一些 Web 历史上最重要的网络浏览器:他参与了曾定义早期消费互联网的 Netscape Navigator;在 Mozilla 参与了流行的 Firefox 浏览器开发;随后加入 Google,成为 Chrome 团队的一员。离开 Google 后,他希望探索其他的浏览器:先在提供无广告体验的 Neeva 工作,随后在 Browser Company 工作,参与打造了具有影响力的 Arc 浏览器。
ChatGPT Atlas 浏览器中的所有任务都从对后台运行的 AI 模型发出 prompt 开始。当用户访问网页时,位于屏幕右侧的 chatbot 可以看到每个网页的内容,回答相关问题或对页面执行操作。Agent 模式让 AI 能够执行复杂的多步骤任务,比如替用户填写表格或代为购物。
图片来源:cyprus mail
关于在设计 OpenAI 这款以 AI 为先的浏览器时所做的选择、权衡与创新,我们与 Fisher 进行了对话。(以下对话内容进行了删节与润色。)
Fast Company:Atlas 的核心理念是什么?
Darin Fisher:Atlas 最重要的功能之一就是作为核心的“对话”。你最好先从 ChatGPT 开始你的使用之旅。这样说不是因为我们在 OpenAI 工作,而是因为我自己也常常会后悔没先问 AI 模型——会节省很多时间。“对话”应该出现在浏览器的自主完成功能里,非常方便、非常自然。这也是我们从试用过 Atlas 的用户那里听到的反馈。
Fast Company:你们是如何应对“让人们养成新的使用习惯”这一设计挑战的?
Darin Fisher:这就像一种在习惯与优化之间的调试。我曾参与过许多对浏览器 UI 做出更激进尝试的项目,因为传统浏览器 UI 存在许多不足之处。当顶部的标签页开得太多时,就会变得一团糟,逼得你不得不停下来花时间整理。所以,我们想努力把最基础的功能做到极致。人们大部分时间都在用浏览器,人们已经习惯了使用它,但也希望在工作时它不会给自己添麻烦。
图片来源:OpenAI
Fast Company:浏览器设计的一大挑战是标签页管理。你能解释一下 Atlas 的滚动标签页功能吗?
Darin Fisher:我们保留了类似 Chrome 的经典标签页模式,同时在 Atlas 中加入了滚动标签模式。它的运作方法是让标签保持固定宽度并开始滚动。为了让这个功能有效,新标签页是从左侧进入的。这对一些人来说可能很不适应,但一旦习惯了,就会觉得它很巧妙,因为这意味着新标签页总是在左侧打开,旧标签页则向右移出。你关注的区域和正在处理的内容保持在左侧,所有标签页都清晰可见。有意思的是,一旦你习惯之后,你会积累很多标签,这时就可以用标签搜索快捷键“Command+Shift+A”来找到某个标签,再将其快速放回左侧。
Fast Company:在基于 Chromium 构建的同时,如何保留设计自由?(Chromium 是 Google 开发的开源浏览器项目,是包括 Google Chrome 在内若干主流浏览器的基础。)
Darin Fisher:当人们基于 Chrome 进行构建时,在某种程度上会受到其形态和结构的限制。不是因为你不能改变很多东西,而是因为你改变得越多,更新 Chrome 就越困难。我们真正想做的是鱼与熊掌兼得。我们想出了一种巧妙的方法,基本上是几乎未经修改地运行 Chrome,将网页内容投射到一个 Swift 应用程序中 (Swift 是 Apple 开发的用于为 Apple 设备构建应用程序的编程语言)。这样 Atlas 就可以是一个纯粹的 Swift 应用,一个相对较小的应用。这意味着我们拥有了一块空白的画布,可以让任何东西看起来像我们想要的任何样子。从设计的角度来看,我们非常自由,可以重新思考众多功能的工作方式。主要的约束在于人们对于浏览器是什么以及它应该如何工作的认知。
Fast Company:能介绍一下侧边栏功能吗?
Darin Fisher:当你在 Atlas 内的 ChatGPT 中点击链接时,聊天会过渡到侧边栏并打开网页。这个侧边栏现在与所处网站建立了关联。你可以就该网站提问。例如在零售网站看沙发,你可以问:“你们沙发的价格区间是多少?”或者“还有哪个商家卖类似的产品?”,你只需提一个很简单的问题,模型就可以去网上查并告诉你这些信息。有时网站上的信息会很杂乱,那你也可以让模型为你整理信息。比如说在食谱网站中,你可以说:“你能直接告诉我食谱吗?”甚至在配方上,你可以说:“我想做四人份,不是六人份,把各个材料的用量调整一下。”
图片来源:OpenAI
Fast Company:当用户打开一个新标签页时,不会立即看到侧边栏,而是会看到页面中间有一个聊天窗口。为什么这样设计?
Darin Fisher:我们真正贯彻了“一个输入框”的理念,应该更简洁、更清爽。当我们这么做时,有很多人反馈说:“我的网址栏在哪儿?”我们发现我们可以放一个网址栏——你只需悬停,它就会出现。或者,如果你是键盘用户,按“Command+L”,它就会激活。Chrome 的一项创新就是一个输入框,你可以输入网址或搜索内容。但如果你打开 Chrome 并新建一个标签页,你实际上会看到两个输入框——一个在顶部,一个在中间。我们想,“我们能不能用一个代替两个?”值得注意的是,它不必直接摆在面前也能实现这一点。每个人都很满意。每个人都能毫无困难地找到它。
Fast Company:使用“Agent 模式”时,是不是意味着可以让 Atlas 去帮你找最划算的机票,甚至进一步进行购买?
Darin Fisher:你确实是在请它代表你去做事情,但你也希望感到可控。有一个非常显眼的停止按钮。还有一个“接管”按钮。模型经过调整,能够理解它应该在某个时间点向你呈现结果,然后你可以进行下一步,审查它的工作,查看它在做什么。模型可以在后台打开多个网页来完成任务。还有一个重要选项是:你可以选择“我是否允许它使用我的信息认证、我的 cookie?”(这可能指你在谷歌的用户名和密码,以及存储为 cookies 的偏好设置。)这点非常关键,因为也许你尚未完全信任它,你想先建立信任。你想看到它会做什么,想先在安全的方式里试用它。
图片来源:OpenAI
Fast Company:你如何看待 ChatGPT 搜索与传统搜索引擎?
Darin Fisher:Google,毫无疑问,非常了不起。它是一个神奇的工具。但与此同时,它有特定的工作方式,人们也习惯把它当作那样的工具。而这种 AI 技术是不同的,它是一种不同的交互方式。我们在 Atlas 内部改进 ChatGPT 搜索能力,不仅仅是因为这对 ChatGPT 很重要,也是因为从浏览器的角度来看,这某种程度上是必不可少的。有些输入的目的就是直接访问,比如,“我要去某个网站”或者"“想去亚马逊上看某个产品”。用户除了直达目的页之外不需要其他任何东西。谷歌在这方面非常出色,但具备这些能力的 ChatGPT 在这方面也做得很好。
Fast Company:当 Sam Altman 和领导团队把你请来时,他们对建浏览器有什么要求吗?
Darin Fisher:重心非常明确:让 ChatGPT 更方便地服务更多人,让它成为体验的核心。在传统浏览器里,你得先新建标签页,再输入并打开“ChatGPT.com”——这多了一步操作,不够直接。现在用户需要更流畅的体验,时机正好,我们就来打造它。Sam 对此的态度非常清晰,我很欣赏这一点。虽然公司平时节奏很快,经常想着“这个月能上线什么新功能”,但做浏览器是一项长期投资——它不只是关乎一月份能推出什么,更是为一整年的发展打下基础。我们前期花了大量时间搭建底层架构,现在终于能以每周为单位,持续推出新功能,在这个坚实的基础上不断构建。
Fast Company:在开发过程中,你们如何进行测试和获取反馈?
Darin Fisher:我们当然对自己的设计很有想法,但必须要验证,听听真实用户怎么说。内部测试我们有 OpenAI 的员工群体,但这并非最具代表性的样本。因为这些都是重度技术爱好者,他们所要求的功能类型,根据我们过去的经验,可能并非所有人都想要。所以我们把测试范围扩大了,我们还邀请了可信的测试者。让员工带回家给亲友体验,还专门找了学生群体等各种用户。核心原则就一条:人们对新事物的学习能力是有限的,新产品必须从他们熟悉的领域起步。
图片来源:OpenAI
Fast Company:发布以来的反馈如何?
Darin Fisher:我认为我们收到了大量的积极反馈。人们对这些 AI 浏览器普遍感到兴奋。有人是抱着试试看的心态,也有人持观望态度,但总体上人们很热情......这些反馈都在预料之中。毕竟要求用户改变使用习惯本身就是个大挑战。把 ChatGPT 放在核心位置是个根本性变革。对于许多早期的技术爱好者来说,这感觉很自然,AI和浏览器并肩工作的体验很舒服。但对大多数普通用户来说,适应这种新方式还需要时间,大家现在还处在熟悉阶段。
Fast Company:你们正在为未来开发哪些功能?
Darin Fisher:我们每周都会发布新版本来回应反馈。我们已经处理了一些最常见的反馈。有许多原本准备上线的功能我们也有所取舍,因为我们不想匆忙发布,而是希望推出尽可能打磨良好的用户体验。比如侧边栏里能选不同 AI 模型这个功能,就是根据反馈修改的。垂直标签页是我们收到大量请求的另一个功能。
Fast Company:Atlas 最大的设计挑战是什么?
Darin Fisher:总体上,最难的就是决定“什么功能该加、什么功能该砍,以及如何保持简洁”。团队里经常为这个吵架。做得太复杂,就成了臃肿的“瑞士军刀”,你想满足每个人,但最终满足不了任何人。我们不想一上来就用各种复杂功能把用户吓跑,而是让用户觉得它熟悉且容易使用。哪怕刚开始用得不够高效也没关系,重要的是让用户觉得自己始终掌握控制权——想用 AI 聊天时,Atlas 就在手边;不想用时,也不必使用。我认为这很重要,用户因此能感到被赋能。
Fast Company:如何平衡功能与简洁呢?
Darin Fisher:我们用的方法叫“渐进式呈现”(progressive disclosure)。我们开发的新产品确实功能很多,你可能迫不及待想展示所有亮点。但如果用户第一次打开时,所有功能全部堆在眼前,他们反而会不知所措:“我到底该从哪里下手?”“渐进式呈现”意味着,随着用户逐步使用产品,各项功能会像彩蛋一样被陆续发现。这些隐藏的“超能力”能帮你更高效地完成任务,又不会在第一次使用时就强行灌输给你。这样既保证了产品对新手足够友好,又为深度用户预留了探索的惊喜。
Fast Company:展望未来,Atlas 最让你兴奋的是什么呢?
Darin Fisher:现在只是个开始。Atlas 会继续迭代,而且它将与 ChatGPT 本身共同成长。OpenAI 的不同团队正在同步构建这些能力——ChatGPT 的诸多核心功能,比如深度研究和学习模式,都已融入 Atlas 中。虽然我们提供了模型选择器、工具调用等多种模式,但这些强大工具其实暗藏着一个矛盾:用户真的愿意主动探索它们吗?随着时间推移,模型会逐渐吸收这些能力。我们始终面临一个挑战:既要为用户提供丰富的工具,又要保持体验的简洁性。归根结底,它的意义就是“让模型为你做事”。
来源:出色WSJ中文版