谷歌使用大模型模拟神经操作系统,界面实时生成,人机交互新未来?

B站影视 电影资讯 2025-09-29 18:34 1

摘要:谷歌搞了个AI时代的神经操作系统原型,里面的所有界面,都不是程序员提前写好的,而是靠Gemini 2.5 Flash-Lite大模型实时生成出来的。

谷歌搞了个AI时代的神经操作系统原型,里面的所有界面,都不是程序员提前写好的,而是靠Gemini 2.5 Flash-Lite大模型实时生成出来的。

这是一个非常前沿的新型操作系统研究,是智能化人机交互的未来方向。

我们现在用的所有软件,电脑系统也好,手机应用也罢,每一个按钮放在哪,每一个菜单长什么样,都是开发者一行一行代码提前规定好的。你点这个按钮,它就执行这个功能,跳转到那个页面,一切都是预设的。

但谷歌的这个研究原型,想玩点不一样的。它问了一个问题:如果界面不是固定的,而是能根据你当下的操作和需求,实时为你生成一个最合适的,那会是一种什么样的体验?

为了回答这个问题,他们就动手做了这个模拟的“神经操作系统”。

你点的界面,AI正在为你生成

他们把这个原型系统比作一个操作系统,但它的内核不是传统的代码逻辑,而是一个大型语言模型。

要实现界面实时生成,模型的响应速度必须跟得上人的操作速度。Gemini 2.5 Flash-Lite的低延迟特性,成了这个项目能跑起来的基础。

在这个系统里,用户的每一次点击,每一次互动,都不是在打开一个预先设计好的窗口。恰恰相反,用户的操作会变成一个指令,发给大模型,然后模型“凭空”生成一个全新的界面给你。

这就好比,你不是在一个已经建好的城市里按地图找路,而是你每向前走一步,你脚下的路和眼前的风景才被创造出来。整个交互过程,变成了一场持续的、动态的生成。

这代表着人机交互的一个全新方向,我们可能正在从一个静态、固定的界面时代,慢慢走向一个动态、生成的界面时代。

比如你完全不再需要多个APP来回切换、点击登录、复制粘贴,甚至都不需要APP,你对着手机说出你的需求,将实时生成一个最终包含多个互动选项的界面等待你确认即可。

这套“凭空造物”的功夫是怎么练的

让大模型实时生成一个能用的界面,不是简单地对它说一句“给我画个按钮”就行了。谷歌的研究人员设计了一套精巧的机制,来引导和约束模型的行为。

他们把给模型的指令分成了两个部分:“界面构成”和“界面互动”。

“界面构成”像是一本操作系统的“设计规范”或者“风格指南”。它是一段预设好的、相对固定的系统提示,里面定义了整个系统的基本外观和行为准则。

比如,所有窗口的边框应该是什么样式,主屏幕的图标怎么排列,地图这样的特殊元素应该如何嵌入等等。这部分内容保证了无论模型怎么生成,整个系统的视觉风格都是统一的,不会一会儿一个样,让用户感觉精神分裂。

“界面互动”则完全是动态的。它是一个JSON格式的对象,专门用来捕捉用户刚刚做的那个操作。比如你用鼠标点了一个图标,系统就会立刻生成一个JSON对象,详细描述这次点击的所有信息。

举个例子,假设你在一个记事本应用里,点击了“保存笔记”这个按钮,系统就会生成类似下面这样的一个JSON对象,然后把它发给大模型。

{"id": "save_note_action","type": "button_press","value": "Meeting notes\n- Discuss Q3 roadmap\n- Finalize budget","elementType": "button","elementText": "Save Note","appContext": "notepad_app"}

我们来拆解一下这个JSON对象里的信息:

id: save_note_action,这是“保存笔记”这个按钮的唯一ID,像它的身份证号。type: button_press,说明用户的操作类型是“按下了按钮”。value: Meeting notes...,这是系统从记事本的文本框里自动抓取的内容,因为你点的是保存,模型需要知道你要保存什么。elementType: button,说明被点击的元素是个按钮。elementText: Save Note,按钮上显示的文字是“保存笔记”。appContext: notepad_app,告诉模型,这个操作发生在“记事本应用”这个上下文里。

把“界面构成”(风格指南)和“界面互动”(用户具体操作)这两部分信息组合在一起,作为一次完整的请求发给Gemini模型,模型就能据此生成下一步的界面了。这种方法既保证了风格统一,又能灵活应对用户的实时输入。

光有单次互动的上下文还不够,一个聪明的操作系统应该能理解用户的一系列操作。

谷歌的原型就能做到这一点。它会记录用户最近的N次互动历史。这样,模型在生成新界面时,就能参考用户之前都干了些什么。

这就是情境感知。通过调整这个“N”的大小,也就是互动历史记录的长度,就可以在界面的情境准确性和多样性之间找到一个平衡点。

速度是体验的生命线。

如果每次点击都要等模型生成完整的HTML代码再渲染出来,那感觉就像在用2G网络看高清视频。为了解决这个问题,谷歌的原型用了两个技术:模型流式传输和浏览器原生解析器。

模型流式传输,就是让模型生成一点代码,就立刻发送一点,而不是等全部生成完再一起发。浏览器接收到这些一小块一小块的HTML代码后,会利用原生解析器立即进行渲染。

对用户来说,最终的体验就是界面元素几乎是瞬间“生长”或者“流淌”出来的,而不是“啪”一下跳出来。这极大地提升了系统的响应速度和流畅感。

还有一个问题:大模型本身是没有记忆的。默认情况下,你每次请求,它都会从头生成一个全新的界面。

这意味着,你第一次打开一个文件夹,看到里面有三个文件。关掉再打开,里面可能就变成五个完全不同的文件了。这对于习惯了静态图形用户界面(GUI)的用户来说,简直是场灾难。

为了解决这个问题,原型系统提供了一个选项,叫做“生成式界面图”。

你可以把它理解成一个为当前会话服务的“临时内存”。当一个界面被首次生成后,系统会把它缓存到这个“图”里。下次用户再访问同一个地方时,系统会直接从缓存里把之前生成过的版本拿出来,而不是再去请求模型重新生成一次。

只有当用户要去一个从未去过的新地方时,系统才会再次请求模型,并将新生成的界面也加入到这个“图”里。

这样一来,既保证了体验的稳定性和状态的持久性,又没有牺牲生成式界面的灵活性。

学术圈也在琢磨同一件事

谷歌在做神经操作系统的同时,学术界也有团队在进行类似的研究,并发表了一篇名为《NeuralOS: Towards Simulating Operating Systems via Neural Generative Models》的论文。

这个NeuralOS(神经操作系统)框架的目标和谷歌的有点像,但实现路径不太一样。

NeuralOS不生成HTML代码,它直接“画”像素。它的工作方式是,接收用户的鼠标移动、点击、键盘输入等事件,然后直接预测下一帧屏幕图像应该长什么样。

为了实现这个目标,NeuralOS的架构由两部分组成:一个循环神经网络(RNN),用来跟踪计算机的内部状态;另一个是基于扩散模型的神经渲染器,专门负责生成屏幕图像。

简单来说,RNN就像是大脑,负责记忆和逻辑,记住你刚刚打开了哪个应用,光标现在在哪里。扩散模型就像是手,负责把大脑想的东西画出来。

研究团队在一个大规模的Ubuntu XFCE(一个Linux发行版)操作系统的交互记录数据集上训练这个模型。这些数据既包含了随机生成的操作,也包含了AI代理产生的真实交互。

实验结果表明,NeuralOS成功地渲染出了真实的GUI序列,能准确捕捉鼠标的交互,并且可以可靠地预测像应用启动这样的状态转换。

从技术细节上看,NeuralOS的设计模仿了传统操作系统内部逻辑和GUI渲染分离的模式。它用一个分层的RNN来跟踪用户驱动的状态变化,然后用一个潜在空间扩散模型来生成屏幕视觉。

这个模型在预测光标位置方面表现相当出色,误差大约在1.5个像素以内。在73种有挑战性的状态转换测试中(比如打开某个特定应用),它的准确率达到了37.7%,显著优于基线模型。

当然,NeuralOS也存在明显的局限。它的分辨率很低,速度非常慢,只能达到1.8帧每秒(fps)。

这一切最终能用来做什么

虽然谷歌的神经操作系统目前还只是一个研究原型,但它背后的技术和理念,已经可以应用到一些实际的场景中。

比如,情境式快捷方式。

想象一下,系统在后台观察你的操作模式。当你正在多个网站之间来回切换,比较不同航班的价格时,屏幕上可能会自动弹出一个小小的悬浮窗。这个悬浮窗不是预设的,而是系统实时生成的,上面有几个按钮,可以帮你一键对比价格,或者直接预订你浏览次数最多的那个航班。这个小工具帮你省去了好几个步骤的重复操作。

另一个可能的应用是在现有软件中加入“生成式模式”。

开发者可以给自己的应用增加一个开关。比如在谷歌日历里,当你需要重新安排一个会议时间时,你不用再去手动查看所有参会者的日程表。你只要激活“生成式模式”,拖动一下这个会议邀请,系统不会弹出那个标准的对话框,而是会生成一个全新的界面。这个界面上可能会直接用一系列按钮列出所有人都方便的几个最佳备选时间,你只需点击一下即可。

这将创造一种混合体验,静态的、可靠的传统界面和动态的、智能的生成式界面,可以在同一个应用里无缝共存。

这两个项目,无论是谷歌的商业原型,还是学术界的NeuralOS,都指向了一个共同的未来:我们与计算机的交互方式,可能会发生根本性的变化。

计算机界面将不再是静态和预定义的,而是可以像生命体一样,根据环境和需求,动态地生长和变化。

你怎么看这个事?

参考资料:

来源:算泥社区

相关推荐