摘要:自从那篇著名的论文《Attention is All You Need》问世以来,Transformer 架构不仅首次赋予了机器 Attention、推动了 AI 技术的飞跃,也进一步促进了人类对注意力机制的研究,促使我们以全新的视角重新审视自身对信息的感知与
自从那篇著名的论文《Attention is All You Need》问世以来,Transformer 架构不仅首次赋予了机器 Attention、推动了 AI 技术的飞跃,也进一步促进了人类对注意力机制的研究,促使我们以全新的视角重新审视自身对信息的感知与理解。
有趣的是,人工智能正通过不断演进的注意力机制,变得更专注、更目标导向、更具长期思维;而人类却在汹涌的生成式内容中愈发迷失,变得迷茫、割裂,碎片化。
之所以会出现这种差异,本质上是因为 AI 和人类的注意力机制截然不同。
信息越密集,对注意力的要求就越高,能耗也越大。然而,AI 消耗的是算力,可以通过增加计算单元做加法;人类消耗的则是心力,只能靠聚焦与克制做减法。
前者容易,后者难。
特别是随着世界运转速度的加快,保持专注和收拢注意力变得越来越困难。我们的注意力机制正在逐渐失效,甚至崩溃,导致许多人失去了独立判断的能力。
结果是,世界的分化程度日益加剧。
这种分化在社会的各个层面都有所体现,包括宏观的地缘政治、中观的贫富差距,以及微观的夫妻关系。
过去,人们能够在面对波动时进行独立判断,之后形成共识,然后携手共渡难关,形成「你好我也好,你差我也差」的局面。然而,现在「你差我好」或「我差你好」的情况却愈加普遍。
因此,可以说,当今世界许多问题的根源在于我们的 注意力失控了 。
为了更好地说明这一点,我们可以尝试从信号处理的角度,先来理解一下注意力机制。
任何一个信号系统,基本结构都可以简化为「输入——处理——输出」。
人类也不例外。眼、耳、鼻、舌等感官器官就像传感器,负责将外界的信息传递到我们的大脑中。这些信息在进入大脑后会被加工处理,最终以某种形式转化为行动输出。我们输出的行动可以是看得见的动作、语言或表情,也可以是看不见的想法、判断或偏好。
所以人类也可以被进一步概括为一个「感知——处理——行动」的信号系统。
但人类的这三项能力之间存在巨大的鸿沟。
人的视网膜每秒接收到的信息量约为 10^9 比特,相当于一段两分钟的 480P 视频;大脑每秒能处理的信息量,只有 10^6 比特,约等于一本小说的容量;而最终真正能转化为行动的输出带宽更低,仅有 10^1 比特,也就是一条指令的水平。
所以我们的感知能力远大于处理能力,处理能力又远大于输出能力。
那怎么办呢?
在信号处理中,为了解决这类问题,我们会引入滤波器来「去噪」,也就是过滤出信号、剔除掉噪声。
对于人类而言,为了解决信息过载的问题,我们也进化出了一种主动过滤器——注意力机制。这个机制能够帮助我们在信息洪流中忽略大量无关的噪音,并能根据我们目标的变化灵活调整,确保我们始终能专注于最关键的信息。
例如,当我们聚焦于某一个人时,眼中几乎只剩下这个人,周围的一切声音和画面都会自然消失。这,就是注意力滤波器在起作用。
一个真正专注的人,能够在不同情况下过滤出最重要的信号。这些信号就是我们常说的主要矛盾,也就是事物演化过程中的关键变量。
相反,一个不够专注的人则很容易被信息裹挟,或者被他人的节奏带走,变得人云亦云。
这是因为当我们的注意力机制崩溃时,我们会放弃主动感知世界,转而去处理高刺激信息,或者直接依赖他人的行为来进行判断。
于是,「抱团取暖」的现象也就变得越来越普遍。比如现在火的赛道特别火,哪怕是已经明显出现泡沫的领域,依然有大批人争先恐后地往里挤,而凉的赛道则完全无人问津。再比如凉的赛道可能突然就火了、火的赛道也可能突然就凉了。
这就像信号学里的「拉尔森效应」,它指的是,当信息输入和输出端口距离太近时,因信号循环而产生的啸叫现象。
比如当你把麦克风靠近音箱时,麦克风拾取的信号会传入音箱,而音箱发出的信号又会被麦克风拾取,如此反复,就导致信号不断自我增强,从而产生啸叫。
其实,今天的世界,每时每刻、各行各业都在啸叫。
在这样的世界中,「专注」会变得越来越有价值。
而且「专注」对于现在的创始人来说也愈发重要。人之所以会感到越来越心累,正是因为注意力分散造成了高能耗,而优秀的创始人往往清楚自己应该在什么时间将注意力集中在哪里。
当大多数人把注意力放到别人身上、跟风行动时,如果你能够静下心来管理自己的注意力,专注感知这个世界,你会发现这个时代的机会恰恰在变多,而不是变少。
比如 2023 年,我们关注到具身智能时,市场上还没有这个专有名词,我们内部对这个赛道也有质疑的声音。为了求证具身智能的市场空间,我们组织了一个小组出去调研了一圈,得到的市场反馈大多也是负面的。当时甚至有朋友跟我们说,他们在 15 年投的机器人项目一直都没能退出,劝我们千万不要进入这个天坑(笑)。
但这样的市场反馈反而让我们认定了这个方向是有机会的。因为很多事情其实早已在暗中发生了根本性的变化,只是因为没人关注,所以还没有得到应有的估值。
如果你能赶在别人前面注意到这样的领域,那恭喜你,你就找到了属于你的机会。
就像我认识的一位非常优秀的创始人,他本硕博连读于某领域最顶尖的学府。毕业后,出乎很多人意料的是,他选择了一个极其冷门的底层研发方向去创业。
当时我非常意外,问他为什么要做这个方向?
他说:“因为我的起步条件不算好,所以要找到一个不受关注、不需要跟别人卷资源、但未来 5-10 年有机会重大突破的领域。关注这个方向的人越少越好,因为只有这样,才有属于我的时间和机会。”
我又追问:“但你知道吗?你选择的这个方向还受政策限制,国家都没有发放过相关牌照。”
他回答:“我知道。但就是因为没人做,所以科技没有突破,国家不发牌照。我赌我做了之后,国家早晚会发牌照。”
于是,这位创始人和不到十个人的团队,埋头研发了整整 7 年。
到了 2023 年,国家终于发放了第一批牌照,全球仅有四张,其中就有他的一张,且他们的成本大幅低于全球其他公司。
所以,大部分人类的博弈,归根结底都是注意力的博弈。
今天无论是创业者还是投资者,如果想拿到想要的结果,一件非常重要的事情就是管理自己的注意力。你的注意力在哪里,你的世界就会在哪里显化。因为世界并非一个客观存在的实体,而是我们在感知和处理信息之后所渲染出来的结果。换句话说,没有所谓的客观世界,只有被我们所感知到的世界。
那具体要怎么拿结果呢?
很简单,就是要明确自己的需求。滤波器是一种目标越清晰、能耗越低的装置,所以你的需求越明确、你的注意力越专注,实现需求也就越容易。
进一步来讲,就是要认识自己、做自己。
这说起来很简单,但大家真的做起来往往会遇到两个问题:
第一,很多人其实并不了解自己,只是一味地在用他人的评价或者市场反馈来给自己贴标签。他们根本不清楚自己到底喜欢什么,或者总觉得自己喜欢的东西估值不够高、不符合世俗意义上的成功,所以不够高级。但其实你喜欢什么,什么就是高级的。
第二,很多人认识自己之后却不敢做自己,因为不相信这样做真的会有好的结果,于是更希望改变自己,向主流叙事、向他人的长板看齐。
回到 AI,就像开头所说,人类一直在利用技术帮助 AI 构建注意力机制,使其具备抓住重点和专注于重点的能力。
引入注意力机制后,AI 的能力确实实现了飞跃,它能够胜任的工作范围也在不断扩大。我们相信,AI 还将持续取得突破。人工智能在几乎所有工作中超越人类只是时间问题,而且这个过程不会太久。
因为人类实际上是非常局限的。这种局限性不仅仅体现在大脑的处理能力上,也体现在我们感知世界的能力上。
大家知道,眼睛可以看到图像,耳朵可以听到声音,皮肤可以感受到压力、温度和湿度。
毫无疑问,人类是一个多模态的大模型。
那么,是否存在一个维度能够统一图像、声音、气味、温度等不同模态输入的信息呢?
我们可以换个视角来讨论这个问题。假设信息是一个函数,我们在 《投资中的高频与低频》 中分享过,任何函数都可以通过傅里叶变换分解为不同正弦波的叠加,而每一个正弦波都对应着一个稳定的频率。例如,吉他的每根弦对应着一个频率,也对应着一个声音信息。当我们对弦施加不同的压力时,频率会发生改变,声音信息也随之改变。
所以频率可以简单理解为一个正弦波每秒变化的次数,例如,心脏在一分钟内跳动 60 次,那么它的频率就是 1Hz;而运动后,心跳变为 120 次/分钟,此时心脏的频率就是 2Hz。
不同的信息都可以在频率这个维度上进行统一。例如,可见光的频率大约是 10^15Hz,而声音和气味的频率则不超过 10^4Hz。
频率跨度从低到高范围很广,我们把这个范围称为频谱。
而不同生物的感知频谱是不一样的。例如狗的嗅觉频谱就比人的更宽,因此它们可以获取更多的气味信息。
其实,人和人之间的感知频谱也存在很大差异。有些人天然频谱更宽或者感知颗粒度更高,也就是我们所说的更敏感。所以我们也不要妄加评判另一个人,特别是不应该评判那些高敏感个体,因为他们的世界可能是我们完全无法感受到的。
那我们将常见的频谱画出来,就可以看到,人类能够感知的部分其实是非常有限的。
图中横向的坐标轴表示人类已知的电磁波频谱,彩色标注的部分是人类能够感知到的感官和模态。后者仅占前者的1/10^9。
正是由于这种有限,我们也一直在努力拓展对频谱的感知和存储能力。
我们发明了核磁共振、X光机、气象雷达、引力波探测器等工具,以辅助我们感知那些远超人类生理极限的信息频段。同时,我们还通过跨模态的方式记录不同模态的信息。比如,我们发明了乐谱,用图像存储声音信息,实现跨模态的信息存储。
然而,这些方法本质上都是对信息的影射,也就是将其他频段的信息转化为我们能够感知的信息。在这个过程中存在大量的信息损耗,因此也具有很大的局限性。
这时我们再来看 Agent,你们不觉得 Agent 强的可怕吗?
因为理论上来说,Agent 可感知的频谱是无限的。
今天我们讲的多模态大模型,其实也才刚刚起步。现在我们只有语言模型、语音模型、图像模型和视频模型等,但未来完全有可能出现触觉模型、温度模型、气味模型等全频谱模型。
从这个角度出发,我们不认同「数据不够了」这种观点。有人认为我们已经用尽了互联网上所有可用的图文、音频、视频数据,但这些数据仅仅是人类能够感知并记录下来的三种模态。X 光的数据我们用过吗?伽马射线呢?大脑中的 α 波呢?
这个世界每天都以各种方式产生大量数据,只是很多数据我们无法感知,因此未能很好地加以利用,甚至还没有创业者思考如何使用它们。
再往后发展,我们相信未来会迎来一波传感器的爆发。各种各样的传感器将被制造出来,用来帮助 Agent 感知从伽马射线、X 光到红外线等所有人类无法感知的频段。然后,Agent 会凭借它的全频谱处理能力解读这些数据,并通过语言模型将不同模态的信息整合起来,最后通过具身智能付诸行动。
最终,我们相信未来的 AI 将是「传感器 + Agent + 具身智能」三位一体的系统。它所能感知的世界将超出我们的想象。而这个系统应该运行在区块链、而非传统的互联网上。换句话说,区块链未来将是 Agent 的互联网。
基于这种相信,今天很多创业项目的方向可能就不对。
很多项目现在依然是「以人为中心」来组织工作。无论是 copilot 还是 deep research,都是试图通过各种方式让 AI 来赋能人类。
但面对一个可能具备全频谱的感知、处理,和行动能力的信号系统,我们应该思考的是如何「以 AI 为中心」来组织工作。
我们不应该把重点放在「如何把 AI 融入我们的工作流」上,而应该反过来思考「我们能怎么融入 AI 的工作流」,以及「我们能为 AI 提供什么」。
那讲到这里,大家可能会有一个问题:如果 Agent 知道得比我多、算得也比我快,那人类在未来是不是就毫无用处了?
不是。人类有两个独特的价值。
第一,提出需求。
如果说工业革命是「谁创造供给、谁就创造价值」,那么人工智能时代将是「谁创造需求、谁就创造价值」,因为人工智能时代的供给将趋近于无限。所以我们今后要更多地认识自己、探索自己、了解自己,明确自己要解决哪些问题。
第二,审美。
审美首先是我们为了节约大脑算力而进化出的一种预测算法。我们通常会对新信息进行预判,然后仅对「变化」——也就是与我们预判不一致的部分进行计算,而不会对全局信息进行计算。
我们常说有些科学家很有技术审美,指的就是他们能够在技术路径尚不明确时,凭借「感觉」找到正确的方向。这种能力其实是长期实践与积累的结果。
然而,这种节能机制也有副作用。尤其是在创业者中,很多人都有一种被称为「Wishful Thinking」的思维方式,美其名曰「理想主义」。但实际上,「Wishful Thinking」是一种懒惰,是你的大脑发现「变化」时,本该重新计算、却不愿意重新计算一遍,进而渲染出的偏执错觉。从这个角度来看,「实事求是」就是一种勤奋。
另外,审美不仅仅是一种算法,它还是超越单一模态的处理结果。比如,你遇到一个合伙人,Ta 和你聊得很好,Ta 的思维也非常缜密,但你就是感觉哪里不对。这种「感觉不对」可能并非来自于意识层面的分析,而是你整合了触觉、嗅觉等多模态信息后形成的一种综合感受。
如果某样事物能令我们产生「美」的感受,通常意味着它会带来正反馈,反之则可能意味着危险。比如,我们觉得笑容很美,是因为笑容往往代表善意与接纳。而我们下意识地躲避一个面相凶残的人,则是因为我们会直觉性地察觉到对方的暴力倾向。
人类之所以会发展出审美,正是因为我们的感知和处理能力有限,因此需要审美来帮助我们趋利避害。而这种审美可能超越了多模态的处理结果,甚至超越了二元对立,成为某种一体性的影射。
而 AI 却因为它的无限性,所以不具备审美。这也意味着,在 AI 时代,审美将成为人类所能拥有的核心价值。
所以每一个人都应该思考:你对什么事物的审美明显高于他人?这个事物可以是任何形式,比如艺术、代码、机械结构。只要你对某个事物的美有着超越平均水平的判断和表达,那么你就拥有了在 AI 时代最稀缺的能力。
今天我们聊了很多关于人的「有限」和 AI 的「无限」,看似人在面对 AI 时有诸多劣势,但实际上,恰恰是人类的有限性,促使我们进化出了注意力、主观预判、审美这些独特的能力,也让我们有动力将有限的人生活出无限的精彩。
你可以想象一下,如果你拥有无限的资源和资金,你还会想要创业吗?大概率不会了。你可能会拍拍合伙人的肩膀说:「去玩吧,我们什么都不缺」。就好比如果你打游戏时开了外挂,那么这个游戏一下子就会变得索然无味。
所以,在 AI 时代,我们要做好两件事。
首先是保护好自己的「心力」。心力的强弱直接决定了我们注意力的表现。如果说工业革命让人类的核心价值从体力转变为智力,那么我们相信,AI 会让人类的核心能力从智力转变为心力。
其次是回归审美。这个回归的过程,本质上就是一个去除噪声的过程, 也是人类展现个体的独特价值的过程。 我们需要把注意力重新放到自己身上,相信自己的直觉和判断,而不是依赖他人的信息和行动。
这些年,我们聊了很多创业者,最后发现,真正优秀的创始人未必比他人更聪明或更勤奋,但他们总能在最艰难的时刻选择坚持,在最辉煌的时刻保持平和、克己,在最进退维谷的时刻展现出勇气与坚韧。
以上,和大家共勉,愿我们都能在 AI 时代保持自己的生命力,不断进化,成为一个有审美、有定力的个体。
来源:东窗史谈一点号