超人类感知如何实现?专家:站在AI肩上,眼镜是入口

B站影视 2024-12-27 12:46 2

摘要:由北京图书大厦、北京大学出版社主办,北大博雅讲坛、文汇讲堂工作室承办的北大博雅讲坛624期“Sora带来的超人类时空感知暨《对话时代》新书研讨讲座(北京专场)”现场 ,李淼、李祖希和倪贤豪就朱嘉明视频里提出的话题展开热烈讨论

由北京图书大厦、北京大学出版社主办,北大博雅讲坛、文汇讲堂工作室承办的北大博雅讲坛624期“Sora带来的超人类时空感知暨《对话时代》新书研讨讲座(北京专场)”现场 ,李淼、李祖希和倪贤豪就朱嘉明视频里提出的话题展开热烈讨论

【导读】12月初,由“AI教母”之称的斯坦福大学李飞飞在今年4月组建的World Labs发布首个空间智能项目成果,让人咋舌:仅凭一张图,就能生成一个3D游戏世界的AI系统。与生成式大模型预测的是像素相比,更进一步的是,AI系统可以预测3D场景。这就涉及李飞飞的首个创业公司World Labs的方向——空间智能,即视觉化为洞察,看见成为理解,理解导致行动。该公司3个月就突破10亿美元估值。李飞飞近日也宣称,理解世界运作的方式是AI的下一步,我们需要从大语言模型转向大世界模型。

空间智能,通俗来讲,就是AI感受到并创造出的三维空间。

在文汇讲堂第八本新书《对话时代——铸造新质生产力的强国之路》7月写就的长篇序言里,作者朱嘉明教授就在“不断加速推进的人工智能前沿”一节里详尽介绍了这个领域的新发展。他认为,基于AI大模型的空间智能,可引导人类进入“一种全新的存在”,而具身智能可能是这里的“原住民”。

今年10月底,在京沪两地展开了本书研讨讲座,在北京图书大厦举办的讲座主题就是空间智能。由清博智能副总裁、创新院院长李祖希主持,横琴粤澳深度合作区数链数字金融研究院学术与技术委员会主席朱嘉明、北京智源人工智能研究院战略研究中心负责人倪贤豪、中山大学天文与空间科学研究院教授兼著名科普作家李淼,展开了一场非常前沿也很专业又有丰富视角的对话讲座。

现分三篇整理后予以分享。两篇为内容,第三篇为互动。此为内容下。

“AI教母”李飞飞11月底提出大语言模型应转向大世界模型 图源:投资界微信公号

AI提升超人类感知

李祖希:AI能否提升人类对于时空或空间的感知?比如说现在我们能看到的很有限,所以借助一些监测设备、仪器帮助我们感知这个世界,这已经是一种拓展。AI出现之后能不能进一步地拓展人类的超能力,无论是朱老师刚刚提到的多维的空间,还是更多超日常的感知体验?

*可尝试用元宇宙凭空训练出第四维空间

李淼:这个问题应当分成两部分。

第一,我们生活的这个世界叫作三维空间,它有前后、左右、上下三个方向,非常具体且真实存在。例如,人们向前走路,飞机向上空飞,鸟儿也向天空飞,鱼往水里游,这些都与我们的日常生活经验有关。

科幻作家艾勃特(Edwin A.Abbott)曾写了一本书《平面国》(Flatland),假设存在一个只有前后和左右的二维世界,有一些生物生活在其中。它们只有二维的生活经验,认为这个世界是一条线的,因为看不到其他生活现象。那么,人工智能是否能让我们体会到更高维度的空间,比如四维空间?

科幻作家艾勃特(Edwin A.Abbott)和《平面国》(Flatland)

如何用二维展现三维?例如,通过绘画、手机就可以看到三维的世界,因为利用了视觉原理或透视原理。但透视原理无法用三维展示四维,或用二维展示四维。比如,用二维展示四维,可以画一个像魔方一样的正立方体。有的人甚至能够想象出一个超立方体。但我们对此没有四维的感知,仅仅知道这是超立方体。

问题是,能否用元宇宙凭空训练出第四维空间的事物?我非常希望存在这种可能性。这也值得期待,因为四维空间比三维空间更加奇妙,就像两个图片比一张纸奇妙,一张纸又比一条线奇妙。关于能否体会到量子世界的问题,我认为一方面没必要,另一方面通过我们的五感难以呈现。

*自动驾驶可视为一种超视距,超越人类感知

倪贤豪:人类的超时空感知是一个非常前沿甚至科幻的理解,但确实可以通过AI的方式实现逼近的过程。纯粹从人的五感来说,人类看到、听到的范围有限,但AI已经实现了超人类的时空感知。

以自动驾驶为例,借助卫星的定位,借助车载传感器、超声波、毫米波等视觉传感器,已经有一些超视距的驾驶。目前这些也算是AI的一部分,也是具身智能、自动驾驶的一部分。这种超时空感知与我们想象的“上天入地”的模式还有距离,但它确实是一种尝试的状态。

看到一张二维图片,想要模拟或设想出一种四维的物体,这对于人类来说是非常困难的。换句话说,我们从二维的一张图到三维或四维,中间丢失了许多信息。这有点类似于一元线性方程,突然变成了一元二次甚至二元多次方程,这个方程组仅有目前的数据可能无法解开。但是通过AI的方式,就能够在它算力可接受的范围内提供各种可能的求解,可以通过基于我们模拟或设想这一三维、四维物体的目的,筛选出最合适的结果。

现在有很多类似的尝试。比如在图像方向给你一个描述,或给你一个被遮住半张脸的人脸,我们用AI的方式可以模拟出整张脸应该有的样子。这种技术目前已非常成熟,包括今年的各种图片扩展,比如我们随手拍了展厅里的两根立柱照片,把它放进AI模型里,它可能会自动延展开,在整个广角镜头下出现一个完整的展厅。这也是AI对超人类时空感知的一个模拟。

12月下旬,李飞飞、谢赛宁发文正在全力推进空间智能对边界的感知 图源:量子位

*实现科幻里的超人类感知,需要硬件和内容改进

至于未来能否实现科幻作品中的超人类时空感知,这就需要我们的模型出现更大的变化,同时要用现在不断进化的模型帮助我们的基础科学领域进行发现或者研究。目前主要的研究方向是用AI做半导体设计、药物研发,以及各种材料设计。

在硬件设备方面,可能需要很多传感器方向的一些革新,不能只涉及人类的听觉或视觉,还需要更广域的频率。除了超声波、毫米波,也需要一些红外传感器等共同演化。这么多的数据能够放到一起融合,本身肯定已经超出人类能够感知的范围的极限了。

这些数据全部输进去训练一个模型,它能够生成的东西肯定不只是三维。因此,软硬件应当一起推进。

李祖希:您认为AI空间是否能够推动人类对多维时空的认识?

主持人分享上海场“最新AI算力”的信息,该场来自商汤的嘉宾刘远辉期待听到超人类感知的讨论

李淼:现在谈第三世界的基本规律还过早,因为它处于相对初级阶段。现在才开始有元宇宙、大模型、Sora,以后或许还会有层出不穷的东西。我总结三个不同阶段:第三世界处于初级阶段,第二世界(精神世界)处于第二阶段,第一世界(物质世界)已快完结。

*“第三种存在”未来或通过一副眼镜实现

倪贤豪:现在还不太清楚第三种存在最后实现的方式,它有虚拟的世界,也有对现实世界的增强,但最后我们的载具,按照目前的发展,可能是以眼镜的形态出现,但具体什么时候到来还不好判断,只能说快了。

那么这个世界应该符合怎样的基本规律?如果说涉及与人类正常生活的第一存在、第二存在相关联的一个密切的点,那就是需要符合物理规律,比如宏观要符合牛顿定律,微观要符合量子力学,否则很难在现实中使用,尤其是与我们自己生活、工作最为密切相关的一些场景。

至于其他一些特定场景,可能就像小说家所希望的,在未来的元宇宙或者AI空间的这种第三种存在中做一些灵感的迸发,作家本人可能需要亲自设定一些不限制的场景,可以不符合物理规律,或者说他自己编写出了一套规律、假设,在这个空间里做一些实现。这是一种任务型的场景,可以更加天马行空。

苹果公司推出的Vision Pro头显已能实现和手机互动 图源:苹果公司官网

对于未来畅想的基本规律,更多的是在通用场景下符合物理规律的要求。站在今天的视角,AI空间与元宇宙是相互融合的,并且在有限的时间如10年之内能到来,那它的入门设备应该是一副眼镜,因为它能像手机那样成为人类延展的一部分,又不会带来太多的携带压力,同时交互起来又比较容易。比如去年年底,苹果公司推出的Vision Pro头显,其实已经能够实现手动直接交互,追踪的准确性和实时性比较好。但它的缺陷之一就是太重,一天戴两三个小时就是极限,所以,硬件设备这方面需要改进。

在内容方面,高效的AI快速渲染生成是主流。当然,视频内容制作厂商或者个人会更加尝试使用AI技术工具去进行内容生成,这也是必然的。

现在比较夸张地说,我们每个个体都能当大片导演。只要我们把想法输入到ChatGPT里,它就会生成一个剧本,再把这个剧本作为内容输入到视频生成模型里,它也能生成一些新的创意。最后我们再用一些视频或者图像编辑剪辑工具把它做成更加合理的样子。其实很多视频制作人都是这样操作的,所以这也是目前短期已经实现的部分。

关于未来远期的发展方向和基本规律,一是AI技术的多行业渗透;二是人类用AI工具的入口载具变革,载具形态就是一副眼镜;三是在不同场景下符合物理规律。

*量子力学先有理论后有证明,AI才能证明量子猫

李祖希:也就是说,一开始需要我们不停地训练它,模仿我们人类,之后它就可能有一些独特的独立的发展方向了。这个问题我们也听听朱嘉明老师的观点。

朱嘉明:我们知道,至少从1925年海森堡提出矩阵量子结构以来,量子力学已有近100年的发展历史。但是,量子力学不是发现,也不是发明。量子力学是通过超强的抽象能力,先有形而上的理论和公式,之后通过100年的历史证明所证明的科学理论。现在人们接受这个世界的物质是不连续的,接受诸如量子纠缠这样的概念。人们接受与常识性认知是根本不同的观念,突破牛顿经典物理学的束缚,是人类文明的升级。

还有,证明夸克的存在不过是过去的三四十年的事情。其历史也是理论走在发现的前面,发现不过是一种证明方式。

朱嘉明认为,只有AI才能证明量子猫的存在

如今,人工智能与量子力学正在形成相互融合的趋势,这样的融合将展现前所未有的物理世界。例如,可以断言,人工智能可以证明薛定谔量子猫的存在。

在人类历史上,常常先有想法后被历史证明,这是人类文明进步的非常重要的特征,世界上很多东西是先验的。所以,现在需要以更开放的思想理解唯物主义和唯心主义。

超人类感知如何影响未来

李祖希:最后畅想一下第三种存在出现之后,我们在近期、中期或更长远的时间里可能面临哪些机遇和挑战?

*《奇点临近》观点:2045年AI智能超过人类智能

朱嘉明:目前对于这种全面侵入人类文明的人工智能还是低估的,三年五载就会进入到歌、画、文章、思想,你分不清楚到底是人还是机器创造的。

现在不是人机融合,是人机组合时代已经全面开始。将来马斯克去火星完全是建立在人工智能的基础上,现在的战争已被无人机所左右,人工智能正在全方位地接管和替代人类,现在是人类如何回应的问题。

库兹韦尔在20年后又写了《奇点更近》一书,提出三类人类主体

很多人都知道库兹韦尔在2005年写了《奇点临近》这本书,他在书中提出,人工智能会在上个世纪末超速发展,到2035年,AI智力跟人类智力是平起平坐;到了2045年,AI智能会超过人类智能,所以这10年就是“人类文明的奇点”。 最近15年基本验证了他的预言。最近他又出版了《奇点更近》,主要观点是,随着基因工程、脑机接口这些技术的出现,世界主体将分为三类,一类是我们碳基人,一类是被人工智能改造过的人类,还有一类是纯粹的人工智能,这三者构成了人类文明的主体,这个时代10—20年就会来临。

以人工智能对未来艺术行业的影响为例。在三类主体共存下,艺术的本质也会被一些元素改变,比如说数据,还有人工智能导致的Token就成为艺术的基本元素。而量子物理里的量子纠缠、夸克、核聚变,以往都是属于物理科学家研究范围的事物,以后就会和艺术界融合成为艺术的内容。在某种程度上,艺术会重新回到文艺复兴时期,维持了两三百年的艺术分工会被打破,一般民众就可能成为艺术的创造者,艺术将会变成无界的。

*开放态度中有怀疑:去做AI不能做的事

李淼:我对人工智能全面取代人类和超越人类持开放的态度。开放的态度意思是说可能但是不一定。比如说在下围棋方面AI已经超越人类,这是确定性的。但我们并没有看到它在更多方面超越人们。文心一言也会写文章,但我没看到它写的任何一篇文章超越我喜欢的小说、诗歌。那AI能不能真的超越人类呢?

很多年前有让人眼前一亮的两句汽车广告词——“车到山前必有路,有路必有丰田车”,这只有我们人类才能写得出,对吧?像恒源祥的“羊羊羊”广告,或者“今年过节不送礼,送礼就送脑白金”这种特别洗脑的广告语,我怀疑人工智能是能做到的。再比如说人类文学史,是从口头的传说也就是讲故事,发展到诗歌再到唱歌,在中国是到诗到词到曲、到小说、到电影、到戏剧。试问人工智能能不能搞出一个超越电影的形式,并且人类也能接受?我比较怀疑。

所以,如果让我给大家提建议,以后就找那种人工智能做不到的事情来做。

*奇点到前先学会善用AI,站在巨人和AI 肩上

北京图书大厦顾客看到讲座驻足而听

倪贤豪:一方面,确实像李淼老师提到的,代表人类智慧的天花板方向的工作,AI现在还很难做到,或2045年奇点来临才会改变。

另一方面,在绝大多数领域,不太需要在平均水平的工作人员身上体现出这样的天花板。如果AI写不出激动人心的作品,但它会议记录写得非常好;它或许写不出一首很好的诗歌,但它每天写音频转成文本,它甚至能够区分是谁说的,这对于普通的劳动力造成了一定的挑战。

作为普通人,我经常借助ChatGPT的帮助,比如外出徒步看到地上有一个小土堆,觉得像个蚂蚁窝又不太确认时,我用拍照求助它确认;比如看到一条狗狗在地上躺着睡觉,黑狗身上有一些白毛发,我会拍照求助询问是否年纪有点大了。很多人有过极限的工作体验,让我们挑战难题,不仅需要脑力也需要体力,而80%的工作是基础性的,那么我们可以选择让AI完成基础工作,留出精力去攻克最难部分。

现场嘉宾观点同中有异

在2000年代初,我们尝试用百度、Google等搜索引擎,后来这样的尝试很自然地内化成了我们的生活习惯、工作习惯。所以,在实现天花板突破的人工智能到来前,我们或许可以培养自己和小朋友们养成使用大模型或者AI工具的好习惯,至少能够做到不容易被基础的人工智能替代掉。

令人担忧的是,现在能够更好地使用AI的人群或者团体或许也会带来两极化,而科技的初心是让大家的资源分配更加平均一些。

李祖希:谢谢。您也提醒我们,未来我们不光是站在前人的肩膀上,也要站在AI的肩膀上。不是让它代替我们,让我们躺平,而是在AI的工作的基础上实现更好的工作的效果,探索工作的未知。 整理:李念 金梦

来源:文汇报

相关推荐