蚂蚁集团CTO何征宇揭秘AI四大挑战:未来所有数据公司都将成为AI公司

B站影视 电影资讯 2025-05-18 07:46 1

摘要:5月17日,在OceanBase第三届开发者大会上,OceanBase发布面向AI的应用产品PowerRAG,该产品提供开箱即用的RAG应用开发能力,是OceanBase面向AI时代的探索之一。此前,CEO杨冰曾通过全员信宣布公司全面进入AI时代。OceanB

新浪科技讯 5月18日上午消息,5月17日,在OceanBase第三届开发者大会上,OceanBase发布面向AI的应用产品PowerRAG,该产品提供开箱即用的RAG应用开发能力,是OceanBase面向AI时代的探索之一。此前,CEO杨冰曾通过全员信宣布公司全面进入AI时代。OceanBase正致力于构建Data×AI能力,面向AI时代推动一体化数据库向一体化数据底座的战略演进,有望在未来实现从算力、基础设施,到平台层、应用层、交付形态的全方位布局。

蚂蚁集团CTO何征宇在大会现场分享了题为《AGI时代,海量数据带来的质变》的演讲。他认为,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有四大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态数据需要更强的处理能力,四是数据的质量评估难。

何征宇表示,蚂蚁集团将支持OceanBase在金融、医疗、生活等AI核心场景的突破,支持OceanBase去实践DataxAI的理念和架构创新。同时继续支持OceanBase开源开放,把在Data×AI上的能力逐渐开放给行业,为AGI的梦想添砖加瓦。

以下为他的分享全文:

各位OceanBase的开发者大家好!非常荣幸能够有这次机会和大家聊一聊通用人工智能(AGI)。为什么我会来这次会议,我其实觉得首先要讲一句话,没有数据肯定就没有今天的AI和大模型;没有开发者的兴起和爆发,也就不会有AI应用的爆发。正是数据的力量铸就了今日的AI与大模型,而开发者生态的蓬勃发展和持续创新,是真正推动AI应用爆发的核心引擎。我今天想分享的题目是《AGI时代,海量数据带来的质变》

AI的发展其实并不是一帆风顺,甚至它不是线性的。这已经是AI的第四次爆发式发展了,AI终于变得通用,这里蕴藏着巨大的市场机会和商业机会。当ChatGPT发布的时候,你会看到很多原有需要做专用模型的任务,包括翻译、写作、对话等等一都需要智能模型,从我们的视角看过来,这是符合“长尾理论”的。大家不知道有没有印象,知名科技杂志《连线》前主编Chris Anderson在早年著作中提出的经典案例:在书中,他以亚马逊书店为例指出,其成功关键在于将稀缺难寻的长尾书籍悉数纳入销售体系,也就是它把所有难找、长尾的书本全部上架了。这背后遵循的幂律法则对技术从业者而言并不陌生——当海量长尾需求聚合时,其总和将超越任何单一主流市场的规模。

今天AGI意味着什么?当前AGI的突破在于单个模型或解决方案能够完成多个细分AI任务。随着这些基础功能的实现,我们预见将涌现出指数级增长的长尾应用需求。这些需求的叠加效应极有可能超越现有AI市场的总和,预示着一场由技术革命驱动的商业爆发即将来临。更多的人会享受到更大更好的AI服务。对于基础设施开发者和技术团队则面临三重挑战——构建足以支撑海量需求的服务架构,持续降低计算成本,以及不断突破智能系统的性能极限。唯有在规模效应、成本控制和技术突破三个维度同步推进,方能把握这场智能革命的战略机遇。所谓追求智能的上限。

对数据意味着什么?“数据的边界决定着智能的上限”—这句话很多人都有共识的。物理学家费曼的名言“我无法创造的即我无法理解”也尤为深刻,成为生成式人工智能的指引。在此启示下,我们可以说:无法数字化即无法智能化。一方面,数字化的过程即是创造智能的过程:模型本身需要数据这个比较好理解;此外,将物理世界转化为数字形态,不论是文字还是影像,都是人类智能的结晶。从另外一方面说,当前大模型面临的大多数幻觉问题,其本质源于特定领域的数据缺失或质量缺陷——当模型遭遇数据空白区域时,由于模型训练目标是流畅表达,基于概率的生成会导致预测失准。这一认知反向印证了基础逻辑:优化数据质量与完善数据体系,才是解决幻觉最源头去做的事情。

今天,我们认为AGI在数据领域依然面临很多的挑战,这里简单跟大家分享一下我们的看到:

一是数据的获取成本显著增加。OpenAI首席科学家Ilya Sutskever曾用“数据是人工智能的石化原料”的隐喻揭示行业困境:作为大模型训练基石的互联网公开数据资源已接近枯竭。这种枯竭并非物理意义上的耗尽,而是指唾手可得的、廉价的数据资源已被用完。因为互联网上的数据,大家都可以free access。廉价数据用完了,就只剩真正昂贵的数据。未来一个企业成功与否,我们判断不是看它如何消费数据、应用数据,而是看它如何能够高效率的产生高质量的数据,这将成为未来任何一个数字化企业的成功标准。

二是行业数据流通难。我们观察到了一个本质的问题,行业严谨性与数据可得性呈反向关系,就是越严谨的行业数据是越稀缺的。高严谨性行业(如法律、医疗)存在三重特征:数字化进程滞后、数据质量要求严苛、核心数字化知识沉淀不足,这共同导致了高质量数据的结构性缺失。而生成式AI在专业领域的有效应用,既需要高密度的垂直领域知识(包括形式逻辑、因果推理等认知范式),又依赖跨行业知识迁移能力。以DeepSeek-R1为例,其通过代码逻辑向文本创作迁移已验证技术可行性,但专业领域的智能化突破仍面临关键瓶颈——如何系统性地将行业特有的思维范式、专业规则等隐性知识转化为可计算模型?该瓶颈若无法突破,将严重制约专业领域的智能化进程。

三是多模态数据处理难。我认为核心不可忽视的一点是,我们身处的世界是三维的,并不像语言一样是线性的。未来的数据不仅仅应该包括文本,肯定包含大量的视觉,甚至是触觉,包括现在机器人讲的更多本体的感觉,等等一系列的问题。可以预见,即便当前大模型已经能够处理数十亿量级文本单元(Token),未来数据规模仍将呈指数级增长。面对未来更海量的数据,我们将如何处理,这也是另外一个非常大的挑战。

四是质量评估难。大家知道大模型最难的一个问题是怎么评估,评估的质量又决定着这个模型的质量。评估到底是什么?评估本身也是数据,它需要大量的评估数据,需要大量具备人类思维,或者人类知识数据。这些数据如何获取也是一个很大的挑战,不然我们训练大模型永远就像“炼丹”一样,只有出炉了之后才知道好不好。

以上问题是目前我们观察到的挑战。应该如何攻克它,这是个open question,是很多公司都在攻克的,能够解决好这里面任何一个问题的公司都有可能成为一个伟大的商业公司。我们有一句话可以分享给大家:未来所有数据公司都将成为AI公司。

OceanBase是为理想而生,更加是为场景而生。过去OceanBase自研海量交易数据的技术创新,应用到蚂蚁集团内部的场景,我们针对当年所面临的IOE价格的挑战,率先应用了全分布式的数据库架构。在这个之上,我们构建了包括容灾,包括海量的数据服务能力等技术体系。可以毫不谦逊的说,OceanBase是蚂蚁集团持续创新,突破行业技术难题的代表。面向未来,我坚信OceanBase将为实现AGI梦想继续绽放。在上述的问题里,我相信OceanBase将大有可为。

蚂蚁集团将支持OceanBase突破一些关键的AI场景,包括在金融、医疗、生活等蚂蚁AI的核心场景的突破,支持OceanBase去实践DataxAI的理念和架构创新。今天AI的竞争已经进入到深水区,AI的竞争不仅仅只是模型的竞争,它更加是一个公司乃至行业基础设施的竞争,基础设施的效果将直接决定模型的效果。

同时,蚂蚁集团将继续支持OceanBase开源开放,把Data×AI的能力逐渐开放给行业,为整个社会提供Data x AI的Infra创新服务,我们想借助一点小小的力量,为我们的行业,为AGI的梦想添砖加瓦。

最后,我想以印在50英镑上的图灵名言结束今天的分享:“这不过是将来之事的序章,也不过是将来之事的影子。”AGI的梦想很大,期待与各位开发者同行。

来源:新浪财经

相关推荐