摘要:大数据行业刚开始的时候,先行者比如谷歌,有一个大饼,说我们以后数据会不断的随着业务规模和分析使用年限的增加而增长。
今年是2025年,我这个公众号,写大数据起家的,已经很久没写大数据了。
我觉得目前的环境,传统意义上的大数据,说已经死了,一点都不为过。
因此,在大数据上混日子的人,比如我,现在也就没什么光明前途了,除非换赛道。
为什么说大数据死了呢?以下是一家之言。
第一,大数据不是大部分企业的刚需。
大数据行业刚开始的时候,先行者比如谷歌,有一个大饼,说我们以后数据会不断的随着业务规模和分析使用年限的增加而增长。
但现实而言,现在的企业里面,只要不涉及视频什么的,纯文本意义上的大数据,绝大部分企业,都没那么大的增长。而且,人们很少去看很久很久以前的数据集。
比如说广告行业,有谁去挖掘10年以前的数据来更新现在的模型呢?
所以,大部分企业,其实从来都不需要大数据。很多企业的数据规模,也不大。
第二,大数据生态圈丢了很多领地。
大数据刚诞生的时候,我们可以认为是私有云的时代,存储是大数据里面很重要的一部分,GFS是谷歌三驾马车之一。
但是现在呢?MapReduce勉强算大数据阵营,虽然它被更先进的技术取代了。GFS这个存储层,今天早就被公有云更廉价更好用的对象存储替代了。对象存储就和大数据没半毛钱关系了。
至于BigTable作为三驾马车之一,现在看,最多属于NoSQL,和大数据没半毛钱关系。所以以前大家说的谷歌三架马车奠定大数据基础,今天回头看,只有半架马车了--MapReduce了。
同样的,在虚拟机时代,YARN作为资源调度管理器,一开始就是在大数据背景下诞生的。但是今天呢?K8S本身和在K8S上的各种资源管理调度框架,和大数据有半毛钱关系吗?
所以大数据发展到今天,说白了,剩下的领地无非就是lakehouse里面的ETL(Spark)和query(Trino)。其他的,都算不上纯粹的大数据。
就连以前寄予厚望的Flink,伴随Spark对streaming的native support,也没剩下多少了。
第三,这10多年硬件的发展,也改变了生态。
2008年的单机,和2025年的单机,性能完全不一样。现在,100多GB的内存,1TB的SSD,不是梦。网络的发展,也同理。
这就意味着原来可能上千台机器,需要写磁盘的操作,今天只需要上百台机器,几十台机器就可以了。
大数据引擎的很多东西,当年看起来各种优化都有道理,越优化越好,现在就不一样了。以前的Impala用c++写,按理来说是个很不错的架构,怎么就败给了Java写的Trino呢?
在Trino还是Presto的时候,一分为二,那个依然叫着Presto的Meta分支,要用c++取代Java的实现,实际上来说,重要吗?似乎在目前单机性能足够强,单机内存足够大,JVM的garbage collection越来越牛逼的今天,也越来越不重要了。
所以传统意义上的大数据,为什么死得差不多了。无非,客户数据的规模和预测的画饼天差地别,原本属于大数据的大盘领地不断丢失,而新技术尤其新硬件的发展,又使得单机性能规格各方面都比15年前领先了不知道几个量级。
所以,大数据自然是死了。
但是有人说了,Lakehouse死了,Lakebase活了。我就不点名了,大家都知道这是谁说的。毕竟,现在AI火了,agent的大饼又出来了。
某公司花2B收购一家serverless Postgres,就换来了100B market cap的新融资,这肯定是一笔划算的买卖。
但是这也给所有做大数据的人一个启示。传统意义的大数据的饼,证明是个假饼,已经死了。但是Agent和AI世界里面的新的“大数据”,又可以开始新一轮的画饼了。
当然,大数据的名字也不好听了,所以我们必须换个新马甲新名字。所有做大数据的人,都应该去做Agent用的数据处理系统,而不是人用的数据处理系统。
毕竟,我们接下来的饼画的是AI的饼,是Agent的饼。
至于10年15年以后往回看,AI的落地,会不会如同今天我们吹的那么美好,还是和大数据一样,一地鸡毛,那我就不知道了。
但是,我觉得索罗斯的名言是对的,管它是不是泡泡,都要ride the wave。跟着潮流走,一个饼破了,还有另外一个饼。
套路还是那些个套路,人还是那些个人。昨天大家都是大数据的人才,今天大家都为Agent事业画饼添砖加瓦。懂不懂Agent,都是专家。
怎么不是专家了?谁给你胆子说不是专家,是骗子的。
昨天我们都是大数据人,今天我们都是为Agent事业而奋斗的专家。
与所有大数据从业者共勉。不破不立,破了才能立起来。管他趋势的尽头是不是洪水滔天,先享受再说。
我们要学习路易十六的名言:我死后,哪管他洪水滔天。此处应有打赏。
推荐飞总知识星球,在私域场合里畅所欲言,聊聊职场发展的事情,和飞总提问交流,这么低的价格不会一直保留,机会难得,一定不要错过这个的机会。
来源:晓霞科技观