摘要:7月13日,第二十六届中国北京国际科技产业博览会(简称北京科博会)在国家会议中心开幕。本届科博会年度主题为“实施创新驱动发展战略 增强高质量发展动能”。会上,天云数据CEO雷涛发表《人工智能技术服务数字资产建设》主题演讲。
7月13日,第二十六届中国北京国际科技产业博览会(简称北京科博会)在国家会议中心开幕。本届科博会年度主题为“实施创新驱动发展战略 增强高质量发展动能”。会上,天云数据CEO雷涛发表《人工智能技术服务数字资产建设》主题演讲。
近期非常引人注目的事件:OpenAI宣布终止对中国提供API服务。为了维护服务质量和安全性,将采取额外措施来限制来自当前不支持的国家和地区的API流量。
对国内基于OpenAI的大模型所构建的很多创业应用生态无疑是一个巨大的打击,两个世界正在逐步脱钩,越来越多的商业链条被切断。这不仅仅发生在物理世界,也发生在数字世界的线上连接。与此同时,市场上还存在另外一种声音,把这个信号看成一种巨大的机遇,刚好趁此机遇培养国内的搜索引擎。
从“深蓝”到AlphaGo,再到今天的ChatGPT,人工智能走过了符号主义的知识封装,连接主义的知识学习,和今天的生成式泛化表达能力开始参与到生产实践。OpenAI的PPT式大模型作为人工智能的明星项目,我们听到太多追捧的声音,过度的神秘化和与之伴随的自我矮化,加上7月9日关停面向大陆市场的API服务接口服务,再次加重自我矮化且,失败感扑面而来。
其实在北美市场,基础大模型的发展已经从单一模型训练Trainging发展为Serving多元化工业化基础设施化。中国人工智能的发展如何摆脱依赖、实现优势破局和定义自己的生态位?这需要找到我们技术的独特演进路径。
目前人工智能市场有两条核心路径,一种是无条件相信scalinglaw路径,相信只要把数据喂进去就会有涌现机制。用算力和数据堆积给已有的算法实践Transformer,这种路径就是在已知的知识结构里去寻找未知拼接的方法,能力是有限的,就像在陆地上看着教科书学游泳一样,一定会遇到模型基础理论的天花板。在已知中组合筛选(条件概率)获得的知识,只能是补齐现有的知识拼图,例如通过大量的实验发现新的元素,可以补全门捷列夫发现元素周期表,但是不能诞生量子力学对基本粒子的理论和元素生成公式,更不可能产生牛顿的“加速度”阿拉伯数字“零和无穷大”这样的观念革命的知识。从学外语到学母语到建立认知再到推理和逻辑的路径完全不同。
谷歌、微软、亚马逊、HuggingFace等云厂商开始不再依赖单一大模型,而是跟更多的系统架构配合,来组成一个务实的AGI的工程架构。谷歌上个月发布的大模型成熟度参考架构,定义了从L0到L6 的分级,调用GPT直接使用单一大模型的能力仅仅是L0水平。加入提示词工程,精调模型Lora的意图理解,向量数据库寻回私域数据的记忆,Agent规划拆解,plugin执行和反思等等,逐步完善大模型成熟度到更高等级。这是人工智能市场的第二条路径。
可以这样类比,大模型是西方发明的轮子,而今天中国已经进入了造车的时代。蒸汽机在英国诞生,但在北美被Nobody装到木船上造就了轮船业的辉煌。中国人工智能的发展如何从重新发明轮子到快速引领智能产业的“造车运动”,需要抓住基础ABC问题本质,才能实现实现优势破局和定义自己的生态位。
C算力——自力更生策略:硬件芯片是最早投入布局的,英伟达在生态的垄断和贸易禁运,给了国产芯片独立发展空间。
A算法——跟随融合的缠斗策略:人工智能最底层核心逻辑是以数学的形态在论文上得以表达,包括数据处理的方法和数据集。甚至实践代码都在以科学共享的形式争相发表,科学无国界。为了更多的索引,论文往往会以最快的速度在跨国别的形式传播。陆奇曾经讲过,我们从中关村到硅谷的距离是一个小时的时差。其实指的就是基础算法层级和开源技术框架。数据科学家们为了使自己的研究成果尽快地发表,甚至跳过了像IEEE、CVPR大型顶会论文的审核机制,直接在arXiv网站上注册发表,学术论文开始以天为单位在更新。打破中美科技壁垒的不是拿来主义的开源软件套壳封装,而是高索引引用的论文。论文不仅提供研究的方法路径,依赖的基础模型组件也提供了数据的流动,像指南一样。
B数据——优势破局策略:硬件芯片所遵循的摩尔定律还是一个线性增长逻辑,但生成式合成数据遵循的却是幂律指数型增长,只有抓住数据工程的幂律才能超越硬件的发展速度。
近日,前美军四星上将加入了openAI董事会。毫无疑问他的岗位职责肯定不是指导研发的,那必定是瞄向两年来OpenAI沉淀的提示数据。我们和大模型对话的内容蕴含大量的信息,据SBS等韩媒报道:三星刚引入ChatGPT还不到20 天,就发生了3起机密数据泄漏事件,其中涉及三星半导体设备测量资料、产品良率等信息。
问题往往会导向答案,获得信息的过程本身也是信息。无独有偶,近期,英伟达发布大模型一下子挤到第一阵营,为什么?英伟达没讲算力而是将重点放在了核心数据的介绍上,其模型训练使用了98%是合成数据,是机器生产模型生产的数据。
如何让国内AI领跑世界是一道综合考题,但归根结底必须从骨髓里就是硬核科技企业。在产品线上,不能拿来主义,不能被卡脖子,不能有明显的短板而且要有显著的长板,才有肯能在国际竞争中跑出来。此外,外部环境对于技术成长、人才培养、产业生态的形成也很关键,不单是一家企业的事,也需要政府、生态共同去匹配发展的进程。
人才破局:相关数据显示,2023年就业形势严峻,失业8700万,毕业1158万,是让普通人是无工作还是让这些人群进入新技能蓝海?政府应该提早布局AI版的“蓝翔技校”。AIGC内容生产,培养新技能蓝领改变算法生成的猜盲盒过程,打造人机交互的流水线。
产业链破局:AI Pin、 Vision Pro等可穿戴的个人智能代理Personal Agent的出现,Figure具身机器人的探索,这些EdgeAI的新兴都需要整合全新的智能硬件产业链。AI pin融合了电容触摸、HUD、手势识别、数模唤醒等成熟的硬件技术,大模型服务的载体,可以发挥中国全产业链精密制造的优势,快速跨界发明迭代一批GenAI的智能硬件。要想推动产业变革,实现产业组织的深刻调整,政府部门、教育机构、高校研究机构的角色和商业必须要发生一些变化。
就政府角色而言,充分发挥产业园区的优势,把企业、高校、科研院所等创新资源产业链上下游“整合”在一起,协同攻关科技难题。
来源:黎曼的猜想