摘要:“未来人人皆为开发者。”2月22日下午,2025全球开发者先锋大会(GDC)浦江AI生态论坛在这句结束语中落下帷幕,恰恰也是对整个GDC核心精神的精准诠释。
开源+降本,上海AI生态喊你来当“建筑师”
作者/IT时报记者 郝俊慧
编辑/ 孙妍
“未来人人皆为开发者。”2月22日下午,2025全球开发者先锋大会(GDC)浦江AI生态论坛在这句结束语中落下帷幕,恰恰也是对整个GDC核心精神的精准诠释。
随着人工智能(AI)的爆发和生成式AI(AIGC)能力的飞速提升,“按需开发”的门槛正以前所未有的速度降低。
在GDC现场,《IT时报》记者看到,从传统的程序员到建筑设计师,从10岁的孩子到极客,都在利用AI实现梦想、改造世界,AI技术的普及正在重塑开发者的定义,让每个人都有机会成为智能时代的创造者。
同时,在算力、语料、算法、开源社区等AI基础设施领域,来自人工智能科研机构、高校、政府、企业等各方力量正在逐步搭建统一平台和生态圈,AI融入社会全场景的未来将加速到来。
论坛当日发布了一系列AI生态举措:包括中国电信人工智能研究院、上海宝信软件股份有限公司、上海智能算力科技有限公司、上海商汤科技开发有限公司等16家生态合作伙伴签署《浦江AI生态共赢计划》;上海人工智能实验室(上海AI实验室)发布通用具身智能仿真平台桃源2.0(GRUtopia2.0),并面向全球开发者开放;大模型开放评测平台司南正式发布“以人为本”(Human-Centric Eval)的大模型评测体系,并将于3月5日上线。
语料燃料 从专业壁垒到全民工具语料是大模型的“燃料”,但高质量语料也是当前AI生态中最匮乏的。全球基本形成的共识是:可被用作训练的公开数据已经耗尽,同时导致大模型同质化现象严重。
另一方面,越来越多的企业希望将大模型部署到自己的私域中,并围绕私域场景研发垂直模型,但面临的直接问题是,私域的数据并不像互联网数据一样易用。
“很多数据是为了满足人类阅读需要而记录的载体,像最广泛的文档——PDF,并不是大模型天然能使用的。”上海人工智能实验室青年科学家何聪辉表示,如PPT、PDF、科学领域的科学符号等私域数据……因格式复杂、载体多样,难以直接被大模型利用,成为训练和应用的“最后一公里”,传统OCR工具虽可提取文本,但面对公式、表格和多栏布局时,往往精度不足,难以成体系产出可用语料,“比如你要将DeepSeek部署到自己的环境里面,但如何结合自己的数据将DeepSeek用起来?”
因此,人工智能实验室去年开发了一款针对高知识密度或者私域数据的文档提取工具——MinerU,旨在将非结构化文档高效转化为结构化数据,为大模型训练和知识库构建提供支持。
仅仅发布半年,MinerU便十余次登上GitHub的Training榜,目前GitHub Star数已经超过2.5万,Star数量的增长,甚至超过其他热门大模型,“说明想要将大模型用起来,大家都有很多数据痛点。”何聪辉透露,已和华为合作,在昇腾服务器上做了适配,并通过开源的方式让更多开发者可以使用。
同样在降低语料壁垒的还有具身智能。
从波士顿动力到今年春节大火的宇树机器人,人形机器人从一个“看不到希望的夕阳产业”到“众星捧月的网红”,归功于近几年人工智能的科技爆发。然而,当前具身智能的瓶颈依然在于数据稀缺、评测困难和泛化性不足。
上海人工智能实验室青年科学家庞江淼指出,当前具身智能领域存在“数据金字塔”,顶层是真实机器人数据,稀少但价值高;底层是仿真数据和互联网开源数据,数量庞大但需加工。因此,实验室选择了“Real2Sim”路径,即利用AIGC技术快速将真实环境重建到桃源仿真平台,生成海量数据供机器人在仿真环境中训练,再将模型部署到现实机器人,从而形成闭环。
目前作为“虚实贯通”平台的桃源,集成10万个具体的场景,覆盖89种功能性场景,通过AI脚本增广数据,可以在仿真环境里实现从少量数据采集到无限扩增,目前单台服务器已经日产1.5万条高质量导航数据,大幅降低了成本。
庞江淼介绍,通过5:1的仿真与真实数据配比,可将操作成功率从49.7%提升至93.3%,采集数据的成本从一条十几元降至2分钱,“平台已经开源,最少仅需三行代码即可定义任意任务,已开源供开发者尝试”。
人人皆AI 钢厂老师傅成数据标注师开发者生态是一个多维度的协作网络,既包含技术工具与资源,也依赖社区互动与商业赋能,需要技术、数据与场景的三位一体深度耦合。上海正在打造世界人工智能生态高地,而开发者是AI生态的建筑师。上海市经济和信息化委员会人工智能发展处处长潘焱透露,将和魔搭社区共同为开发者提供价值一亿元的算力和语料补贴,希望发挥开发者,特别是开源生态在产业中的作用,构建产业发展的厚度。
AI已经在重塑各行各业,越来越多的人开始成为开发者。
在宝钢,中国宝武钢铁行业大模型已经落地到不同场景中,上海宝信软件人工智能所副所长张洋讲述了一个有趣的案例,在日常生产中,声音、振动等问题会导致生产的中断,于是宝信搭建了像听诊器一样的模型,希望发现问题找到故障,少影响生产,但钢铁设备都是“巨人”,有时数据采集很难完整,于是很多钢厂老师傅们贡献了聪明才智,预训练和标注很多声音文件,从而帮助技术人员能够通过声音的状态来识别设备和运行的实际诊断。
“建筑的数字化能力一直很弱,所以当我们面临AI时代到来时,是既怕它不来又怕它乱来。”华东建筑设计研究院智慧设计研发所所长李彦鹏坦承,建筑领域的语料非常缺失,不仅没有训练集,连测试集都是“一片荒芜”,最大的CAD测试集只有1万个语料。但人工智能的风吹来,让他们开始考虑,能有什么“硬科技”让自己的新时代能够“上桌”。
目前,华东建筑设计研究院智慧设计研发所正在尝试一个20万语料的“Architecture Benchmark”(建筑基准),接下来再做一个CAD的语料库,希望能有更多的人参与,“建筑行业的硬科技需从数据能力(Data base)和场景扩展(User base)两方面发力,而非自建模型(Model base),我们正在和人工智能实验室一起训练矢量图大模型,探索下游应用场景。“李彦鹏表示,这种合作不仅是技术支持,更是垂类企业与AI企业建立“相通语系”的桥梁,确保在AI时代拿到“新时代的船票”,同时也要考虑数据安全和数据确权的问题。
生态繁荣期待 算法开源+算力降本2025年开春,DeepSeek打响了今年的“AI第一枪”,“性价比高+开源”是这股AI旋风席卷全球的重要原因,也让“开源”成为本次生态论坛的关键词。
政策引导效应将逐步显现。上海市科学技术委员会副主任屈炜强调,将支持实验室发挥“连接器、加速器、放大器”作用,通过开源项目牵引资源共享,促进生态融合。
上海市经济和信息化委员会人工智能发展处处长潘焱在致辞中指出,上海AI产业规模已超4500亿元,开源生态是其核心驱动力。他提到,上海通过算力公共服务平台和语料供给场所,夯实开源基础,并在大会上推出算力补贴,助力开发者实践创意。
圆桌对话中,上海智能算力科技有限公司张宏洲介绍,智算云提供开源的PaaS平台,支持从研发到部署的全流程,并尽可能把算力使用的效率提上去,降低开发者的算力成本。上海数据集团高晓丽则表示,语料平台的开源实践,借鉴MinerU能力,已生产百余款产品,并计划通过区块链技术支持数据开放与确权。这些措施为开源生态提供了算力和数据支撑,确保技术普惠化落地。
上海人工智能实验室主任助理、领军科学家乔宇透露,上海人工智能实验室致力于打造“书生”开源大模型生态,不仅开源模型本身,还包括工具链、评测体系和部署方案,甚至数据资源。这种开放策略旨在降低开发门槛,让极客、企业乃至普通用户都能参与AI创新。他预测,2025年这一生态将进一步繁荣,成为多模态、科学智能和具身智能突破的坚实后盾。
“开发者不仅仅是那批写代码的码农,在人工智能的推进下,已经有一批艺术家成为开发者,更多人形机器人和硬件也成了开发者,所以这个时代是‘人人皆为开发者’。”上海市人工智能行业协会秘书长钟俊浩表示。
排版/ 季嘉颖
图片/ GDC IT时报
来源:新浪财经