CSDN 创始人蒋涛:数据解析全球开源 AI 新进展

B站影视 日本电影 2025-09-25 15:45 1

摘要:在 GOSIM HANGZHOU 2025 的现场,CSDN 创始人&董事长、GOSIM 发起人、奇点智能研究院理事长蒋涛作开场致辞,直言如今正是属于开发者和开源的最好时代,并为所有开发者带来了两份重要报告的发布:

“开源是数字世界的路和桥,AI 则像是水和电。”

在 GOSIM HANGZHOU 2025 的现场,CSDN 创始人&董事长、GOSIM 发起人、奇点智能研究院理事长蒋涛作开场致辞,直言如今正是属于开发者和开源的最好时代,并为所有开发者带来了两份重要报告的发布:

一、由奇点智能研究院出品、联合国咨商开源创新专委会编制的《2025 全球开源发展报告(预览版)》,全面衡量全球开源生态的发展格局。数据显示,美国仍是开源生态的核心力量,中国则保持高速增长,目前拥有约 400 万活跃开源开发者,总开发者数量达 1200 万,稳居全球第二。在技术演进方向上,AI 大模型、云原生基础设施、前端与交互技术,以及编程语言与开发工具链,正成为推动全球技术变革的四大核心驱动力。在高影响力开发者这一关键指标上,美国仍以绝对优势位居第一。但中国表现亮眼:从 2016 年的 3 位高影响力开发者,跃升至 2025 年的 94 位,实现近 30 倍的增长,数量跻身全球第二梯队,展现出中国在核心技术贡献和国际开源话语权方面的快速崛起。

二、《大模型技术体系开源影响力榜单》。从数据、模型、系统和评测四个方面展开评估。模型榜单前十名主要由中美机构占据,其中 Meta、阿里巴巴和谷歌位列前三,DeepSeek 也表现出强劲影响力。在数据集方面,Ai2、上海人工智能实验室和谷歌位居前列;系统层面,智源在算子库、编译器和生态建设上贡献突出,Meta 和谷歌保持领先;评测环节,上海人工智能实验室、Hugging Face 和北京智源人工智能研究院排名前三。综合榜单则由 Meta、谷歌和北京智源人工智能研究院(BAAI)领跑。报告指出,大模型竞争的关键已不止于单一模型,而在于完整生态的打造。

蒋涛强调,希望未来有更多国家参与并受益于大模型开源生态,推动全球开源世界的持续繁荣。

蒋涛,CSDN 创始人&董事长、GOSIM 发起人、奇点智能研究院理事长

以下为演讲实录:

从 1991 年入行至今,我觉得现在是我们开发者以及开源最好的时代。CSDN 发展也非常快,我们现在有 5100 万的注册用户,覆盖了 95% 的中国开发者。同时我们也非常希望将中国的开源技术和全球的开源更好地连接起来,推动中国开源技术更好地融入全球生态,这也是我联合 Michael Yuan(Second State 创始人)共同发起 GOSIM 全球开源创新汇的初衷。

我认为,开源是数字世界的路和桥,而 AI 是数字世界的水和电。我们由衷地希望以全球开源协作的方式来打造一个更好的数字世界。

今天,我将为大家带来两项重磅报告的发布,分别是《2025 全球开源发展报告(预览版)》和 《大模型技术体系开源影响力榜单(OSIR-LMTS)》。

《2025 全球开源发展报告(预览版)》:全面衡量全球开源生态的发展格局

首先是全球开源发展报告,由奇点智能研究院出品、联合国咨商开源创新专委会编制。在我们开源界,Linux 之父 Linus Torvalds 有一句经典名言一直被奉为圭臬:“Talk is cheap, show me the code”。这份报告中的排行榜最大的特点就是采用公开、开放的数据,首次基于联合国 ESG 可持续发展目标框架,构建全球开源发展的评估体系,并依托 OpenDigger 开源项目和 OpenRank 影响力指标体系,从活跃度、贡献量、贡献质量及协作影响力等多个维度,全面衡量全球开源生态的发展格局。

大家可以看到我们的 Metrics(指标体系)有非常多的指标。其中最主要还是来自于代码仓上 Commit 的数量、PR 的数量等,但最重要的还是参考 PageRank(网页排名)提出的一套“OpenRank”北极星指标体系,能够基于整个开源社区的开发者活跃行为来衡量评价对象(包括项目、企业、开发者等)的影响力或贡献度。

首先,从全球开源活跃地图来看,截至 2025 年 7 月,全球开发者总量突破 1.5 亿,过去十年在 GitHub 活跃的开源开发者数量达到了 2280 万。在这之中,美国位居第一,且其开发者数量在过去有非常大的增长。而中国发展也很快,我们活跃的开源开发者超过了 400 万(含 GitHub、GitCode 等平台),总量则在 1200 万以上,规模位居全球第二。

当前,全球开源生态呈现出持续扩张与区域格局多样化演变趋势。印度和中国的增长速度显著,十年间印度达到 6 倍增长,中国达到 3 倍增长,巴西作为拉美地区代表,增幅超过 5 倍。在 OpenRank 贡献度格局中,美国 2021 年达到最高点后逐年下降,中国贡献度十年间大幅上升,其余国家则稳步增长。而在影响力格局中,美国始终保持领先,德国稳居欧洲第一,中国、印度快速上升,巴西与日本作为区域代表体现出全球区域共同发展态势。

OpenRank 贡献度格局 TOP 10 十年演进趋势

OpenRank 影响力格局 TOP 10 十年演进趋势

技术维度,GitHub 上的开源项目数已经超过了 4 亿个代码仓。我们能够看到,2016 年全球活跃仓数为 193 万,到 2025 年已经接近 600 万,十年间实现了三倍多的增长,其中,AI 大模型、云基础设施、前端与交互技术和编程语言与开发工具共同构成了引领技术变革的核心引擎。

人才维度,开源最重要的还是人才,我们也从数据中能够观察到——谁是开源界最有影响力的人物?他们的代码被更多人去引用和使用。可以看到,美国依然持续领跑全球开源高影响力开发者,从 2016 年的 136 人增至 2025 年的 310 人,十年翻倍有余。中国则实现了跨越式的跃升,从 2016 年仅有 3 人飙升至现在的 94 人,增长超 30 倍,跻身 TOP3。而欧洲增长格局多年来则相对稳定,德国以 121 人位居全球第二。

全球开源人才地图 TOP10 国家

总的来说,全球开源生态持续繁荣,美国还是领先全局,综合实力最强,中国和印度在加速发展,贡献度、影响力增速显著,欧洲(以德法为代表)有非常深厚的基础,而拉美、东南亚也开始在开源里有贡献,就像十年前的中国一样。

更进一步地分析全球各国行政区域划分开发者 OpenRank 排行榜 TOP100,美国占有最多的活跃区域(25 个),德国(9 个)和法国(8 个)排在第二三名,中国(7 个)和印度(6 个)紧跟其后。TOP15 中,坐拥硅谷的加利福尼亚州位居第一,中国北京、上海分别位居 TOP11 和 TOP13。

再看企业方面,分析全球企业 OpenRank 排行榜 TOP100 也可以看到,中国企业在开源领域有着非常快速的进展,以 16 家仅次于美国(65 家),TOP15 中,华为位居全球第二,阿里巴巴位居 TOP8。

最后,一起来看全球技术领域影响力排行榜,在过去一年里,AI 大模型可以说是一骑绝尘,已经远超于其后的云基础设施、前端与交互式、编程语言、数据库等。

而在全球开源项目影响力排名中,OpenHarmony 以绝对优势位居第一,TOP100 中,中国有 9 个开源项目上榜,这也体现了中国开源从使用走向了贡献

整体而言,全球的开源生态都在呈现快速和多元的发展,不仅仅只有美国。欧洲也保持着非常强劲的影响力。

所有这些数据都在 OpenDigger(https://open-digger.cn/)的网站上,我们都把相应的算法、数据公开,欢迎大家一起参与共创。

《大模型技术体系开源影响力榜单》:数据揭示大模型技术生态演进

接着我们再看第二个榜单,围绕大模型展开。当前,大模型正以前所未有的速度重塑技术格局,而开源是其核心驱动力。我们这次发布的《大模型技术体系开源影响力榜单 (OSIR-LMTS)》,旨在客观评估大模型技术栈的综合开源影响力。这份榜单不仅是对现有技术的梳理,也是对未来趋势的预判,体现了我们对技术社区和产业发展的深刻洞察。

榜单主要由四个部分组成,分别是数据、模型、系统和评测。其他三个都很容易理解,而系统实际上是反映了生态,包括算子库、并行训练及推理框架等。整个 AI 开源不仅只是大模型,它需要的更多是系统性的生态服务,所以我们在这里特别增加了一个系统的榜单。这份榜单中所有的数据均来自公开可查的渠道,总共选取了全球范围内头部的 25 家公司作为代表,引用了总计 1529 个数据集、4410 个模型、719 个算子、58 个评测平台、 13541 个链接,时间覆盖 2025 年 1 至 8 月。这不仅是一份榜单,更是对大模型技术体系的整体性和多样性的集中呈现。希望通过这份榜单,向大家展示全球领先企业在开源领域的深耕与贡献,共同推动产业的繁荣发展。

首先是模型的排行榜单 TOP10,以中美机构为主。我们可以看到 Meta、阿里巴巴和 Google 分别位列前三,同样起于杭州的 DeepSeek 也表现出非常强劲的影响力,整体呈现相对多元化的格局。

在模型下载量方面,向量模型(Vector models)占据了主导地位,下载比例最高(41.7%),其次是语言模型(Language models,31%)和多模态模型(Multimodal models,18.3%)。

具体来看,在向量模型中,UKP Lab 的模型下载量最高。而在语言模型领域,开源大模型生态的蓬勃发展和激烈竞争体现得淋漓尽致,Meta、阿里巴巴和 DeepSeek 在大模型下载量上占据了主导地位,但从下载趋势上,我们可以看到阿里巴巴和 Meta 的数据有一个反转,蓝色的是阿里,橘色的是 Meta。阿里在今年 6 月发布了千问系列迎来了飞速增长,在随后的几个月时间里高歌猛进远超了 Meta。而在这之中,作为超大参数模型,DeepSeek 一直保持比较稳定的数据。阿里巴巴和 DeepSeek 的总部都在杭州,也有不少同学参加这次 GOSIM 大会,大家可以尽情交流。

在多模态模型方面,我们可以看到,OpenAI 的 CLIP 模型曾占据领先地位,但在 7 月下载量出现大幅下滑。而阿里巴巴的 Qwen-2.5-VL 系列模型则展现出稳健的增长态势,8 月的阿里巴巴的多模态模型下载量甚至超过了 Google。

从全球模型下载总量来看,Meta 因为 Llama 发布的时间早,所以它还是有非常大的影响力。而 UKP Lab、阿里巴巴以及北京智源人工智能研究院(BAAI)也表现不俗,开源大模型生态正在从过去单一模态向多元化发展。

接下来我们看一下数据榜单,数据对于模型的发展非常重要。大模型之所以有今天的发展,也是因为有互联网公开的数据集。我们可以看到在这个榜单上,排在前三的是:第一个是 Ai2,它来自于美国西雅图的艾伦人工智能研究所;第二是上海人工智能实验室;还有谷歌。

智源、Meta、阿里巴巴等所有做模型有影响力的机构,都在数据的开放上也有很大的贡献。不同的机构在数据集上有不同侧重,Ai2 是比较全面的,NVIDIA 的数据集超过 80% 集中在具身智能领域,这与他们的硬件生态紧密相关,在今年的 GTC 上,黄仁勋宣布了众多加速人形机器人开发的技术,高呼“通用机器人时代已经到来”,也充分说明了这是 NVIDIA 下一个阶段重要的布局。而我们国内的智源(BAAI)是比较综合性的,在语言、具身智能和多模态上都有大量优秀的数据开放。

综合数据集的下载趋势我们能够发现,语言数据集在 1 月到 4 月间一直是下载的主力,纯视觉数据集的下载比例呈现快速下降趋势,具身数据集则增势显著,这充分表明,大模型数据生态正在从传统的单一模态向更具挑战性和应用前景的具身和多模态方向发展。

接下来我们再看系统,系统这个领域比较特别。刚才讲到它对于 AI 大模型的生态贡献特别重要。大家知道 CUDA 是在系统中最领先,但在开源领域,我们国内的智源在这里做了非常多的贡献,Meta 和谷歌紧随其后分列二三,国内百度、阿里、华为、上海人工智能实验室也均名列 TOP10。

具体来看,在算子库和并行训练及推理框架方面,Meta 和谷歌优势显著。而在通信库和开源 AI 编译器方面,智源(BAAI)则表现突出。

最后是评测榜单,我们可以看到上海人工智能实验室、Hugging Face、智源(BAAI)、智谱等均在其列,起于中国的 AI 学术机构,对于评测都投入了相当大的力量。

评测已成为推动大模型发展的关键环节。今年以来,开源评测数据集的数量一直在持续增长,其中上海人工智能实验室在开源评测数据集和工具数量上处于领先地位,Hugging Face 在参与评测的模型数量上遥遥领先,智源则在评测榜单多样性上表现突出。

看完模型、数据、系统和评测四大分榜单后,最后揭晓大模型开源影响力综合榜单。Meta 凭借其 Llama 系列模型和 PyTorch 开源生态,在模型和系统维度表现出色,位居榜首。谷歌在数据、模型和系统等多个维度展现出均衡的实力,排名第二。智源(BAAI)表现出全面的影响力,尤其在多芯片支持的系统维度优势显著。

榜单所依据的“大模型技术体系开源影响力评估框架”也已在 GitHub、GitCode 开源,欢迎更多开发者及组织一起共建。

GitHub 地址: https://github.com/brucecui0120/OSIR-LMTS

GitCode 地址:https://gitcode.com/brucec/OSIR-LMTS

当然,模型是一个方面,更重要的是整个生态。由蚂蚁集团出品、CSDN 参与共创的《大模型开源开发生态全景图》其中也用数据和 OpenRank 进行了测量,主要是测量贡献度和贡献的资源。

2025 大模型开源开发生态全景图(地址:https://antoss-landscape.my.canva.site/)

我们可以看到美国、中国在整个大模型的生态上处于前两位(贡献比例分别为 37.41%、18.72%)。我们也希望这个生态会更加丰富、繁荣,也有更多的国家、组织、开发者能够从大模型生态里获益。

谢谢大家。

注:亲爱的读者朋友,如果您对此演讲非常感兴趣,希望收获完整 PPT 文件,可以访问 GOSIM HANGZHOU 2025 官网一键下载。文件夹为「全体大会 Keynote.zip」,地址:https://hangzhou2025.gosim.org/zh/speaker-slides/

【活动推荐】

10 月 16-17 日,由 CSDN、奇点智能研究院联合主办的 2025 全球机器学习技术大会将在北京威斯汀大酒店(亮马桥)举行。领衔嘉宾 Lukasz Kaiser 是著名的“Transformer 八子”中唯一一位加入 OpenAI、并且操刀 GPT-5、GPT-4、o1、o3、ChatGPT 等一系列前沿模型的核心人物。

还有前 OpenAI、前 DeepMind、Google、阿里、腾讯、百度、小红书…..50+ 专家, 近 1000 位听众,覆盖 LLM 多模态、智能体、开源模型及框架、具身智能、AI 编程、AI Infra 等 12 大主题,欢迎感兴趣的朋友扫描下方二维码报名,期待一起相聚共话开源与 AGI 新时代下的新思考、新实践。

来源:CSDN一点号

相关推荐