摘要:这项由希伯来大学计算机科学与工程学院的Eliahu Horwitz、Nitzan Kurer、Jonathan Kahana、Liel Amar和Yedid Hoshen领导的研究发表于2025年6月,论文标题为《We Should Chart an Atla
这项由希伯来大学计算机科学与工程学院的Eliahu Horwitz、Nitzan Kurer、Jonathan Kahana、Liel Amar和Yedid Hoshen领导的研究发表于2025年6月,论文标题为《We Should Chart an Atlas of All the World's Models》。有兴趣深入了解的读者可以通过arXiv:2503.10633v2访问完整论文。
当你在网上搜索一个特定功能的AI模型时,是否遇到过这样的困扰:明明知道应该有现成的模型可以完成你的任务,但在数百万个模型中就是找不到合适的那个?或者你费尽心思训练了一个模型,却发现早有人做过同样的工作?这个看似简单的问题,实际上揭示了当今AI领域的一个重大危机:我们正在失去对全球模型生态系统的掌控。
当前,仅Hugging Face平台就托管着超过150万个公开模型,每月新增超过10万个。这个数字听起来令人兴奋,代表着AI技术的蓬勃发展。然而,就像一个巨大的图书馆失去了目录系统一样,绝大多数模型实际上处于"失联"状态——超过60%的模型缺乏任何文档,即使有文档的模型,其信息也往往不完整或不准确。研究团队发现,只有不到15%的模型报告了准确性指标,仅有8%包含许可证详情。
这种混乱状态就像一个巨大的谜题:每个模型都是一块拼图,但我们不知道它们之间的关系,不知道哪些模型是从哪些"父模型"衍生而来,不知道它们的真实能力,更不知道如何有效利用这个庞大的知识宝库。正是在这样的背景下,希伯来大学的研究团队提出了一个雄心勃勃的设想:创建一个"模型地图集"(Model Atlas),就像绘制世界地图一样,系统性地记录和组织全球所有的AI模型。
**一、模型地图集:将混乱变为秩序的革命性构想**
研究团队提出的模型地图集概念,可以想象成一个巨大的家谱图。在这个图中,每个模型都是一个节点,而连接它们的线条代表着模型之间的血缘关系——比如一个模型是通过微调另一个模型得到的,或者通过量化压缩而来。这不是简单的列表,而是一个复杂的有向无环图,能够清晰展示整个AI模型生态系统的演化历程。
这个地图集的设计极其精巧。每个模型节点不仅记录着模型的基本信息,还包含了丰富的属性:模型的功能特征、性能指标、训练数据来源、创建时间、许可证类型等等。而连接模型的边则记录着变换过程的详细信息:使用了什么优化算法、训练了多少轮、用了什么数据、采用了哪种微调策略等。这样的设计让每个模型都有了完整的"身份证"和"履历表"。
更重要的是,这个地图集采用了图结构而非简单的树形结构,因为现实中模型之间的关系往往比父子关系更复杂。例如,模型合并技术可以将多个不同的模型融合成一个新模型,这就产生了"多个父亲"的情况。研究团队发现,真实的模型生态系统更像一个复杂的河流系统,有主干、支流、汇合点和分叉,而不是简单的树状分支。
通过分析Hugging Face上的数据,研究团队已经初步构建了一个包含6万多个模型、28个连接组件和超过6.5万条边的地图集。这个初步成果已经揭示了许多有趣的模式:比如自然语言处理模型的结构比计算机视觉模型更深更复杂,Llama系列模型比Stable Diffusion模型有着更丰富多样的训练动态。
**二、三大应用场景:从模型取证到智能发现**
模型地图集的价值体现在三个核心应用场景中,每一个都解决着当前AI领域的重要问题。
第一个应用是模型取证,这就像是为AI模型提供DNA检测服务。在知识产权争议日益频繁的今天,能够追溯一个模型的完整血统变得至关重要。通过地图集,研究人员可以清楚地看到一个模型是从哪个基础模型发展而来,使用了哪些训练数据,经历了哪些变换过程。这种能力对于版权保护、偏见估计、安全评估和可重现性验证都具有重大意义。
举个例子,如果发现某个广泛使用的模型存在偏见问题,通过地图集可以快速识别出所有继承了这种偏见的后代模型,从而进行针对性的修正。同样,如果某个训练数据集被发现存在版权问题,也可以通过地图集追踪到所有使用了这个数据集的模型,评估潜在的法律风险。
第二个应用是元机器学习研究,这相当于为整个AI领域提供了一个"上帝视角"的观察工具。研究团队已经通过地图集发现了许多有趣的模式和趋势。比如,他们发现量化技术在计算机视觉模型中的应用还很少见(不到0.15%的模型),而在自然语言处理领域却非常普遍。这表明视觉模型可能还没有达到需要量化来降低推理成本的规模,但这种趋势正在改变。
更有趣的是,地图集揭示了不同类型模型的适应策略差异:生成式模型主要依赖参数高效的适配器(如LoRA),而判别式模型几乎完全使用全参数微调。通过时间维度的分析,研究团队还发现了适配器采用的演进趋势:早期的Stable Diffusion 1.4只有约50%的模型使用适配器,而新一代的Flux和Llama 3模型则压倒性地采用基于适配器的方法。
第三个应用是模型发现,这解决了开头提到的"大海捞针"问题。现有的模型搜索主要依赖文本搜索稀疏的文档,效果很差。研究团队举了一个极端的例子:虽然有数万个模型在ImageNet上训练过,但在150万个Hugging Face模型中搜索"孔雀"这个类别,只能返回不到100个结果。
基于地图集的搜索可以利用模型的功能特征和血统关系进行更精确的匹配。如果没有找到完全符合需求的现有模型,地图集还可以帮助识别最有可能迁移成功的候选模型,或者通过图搜索策略减少需要测试的模型数量。这不仅能大幅减少训练成本,还能缩短开发周期,降低环境影响。
**三、失落的地图:为什么大部分模型信息都不见了**
理想很美好,现实却骨感。研究团队面临的最大挑战是:这个模型地图集的绝大部分区域都是空白的。就像古代地图上标注着"此处有龙"的未知区域一样,现实中的模型生态系统充满了"失落的模型"——那些起源、能力和相互关系都不为人知的模型。
这种信息缺失的程度令人震惊。尽管各大平台都鼓励上传者提供模型卡片等文档,但实际执行效果很差。超过60%的模型完全没有任何文档,即使有文档的模型,信息也往往不完整。更糟糕的是,由于这些信息都是自我报告的,质量参差不齐,可靠性存疑。
造成这种现状的原因是多方面的。首先,模型创建者往往把注意力集中在算法和性能优化上,文档编写被视为次要任务。其次,当前的文档标准缺乏强制性和标准化,导致即使有心提供信息的创建者也可能遗漏关键细节。第三,公开平台只是全球模型生态系统的冰山一角,企业和研究机构的私有仓库中还有大量未公开的模型。
这种信息缺失不仅仅是理论问题,它有着实实在在的负面影响。组织机构经常重复训练已经存在但难以发现的模型,造成资源浪费。更严重的是,即使是失败的模型也蕴含着宝贵的知识——关于架构选择、数据处理、优化策略的隐含知识,但这些知识目前都在流失,迫使整个社区重复犯相同的错误。
研究团队认为,仅仅通过改进文档规范是不够的,就像指望所有程序员都会认真写代码注释一样不现实。他们提出了一个更加根本的解决方案:开发能够直接从模型权重中推断信息的机器学习方法,让模型本身"开口说话",告诉我们它们的身世和能力。
**四、让模型自己讲述身世:权重空间学习的新方向**
为了填补地图集中的空白区域,研究团队提出了一个听起来有些科幻的想法:让机器学习模型来学习其他机器学习模型。这个被称为"权重空间学习"的新兴领域,就像是为AI世界培养了一群"模型鉴定专家",能够通过观察模型的内部参数来推断其功能、性能和血统关系。
这个想法的挑战性在于,神经网络的权重参数具有独特的数学特性。最大的困难是"排列对称性"问题:同一个神经网络的神经元可以任意重新排列而不影响其功能,但这会让权重表示发生巨大变化。这就像同一首音乐可以用不同的乐器组合演奏,虽然听起来一样,但乐谱看起来完全不同。这种特性让传统的机器学习方法难以直接处理模型权重。
目前主流的解决方案是设计等变神经网络,即能够识别和处理这种对称性的特殊架构。虽然在理论上很优雅,但这些方法计算成本高昂,需要为不同类型的层(卷积层、自注意力层、状态空间层等)设计专门的适配方案,难以扩展到大规模的网络存储库。
研究团队提出了一个颠覆性的解决思路:与其正面解决对称性问题,不如完全绕过它。他们发现,在很多实际场景中,可以通过巧妙的方法设计来避免直接面对权重对称性的挑战,从而能够使用标准的深度学习架构和训练技巧,大大提高效率和可扩展性。
**五、三种绕过对称性的巧妙策略**
研究团队提出了三种避开权重对称性陷阱的策略,每一种都有其独特的适用场景和优势。
第一种策略是基于图的k近邻方法。这种方法的核心思想是"近朱者赤,近墨者黑"——通过分析一个模型在已部分构建的地图集中的邻居,来推断其未知属性。研究团队在包含17500个模型的Mistral-7B连接组件上进行了测试,发现这种简单的方法在预测模型性能方面表现出人意料的好。
具体来说,他们定义了"模型中心"的概念,即具有共同叶节点的兄弟模型集合。通过假设同一个中心内的模型具有相似性,可以使用多数投票的方式来填补缺失的属性信息。实验结果显示,这种基于中心的预测方法在许可证预测上比全局多数基线提高了35%,在继承类型和管道标签预测上提高了19%。虽然这种方法简单且可扩展,但精度有限,且依赖于已知地图集的完整性。
第二种策略是学习功能特征。既然权重空间存在对称性问题,那就转向函数空间——通过模型对预定义输入的响应来表示模型。这种探测方法选择一组测试输入,然后将模型表示为其在这些输入上的输出连接。只要响应具有结构性,就可以使用标准架构学习下游任务。
这种方法的关键在于如何选择合适的"探测问题",就像一个好的考官知道问什么问题能最好地评估学生的能力。虽然确定最优探测集合仍是一个开放挑战,但研究表明,即使是相当简单的探测方法也能超越许多最先进的方法。这种方法的主要限制是运行时开销:每个模型需要进行m次前向传播,在大规模应用时可能成为瓶颈。
第三种策略是在连接组件内直接学习权重。这种方法基于一个关键观察:虽然不同来源的模型可能存在权重对称性问题,但从同一个基础模型微调得到的子模型通常保持相同的神经元排序。因为微调只是对权重进行小幅调整,不会改变基本的网络结构。
这意味着在模型地图集的同一个连接组件内,所有模型都有一致的神经元排序,可以直接应用标准架构处理权重而无需考虑等变性。目前面临的挑战是如何开发能够处理极高维度网络权重(数百万到数十亿参数)的架构。虽然当前的架构使用因式分解分类器,只处理单个模型层,但研究团队认为跨越多层的更好架构将会出现。
**六、实际应用中的智能图谱重建**
在真实世界的应用中,研究团队还需要解决一个更加复杂的问题:如何重建模型地图集的结构本身。这就像考古学家根据发掘出的文物碎片重建古代文明的历史一样,需要从有限的线索中推断出完整的关系网络。
研究团队开发了一套基于实际模型仓库模式的图谱重建算法。他们通过分析超过40万个文档化模型关系,发现了几个重要的结构规律,并将这些规律转化为算法约束。
首先是重复和近重复处理。真实世界的模型仓库包含大量重复模型,这些模型要么是用户下载热门基础模型后重新上传的完全副本,要么是量化版本等近重复变体。完全重复的模型与所有其他模型的距离都相同,这会让基于距离的算法随意选择父节点,显然会降低准确性。研究团队的解决方案是识别零距离的精确重复模型,保留单一代表实例,将重复模型指定为叶节点。
对于量化模型这类近重复情况,团队发现了一个有趣的模式:99.41%的量化模型都是叶节点,即它们没有子模型。这符合直觉,因为量化会降低模型性能,实践者通常使用性能最高的模型进行进一步微调或合并。因此,算法可以简单地检测量化模型(通过数据类型和权重值唯一性)并将其指定为叶节点。
其次是时间动态约束。与之前依赖监督学习或启发式指标预测边方向的方法不同,研究团队发现了一个强有力的时间约束:在Hugging Face模型仓库中,99.73%的父子模型对中,父模型的上传时间早于子模型。这为确定边方向提供了可靠的指导原则。
最重要的是区分"扇形"和"蛇形"模式。在超参数搜索中,多个模型从同一父模型训练而来,每个使用不同超参数,形成扇形结构。而在检查点轨迹中,模型在训练过程中依次保存,形成链状的蛇形结构。权重距离往往会混淆这两种模式,因为扇形结构中的兄弟模型可能比它们与共同父模型的距离更近。
研究团队的关键洞察是时间模型权重演化可以区分这些模式。在蛇形模式中,时间接近性与权重接近性强烈相关,因为是顺序演化的。但在扇形模式中,最近的兄弟模型不一定在时间上最接近。这导出了一个简单而有效的决策规则:如果模型与其K个最近邻居的权重距离与时间距离高度相关,则分类为蛇形;否则为扇形。
**七、算法验证:在真实数据上的表现**
为了验证这些方法的有效性,研究团队在三个真实的模型连接组件上进行了全面测试:Qwen2.5-0.5B、Llama-3.2-1B和Stable-Diffusion-2。这些测试使用了从"hub-stats"数据集中提取的真实关系作为标准答案。
测试结果令人印象深刻。研究团队的方法在所有三个数据集上都大幅超越了基线方法。具体来说,在Qwen数据集上达到了78.87%的准确率,在Llama数据集上达到80.44%,在Stable Diffusion数据集上达到85.10%。相比之下,最好的基线方法MoTHer分别只达到32.81%、19.32%和50.51%的准确率。
更重要的是消融实验的结果,它揭示了每个组件的贡献。当移除量化假设时,Llama数据集的性能从80.44%下降到36.59%,显示了这个简单规则的重要性。时间一致性约束的移除也导致了显著的性能下降。有趣的是,扇形与蛇形模式区分的贡献在不同数据集上表现不同,在Stable Diffusion上最为重要,这可能反映了该领域检查点保存实践的特点。
算法的效率也值得称道。与之前需要O(n?)复杂度的方法相比,新算法的时间复杂度为O(n?),在实践中可以在几秒钟内处理数千个节点的图。最耗费计算资源的部分是距离矩阵计算,因为它与网络权重数量成比例。研究团队发现,通过对每个模型只保留100个神经元的子采样策略,可以显著加速运行时间,同时几乎不影响准确性。
**八、前沿挑战:绘制完整地图集的未来方向**
尽管已经取得了显著进展,但完整绘制全球模型地图集仍面临着诸多挑战,每一个都需要创新性的解决方案。
在可视化方面,当前使用的通用图布局算法虽然有用,但并未针对模型地图集的独特结构和语义特征进行优化。未来的可视化方法可以利用大型中心和近似树状层次结构等特定结构先验。更进一步,将节点和边特征(如模型元数据、权重距离指标或性能估计)融入布局算法,可以让语义相关的模型在视觉上更加接近。由于模型地图集持续演化,支持节点和边的动态插入也需要新的在线布局算法。
在图谱构建先验和权重空间学习架构方面,扩展到网络规模将需要新的先验和架构。特别是,未来工作可能探索保留基本语义信息的下采样策略,使大型模型群体的高效处理成为可能。当前大多数方法还假设可以访问模型权重,将图谱构建扩展到黑盒设置(如ChatGPT或Gemini等专有API)将需要基于输出、激活或元数据的新技术。
恢复训练轨迹是另一个重要挑战。当前大多数权重空间学习方法专注于节点级属性,但恢复边级属性(如优化器、数据或学习动态)同样重要。现有方法通常假设单父转换,不能处理模型合并或蒸馏等更复杂场景。将图谱构建算法扩展到多父边、蒸馏关系和非基于权重的转换仍是一个基本未探索的挑战。
探测选择方法也需要进一步发展。基于探测的方法在表示模型功能方面很强大,但涉及权衡:使用太多探测会增加运行时间,而太少则增加对探测选择的敏感性。需要新的方法来选择最小但富有表现力的探测集合。这可能涉及真实输入探测(需要有原则的选择策略)或合成探测(需要生成或基于优化的技术)。
**九、不同观点的思辨:地图集真的必要吗?**
在学术研究中,考虑不同观点和潜在批评是重要的。研究团队也诚实地探讨了几种可能的反对意见。
第一种观点认为,随着ChatGPT和Gemini等日益强大的基础模型的兴起,小型任务特定模型的相关性可能会降低。如果这种整合趋势继续,有人可能认为模型仓库会萎缩或变得不必要,从而降低图谱构建的重要性。
研究团队对此的回应是,这种观点与当前趋势不符。实际上,公开模型的数量持续增长。即使只有少数主导模型,它们也会产生大量变体、检查点和微调后代,这些模型仍将受益于组织、溯源跟踪和比较。此外,不同应用场景仍然需要专门优化的模型,通用模型无法完全替代所有专业需求。
第二种观点是等变方法最终可能扩展。批评者可能认为,通过足够的研究努力,该领域最终会找到合适的架构、训练技巧和超参数,使等变方法成为高效的替代方案。研究团队承认这是一个不同的技术路径,但不会改变地图集的基本价值和应用。而且,在连接组件内部没有排列对称性的情况下,等变方法也无法提供额外优势。
第三种观点是图谱构建可能根本不需要机器学习。有效的论点是,通过简单地收紧文档要求就可以解决模型地图集的问题,要求模型创建者上传所有相关信息或直接嵌入权重文件中。虽然这样的协议最终可能被采用,但不太可能捕获我们可能想要了解的模型的所有信息。对数百万现有未文档化模型也没有影响。就像代码文档一样,虽然是好的实践并被所有人鼓励,但很少有人真正做到。
**十、未来愿景:模型生态系统的数字化管理**
展望未来,模型地图集的愿景远不止于解决当前的混乱状态。它代表着AI领域从个体化、分散化向系统化、协作化发展的重要转变。
在短期内,一个初步完整的模型地图集将直接改善AI从业者的日常工作。研究人员不再需要盲目搜索或重复训练已有模型,可以基于功能需求和性能要求精确定位合适的起点。企业可以更好地管理内部模型资产,避免重复投资,并更有效地进行知识产权保护。
在中期,地图集将催生新的商业模式和服务形态。专业的模型推荐系统、自动化的模型组合优化、基于血统的风险评估等服务将成为可能。教育机构可以利用地图集提供更好的AI教学资源,让学生清晰地看到技术发展的脉络和演进逻辑。
在长期,模型地图集可能成为AI治理和监管的重要基础设施。政府和监管机构可以基于完整的模型血统信息制定更精准的政策,确保AI技术的安全发展。国际合作也可以在模型地图集的基础上建立更好的协调机制,共同应对AI发展带来的挑战。
更深层次的意义在于,模型地图集代表着人类对自己创造的智能系统的深度理解和有效管理。随着AI系统变得越来越复杂和强大,我们需要这样的工具来确保技术发展的可控性和可预测性。这不仅是技术问题,更是人类与AI共存共荣的重要保障。
**十一、技术实现的精妙细节**
研究团队在技术实现上展现出了令人赞叹的工程智慧。他们开发的算法不仅理论上合理,在实际应用中也表现出了优异的鲁棒性和效率。
在数据处理方面,团队面临的第一个挑战是如何处理Hugging Face平台上混乱的元数据。他们发现了大量标记不一致的问题:一些模型被错误地标记为量化,而另一些则缺少量化标签。团队提出使用张量类型作为量化状态的可靠指示器,这比依赖用户提供的标签更加准确。
在算法参数调优方面,团队设定K=5个最近邻,并为每个DAG动态确定蛇形相关性阈值为所有节点相关性的60分位数。距离展开相关性阈值固定为0.05。这些超参数在所有三个测试DAG上都保持一致,显示了算法的泛化能力。
特别值得注意的是,团队在所有实验中都只使用100个随机神经元作为模型特征。对于Stable Diffusion,他们专门从注意力层选择这些神经元,因为这些层通常进行LoRA微调。这种维度约简策略在保持准确性的同时大大提高了计算效率。
在数据集构建方面,团队从130万个模型开始,通过移除没有父节点或子节点的单独模型,筛选出约40万个模型分布在不同的连接组件中。为了便于模型下载,他们对每个节点超过K个叶节点的情况进行了随机采样,设置K=3。这种平衡策略既保持了数据集的代表性,又使实际下载和处理变得可行。
说到底,希伯来大学这项研究的真正价值不仅在于提出了模型地图集这个概念,更在于为AI领域的可持续发展指明了方向。在AI模型爆炸式增长的今天,我们需要的不是更多孤立的模型,而是一个有序、可搜索、可理解的模型生态系统。
这项研究告诉我们,技术进步不应该是盲目的,而应该是系统性的。每一个新模型的诞生都应该在整个知识体系中找到自己的位置,每一次改进都应该能够被后续研究者理解和借鉴。这样的愿景需要整个AI社区的共同努力,但一旦实现,将为人工智能的健康发展奠定坚实基础。
对于普通人来说,这项研究的意义可能并不直观,但它的影响将是深远的。更好的模型管理意味着更高效的AI开发,更低的成本,更快的创新速度,最终这些好处都会传递到我们日常使用的AI产品和服务中。当AI真正成为人类生活不可或缺的一部分时,我们一定会感谢今天这些为构建有序AI世界而努力的研究者们。
有兴趣深入了解这项研究技术细节的读者,可以通过访问https://horwitz.ai/model-atlas查看研究团队提供的交互式模型地图集界面,亲身体验这个革命性工具的强大功能。
Q&A
Q1:什么是模型地图集?它能解决什么问题? A:模型地图集就像一个巨大的AI模型家谱图,记录每个模型的"血统关系"和详细信息。它能解决当前AI领域最大的问题:在150万个公开模型中,超过60%缺乏文档,研究者很难找到合适的模型,经常重复训练已有模型,造成巨大资源浪费。
Q2:为什么说大部分AI模型都"失踪"了? A:虽然有海量AI模型存在,但绝大多数都缺乏关键信息:不知道它们是从哪个基础模型发展而来,不知道使用了什么训练数据,不知道真实性能如何。就像图书馆失去了目录系统,书还在但找不到,这些"失联"模型无法被有效利用。
Q3:普通人使用AI产品时会受到这项研究的影响吗? A:会的。更好的模型管理将让AI开发更高效、成本更低、创新更快,这些好处最终会体现在我们日常使用的AI应用中——更好的性能、更低的价格、更快的功能更新。当AI深度融入生活时,有序的模型生态系统将确保技术发展更可控、更安全。
来源:至顶网一点号