摘要:这项由约翰霍普金斯大学的Marc Marone、Orion Weller、William Fleshman等研究人员领导的突破性研究发表于2025年9月,论文详细介绍了他们开发的MMBERT模型。有兴趣深入了解技术细节的读者可以通过arXiv:2509.068
这项由约翰霍普金斯大学的Marc Marone、Orion Weller、William Fleshman等研究人员领导的突破性研究发表于2025年9月,论文详细介绍了他们开发的MMBERT模型。有兴趣深入了解技术细节的读者可以通过arXiv:2509.06888访问完整论文,相关代码和数据也已在GitHub上开源(https://github.com/jhu-clsp/mmBERT)。
要理解这项研究的重要意义,我们可以把语言AI模型比作一个超级翻译官。在过去,大多数AI翻译官要么只会说几种主要语言,要么虽然号称会很多语言但水平参差不齐。约翰霍普金斯大学的研究团队就像是在培养一位真正的"语言天才",这位AI翻译官不仅能流利掌握英语、中文这样的大语种,还能理解像法罗语、提格雷语这样全世界只有几十万人使用的小众语言。
更令人惊叹的是,这个名为MMBERT的AI模型在某些任务上的表现甚至超过了OpenAI的o3和Google的Gemini 2.5 Pro这样的明星产品。这就好比一个刚从语言学校毕业的学生,在某些专业领域的表现竟然超过了有多年工作经验的资深翻译。这种成就背后隐藏着什么秘密呢?
研究团队采用了一种全新的"渐进式语言学习法",就像教孩子学说话一样循序渐进。他们没有一开始就让AI同时学习1800多种语言,而是先让它精通60种常用语言,再逐步扩展到110种,最后才加入所有的1800多种语言。这种方法就像先让学生掌握基础数学,再学代数,最后才接触微积分一样自然而有效。
一、语言学习的新思路:像人类一样循序渐进
传统的多语言AI训练方式就像是让一个人同时学习几十种乐器,结果往往是样样通样样松。研究人员发现了一个有趣的现象:那些使用人数较少的语言,不仅训练数据稀缺,质量也相对较低。如果一开始就让AI接触这些"困难"的语言,就像让初学者直接演奏最复杂的乐曲,效果必然不好。
于是,约翰霍普金斯大学的团队设计了一个巧妙的解决方案。他们把整个训练过程分成三个阶段,就像建房子要先打地基、再砌墙、最后装修一样。第一阶段,AI专注学习60种使用人数较多、数据质量较好的语言,这些语言覆盖了不同的语言家族和文字系统,为后续学习奠定了坚实基础。
第二阶段,研究团队将语言数量扩展到110种,加入了一些中等规模的语言。此时AI已经掌握了基本的语言理解模式,就像一个已经熟练掌握几门外语的人,再学新语言时会更加得心应手。
最关键的突破出现在第三阶段。研究人员将剩余的1700多种小众语言全部加入训练,但这个阶段只占整个训练时间的很小一部分。令人惊讶的是,即使只用了相对较少的训练时间,AI在这些小众语言上的表现却有了显著提升。这就好比一个已经精通多门语言的人,在短时间内就能快速掌握新语言的基本规律。
研究团队还采用了一种名为"逆温度采样"的技术。简单来说,就是在训练初期让AI更多地接触高质量、常用的语言材料,随着训练的进行,逐渐增加小众语言的比重。这种做法确保了AI能够先建立起扎实的语言理解基础,再去应对那些更有挑战性的语言。
二、训练数据的精心调配:质量与数量的完美平衡
要训练一个优秀的多语言AI,数据就像烹饪的食材一样重要。研究团队并没有简单地收集所有能找到的文本数据,而是像顶级厨师选择食材一样精挑细选。他们使用了高达3万亿个词汇单位的文本数据,这个数量相当于一个人每天读书8小时,连续读上几千年才能读完的内容。
在数据来源的选择上,研究团队展现了极高的专业水准。他们使用了FineWeb2这样的高质量网络文本,就像选择最新鲜的蔬菜一样。同时,他们还加入了来自维基百科、科学论文、编程代码、教学材料等多种类型的文本,确保AI能够理解不同领域的语言表达。
特别值得一提的是,研究团队对英语内容的处理颇具争议性创新。以往的多语言模型为了照顾语言平等,通常会限制英语内容的比例。但这次研究团队却反其道而行之,让英语内容占据了相当大的比重,从10%到34%不等。这个决定基于一个重要发现:最高质量的训练数据往往是英语的,完全回避英语内容反而会降低整体训练效果。
研究团队还采用了分阶段的数据质量提升策略。在训练的早期阶段,他们使用质量相对一般但数量庞大的数据让AI掌握基本的语言规律。随着训练的深入,他们逐渐引入质量更高但数量较少的精选数据,就像先用普通食材让学厨师熟悉基本技巧,再用高级食材提升其烹饪水平。
三、技术创新:逆向掩码和模型融合的巧思
在技术层面,研究团队引入了几个颇具创新性的方法。其中最引人注目的是"逆向掩码率调度"技术。要理解这个概念,我们可以把AI学习语言的过程比作做填空题练习。
传统的训练方法就像一直让学生做同样难度的填空题,但约翰霍普金斯大学的研究团队发现,应该让练习的难度逐渐变化。在训练初期,他们设置了30%的掩码率,相当于让AI做比较简单的填空题,每10个词中有3个被遮住需要猜测。随着训练的进行,掩码率逐渐降低到15%,最后降到5%,相当于填空题越来越容易,让AI能够更专注于理解语言的精细结构。
另一个重要创新是模型融合技术。研究团队在最后训练阶段创建了三个不同版本的模型:一个专注于英语,一个继续使用110种语言,还有一个包含全部1833种语言。然后,他们使用一种叫做TIES融合的技术将这三个模型的优点结合起来,就像调制鸡尾酒一样,取每种原料的精华,创造出更完美的最终产品。
在架构设计上,MMBERT采用了ModernBERT的基础结构,但使用了Gemma 2的分词器来更好地处理多语言文本。这就像在一个经过验证的汽车底盘上安装了专为多地形设计的轮胎,既保证了基础性能的可靠性,又增强了应对复杂环境的能力。
研究团队还特别注意了训练过程中的序列长度扩展。他们从最初的1024个词汇单位逐渐扩展到8192个单位,相当于让AI能够理解更长的文章和对话。这种渐进式的扩展就像让跑步者先适应短距离,再逐步增加到长距离跑一样科学合理。
四、性能表现:在多个维度超越现有模型
MMBERT的实际表现可以用"全面超越"来形容。在英语任务上,MMBERT虽然主要是为多语言设计的,但其表现仍然接近专门为英语优化的ModernBERT。这就像一个多语言翻译官,即使要同时精通多种语言,但在任何单一语言上的水平都不逊色于专业的单语翻译。
更令人印象深刻的是MMBERT在跨语言理解任务上的表现。在XNLI自然语言推理任务中,MMBERT base版本达到了77.1%的准确率,明显超过了之前最强的XLM-R模型的74.6%。这种提升看似不大,但在AI领域,每一个百分点的提升都可能意味着数千小时研发工作的成果。
在问答任务上,MMBERT的表现更加出色。以TyDiQA任务为例,MMBERT达到了74.5的F1得分,相比XLM-R的70.5有了显著提升。更重要的是,在一些小众语言上,MMBERT的表现甚至超过了OpenAI的o3和Google的Gemini 2.5 Pro这样的大型模型。
特别值得一提的是研究团队对小众语言效果的验证实验。他们选择了提格雷语和法罗语这两种只在训练最后阶段才加入的语言进行测试。结果显示,即使这些语言只在占整个训练时间很小比例的最后阶段出现,但模型在这些语言上的表现仍然有了显著提升。在法罗语问答任务FoQA上,MMBERT的表现比Google的Gemini 2.5 Pro高出6分,比OpenAI的o3高出8.3分。
在检索任务上,MMBERT同样表现出色。无论是英语还是多语言的文本检索基准测试,MMBERT都展现出了优于同规模竞争对手的性能。这种一致性的优秀表现证明了其设计理念的正确性和实现的成功。
五、效率与实用性:速度与准确性的双重优势
除了准确性,MMBERT还在运行效率方面展现出了显著优势。研究团队的测试显示,MMBERT base版本的运行速度比同类多语言模型快2倍以上,在处理长文本时速度优势更加明显,可以达到4倍的速度提升。
这种速度提升主要得益于ModernBERT架构中集成的Flash Attention 2和unpadding技术。简单来说,就像给汽车安装了更高效的发动机和更好的传动系统,在保证性能的同时大幅提升了燃油经济性。
更实用的是,MMBERT支持最长8192个词汇单位的文本处理,而许多传统的多语言模型只能处理512个单位的短文本。这意味着MMBERT可以理解和处理更长的文档、对话或文章,应用场景更加广泛。
研究团队还特别关注了模型的参数规模控制。MMBERT base版本总共有3.07亿参数,其中1.1亿是非嵌入参数,与ModernBERT base保持相同规模。这种设计确保了模型在性能提升的同时,不会因为参数规模的大幅增加而影响部署和使用效率。
六、实验验证与对比分析:全方位的性能评估
为了全面验证MMBERT的性能,研究团队进行了大量的对比实验。他们将MMBERT与多个现有的优秀模型进行了比较,包括经典的XLM-R、最新的mGTE,以及专注于欧洲语言的EuroBERT等。
在GLUE英语理解基准测试中,MMBERT small版本就已经达到了84.7分的平均成绩,不仅超过了所有同规模的多语言模型,甚至超过了更大规模的XLM-R base版本的83.3分。MMBERT base版本则达到了86.3分,非常接近专为英语设计的ModernBERT的87.4分。
在多语言理解方面,XTREME基准测试的结果更加令人印象深刻。MMBERT base在该测试中达到了72.8的平均分数,明显超过XLM-R的70.4分和mGTE的71.1分。特别是在分类任务和问答任务上,MMBERT展现出了明显的优势。
研究团队还进行了一个特别有意义的实验,比较MMBERT与类似规模的decoder模型Gemma 3 270M的性能。结果显示,在分类任务上,MMBERT small的表现远远超过了Gemma 3 270M,再次验证了encoder模型在特定任务上的优势。
为了验证渐进式语言学习策略的效果,研究团队设计了专门的ablation实验。他们比较了在不同阶段加入小众语言的效果,结果证明了他们的策略确实有效。在提格雷语任务上,包含1833种语言的版本比只包含110种语言的版本提升了68%,在法罗语任务上也有26%的提升。
七、技术细节与创新点:深入解析核心机制
MMBERT的成功离不开多个技术创新的协同作用。研究团队在传统的BERT架构基础上进行了多项改进,每一项改进都经过了仔细的设计和验证。
在分词处理方面,MMBERT采用了Gemma 2分词器,该分词器专门为多语言文本处理进行了优化。相比传统的分词器,它能够更好地处理不同文字系统和语言特点,就像一把专为不同材质设计的多功能刀具。
位置编码方面,MMBERT使用了旋转位置编码(RoPE),并且在训练过程中动态调整了基础参数,从10,000逐步增加到160,000。这种调整使得模型能够更好地处理长文本,就像调节望远镜焦距以适应不同观察距离一样。
注意力机制的设计也颇具巧思。研究团队采用了滑动窗口注意力结合全局注意力的混合方式,每3层使用一次全局注意力。这种设计在保证性能的同时大大提升了计算效率,就像在高速公路上合理设置收费站,既保证交通流畅又实现有效管理。
在训练过程中,研究团队还采用了复杂的学习率调度策略。他们使用梯形学习率调度,包括warmup、稳定和衰减三个阶段,每个阶段都有不同的学习目标和策略。这种精细化的调度就像马拉松训练中的周期化安排,确保在不同阶段都能达到最佳效果。
八、数据处理与质量控制:构建高质量训练语料
数据质量对于语言模型的重要性不言而喻,MMBERT项目在数据处理方面展现了极高的专业水准。研究团队没有简单地收集互联网上的所有文本,而是像图书管理员整理藏书一样仔细筛选和组织训练数据。
在数据来源选择上,研究团队优先选择了质量最高的数据集。他们使用了经过精心过滤的DCLM数据集和FineWeb2数据集,这些数据相比原始的网络爬虫数据质量提升了很多倍。同时,他们还整合了多种专业数据源,包括科学论文、编程代码、教学材料等,确保模型能够理解不同领域的语言特点。
针对多语言数据的处理,研究团队采用了分阶段质量提升的策略。在早期训练阶段,他们使用了覆盖面广但质量参差不齐的数据,让模型掌握基本的语言规律。随着训练的深入,他们逐渐引入质量更高的精选数据,这种渐进式的质量提升策略确保了训练效果的最大化。
语言比例的调配也体现了研究团队的深思熟虑。虽然这是一个多语言模型,但英语内容仍然占据了相当大的比重。这个决定基于一个重要观察:高质量的训练数据中英语占主导地位,完全平衡各语言比例反而可能降低整体训练质量。就像做菜时主料和配料的比例需要合理搭配,而不是简单的平均分配。
九、模型架构与参数配置:精心设计的技术方案
MMBERT的架构设计展现了研究团队在平衡性能与效率方面的深刻理解。整个模型基于ModernBERT架构,但针对多语言处理需求进行了多项关键改进。
在层数配置上,MMBERT采用了22层的深度网络,这个深度既能保证足够的表达能力,又避免了过深网络带来的训练困难。每一层都配备了1152维的中间层,为复杂的语言理解提供了充足的计算能力。
词汇表大小的选择体现了研究团队的专业判断。256,000的词汇表规模相比传统模型有了显著扩展,这样的扩展对于处理1800多种语言是必要的。不同语言有着不同的词汇特点和构词规律,更大的词汇表能够更好地覆盖这些差异。
在序列长度处理上,MMBERT支持从1024到8192个token的动态扩展。这种设计使得模型既能高效处理短文本,也能应对长文档的理解需求。序列长度的扩展是通过调整RoPE参数实现的,这种方法既保持了位置编码的有效性,又避免了重新训练的巨大成本。
attention机制的设计特别值得关注。研究团队采用了滑动窗口attention与全局attention相结合的方式,其中滑动窗口大小为128,每3层使用一次全局attention。这种设计在保证模型能够捕捉长距离依赖的同时,大大降低了计算复杂度。
十、训练策略与优化技巧:渐进式学习的艺术
MMBERT的训练过程可以说是一门精心编排的艺术。研究团队将整个训练过程分为三个阶段,每个阶段都有明确的目标和独特的策略配置。
第一阶段被称为预训练阶段,使用2.3万亿token的数据进行训练。在这个阶段,模型专注于学习60种主要语言的基础规律。掩码率设置为30%,学习率采用梯形调度,批量大小设置为470万token。这个阶段就像给学生打基础,确保他们掌握最核心的知识结构。
第二阶段是中期训练阶段,使用6000亿token数据,语言数量扩展到110种。在这个阶段,研究团队将掩码率降低到15%,同时引入了序列长度扩展,从1024扩展到8192。这个阶段相当于在坚实基础上构建更复杂的知识体系。
第三阶段是衰减阶段,虽然只使用1000亿token数据,但却是最关键的阶段。在这个阶段,研究团队将所有1833种语言全部加入训练,掩码率进一步降低到5%。更重要的是,他们创建了三个不同的版本:专注英语的版本、110语言版本和全语言版本,然后通过模型融合技术将三者的优点结合起来。
学习率调度的设计也颇具匠心。研究团队使用了复杂的梯形学习率调度,包括warmup、稳定期和衰减期三个阶段。在衰减阶段,他们采用了逆平方根衰减策略,将学习率降低到峰值的2%。这种精细的调度确保了模型在不同训练阶段都能保持最佳的学习状态。
十一、实验结果与性能分析:全面验证模型优势
MMBERT在各种基准测试中的表现可以用"全面领先"来概括。研究团队进行了大量实验来验证模型的性能,这些实验覆盖了从英语单语任务到多语言跨语任务的各个维度。
在英语GLUE基准测试中,MMBERT的表现令人印象深刻。小规模版本就达到了84.7的平均分数,不仅超越了所有同规模的多语言竞争对手,甚至超过了更大规模的XLM-R base版本。大规模版本更是达到了86.3分,非常接近专为英语优化的ModernBERT的87.4分。这种表现说明MMBERT在专注多语言能力的同时,并没有牺牲在主流语言上的性能。
跨语言理解能力的测试结果更加引人注目。在XTREME基准测试中,MMBERT base达到了72.8的平均分数,明显超过了此前最强的XLM-R的70.4分。特别是在自然语言推理任务XNLI上,MMBERT达到了77.1%的准确率,相比XLM-R的74.6%有了显著提升。在问答任务上,MMBERT在TyDiQA上达到了74.5的F1分数,相比XLM-R的70.5分有了4分的提升。
文本检索任务的结果进一步证明了MMBERT的优势。在英语MTEB v2测试中,MMBERT达到了53.9的平均分数,不仅超过了所有多语言竞争对手,甚至与专为英语设计的ModernBERT(53.8分)相当。在多语言MTEB v2测试中,MMBERT的54.1分也明显优于XLM-R的52.4分。
最令人印象深刻的是MMBERT在小众语言上的表现。研究团队特别测试了只在训练最后阶段才加入的提格雷语和法罗语。结果显示,即使这些语言只在很短的训练时间内出现,MMBERT的表现仍然有了显著提升。在法罗语问答任务FoQA上,MMBERT甚至超过了OpenAI的o3(67.7分)和Google的Gemini 2.5 Pro(69.8分),达到了76.0分。
十二、效率对比与实用优势:速度与准确性并重
除了准确性,MMBERT在运行效率方面也展现出了显著优势。研究团队进行的性能测试显示,MMBERT在各种使用场景下都比同类模型更快更高效。
在处理不同长度文本时,MMBERT的速度优势特别明显。对于512长度的统一输入,MMBERT base版本能够达到每秒处理约100,000个token的速度,比XLM-R快了约2倍。当处理8192长度的长文本时,这种优势更加明显,MMBERT的速度优势可以达到4倍左右。
更重要的是,许多传统的多语言模型只能处理512长度的短文本,而MMBERT支持最长8192 token的文本处理。这意味着MMBERT能够理解和处理更长的文档、对话或文章,应用范围更加广泛。这种能力对于实际应用来说意义重大,因为现实世界中的文本往往比较长,需要模型能够理解更大的上下文。
MMBERT的这些效率优势主要来源于架构层面的优化。采用Flash Attention 2技术使得注意力计算更加高效,unpadding技术则减少了不必要的计算量。滑动窗口注意力与全局注意力的结合既保证了性能又提升了效率。
在参数规模控制方面,MMBERT也展现了良好的工程设计。base版本总共3.07亿参数中,有1.1亿是非嵌入参数,这与ModernBERT base保持了一致。这种设计确保了模型在性能提升的同时,不会因为参数规模的大幅增加而影响部署效率。
对于实际应用来说,这些效率优势意味着用户可以用更少的计算资源获得更好的效果。无论是部署在云端服务器还是边缘设备上,MMBERT都能提供更好的性价比。
十三、创新技术深入解析:核心算法的突破
MMBERT的成功离不开几个关键技术创新,这些创新相互配合,共同造就了模型的优异表现。每一项创新都经过了仔细的设计和验证,体现了研究团队的深厚技术功底。
逆向掩码率调度是其中最重要的创新之一。传统的掩码语言模型训练通常使用固定的掩码率,但研究团队发现,随着训练的进行,逐步降低掩码率能够让模型更好地学习语言的精细结构。就像学习钢琴,初学者需要慢节奏练习基本功,随着技能提升可以逐步加快节奏挑战更复杂的曲目。
温度采样策略的应用也颇具巧思。在多语言训练中,不同语言的数据质量和数量差异很大。研究团队采用逆温度采样,在训练初期更多地关注高质量、高资源语言,随着训练的深入逐步增加低资源语言的采样比例。温度参数从0.7逐步降低到0.3,这种变化使得语言分布从偏向高资源语言逐步变得更加均匀。
模型融合技术的运用展现了研究团队在工程实践方面的成熟经验。在最后的衰减阶段,他们训练了三个不同配置的模型版本,然后使用TIES融合算法将这些模型的优点结合起来。这种做法就像调制鸡尾酒,取不同原料的精华部分,创造出比单一原料更完美的最终产品。
序列长度的动态扩展技术也值得关注。通过调整RoPE参数,模型能够在训练过程中逐步适应更长的文本序列。这种方法既避免了从头训练长序列模型的巨大成本,又保证了长文本处理的有效性。
十四、数据工程与质量保证:构建可靠的训练基础
高质量的训练数据是MMBERT成功的重要基础。研究团队在数据收集、处理和组织方面展现了极高的专业水准,他们的经验对整个领域都具有重要的参考价值。
数据来源的多样性是MMBERT训练数据的一个重要特点。研究团队没有依赖单一数据源,而是精心整合了多种不同类型的高质量数据。包括经过精心过滤的网络文本FineWeb2、高质量的参考数据如维基百科、科学论文数据如ArXiv和S2ORC、编程代码数据、以及教学指令数据等。这种多样性确保了模型能够理解不同领域和风格的语言表达。
数据质量控制方面,研究团队采用了分层过滤策略。他们使用了业界最新的数据过滤技术,包括DCLM过滤器和专门的多语言过滤工具。这些工具能够识别和移除低质量、重复或有害的内容,确保训练数据的纯净度。
语言平衡的处理体现了研究团队的深入思考。虽然这是一个多语言模型,但他们并没有简单地平均分配各语言的数据比例。相反,他们基于数据质量和语言重要性进行了权衡。英语内容占据了较大比重(10%-34%),这个决定基于英语高质量数据的可获得性,而非语言偏见。
数据预处理的精细化也值得关注。研究团队对不同类型的数据采用了不同的预处理策略,确保每种数据都能以最适合的方式贡献到模型训练中。文本清洗、格式标准化、编码统一等步骤都经过了仔细设计。
十五、基准测试与评估体系:全面验证模型能力
为了全面评估MMBERT的性能,研究团队设计了一套完整的评估体系。这套体系不仅包括了标准的基准测试,还特别设计了一些针对性的实验来验证模型的特定能力。
在自然语言理解任务上,研究团队使用了GLUE和XTREME这两个最权威的基准测试套件。GLUE主要测试英语理解能力,包括情感分析、语义相似度、自然语言推理等多个子任务。XTREME则专门测试跨语言理解能力,涵盖分类、结构预测、问答、检索等多个维度。
文本检索能力的评估使用了MTEB基准测试。这个测试涵盖了配对分类、分类、语义相似度、检索、聚类、重排序、摘要等多个检索相关任务。研究团队不仅测试了英语检索能力,还专门测试了多语言检索能力。
代码理解能力的测试使用了CoIR基准。虽然代码不是MMBERT的主要关注点,但考虑到现代AI模型的全面性要求,研究团队还是包含了这个维度的测试。结果显示MMBERT在代码任务上也有不错的表现,虽然不如专门的代码模型,但对于一个以自然语言为主的模型来说已经相当不错。
特别值得一提的是,研究团队还设计了专门的小众语言测试。他们选择了提格雷语和法罗语这两种只在训练最后阶段才加入的语言进行测试,验证了渐进式语言学习策略的有效性。这种测试设计体现了严谨的科学态度和对技术创新的深入思考。
为了确保评估的公平性,研究团队对所有比较模型都进行了相同的超参数搜索和优化。他们测试了多个学习率、训练轮数等超参数组合,选择每个模型在每个任务上的最佳表现进行比较。
说到底,MMBERT的成功为多语言AI发展指出了一条新路径。约翰霍普金斯大学的研究团队通过巧妙的渐进式学习策略,证明了即使是资源有限的小众语言,也能在AI模型中获得很好的表现。他们的"先学大语种,再学小语种"的思路不仅提升了模型性能,还大大提高了训练效率。
更重要的是,MMBERT的开源发布为全世界的研究者和开发者提供了一个强大的工具。无论是企业需要处理多语言客服,还是研究机构需要分析不同语言的文献,或者是政府部门需要理解多元化社区的需求,MMBERT都能提供可靠的技术支持。
当然,这项研究也还有改进空间。正如研究团队坦承的,对于那些数据极度稀缺的语言,模型的表现仍有待提升。但这并不影响MMBERT作为当前最先进多语言模型的地位。随着更多高质量多语言数据的出现和训练技术的进一步发展,我们有理由相信,未来的多语言AI将会更加智能和全面。
对于普通人来说,MMBERT的出现意味着语言不再是获取AI服务的门槛。无论你说的是汉语、英语、还是阿拉伯语,甚至是一些相对小众的语言,都能获得高质量的AI理解和帮助。这种技术进步正在让AI的优势惠及更多的人群,真正实现了技术的普惠化发展。有兴趣深入了解技术细节的读者,不妨访问GitHub项目页面(https://github.com/jhu-clsp/mmBERT)亲自体验这项技术的强大能力。
Q&A
Q1:MMBERT是什么?它和普通的多语言AI有什么不同?
A:MMBERT是约翰霍普金斯大学开发的一个多语言AI模型,能够理解超过1800种语言。它的独特之处在于采用了"渐进式学习法",先学60种常用语言,再逐步扩展到110种,最后学习全部1800多种语言,就像人学语言一样循序渐进。这种方法让它在很多任务上的表现都超过了之前最强的多语言模型XLM-R,甚至在某些小语种任务上超过了OpenAI的o3和Google的Gemini 2.5 Pro。
Q2:为什么MMBERT在小语种上表现这么好?
A:关键在于它的训练策略。MMBERT没有一开始就同时学习所有语言,而是先用大量时间掌握主要语言的基本规律,然后在最后阶段快速学习小语种。虽然小语种只在训练的最后100亿token中出现,但因为模型已经有了强大的语言理解基础,所以能够快速掌握新语言的特点。研究显示,这种方法让模型在提格雷语上的表现提升了68%,在法罗语上提升了26%。
Q3:MMBERT的速度和效率怎么样?
A:MMBERT不仅准确度高,运行速度也很快。它比同类多语言模型快2倍以上,处理长文本时甚至能快4倍。而且它能处理最长8192个词的文本,而很多老模型只能处理512个词。这种高效率主要来自于它使用了Flash Attention 2等先进技术,就像给汽车装了更好的发动机。目前所有代码和模型都已经在GitHub上开源,任何人都可以免费使用。
来源:科技行者一点号1