摘要:论文推出了 Xmodel-1.5,这是一款全新的 10 亿参数多语言大型模型,在约 2 万亿个标记上完成了预训练。此模型在多种语言中表现强劲,在泰语、阿拉伯语和法语方面尤为突出,在中文和英语方面也颇具成效。另外,论文为研究界贡献了一个泰语评估数据集,其中包含数
《Xmodel-1.5: An 1B-scale Multilingual LLM》
地址:https://arxiv.org/pdf/2411.10083
论文推出了 Xmodel-1.5,这是一款全新的 10 亿参数多语言大型模型,在约 2 万亿个标记上完成了预训练。此模型在多种语言中表现强劲,在泰语、阿拉伯语和法语方面尤为突出,在中文和英语方面也颇具成效。另外,论文为研究界贡献了一个泰语评估数据集,其中包含数百个由朱拉隆功大学综合创新学院学生标注的问题。尽管成果可喜,也深知仍有提升空间。期望这项工作能助力多语言人工智能研究的不断推进,并在各类自然语言处理任务中增进更好的跨语言理解。
这篇论文提出了Xmodel-1.5,一个10亿参数的多语言大型语言模型。具体来说,
数据预处理:数据来源于第一代Xmodel的中英文数据,并扩展了来自Multilang Wiki和CulturaX的多语言数据。为了确保数据质量,对Wiki数据进行了SimHash去重处理。自定义分词器:使用Sentence-Piece训练了一个65,280个token的单字分词器,相较于常用的BPE方法,单字分词器在处理稀有和低频token时更具灵活性,训练速度更快。模型架构:基于第一代Xmodel的架构,具体设置如下:隐藏层大小:2048中间层大小:5632注意力头数:32KV头数:4层数:24上下文长度:4096训练过程:在单个节点上使用7块H800 GPU进行训练,采用分布式数据并行(DDP)和FlashAttention-V2来提高效率。优化器为AdamW,初始学习率为6e-4,经过2000次更新后线性递减至2e-5,并在第478K次迭代时引入指数衰减。训练数据:数据集包括来自Multilang Wiki和CulturaX的多语言数据,特别关注低资源语言如蒙古语、缅甸语、尼泊尔语等。为了提高中文模型的性能,还加入了PTD和WanJuan的数据。分词器训练:分词器在50GB的预训练语料库子集上训练,数据分布为50%英文、25%中文、10%行业特定数据和15%低资源语言数据。模型训练:在单个节点上使用7块H800 GPU进行训练,全局批量大小为840,序列长度为4096。训练过程包括600,000次迭代,总token数为2,064,384,000,000。常识推理任务:在ARC-Challenge、ARC-Easy、Boolq、PiQA等任务上,Xmodel-1.5在多个评估指标上超越了TinyLlama等基线模型。多语言能力:在ARC、XCOPA、PIQA_AR、Belebele_tha_thai、mMMLU和mHellaswag等任务上,Xmodel-1.5在泰语、阿拉伯语、法语和中文等多语言任务中表现出色,特别是在泰语任务中超过了PolyLM-1.7B。指令模型评估:在ifeval和MT-Bench评估中,Xmodel-1.5-Instruct-1B在指令跟随和多轮对话任务中表现良好。这篇论文展示了Xmodel-1.5在多语言任务中的强大性能,特别是在泰语、阿拉伯语和法语等低资源语言中表现出色。尽管如此,模型在处理性别化表达、时间数据和特定文化背景下的成语时仍有改进空间。这项工作为多语言AI研究的进步奠定了基础,有助于构建更包容、准确和文化契合的系统。
来源:宁教授网络空间元宇宙
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!