一种基于蒸馏大型语言模型的专家混合式框架

B站影视 2024-12-05 06:44 2

摘要:MERLOT是对用于加密流量分类优化的蒸馏大型语言模型基于可扩展专家混合(MoE)的改进。借助师生范式中的模型蒸馏技术,源自 GPT-2-base 的紧凑模型既能保持高分类准确率,又能最大程度降低计算成本。这些模型在 MoE 架构中充当专门专家,通过门控网络动

《MERLOT: A Distilled LLM-based Mixture-of-Experts Framework for Scalable Encrypted Traffic Classification》

地址:[2411.13004] MERLOT: A Distilled LLM-based Mixture-of-Experts Framework for Scalable Encrypted Traffic Classificationopen searchopen navigation menucontact arXivsubscribe to arXiv mailings

MERLOT是对用于加密流量分类优化的蒸馏大型语言模型基于可扩展专家混合(MoE)的改进。借助师生范式中的模型蒸馏技术,源自 GPT-2-base 的紧凑模型既能保持高分类准确率,又能最大程度降低计算成本。这些模型在 MoE 架构中充当专门专家,通过门控网络动态分配。和基于生成的方法不同,论文的方法以具有上下文特征嵌入的最终解码器令牌为输入,直接对加密流量进行分类。在 10 个数据集上的实验显示,其性能优于或可与最先进的模型媲美,同时大幅降低了资源需求,彰显了其有效性和稳健性。

研究问题: 这篇文章旨在解决加密流量分类的问题。由于加密技术的广泛采用和应用行为的复杂性增加,传统的基于端口分析和深度数据包检查的技术变得无效。数据驱动的方法,特别是基于机器学习和深度学习的方法,虽然能够自动化特征提取并适应多样化的动态流量模式,但在资源有限的环境中仍然面临挑战。研究难点: 该问题的研究难点包括:大规模语言模型的计算和内存需求高,难以实时部署;现有模型在处理多样化流量分类任务时缺乏效率和专业化;依赖基于提示的生成工作流引入了额外的延迟和低效。相关工作: 相关工作包括ET-BERT、NetGPT和Llama2-based TrafficLLM等大规模语言模型,这些模型通过自监督学习展示了捕捉复杂流量特征的惊人能力,但其计算和内存需求使其在实际部署中受到限制。

这篇论文提出了MERLOT,一种基于蒸馏LLM的可扩展MoE框架,用于优化加密流量分类。具体来说,

基础模型: MERLOT基于GPT-2-base,一个仅包含解码器的LLM。GPT-2-base具有12个Transformer层,隐藏维度为768,参数量约为1.17亿。其自回归特性使得每个令牌逐步积累来自前驱的信息,使最终令牌能够聚合全局上下文,适合网络流量分类任务。模型蒸馏: 为了减少计算需求,MERLOT使用教师-学生范式对GPT-2-base进行蒸馏。蒸馏过程最小化复合损失函数。动态专家选择: MERLOT采用MoE架构,通过门控网络动态分配每个流量分类实例到最相关的专家模型。门控函数G(x;θG)评估输入x并输出一个二进制选择向量g,确保每次只激活一个专家模型,从而最小化不必要的计算开销。上下文化特征嵌入: 为了增强解释性和鲁棒性,MERLOT将关键元数据(如协议类型、源IP地址和目标IP地址)嵌入到自然语言格式的输入序列中,利用模型的自然语言理解能力进行细微分类。

实验在10个网络流量数据集上进行,包括APP-532023、CSIC 2010、CSTNET 2023、CW-100 2018、DAPT 2020、DoHBrw 2020、ISCX Botnet 2014、ISCX Tor 2016、ISCX VPN 2016和USTC TFC 2016。这些数据集涵盖了多种流量类型,包括加密、恶意和合法流量,代表了多样化的分类挑战。所有数据集的训练和测试集按95:5的比例划分,以确保一致的评估。实验在NVIDIA A800 GPU上进行,所有模型训练5个epoch。

性能评估: MERLOT在6个数据集上的精确率、召回率和F1得分优于70亿参数的TrafficLLM,而在其余数据集上表现相当。MERLOT框架的参数量为6亿,计算复杂度显著降低,推理时间减少了85-90%。t-SNE可视化: 输入嵌入特征的高维空间中形成了不同流量数据集的真实标签的明显聚类,表明嵌入特征在高维空间中具有较强的区分能力。预测标签的分布与真实标签高度一致,验证了分类器有效识别数据模式的能力。消融研究: 模型蒸馏和上下文化特征嵌入的消融研究表明,嵌入关键元数据增强了模型的解释能力,特别是在复杂和异构流量数据中。

MERLOT通过广泛的多样化数据集评估,展示了与现有最先进模型相比具有竞争力的性能,特别是在处理加密和异构流量方面,但显著减少了参数数量和推理时间。消融研究进一步验证了上下文化特征嵌入和模型剪枝的好处。MERLOT的显著减少的参数数量和推理时间使其非常适合在资源受限的实时边缘环境中部署。

这篇论文通过提出MERLOT框架,解决了加密流量分类中的计算效率和可扩展性问题,展示了其在资源受限环境中的适用性。

来源:宁教授网络空间元宇宙

相关推荐