全球首个半导体大模型

B站影视 2024-12-29 20:13 1

摘要:近几个月来,Aitomatic 及其“AI 联盟”合作伙伴(包括 Meta、AMD 和IBM)推出了一个新训练的培训的大模型。局太闷所说,这是世界上第一个专门为满足半导体行业需求而设计的大型语言模型,致力于成为半导体设计公司工作流程的一部分。

近几个月来,Aitomatic 及其“AI 联盟”合作伙伴(包括 Meta、AMD 和IBM)推出了一个新训练的培训的大模型。局太闷所说,这是世界上第一个专门为满足半导体行业需求而设计的大型语言模型,致力于成为半导体设计公司工作流程的一部分。

据负责开发 SemiKong LLM 的 Aitomatic 公司称,半导体行业迫切需要收集专家信息。许多老龄专家即将退休,他们的知识也随之流失,因此许多公司面临着严重的专业知识短缺问题。专门为满足行业需求而设立的 LLM 课程似乎是为新工程师提供保持竞争力所需信息的可靠方法。

SemiKong 基于 Meta 的 Llama 3.1 LLM 平台,近期发布了 70B 版本。Aitomatic 与新 AI 联盟的其他合作伙伴(包括 Meta、AMD 和IBM)合作开发了 LLM,其中 Aitomatic 的 DXA 系统成为 SemiKong 部署的支柱。

DXA(Domain-Expert Agents)是 Aitomatic 将小型 LLM agents与 SemiKong 70B 的中央集群连接起来的方式。通过对客户公司的技术库或专家工程师的条目进行培训,DXA 可以满足该公司的需求。然后,经过训练的 DXA 被核心 SemiKong 部署用来自动执行开发任务或与工程师和工人进行聊天机器人式的交流。

在其目前的 70B 版本中,以及基于 SemiKong 的小型 DXA agents下,LLM 的实用性远远超过了半导体领域的通用 AI 模型。SemiKong 宣称新芯片设计的上市时间缩短了 20-30% ,首次成功制造得分提高了 20%。它还声称可以将新工程师的学习曲线加快多达 50%,这是Meta支持的重要主张。

了解 SemiKong是什么

半导体行业推动了消费电子、汽车系统和尖端计算技术的进步。半导体的生产涉及复杂的工艺,需要无与伦比的精度和专业知识。这些过程包括芯片设计、制造、测试和优化,每个阶段都需要深厚的领域知识。该领域传统上依赖于经验丰富的工程师,他们拥有数十年的经验。

然而,该行业面临着一个重大挑战:资深专家的快速退休,造成了知识差距,威胁到创新和效率。这种日益增长的担忧促使公司探索人工智能作为获取、扩展和利用专家知识的可行解决方案。此外,必须尽量减少与芯片设计和制造相关的成本和时间,以满足市场需求。这些挑战凸显了传统方法的局限性,并强调了量身定制的人工智能解决方案的必要性。

应对这些挑战的现有方法包括通用 AI 模型和基本自动化工具。虽然这些方法在分析数据和改善决策方面很有帮助,但它们往往无法解决半导体行业独特的复杂性。例如,通用 AI 工具缺乏有效分析复杂制造过程所需的领域特定理解。因此,公司无法完全弥合理论 AI 能力与实际行业需求之间的差距,从而为专门的解决方案改变该领域留下了空间。

于是,Meta、AITOMATIC 和 AI 联盟基础模型工作组下的其他合作者的研究人员推出了 SemiKong。SemiKong 是世界上第一个专注于半导体的大型语言模型 (LLM),使用 Llama 3.1 平台设计。该模型经过大量半导体专用数据集的微调,包括行业文档、研究论文和匿名操作数据。与通用 AI 系统不同,SemiKong 是专门为理解半导体工艺的独特术语和要求而定制的。通过将此模型与 AITOMATIC 领域专家代理 (DXA:Domain-Expert Agents) 集成,公司可以有效利用 AI 工具来解决特定的行业挑战。这些创新旨在降低成本、加快开发进度并促进整个半导体行业的合作。

SemiKong 背后的技术建立在先进的 AI 和神经符号架构之上。AITOMATIC的 DXA 通过结构化的三阶段生命周期运行:

1、获取领域专业知识

2、使用合成和结构化数据训练模型

3、将生成的系统应用于现实场景

SemiKong 在该生态系统中扮演着核心角色,是复杂推理和决策任务的“大脑”。轻量级模型版本(例如 Llama 3.2)通过在资源受限的环境中实现更快的数据访问和分析来补充主系统。这些模型与制造系统和物联网平台无缝集成,使公司能够优化工作流程、预测维护需求并改善决策。

SemiKong 在生成特定于半导体的内容和理解复杂过程方面的表现优于多种闭源语言模型。这带来了切实的好处,包括新芯片设计的上市时间缩短了 20-30%,制造一次成功率提高了 15-25%。这些工具还改善了新工程师的入职流程,将他们的学习曲线加快了 40-50%。在一个例子中,支持 SemiKong 的 DXA 缩短了蚀刻配方制定所需的时间,而这通常需要数小时到数分钟。

研究的关键结论强调了 SemiKong 和 DXA 在半导体领域的重要意义:

1、DXA 有效地捕获和构建资深工程师的知识,确保关键的专业知识得到保存并扩展以供将来使用。

2、SemiKong 将芯片设计的上市时间缩短了高达 30%,显著降低了成本并提高了运营效率。

3、通过简化和加快入职流程,DXA 可以帮助新工程师更快地提高工作效率,减少行业对经验丰富的专家的依赖。

4、集成物联网平台可以实现实时参数校准和预测性维护,提高设备性能和可靠性。

总之,这项研究突出了一项开创性的解决方案,以应对半导体行业最紧迫的挑战之一:关键领域专业知识的流失。通过引入 SemiKong 和 DXA,研究人员提供了一个全面的框架,可以保存知识并提高生产力和创新能力。这些进步可能会重塑半导体制造业,提供可扩展、经济高效的解决方案来解决该领域的复杂性。集成像 SemiKong 这样的 AI 工具对于更高效、更具弹性的半导体行业至关重要。

接下来,我们编译了他们有关该项目的内容,以供大家参考:

大型语言模型 (LLM) 已显示出解决半导体行业某些问题的潜力。然而,它们通常是通用模型,缺乏解决该行业独特挑战所需的专业知识,例如半导体器件和工艺的复杂物理和化学性质。SemiKong 是第一个针对半导体领域的行业特定 LLM,它为开发定制的专有模型提供了基础。

借助 SemiKong 1.0,我们旨在开发一个能够在专家级别理解蚀刻问题的基础模型。我们的主要贡献包括 (a) 整理全面的半导体相关文本语料库,(b) 创建具有深入半导体知识的基础模型,以及 (c) 引入一个用于集成专家知识的框架,从而推进特定领域 AI 模型的评估过程。

通过使用我们精选的数据集对预训练的 LLM 进行微调,我们已经证明 SemiKong 在各种半导体制造和设计任务中的表现优于更大的通用 LLM。我们进行了大量的实验,强调了开发特定领域的 LLM 作为公司或工具特定专有模型的基础的重要性,为半导体领域的进一步研究和应用铺平了道路。

1、介绍

1.1、半导体制造与设计

半导体在为各种电子设备供电以及推动电信、汽车、医疗保健、可再生能源和物联网等行业的发展方面发挥着重要作用。在半导体制造和设计中,两个主要阶段 FEOL 和 BEOL 各自都面临着独特的挑战。FEOL 是生产线的前端工艺,涉及在半导体晶圆上创建有源器件。这包括晶圆制备、光刻、蚀刻、离子注入和栅极氧化物形成等步骤 El-Kareh (这些工艺对于定义集成电路(IC)的晶体管结构和其他有源元件至关重要。)。

另一方面,BEOL(后端生产线工艺)专注于连接在 FEOL 期间创建的有源器件。这包括金属层、绝缘层和焊盘的形成 Quirk 和 Serda。后端工艺对于建立器件之间的电气连接以及实现 IC May 和 Spanos 的整体功能至关重要。

随着特征尺寸不断缩小,器件架构变得越来越复杂,对先进制造技术和设计方法的需求变得至关重要。这导致人们对利用人工智能 (AI) 和机器学习 (ML) 技术来优化半导体制造工艺和协助设计任务的兴趣日益浓厚 Amuru 等人。。

1.2、大模型在半导体领域的应用

大模型 (LLM) 的最新进展已证明其在各个领域具有巨大潜力,半导体行业人员使用自监督学习技术对大量文本数据进行训练的 LLM 已显示出捕获丰富领域知识和生成类似人类的文本的能力。这为将 LLM 应用于半导体工艺技术和 IC 设计任务开辟了新的可能性。

在半导体工艺技术的背景下,LLM 可以潜在地协助工艺参数优化等任务,其他诸如异常检测 以及制造设备的预测性维护也是大模型可以发挥作用的地方。通过利用预先训练的模型中嵌入的大量流程数据和领域知识,LLM 可以帮助识别模式、预测流程结果并为各种制造步骤建议最佳设置。同样,在 IC 设计领域,LLM 可以帮助完成设计规则检查、布局生成和设计空间探索等任务;通过从大量 IC 布局和设计规则数据集中学习, LLM 可以生成符合指定约束并针对所需性能指标进行优化的新设计。

1.3、目的和范围

基于 LLM 的成功和潜力,本文介绍了 SemiKong,这是第一个针对半导体领域量身定制的行业特定 LLM,专注于半导体工艺技术和制造中的应用。我们旨在通过整理全面的半导体相关文本语料库并开发一种利用领域特定知识的新型预训练方法来解决通用基础模型的局限性。通过这样做,我们力求展示行业特定 LLM 在提高 AI 驱动的半导体制造任务解决方案性能方面的潜力。

这项工作的范围包括以下内容:

• 整理大规模、半导体专用文本语料库,重点关注工艺技术和制造

• 基础模型SemiKong的开发专门针对半导体行业的蚀刻问题

• SemiKong对行业相关数据和流程优化与控制相关任务的微调

• 引入一种新颖的框架来利用专家反馈,从而推进基于 LLM 的特定领域 AI 模型评估方法。

• SemiKong 与通用 LLM 相比的性能评估

• 讨论行业特定法学硕士在半导体制造中的含义和潜在应用

本文的主要贡献如下:

• SemiKong-Corpus:我们整理了全面的半导体相关文本语料库,涵盖了与半导体工艺技术和制造相关的广泛主题。该语料库是训练 SemiKong 的基础,并捕获了解决制造相关任务所必需的领域特定知识。

• SemiKong-Trainer:我们推出了 SemiKong,这是一种专业的基础模型,具有丰富的半导体制造术语和工艺流程知识,特别注重蚀刻。通过使用我们精心挑选的数据对 SemiKong 进行预训练和微调,与通用 LLM 甚至基于 LLM 的商业产品相比,我们在下游任务中实现了显着的质量改进,如图 1所示。

• SemiKong-Eval:我们开发了一个新颖的框架,以有效利用专家的知识来推进基于 LLM 的评估流程并生成高质量的基准。此外,我们还进行了广泛的评估,以评估 SemiKong 在行业相关基准上的表现,例如工艺参数优化、异常检测和预测性维护。我们的结果证明了 SemiKong 优于通用 LLM,凸显了为半导体制造领域开发行业特定模型的重要性。

本文的其余部分安排如下:第 2节概述了 AI 和 LLM 在半导体行业应用的相关工作。第 3节介绍了半导体本体,重点介绍了半导体制造的前端流程。第 4节概述了用于整理半导体专用文本语料库和开发预训练方法的方法。第 5节介绍了实验设置和结果,比较了 SemiKong 与通用 LLM 在各种制造任务中的表现。第 6节讨论了研究结果的含义、未来的潜在研究方向,并总结了本文。

2、相关工作

2.1、半导体制造中的人工智能(AI)

人工智能 (AI) 在半导体制造中的应用取得了重大进展,利用各种 AI 方法来提高半导体制造工艺的效率、良率和质量。本节回顾了应用于半导体制造不同阶段的最先进的 AI 方法,包括两个重要步骤:掩模优化和热点检测。

掩模优化(mask optimization)是半导体制造中的关键步骤。传统的掩模优化方法由于其迭代特性通常会消耗大量的运行时间. 最近,有团队提出了基于机器学习的方法来加速掩模优化任务,有研究人员甚至将隐式学习应用于掩模优化任务中的逆向光刻方法。一个名为 LithoBench的大型数据集由超过 120k 个电路布局图块组成,用于基于深度学习的光刻模拟和掩模优化,并发布以加速基于机器学习的方法。此外,在掩模优化任务中,提出使用深度强化学习直接优化光学邻近校正 (OPC) 中的首选目标,这是一种用于相关感知掩模优化的调制强化学习,旨在利用相邻段运动之间的空间相关性。

热点检测(Hotspot detection)是半导体制造中确保集成电路 (IC) 可靠性和性能的重要步骤。热点是芯片上过热或应力可能导致缺陷的区域,从而降低成品率并影响器件的寿命和功能。随着半导体技术节点的不断缩小,检测和缓解这些热点变得越来越重要。一种基于主动学习的热点检测方法在检测精度方面取得了令人印象深刻的表现。基于AdaBoost分类器和简化特征提取的新型光刻热点检测框架获得了较高的准确率,误报率也很低。

此外,采用自定进度多任务学习的半监督学习被提出用于热点检测。同时,有团队提出了一种使用深度卷积神经网络进行热点检测的方法,该方法还获得了准确的检测性能。这些方法只是专注于特定的任务,而不是建立一个模型来全面支持半导体运营工程师。

2.2、半导体行业大模型

LLM 旨在适应特定领域的芯片设计,包括从代码生成到错误总结以及为 EDA 工程师提供聊天机器人协助等一系列任务。一个名为ChipNemo的项目证明了领域微调的 LLM 模型在问答工程助理聊天机器人、EDA 脚本生成以及 bug 总结与分析三个特定任务上的表现优于 Llama3、GPT4 等通用 LLM 模型。一个人名为RTLCoder的大模型在设计 RTL 生成方面的表现优于 GPT-3.5,它采用了开源数据集和通过代码质量反馈的新训练方案。另一个名为ChipGPT的模型强调了数据驱动方法,明确指出数据是微调芯片设计 LLM 模型所需的全部。以上结果表明,使用领域 LLM 的代码生成任务有显著改善。

另外,一个名为Hdldebugger的模型专注于通过 LLM 辅助 HDL 调试框架使用 LLM 模型进行调试。同时,Rtlfixer旨在使用 LLM 模型自动修复 RTL 语法错误。Chip-Chat 使用对话式 LLM 进行实验,以设计和验证使用 GPT-4 和 GPT-3.5 的 8 位累加器。ChatEDA 引入了一个由经过微调的 LLaMA2 70B 模型赋能的 EDA 自主代理,该模型在此任务中的表现优于 GPT-4 模型。

此外,受自然语言处理 (NLP) 大模型的启发,大型电路模型被提出作为简化 EDA 流程的新范式。然而,这些模型大多使用小型公共数据集开发,并且限制了专家在开发过程中的参与。

2.3、大模型作为评估者

人类评估是评估自然语言生成 (NLG) 算法的重要方法。许多 NLP 任务需要熟练的注释者或专家进行可靠的评估。然而,由于成本高昂和对可重复性的担忧,招募人类专家往往是不切实际的。与此同时,像 BLEU Papineni 和 ROUGE Lin等这样的自动检测(automatic metrics)未能达到可靠性预期,无法准确反映人类偏好。

最近,使用 LLM 来评估 NLG 已被引入来解决这些问题。这些方法无需参考,要求 LLM 根据任务要求证明其答案的合理性,并展示与人类判断的相关性,假设 LLM 能够理解高质量流畅的文本并为其分配更高的概率。G-eval Liu 等人应用思路链技术,要求 LLM 生成详细的评估步骤来提高评估质量。

尽管取得了这些进步,但这些方法有一个共同的局限性:它们假设 LLM 本身可以理解和评估知识。然而,在需要深厚专业知识的领域(例如半导体),通常需要具有多年经验的专家来评估复杂问题,以便做出准确判断。

鉴于这些挑战,本文提出了一个框架,利用专家反馈来创建标准,以便 LLM 进行更可靠的评估,接近专家级的可靠性。此反馈还用于为半导体领域生成高质量的基准。OSCaR Nguyen 等人采用了类似的方法来生成高质量的基准。不过,他们利用了 Amazon MTurk 上普通人的反馈,而我们的基准则依赖于专家知识,从而确保了更高的可靠性。

3、半导体本体(Semiconductor Ontology)

半导体制造涉及许多复杂的步骤和流程,需要广泛的知识才能有效执行。在每个步骤中,让专门从事该领域的专家来指导工人至关重要。然而,半导体制造过程对于人工智能研究人员来说并不容易获得,他们在人工智能方面拥有深厚的专业知识,但往往缺乏特定领域的知识,尤其是对半导体制造的了解。这一差距阻碍了高效、特定领域的人工智能模型的开发。

为了应对这一挑战,我们与半导体专家合作开发了一个本体(ontology),系统地构建了整个半导体制造过程。该本体采用自上而下的方法构建,将该领域从一般级别划分为详细级别、子级别和特定流程,确保不会忽略任何关键流程。

通过系统地构建半导体制造过程,我们的本体不仅解决了人工智能研究人员的知识差距,还为创建更有效的特定领域人工智能模型奠定了基础。该本体不仅对于构建专门的人工智能模型(如用于蚀刻的 SemiKong)非常有价值,而且还可以作为评估未来通用智能模型的基准,这些模型旨在解决广泛的半导体制造主题,无论是在模型开发还是评估方面。

本体的层次结构增强了理解和训练效率,从而能够创建具有针对半导体制造特定阶段的精确洞察力的专用语言模型代理。因此,该本体可作为指导未来培训工作和确保语言模型与行业进步保持同步的动态工具。为了实现这些目标,精心设计的程序和细致的实施对于构建全面的半导体本体至关重要。

我们与行业专家合作开发了半导体制造本体,涵盖了从前端到后端的整个半导体制造过程,包括基板制备、薄膜形成、图案化、掺杂、平坦化、清洁和表面制备、热处理、计量和检测、高级模块和后端工艺。这些代表了半导体制造的主要层次,我们的专家进一步将其分为二级和三级。

例如,图案化是一个关键的第一级工艺,在第二级中进一步细分为蚀刻等子类。第三级将蚀刻分为湿法蚀刻、干法蚀刻、等离子蚀刻、反应离子蚀刻、深反应离子蚀刻、各向同性湿法蚀刻、各向异性湿法蚀刻、原子离子蚀刻和电子回旋加速器蚀刻。

本文介绍了我们的模型 SemiKong,它可以全面理解和支持蚀刻工艺,确保我们的本体完全覆盖这一关键领域,并为未来其他半导体制造工艺中的专门模型奠定基础。

4、SemiKong:半导体行业特定大模型

开发专家级的领域特定模型需要获得相关领域的深入知识。一种流行的方法是使用全面的领域特定数据训练模型。该训练过程可分为两个阶段:预训练和微调。虽然这种方法通常可以显著改善模型,但它仍然存在与数据质量保证、定义模型训练策略和确定适当的评估指标相关的挑战。在本节中,我们将讨论我们的数据管理流程(第 4.1节)、使用预训练和微调训练 SemiKong 模型的过程(第 4.2节)以及在评估流程中加入专家反馈(第 4.3节)。

4.1、数据管理(Data Curation)

高质量领域专用数据集(包括半导体领域的数据集)通常很少见。为了解决这个问题,我们专门针对半导体领域引入了一个大规模、高质量的基于文本的数据集。我们的数据集由两部分组成:用于预训练的文档和用于微调的说明。

预训练数据集:预训练是将知识融入模型的关键步骤。然而,预训练的通用模型通常优先考虑数据覆盖率而不是深度。确定使用哪些数据来训练模型以及它所包含的知识范围是一项挑战。基于这个问题,我们假设通用预训练模型缺乏深入的知识和专注于特定领域的能力。

我们引入了一个基于文本的数据集,专注于半导体,摘自技术书籍、论文和专利。为了构建这个数据集,我们手动搜索了互联网上可用的公共 PDF 文档。然后使用 PyPDF 库将这些文档转换为原始文本。由于原始文本通常存在格式问题,我们使用 GPT-4o-mini 进行后处理,将文本转换为 markdown 格式。此步骤不仅纠正了解析错误,还保留了特殊类型的信息,例如表格。我们提出的预训练数据集的有效性在表 IV 所示的实验结果中得到了证明。结果表明,当将纯粹使用指令进行微调的模型与微调之前使用我们的数据集进行预训练的模型进行比较时,有显著的改进。

指令数据集:我们利用 GPT-4o 和 GPT-o1-preview 生成与半导体关键字相关的指令。为此,我们首先预定义了一个与半导体相关的术语列表,该列表指导 GPT-4o 生成其他同义词和相关关键字。然后使用这个扩展的列表指导 GPT-4o 为我们的数据集制定问题。我们的方法确保全面覆盖我们的 SemiKong 可以解决的问题,从而提高我们的指令数据集的有效性。

该数据集包括 5,000 个解释半导体概念的问题、5,000 个解决需要数学推理的复杂蚀刻问题的问题和 40,000 个解决标准蚀刻工艺问题的问题,如表 I 所示。问题集完成后,我们使用 GPT-4o 回答与半导体概念和常规问题相关的问题。对于涉及数学和推理的更复杂的问题,我们使用 GPT-o1-preview 来生成答案。这种方法增强了模型解决复杂问题的能力,使其成为更强大的基础模型,特别是在半导体蚀刻领域。

4.2、模型训练

我们使用第 3.1 节中描述的精选数据集来训练我们的 SemiKong 模型。首先,使用 Tiktoken(一种基于 BPE 的标记器)对文本数据进行标记,该标记器广泛应用于众多 NLP 应用程序中。随后,将旋转位置嵌入 (RoPE) 纳入位置嵌入组件,以使 LLM 能够有效地捕获位置信息。训练过程包括两个阶段:使用纯文本数据集进行模型预训练和监督微调 (SFT)。然后,我们进行训练后处理,使模型更适合生产。模型概述和计算资源详见表 II。

模型预训练(Model pre-training):我们假设通用预训练模型缺乏领域特定知识。因此,我们使用 Meta 的 Llama3 8B 和 70B 检查点作为起点对我们的 SemiKong 模型进行了预训练。此步骤旨在增强模型对半导体领域的深入知识,从而确保它们更加专注于我们希望模型在未来成为专家的特定领域。

监督微调 (SFT:Supervised fine-tuning):预训练为模型提供了深入的领域知识,而微调则使模型能够执行我们预期的任务,例如问答、对话和推理。鉴于指令数据的可用性,SFT 用于指导模型执行与半导体相关的任务。

训练后流程(Post-training process):在预训练和微调之后,我们进行了量化和合并,为部署模型做好准备。我们的实现采用了 GPTQ ,这是一种用于生成式预训练ransformers的精确训练后量化技术。最后,将 LoRA 适配器与原始 LLM 模型合并,以生成针对半导体制造量身定制的最终 LLM 模型。

4.3、评估半导体制造大模型的建议方法

在特定领域环境中评估 AI 助手模型需要专家判断来证明模型响应的实用性。然而,专家注释通常有限且成本高昂。因此,开发一个自动化指标来评估这些模型的质量对于它们的开发和评估至关重要。这样的指标不仅支持项目开发,而且可以作为未来该领域研究的标准。受此需求的推动,我们提出了一种新颖的流程来生成评估标准列表。此标准列表将输入到 LLM 中,以增强其证明专家模型的能力。一个关键的挑战是不同的子领域需要不同的评估标准,并且没有适用于所有问题的通用标准。

我们预计,有了最终确定的标准列表,LLM 将能够评估与专家判断高度相关的 AI 助手模型的响应。我们的贡献包括开发一个流程,通过利用专家反馈来生成定制的标准列表。我们通过为半导体行业领域生成标准列表来证明我们流程的有效性。

值得强调的是,我们的方法不仅适用于半导体领域,也适用于其他需要人类专业知识的领域。在我们提出的评估流程中,我们最初从三个主要来源收集了一组问题:来自我们公司专家的 737 个问题、从 ResearchGate 论坛爬取的 150 个问题以及 ChatGPT 生成的 100 个一般问题。我们的内部专家仔细审查并评估了每个问题,以确保其质量。经过审查,问题被分为三个难度级别:简单、中等和困难,如表 3所示。

此外,我们的专家开发了一个本体(如第 3节所述),将问题的流程分为高级、次级和特定级别。最后,我们利用所有收集到的问题和注释,将它们输入 GPT-4o 和我们的 SemiKong 模型中以生成初始答案。

在人机协同概念的基础上,我们将其发展为专家协同框架。如图二所示,在这种方法中,专家会审查 LLM 生成的初始答案。这些专家在其领域拥有丰富的知识,他们不仅提供正确答案,还会评估其他答案的质量。这种双重能力使我们能够生成基准测试的基本事实,并综合出一套标准来指导 LLM 评估半导体专家模型。

为了实现这一点,我们要求专家对答案进行评分,并为他们的评分提供详细的理由。然后,机器学习研究人员分析这些理由,制定一份全面的标准清单,用于指导 LLM 对模型输出进行评分。目标是创建清晰、精确的标准,使 LLM 能够做出与人类专家类似的评估。这个过程是迭代的,根据专家的新数据注释不断更新标准,从而逐步改进评估框架。在本文中,我们将使用 LLM 评估半导体专家模型的标准定义如下:

清晰直接 (CD:Clarity and Directness ):此标准涉及使用简单明了的语言,以确保答案易于理解。这意味着避免使用不必要的术语或技术术语,因为这些术语可能会让读者感到困惑。它还要求在每个句子中直接解决手头的问题或主题,保持对要点的关注。使用项目符号或编号列表组织信息可以进一步提高可读性并使关键点更容易理解。

实用性和即时可用性 (PIU:Practicality and Immediate Usability):实用性和即时可用性涉及提供既实用又易于实施的建议。这意味着要专注于清晰、可操作的步骤而不是理论解释,确保指导直接适用于现实世界的情况。建议应切合实际并适合特定情况,使其可立即使用并与受众的需求相关。

效率和简洁 (EB:Efficiency and Brevity ):效率和简洁包括消除冗余信息并结合相关要点以避免冗长。目标是保持信息简洁,同时仍涵盖所有必要的细节,确保信息清晰、切中要点,无需不必要的阐述。

逻辑流程和连贯性 (LFC:Logical Flow and Coherence):逻辑流程和连贯性涉及以清晰、合乎逻辑的顺序排列要点,使答案易于理解。这包括将相关要点归入清晰的类别,增强整体连贯性,并确保用户可以轻松理解思想的进展。

专家对专家沟通 (EEC:Expert-to-Expert Communication):专家对专家沟通涉及将回复定制为经验丰富的工程师向担任相同角色但经验较少的另一名工程师提供的指示或指导。这可确保对话成为解决问题过程的一部分,重点关注高级概念和实用指导,而无需深入探讨专家听众不必要的过于基础的解释。

使用示例和具体性 (UES:Use of Examples and Specificity):使用示例和具体性是指仅在示例对解释具有重要价值时才提供示例。确保比较与要表达的观点直接相关且简明扼要。仅当技术术语对讨论至关重要时才引入它们,并且仅在要求保持清晰度和相关性时才对这些术语提供简明扼要的解释。

5、实验结果

5.1、实现细节

为了训练 Semikong,我们使用了 8 个 NVIDIA A100 80GB GPU。我们遵循 Transformers HuggingFace、HuggingFace Accelerator 和 LLaMA-Factory 库的指导原则来微调 LLM。预训练和 SFT 的超参数包括批处理大小为 3、梯度累积步骤为 3 和学习率为 1.0e-5。训练进行了 5 个时期,采用余弦学习率调度程序,预热率为 0.15。我们启用了 FP16 进行混合精度训练,并分配了 20% 的数据集进行验证。我们在微调中使用了 LoRA。

5.2、评估

为了评估微调和预训练的贡献,我们进行了实验来比较三种模型:Llama3、仅使用 SFT 的 SemiKong 和使用 SFT 进行预训练的 SemiKong。表 4显示了我们实验的结果。一般来说,仅进行微调并不能提高模型的性能。这表明通用模型缺乏领域特定知识。当模型经过预训练以学习更深入的知识时,模型的性能开始显示出改善的迹象。然而,为这个实验实施的模型只有 8B 个参数,这限制了学习模型知识的能力。因此,在接下来的实验中,我们将对具有 70B 参数的更大模型进行实验,并仅对使用我们提出的半导体数据集进行预训练的模型进行微调。

表5中的实验结果 表明,具有 70B 参数的模型明显优于具有 8B 参数的模型。即使与我们微调的 SemiKong 8B 模型相比,基本 Llama3 70B 模型仍然优于它。基于这一观察,我们的 SemiKong 70B 模型和实验结果表明,我们的方法在所有标准上都明显优于通用开源 Llama3 8B 和 Llama3 70B 模型。

为了证明 SemiKong 的优越性,我们进行了实验,将其性能与商业产品进行比较。值得注意的是,SemiKong 是一个基础模型,不依赖于 RAG 等支持系统。如表 6和图 1所示,SemiKong 在 CD 和 EB 指标上提供了可比的性能,而在六个关键指标中的四个中,它表现出色:PIU、LFC、EEC 和 UES。这些指标对于确定模型是否满足专家的需求至关重要。

总体而言,SemiKong 实现了最先进的性能,使其成为最适合专家使用的模型。它的即时应用的实用性、逻辑流程、避免不必要的信息以及提供简洁准确答案的能力正是工程师日常工作所需要的。

6、结论和未来研究方向

在本文中,我们介绍了 SemiKong,这是第一个专门针对半导体行业的基础模型,有 8B 和 70B 两个版本。此外,我们还公布了一个针对半导体应用量身定制的大规模数据集,其中包含预训练和微调数据。我们还提出了一个半导体本体,旨在支持人工智能研究人员在半导体领域开展新的人工智能研究。我们的 SemiKong 模型已经实现了最先进的性能,超越了开源基础模型,并在专家使用中超越了商业产品。

然而,SemiKong 只是初步努力,还有大量工作要做。首先,基于我们提出的本体,我们可以进一步开发除蚀刻之外的其他工艺,使半导体人工智能更加全面,适用于半导体制造的各个阶段。其次,我们的管道可以适应和扩展到其他行业,从而增强多个部门的工业运营。

来源:智慧芯片一点号

相关推荐