计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。CAD 构造序列是 CAD 模型表示的一种类型,不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示,它被描述为一系列建模操作,包括确定草图 3D 起点和 3D 草图平面方向、绘制 2D 草图、将草图拉伸成 3D 实体形状的完整参数和过程,以 JSON 代码格式储存和表示。这类表示方法与专业建模工程师构建 CAD 模型的过程最为近似,可以直接被导入 AutoDesk、 ProE 等建模软件。构建这些 CAD 模型需要领域专业知识和空间推理能力,也需要较高的学习成本。摘要:计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。CAD 构造序列是 CAD 模型表示的一种类型,不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示,它被描述为一
论文标题:CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
论文地址:https://arxiv.org/abs/2412.19663
项目地址:https://OpenIWIN.github.io/CAD-GPT/
方法介绍 3D 建模空间定位机制 我们把关键的 3D、2D 建模参数定义为大语言模型可以理解的建模语言,便于大模型理解和生成。具体来说,设计了 3 个系列的定位 token 来代替 3D 草图平面起点坐标、3D 草图平面角度和 2D 草图曲线坐标的参数。通过将全局空间 3D 坐标、草图平面 3D 旋转角度的特征展开到一维语言特征空间,将它们转换为两类不同的 1D 位置 tokens。此外,2D 草图被离散化并转换为特殊的 2D token。这些 token 被合并到原始 LLM 词表中。同时,纳入了 3 类适配 3 种 token 的自定义可学习的位置嵌入,以弥合语言和空间位置之间的差距。 数据集构建 基于 DeepCAD 数据集,生成了 160k 固定视角渲染的 CAD 模型图像和 18k 相应的自然语言描述数据集,构建专门用于训练多模态大语言模型的 CAD 建模数据集,便于后续其他工作训练大模型生成 CAD 模型建模序列。 训练策略与细节 我们采用 LLaVA - 1.5 7B 版本作为基础模型。训练包括两个阶段:首先在 image2CAD 任务上进行训练,然后在 text2CAD 任务上降低学习率进行微调。此外,因 CAD 建模序列长度较长,我们基于外推法,通过超参调整,扩展 LLM 的窗口长度到 8192。来源:晚晚的星河日记一点号
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!