建筑结构丨设计革命！搞建筑AI，你真的准备好数据了吗？

摘要：谈到大模型，大家都已熟知其三要素：算力、算法、数据，其中对于垂类企业来说，数据是最能把控的，也被各传统行业领导认为是自身的宝贵资产，感觉抱着数据就有了未来。数据企业内信息化部门、咨询公司、模型公司等都有好几百页的PPT，但我听了很多很多，也感觉没讲清我最想知道

谈到大模型，大家都已熟知其三要素：算力、算法、数据，其中对于垂类企业来说，数据是最能把控的，也被各传统行业领导认为是自身的宝贵资产，感觉抱着数据就有了未来。数据企业内信息化部门、咨询公司、模型公司等都有好几百页的PPT，但我听了很多很多，也感觉没讲清我最想知道的几个最基本问题：

什么是数据？什么又是高质量的数据？我怎么知道自己数据质量高不高？

AI大模型训练需要什么数据？需要多少数据？

我们建筑企业有什么数据？哪些是有用的？怎么用？

我的数据怎么清理，谁来清理，要花多少成本，有多少收益？

以下作者就自己三年的实践，来直面以上问题，用大家听得懂的话，加上作者踩过的坑，让每个人花十五分钟看完这篇文章，都能清晰的了解以上问题

。很多点没有成熟的方法论，同时也没有可参考的案例，所以就是作者自己经验的总结，因此可能会出现片面的认识，此时我就会如实写出作者的思考过程，各位读者聪明的脑袋应该可以自己把握是否有道理。

什么是数据

领导总是说我有几十年的数据，这么宝贵的资产，你们用一下是不马上就可以让咱们企业提效好几倍，同时还能形成数字资产去交易卖钱，额......数据不等于信息，信息不等于知识，知识不等于智慧，领导您说您有的叫数据（粮食种子），您要的是智慧（酱香茅台），这中间隔着一座喜马拉雅山。

数据、信息、知识、智慧示意图

如下图DIKW模型，我做了部分建筑领域适配微调。数据就是最原始的素材，比如设计中会产生的报告、设计说明、图纸等都叫做数据，其形式会有Word、PDF、CAD、扫描件、图片、视频等等；信息就是经过整理后的数据，比如每个企业都会建的知识管理系统、出图系统等，都是将数据分门别类储存方便查阅；知识就是组织化的信息，比如各专业技委会经过经验总结形成的专业技术措施，以及老工程师经验总结的独门绝技；智慧就是辅助决策的知识，比如开发个系统，我只要给他我要设计项目的基本信息，他就能告诉我在70年的项目库中哪个项目和我的项目很像，可以参考，并直接给我推荐方案供我选择和决策。

再拿我们开发楼梯设计软件来举个更具体的例子，楼梯设计规范和几十年积累了成千上万的楼梯图纸就是数据；将这些楼梯设计资料按照矩形楼梯或异形楼梯、直跑楼梯或剪刀梯、混凝土楼梯或钢结构楼梯进行分类整理后就是信息；专家对每一类楼梯的共性进行总结，并结合规范规定和自身设计经验，整理出一套适配于不同场景的通用楼梯排布算法就是知识；开发人员根据知识开发出一套楼梯设计平台，以后楼梯就可以由计算机自动设计出图，并且所绘施工图都满足规范和使用习惯，这个设计平台就是智慧。

数据、信息、知识、智慧的进阶（大模型前时代）

但大模型后这个模型出现了变化，我自己将其总结为下图（自己总结的，所以不保真，仅供参考），中间的信息和知识被语料所取代，整个过程对专家经验的依赖也大幅降低。数据还是最原始的素材，这个定义没有发生变化；语料就是能够知识化的数据（潘云鹤院士提出），各个模态的数据经过清理和向量化后，成为能够被大模型学习的形态；智慧就是经过专有语料训练后的模型，模型被训练出来后，就可以解决专有场景的具体问题。

同样以楼梯设计这个场景再解释一遍，楼梯设计规范和几十年积累了成千上万的楼梯图纸就是数据；数据清理人员将图纸进行清理，并将CAD矢量图矢量化（什么是矢量化后面出专门文章解释，简单理解为转化为大模型训练时用的格式就行）形成语料；在CAD矢量大模型基础上，通过清理后的语料对模型进行微调，模型就具备了设计楼梯的能力，以后楼梯只要画个框，大模型就会自动补全楼梯详图，这个大模型就是智慧。

数据、语料、智慧的进阶（大模型后时代）

关于语料库帕思科技的总结很清晰，首先其抽象出了“语料魔方”，在三个维度对语料进行划分，分别是世界知识体系（X轴），比如自然科学、社会科学、人文科学等；数据来源（Y轴），比如图书、文献、专利、教材等理论类，互联网内容、公共数据、业务数据等实践类；行业应用（Z轴），比如金融、法律、医疗、建筑等。通过这个三维划分，就可以定位你的语料所处的位置。

“语料魔方”示意图@库帕思科技

同时语料的来源也可以参照库帕思的同心圆，最中间的是企业经营状态数据，也是企业最核心担心大模型学走的数据，这部分数据可以以外挂知识库的形态存在，不要让大模型学习；第二层是行业知识，其中80%是华东院这样做、北京院也这样做，这就是行业共性知识，还有20%是每个院的独门绝技就是企业独有知识；第三层是更为广泛的通用知识。企业可以根据这个同心圆，对自身所持有数据和知识进行划分，决定哪些语料化，哪些行业共建，哪些自己清理。

“语料同心圆”示意图@库帕思

什么是高质量数据

怎么评判数据的质量高不高？我总结了以下八个维度：

准确性，数据是否客观真实，能否有效反映实际情况？比如我们在整理结构经济性数据时，用的是结构专业在归档时所填数据，但发现很多工程师实际上很少关注这个数据，因此是随便估一个，造成数据的离散性非常大，此时数据的质量就不高；

完整性，数据是否存在大量缺失值或空白字段？比如院里做过某个专项的数据整理，总师编出一张大表包括众多需要填写的项目，但一线在填表的时候很多数据找不到或填起来太麻烦就空着，此时数据的质量就不高；

一致性，不同来源或不同版本的数据之间是否存在矛盾？比如一本标书当中，前面章节写着现场安全由项目经理负责，后面章节又写着由技术总工负责，前后矛盾，此时数据质量就不高；

及时性，数据是否与当前需求或现状相匹配？比如规范十年更新一次，有的规范每次更新变化非常大，那么几十年前的图纸就很难指导现在的设计，此时数据质量就不高；

泛化性，数据能否涵盖典型或多样化的场景？比如某些设计院虽然有大量图，但是都是住宅，如果进行训练时模型就会过拟合，此时数据质量就不高；

标准化，数据的命名、单位、编码格式等是否统一？这个就更头疼了，笔者在清理项目数据时，对于同一个指标的提取，每个团队收上来的数据Word、PDF、EXCEL、CAD各种格式都有，而且还在不同地方，并且没什么规律，没法用统一的算法完成大量的抽取任务，此时数据质量就不高；

无歧义，数据集中是否存在大量重复记录或模糊不清的条目？比如同一个名词，在不同场合不同专业间指的是不同的意思，此时数据质量就不高；

可追溯，能否清晰了解数据的来源、采集时间、处理方式等元数据信息？比如孤零零一个单方造价数据，也不知道出自哪里，也不知道哪个专业以什么口径统计的，不知道该信还是不信，此时数据质量就不高。

通过以上八个维度，各位可以自己回想一下，建筑场景的数据质量高不高，也就可以明白为什么说建筑业数据基础薄弱了。对于大模型来说，数据质量的优先级大于数据数量，如果用低质的数据训练，大概率微调后的模型还不如基础模型，纯属浪费时间浪费钱。

知识抽取过程

AI训练需要什么数据

大模型不同的训练阶段，需要的数据形态是不一样的。下图是GPT训练的通路，可以看到有预训练（PR）、有监督训练（SFT）、强化学习（RL）几个部分，具体各个阶段在干什么，下次开专门章节用大家都听得懂的话解释，这里就先略过。

GPT训练通路

预训练（PR）阶段需要的是经过数据清理数据，也就是原始数据经过去重、排错、格式统一和标准化、处理缺失值和异常值，去除敏感信息与脱敏等一系列操作清洗而成的数据，这部分大多数垂类场景都用不到，是大模型厂商干的事；

有监督训练（SFT）阶段需要的是QA数据，可以简单理解为人所编写的高质量问答数据，比如以医疗场景举例，Q：小儿肥胖如何治疗？A：孩子出现肥胖情况，家长要通过孩子运动和健康的饮食......，这就是一条垂类的QA数据。建筑垂类场景中，比如有明确答案的注册考试，专业场景中英文翻译等都是SFT所需的QA数据；

医疗数据集的QA数据示意

强化学习（RL）所需的数据，GPT和DeepSeek略有不同，GPT的方法是对于有客观答案的场景，比如结构力学，AI给出解题过程，工程师对每一步去打分（有好、中、坏三档），以此先来训练一个评价模型，而后再由评价模型去训练大模型（基模型答题，评价模型给它打分，答的不对分数就低，基模型的目标就是得更高的分不断答题，这就简化版的训练过程）；DeepSeek在此过程中没有工程师为每步过程打分，而是只根据解题格式和答案打分，模型为了得到更高分，就会优化其思考过程，越想越多、越想越完善。

GPT强化学习对过程打分过程

AI训练需要多少数据

首先预训练是互联网大厂做的，和垂类企业关系不大，所需数据量极大，比如GPT3训练的数据量如下图所示，参数量175B，训练数据3000亿tokens互联网文本，有多⼤呢？举个例⼦其中Common Crawl数据集在清洗前的存储大小高达45 TB（注意这是文本数据大小）。

垂类所需数据大小是和具体任务直接相关的，对自动驾驶汽车而言，想要识别各种道路场景，需要数万到数百万幅不同天气、不同时段、各种街道状况的图像或视频。若数据过于单一，模型难以适应真实驾驶环境，极易出现识别错误；电商平台要做商品推荐，往往需要数万乃至数百万条用户浏览与购买行为数据，但在冷启动阶段，数千条高质量、精准标注的数据同样能实现初步效果。

再举几个建筑行业的例子，工地用计算机视觉技术，识别安全帽、数钢筋等场景，需要大概千张经过标注的图片；建筑方案生成所用到的SD（Stable Diffusion），如果训练建筑风格模型Lora，大概需要同一风格的几十张图，如果用Dreambooth微调个建筑适配模型，则需要近万张建筑效果图；如果训练行业大模型，针对单一场景进行有监督训练（SFT），大概需要十万级的QA数据；如果进行强化学习，DeepSeek用了近二十万条COT数据。

用以上各个场景的例子作为参考，大家应该能评判出你所需场景，大概需要多少数据量。

我们有什么数据

这个问题没有办法让外部的咨询公司、软件公司、大模型厂商来告诉你答案，只有你自己最清楚你有什么数据。行业共有数据是可以被语料化的，包括规范、著作、图集、政策，这部分不管哪个公司都有用，所以就应该由主管部门或行业协会，组织大家进行共建，以避免各自重复建设和标准不统一的资源浪费；知识积累数据，包括各种形式的数据，如节点库、图纸说明、模板库、设计经验等，这里有些是通用的有些是独家的，同时由于数据形式多样且不统一，清理成本很高；项目相关数据，这部分属于企业重点保护的数据，包括与项目相关的文本、图片、视频、图纸等，一方面清理难度大一方面又担心泄漏，所以是数据清理中难啃的骨头，如果自身企业体量不大数据量也就不够，清理出来也没法训练模型，只能做外挂知识库做一些检索的应用，但对于超大企业数据量大泛化性强，就有机会形成语料训练模型形成壁垒；内控与人才相关数据，可以应用于企业决策与管理工作，也是企业私有化保密的数据，可以作为外挂知识库做检索与辅助决策相关应用。

回头看看我们自己有什么数据

数据怎么清理

以上的数据划分是按照业务来进行划分的，当进行数据清理工作时，需要首先将其转译成AI相关的技术场景，从AI的角度看，数据更适合通过模态进行划分，如文字、数据库、图片、视频、CAD矢量图、专家系统等，因为每个模态数据的清理方法和技术选型差异很大，因此，以下按照不同模态数据进行拆解。

文字模态数据

关于文字类数据的清理与向量化，具有比较成熟的通路和高度的自动化，比如现在各类免费的知识库工具，都可以自动完成相关工作。但建筑业文档比如规范和专业数据都有个特点，一本书中文字所具备的知识浓度不超过40%，剩下的60%都在表格和示意图当中，这些表格还非常复杂，以至于注册考试中专业工程师都不一定答得对，因而这部分知识的清理就是难点。

我们在实践中，对于以下这样一个结构规范的表格，就用“笨办法”让专业工程师，将左边的表格翻译成了右边这种万字小作文，穷尽表格的可能性。效果怎么样？那是极好的，没有这部分表格数据，让大模型只看文字部分的规范去考强条考试大概能得70分，但加上这部分表格内容就能得90多分，可谓效果明显。这部分“脏活累活”投入量巨大，但对于垂类企业，只有“脏活累活”才是壁垒，因为OpenAI来了也得做这个事。这种共性的问题，如果由一家家企业自己做，肯定是大量资源浪费，这时就更适合有组织的大家一起做。

表格数据清理示意

图片模态

图片清理我们碰到一个坑，由此我们产生一个疑问，下游应用场景不清的情况下，是否数据清理都是资源浪费？事情是这样，对于效果图的清理，我们刚开始的想法就是收集尽量多的效果图，而后分门别类进行储存，并对每个图片打上标签。但当我们真有场景时，需要解决的是SD多角度一致性问题，此时我们发现需要的数据实际上是各个角度建筑渲染前后的数据对，而前面就没存过这个数据，于是以前做的清理都白费，得从新开始做清理。

多角度一致性训练所需数据

同时我又开始反思现在几乎所有企业都在干的事，感觉AI来了都开始做数据，没有下游具体任务，就想当然的开始储存和清理数据。就像是农民种地发现不挣钱了想转型，突然发现自己地下有矿，有金矿、银矿、铁矿（各种数据），也先不想具体做什么生意（下游任务），就先忙着把矿挖出来（数据整理），挖出来还没地方存放，于是还得花重金搞个仓库（数据中台），最后发现没变成周大福赚钱，反而做成了刚果金，虽然卖金矿但是还是很穷，于是又回去种田了。

正常的思路不应该是先决定做金子生意，于是建门店、渠道、冶炼、开采整个流程，最后转型成周大福，赚高附加值吗？为什么这个显而易见的故事，放回到数据这个场景，就很难看透？

CAD矢量图模态

建筑业和制造业现今在AI应用中都有个问题，AI真正赋能的点几乎都集中在前端（如效果图生成）和后端（AI客服助手），而中间大量的工作场景，AI无法真正的用起来。为什么？我们认为其中一个很重要原因是，CAD承载了我们这个行业大量的信息，图纸是工程师的语言，但是这个模态本身没有被很好的解决。

文字模态突破后，改变了其下游文章写作、记者、作家等行业；图片模态突破后，改变了其下游动画、效果图、人脸识别等行业；蛋白质突破后，改变了制药行业；如果CAD矢量图模态突破，也会深刻影响其下游制造业和建筑业。

针对CAD矢量图模态，我们在这方面也做了大量的工作，同时也已有技术突破，结果也可达到全球前列，相关成果也在发布中，下次开专门一篇与大家分享。

项目数据库

对于非严肃场景，通用文档做检索即可，但对于严肃场景，对准确性有要求的情况下，就需要将现在项目上大量的非结构化数据结构化。比如我现在问大模型，按照我的项目特点，根据历史70年项目，推荐和我像的项目核心筒是怎么排布的？内筒和外框的面积比是多少？我的用钢量在相似项目中是属于偏高还是偏低？这些辅助决策的功能，除了依赖大模型理解能力外，最重要的是你得先有这些数据，大模型才能根据数据进行自动分析。

这些数据库又是如何构建的呢？我们现在的方法是各专业先列出需要清理的数据标签，比如核心筒面积、底层框架柱直径等都算是一个标签，只针对建筑专业就有380个标签，而后通过大模型、专用小模型等方法进行自动抽取，对于无法抽取的就人来补充，而后再进行人为检查，可以看出这又是一个脏活累活。

对于存量业务，花精力将业务核心数据清理数来结构化，肯定不会白费。但对于增量业务，总是做一遍清一遍就显得有点过于奇葩了，此时就该考虑对本身的业务数据进行规范，以实现自动填写或方便后期的自动清理，这就需要企业顶层架构给予充分的考虑。

专家系统

我们还有一类特殊的数据，就是存在于设计师脑子当中的经验，这部分数据知识浓度极高且很有价值，但人脑子当中的知识怎么“挖”出来呢？还是以楼梯为场景举例，有些领导说就让每个设计师都在纸上写下来，额......首先他会他也不一定愿意说，因此个人经验本身就属于设计师自己而不是企业；其次他愿意分享也不一定能有条理、成体系、无遗漏的总结出来；最后即便总结出来，也不一定能够将其程序化，所以这种方式肯定是无法实现的。

我们的方案是设计师和程序员一起开发一个楼梯设计软件。此时不同设计师就可以将其经验，具象成软件的一个个功能，对软件迭代的过程，本身也是设计师不断完善和体系化自身经验的过程，而后通过上万次的使用，软件成熟后，设计师脑子当中的东西，也就被具象化在了这个程序当中。当你需要用大模型设计楼梯时，大模型就会调用楼梯设计软件，软件经过上万次使用已经可以保证100%正确，这样也就避免了大模型的幻觉问题，这就是AI Agent的思想。

当其他公司也需要设计楼梯这个功能的时候，你就可以开放你的API由其他公司调用，别人根据流量或次数来进行付费。那么这个楼梯软件本身就成为了专家经验具象化的数据，这个调用付费的过程就是数据交易。

以上思想都是从实践中总结出来的，并无理论依据，不保真。各位聪明的读者，可以自行判断是否有道理。

结论

数据工作很大，也足以承载一下上市公司，OpenAI背后做数据的公司ScaleAI就上市了；数据工作很重要，Garbage in Garbage out，没有良好的数据基础就不能有效果好的大模型，以及其下游应用；数据工作很脏，从以上我们的实践可以看出，我们是无路可走了，无奈只能采用很多看起来很“笨”的办法，但做好之后发现，这两年大模型层出不穷，但是我们的脏活累活还一直有效，可以形成壁垒；数据工作很吃经验，做个顶层架构简单，但真做起来，几乎每一步都需要经历各种尝试和失败，这些经验本身就是宝贵的财富。

数据本身很有价值，他可能是为数不多，在AI浪潮下垂类企业可以倚靠的“底牌”和“护身符”。

希望通过本文，可以让你对数据的几个第一性问题有基本认知。

来源：建筑结构杂志社

标签：模态设计 cad 建筑革命

本文地址：http://news.43b.com.cn/a/890131.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!