建筑结构丨设计革命!搞建筑AI,你真的准备好数据了吗?

B站影视 港台电影 2025-03-25 16:17 2

摘要:谈到大模型,大家都已熟知其三要素:算力、算法、数据,其中对于垂类企业来说,数据是最能把控的,也被各传统行业领导认为是自身的宝贵资产,感觉抱着数据就有了未来。数据企业内信息化部门、咨询公司、模型公司等都有好几百页的PPT,但我听了很多很多,也感觉没讲清我最想知道

谈到大模型,大家都已熟知其三要素:算力、算法、数据,其中对于垂类企业来说,数据是最能把控的,也被各传统行业领导认为是自身的宝贵资产,感觉抱着数据就有了未来。数据企业内信息化部门、咨询公司、模型公司等都有好几百页的PPT,但我听了很多很多,也感觉没讲清我最想知道的几个最基本问题:

什么是数据?什么又是高质量的数据?我怎么知道自己数据质量高不高?

AI大模型训练需要什么数据?需要多少数据?

我们建筑企业有什么数据?哪些是有用的?怎么用?

我的数据怎么清理,谁来清理,要花多少成本,有多少收益?

以下作者就自己三年的实践,来直面以上问题,用大家听得懂的话,加上作者踩过的坑,让每个人花十五分钟看完这篇文章,都能清晰的了解以上问题

。很多点没有成熟的方法论,同时也没有可参考的案例,所以就是作者自己经验的总结,因此可能会出现片面的认识,此时我就会如实写出作者的思考过程,各位读者聪明的脑袋应该可以自己把握是否有道理。

什么是数据

领导总是说我有几十年的数据,这么宝贵的资产,你们用一下是不马上就可以让咱们企业提效好几倍,同时还能形成数字资产去交易卖钱,额......数据不等于信息,信息不等于知识,知识不等于智慧,领导您说您有的叫数据(粮食种子),您要的是智慧(酱香茅台),这中间隔着一座喜马拉雅山。

数据、信息、知识、智慧示意图

如下图DIKW模型,我做了部分建筑领域适配微调。数据就是最原始的素材,比如设计中会产生的报告、设计说明、图纸等都叫做数据,其形式会有Word、PDF、CAD、扫描件、图片、视频等等;信息就是经过整理后的数据,比如每个企业都会建的知识管理系统、出图系统等,都是将数据分门别类储存方便查阅;知识就是组织化的信息,比如各专业技委会经过经验总结形成的专业技术措施,以及老工程师经验总结的独门绝技;智慧就是辅助决策的知识,比如开发个系统,我只要给他我要设计项目的基本信息,他就能告诉我在70年的项目库中哪个项目和我的项目很像,可以参考,并直接给我推荐方案供我选择和决策。

再拿我们开发楼梯设计软件来举个更具体的例子,楼梯设计规范和几十年积累了成千上万的楼梯图纸就是数据;将这些楼梯设计资料按照矩形楼梯或异形楼梯、直跑楼梯或剪刀梯、混凝土楼梯或钢结构楼梯进行分类整理后就是信息;专家对每一类楼梯的共性进行总结,并结合规范规定和自身设计经验,整理出一套适配于不同场景的通用楼梯排布算法就是知识;开发人员根据知识开发出一套楼梯设计平台,以后楼梯就可以由计算机自动设计出图,并且所绘施工图都满足规范和使用习惯,这个设计平台就是智慧。

数据、信息、知识、智慧的进阶(大模型前时代)

但大模型后这个模型出现了变化,我自己将其总结为下图(自己总结的,所以不保真,仅供参考),中间的信息和知识被语料所取代,整个过程对专家经验的依赖也大幅降低。数据还是最原始的素材,这个定义没有发生变化;语料就是能够知识化的数据(潘云鹤院士提出),各个模态的数据经过清理和向量化后,成为能够被大模型学习的形态;智慧就是经过专有语料训练后的模型,模型被训练出来后,就可以解决专有场景的具体问题。

同样以楼梯设计这个场景再解释一遍,楼梯设计规范和几十年积累了成千上万的楼梯图纸就是数据;数据清理人员将图纸进行清理,并将CAD矢量图矢量化(什么是矢量化后面出专门文章解释,简单理解为转化为大模型训练时用的格式就行)形成语料;在CAD矢量大模型基础上,通过清理后的语料对模型进行微调,模型就具备了设计楼梯的能力,以后楼梯只要画个框,大模型就会自动补全楼梯详图,这个大模型就是智慧。

数据、语料、智慧的进阶(大模型后时代)

关于语料库帕思科技的总结很清晰,首先其抽象出了“语料魔方”,在三个维度对语料进行划分,分别是世界知识体系(X轴),比如自然科学、社会科学、人文科学等;数据来源(Y轴),比如图书、文献、专利、教材等理论类,互联网内容、公共数据、业务数据等实践类;行业应用(Z轴),比如金融、法律、医疗、建筑等。通过这个三维划分,就可以定位你的语料所处的位置。

“语料魔方”示意图@库帕思科技

同时语料的来源也可以参照库帕思的同心圆,最中间的是企业经营状态数据,也是企业最核心担心大模型学走的数据,这部分数据可以以外挂知识库的形态存在,不要让大模型学习;第二层是行业知识,其中80%是华东院这样做、北京院也这样做,这就是行业共性知识,还有20%是每个院的独门绝技就是企业独有知识;第三层是更为广泛的通用知识。企业可以根据这个同心圆,对自身所持有数据和知识进行划分,决定哪些语料化,哪些行业共建,哪些自己清理。

“语料同心圆”示意图@库帕思

什么是高质量数据

怎么评判数据的质量高不高?我总结了以下八个维度:

准确性,数据是否客观真实,能否有效反映实际情况?比如我们在整理结构经济性数据时,用的是结构专业在归档时所填数据,但发现很多工程师实际上很少关注这个数据,因此是随便估一个,造成数据的离散性非常大,此时数据的质量就不高;

完整性,数据是否存在大量缺失值或空白字段?比如院里做过某个专项的数据整理,总师编出一张大表包括众多需要填写的项目,但一线在填表的时候很多数据找不到或填起来太麻烦就空着,此时数据的质量就不高;

一致性,不同来源或不同版本的数据之间是否存在矛盾?比如一本标书当中,前面章节写着现场安全由项目经理负责,后面章节又写着由技术总工负责,前后矛盾,此时数据质量就不高;

及时性,数据是否与当前需求或现状相匹配?比如规范十年更新一次,有的规范每次更新变化非常大,那么几十年前的图纸就很难指导现在的设计,此时数据质量就不高;

泛化性,数据能否涵盖典型或多样化的场景?比如某些设计院虽然有大量图,但是都是住宅,如果进行训练时模型就会过拟合,此时数据质量就不高;

标准化,数据的命名、单位、编码格式等是否统一?这个就更头疼了,笔者在清理项目数据时,对于同一个指标的提取,每个团队收上来的数据Word、PDF、EXCEL、CAD各种格式都有,而且还在不同地方,并且没什么规律,没法用统一的算法完成大量的抽取任务,此时数据质量就不高;

无歧义,数据集中是否存在大量重复记录或模糊不清的条目?比如同一个名词,在不同场合不同专业间指的是不同的意思,此时数据质量就不高;

可追溯,能否清晰了解数据的来源、采集时间、处理方式等元数据信息?比如孤零零一个单方造价数据,也不知道出自哪里,也不知道哪个专业以什么口径统计的,不知道该信还是不信,此时数据质量就不高。

通过以上八个维度,各位可以自己回想一下,建筑场景的数据质量高不高,也就可以明白为什么说建筑业数据基础薄弱了。对于大模型来说,数据质量的优先级大于数据数量,如果用低质的数据训练,大概率微调后的模型还不如基础模型,纯属浪费时间浪费钱。

知识抽取过程

AI训练需要什么数据

大模型不同的训练阶段,需要的数据形态是不一样的。下图是GPT训练的通路,可以看到有预训练(PR)、有监督训练(SFT)、强化学习(RL)几个部分,具体各个阶段在干什么,下次开专门章节用大家都听得懂的话解释,这里就先略过。

GPT训练通路

预训练(PR)阶段需要的是经过数据清理数据,也就是原始数据经过去重、排错、格式统一和标准化、处理缺失值和异常值,去除敏感信息与脱敏等一系列操作清洗而成的数据,这部分大多数垂类场景都用不到,是大模型厂商干的事;

有监督训练(SFT)阶段需要的是QA数据,可以简单理解为人所编写的高质量问答数据,比如以医疗场景举例,Q:小儿肥胖如何治疗?A:孩子出现肥胖情况,家长要通过孩子运动和健康的饮食......,这就是一条垂类的QA数据。建筑垂类场景中,比如有明确答案的注册考试,专业场景中英文翻译等都是SFT所需的QA数据;

医疗数据集的QA数据示意

强化学习(RL)所需的数据,GPT和DeepSeek略有不同,GPT的方法是对于有客观答案的场景,比如结构力学,AI给出解题过程,工程师对每一步去打分(有好、中、坏三档),以此先来训练一个评价模型,而后再由评价模型去训练大模型(基模型答题,评价模型给它打分,答的不对分数就低,基模型的目标就是得更高的分不断答题,这就简化版的训练过程);DeepSeek在此过程中没有工程师为每步过程打分,而是只根据解题格式和答案打分,模型为了得到更高分,就会优化其思考过程,越想越多、越想越完善。

GPT强化学习对过程打分过程

AI训练需要多少数据

首先预训练是互联网大厂做的,和垂类企业关系不大,所需数据量极大,比如GPT3训练的数据量如下图所示,参数量175B,训练数据3000亿tokens互联网文本,有多⼤呢?举个例⼦其中Common Crawl数据集在清洗前的存储大小高达45 TB(注意这是文本数据大小)。

垂类所需数据大小是和具体任务直接相关的,对自动驾驶汽车而言,想要识别各种道路场景,需要数万到数百万幅不同天气、不同时段、各种街道状况的图像或视频。若数据过于单一,模型难以适应真实驾驶环境,极易出现识别错误;电商平台要做商品推荐,往往需要数万乃至数百万条用户浏览与购买行为数据,但在冷启动阶段,数千条高质量、精准标注的数据同样能实现初步效果。

再举几个建筑行业的例子,工地用计算机视觉技术,识别安全帽、数钢筋等场景,需要大概千张经过标注的图片;建筑方案生成所用到的SD(Stable Diffusion),如果训练建筑风格模型Lora,大概需要同一风格的几十张图,如果用Dreambooth微调个建筑适配模型,则需要近万张建筑效果图;如果训练行业大模型,针对单一场景进行有监督训练(SFT),大概需要十万级的QA数据;如果进行强化学习,DeepSeek用了近二十万条COT数据。

用以上各个场景的例子作为参考,大家应该能评判出你所需场景,大概需要多少数据量。

我们有什么数据

这个问题没有办法让外部的咨询公司、软件公司、大模型厂商来告诉你答案,只有你自己最清楚你有什么数据。行业共有数据是可以被语料化的,包括规范、著作、图集、政策,这部分不管哪个公司都有用,所以就应该由主管部门或行业协会,组织大家进行共建,以避免各自重复建设和标准不统一的资源浪费;知识积累数据,包括各种形式的数据,如节点库、图纸说明、模板库、设计经验等,这里有些是通用的有些是独家的,同时由于数据形式多样且不统一,清理成本很高;项目相关数据,这部分属于企业重点保护的数据,包括与项目相关的文本、图片、视频、图纸等,一方面清理难度大一方面又担心泄漏,所以是数据清理中难啃的骨头,如果自身企业体量不大数据量也就不够,清理出来也没法训练模型,只能做外挂知识库做一些检索的应用,但对于超大企业数据量大泛化性强,就有机会形成语料训练模型形成壁垒;内控与人才相关数据,可以应用于企业决策与管理工作,也是企业私有化保密的数据,可以作为外挂知识库做检索与辅助决策相关应用。

回头看看我们自己有什么数据

数据怎么清理

以上的数据划分是按照业务来进行划分的,当进行数据清理工作时,需要首先将其转译成AI相关的技术场景,从AI的角度看,数据更适合通过模态进行划分,如文字、数据库、图片、视频、CAD矢量图、专家系统等,因为每个模态数据的清理方法和技术选型差异很大,因此,以下按照不同模态数据进行拆解。

文字模态数据

关于文字类数据的清理与向量化,具有比较成熟的通路和高度的自动化,比如现在各类免费的知识库工具,都可以自动完成相关工作。但建筑业文档比如规范和专业数据都有个特点,一本书中文字所具备的知识浓度不超过40%,剩下的60%都在表格和示意图当中,这些表格还非常复杂,以至于注册考试中专业工程师都不一定答得对,因而这部分知识的清理就是难点。

我们在实践中,对于以下这样一个结构规范的表格,就用“笨办法”让专业工程师,将左边的表格翻译成了右边这种万字小作文,穷尽表格的可能性。效果怎么样?那是极好的,没有这部分表格数据,让大模型只看文字部分的规范去考强条考试大概能得70分,但加上这部分表格内容就能得90多分,可谓效果明显。这部分“脏活累活”投入量巨大,但对于垂类企业,只有“脏活累活”才是壁垒,因为OpenAI来了也得做这个事。这种共性的问题,如果由一家家企业自己做,肯定是大量资源浪费,这时就更适合有组织的大家一起做。

表格数据清理示意

图片模态

图片清理我们碰到一个坑,由此我们产生一个疑问,下游应用场景不清的情况下,是否数据清理都是资源浪费?事情是这样,对于效果图的清理,我们刚开始的想法就是收集尽量多的效果图,而后分门别类进行储存,并对每个图片打上标签。但当我们真有场景时,需要解决的是SD多角度一致性问题,此时我们发现需要的数据实际上是各个角度建筑渲染前后的数据对,而前面就没存过这个数据,于是以前做的清理都白费,得从新开始做清理。

多角度一致性训练所需数据

同时我又开始反思现在几乎所有企业都在干的事,感觉AI来了都开始做数据,没有下游具体任务,就想当然的开始储存和清理数据。就像是农民种地发现不挣钱了想转型,突然发现自己地下有矿,有金矿、银矿、铁矿(各种数据),也先不想具体做什么生意(下游任务),就先忙着把矿挖出来(数据整理),挖出来还没地方存放,于是还得花重金搞个仓库(数据中台),最后发现没变成周大福赚钱,反而做成了刚果金,虽然卖金矿但是还是很穷,于是又回去种田了。

正常的思路不应该是先决定做金子生意,于是建门店、渠道、冶炼、开采整个流程,最后转型成周大福,赚高附加值吗?为什么这个显而易见的故事,放回到数据这个场景,就很难看透?

CAD矢量图模态

建筑业和制造业现今在AI应用中都有个问题,AI真正赋能的点几乎都集中在前端(如效果图生成)和后端(AI客服助手),而中间大量的工作场景,AI无法真正的用起来。为什么?我们认为其中一个很重要原因是,CAD承载了我们这个行业大量的信息,图纸是工程师的语言,但是这个模态本身没有被很好的解决

文字模态突破后,改变了其下游文章写作、记者、作家等行业;图片模态突破后,改变了其下游动画、效果图、人脸识别等行业;蛋白质突破后,改变了制药行业;如果CAD矢量图模态突破,也会深刻影响其下游制造业和建筑业。

针对CAD矢量图模态,我们在这方面也做了大量的工作,同时也已有技术突破,结果也可达到全球前列,相关成果也在发布中,下次开专门一篇与大家分享。

项目数据库

对于非严肃场景,通用文档做检索即可,但对于严肃场景,对准确性有要求的情况下,就需要将现在项目上大量的非结构化数据结构化。比如我现在问大模型,按照我的项目特点,根据历史70年项目,推荐和我像的项目核心筒是怎么排布的?内筒和外框的面积比是多少?我的用钢量在相似项目中是属于偏高还是偏低?这些辅助决策的功能,除了依赖大模型理解能力外,最重要的是你得先有这些数据,大模型才能根据数据进行自动分析。

这些数据库又是如何构建的呢?我们现在的方法是各专业先列出需要清理的数据标签,比如核心筒面积、底层框架柱直径等都算是一个标签,只针对建筑专业就有380个标签,而后通过大模型、专用小模型等方法进行自动抽取,对于无法抽取的就人来补充,而后再进行人为检查,可以看出这又是一个脏活累活。

对于存量业务,花精力将业务核心数据清理数来结构化,肯定不会白费。但对于增量业务,总是做一遍清一遍就显得有点过于奇葩了,此时就该考虑对本身的业务数据进行规范,以实现自动填写或方便后期的自动清理,这就需要企业顶层架构给予充分的考虑。

专家系统

我们还有一类特殊的数据,就是存在于设计师脑子当中的经验,这部分数据知识浓度极高且很有价值,但人脑子当中的知识怎么“挖”出来呢?还是以楼梯为场景举例,有些领导说就让每个设计师都在纸上写下来,额......首先他会他也不一定愿意说,因此个人经验本身就属于设计师自己而不是企业;其次他愿意分享也不一定能有条理、成体系、无遗漏的总结出来;最后即便总结出来,也不一定能够将其程序化,所以这种方式肯定是无法实现的。

我们的方案是设计师和程序员一起开发一个楼梯设计软件。此时不同设计师就可以将其经验,具象成软件的一个个功能,对软件迭代的过程,本身也是设计师不断完善和体系化自身经验的过程,而后通过上万次的使用,软件成熟后,设计师脑子当中的东西,也就被具象化在了这个程序当中。当你需要用大模型设计楼梯时,大模型就会调用楼梯设计软件,软件经过上万次使用已经可以保证100%正确,这样也就避免了大模型的幻觉问题,这就是AI Agent的思想。

当其他公司也需要设计楼梯这个功能的时候,你就可以开放你的API由其他公司调用,别人根据流量或次数来进行付费。那么这个楼梯软件本身就成为了专家经验具象化的数据,这个调用付费的过程就是数据交易。

以上思想都是从实践中总结出来的,并无理论依据,不保真。各位聪明的读者,可以自行判断是否有道理。

结 论

数据工作很大,也足以承载一下上市公司,OpenAI背后做数据的公司ScaleAI就上市了;数据工作很重要,Garbage in Garbage out,没有良好的数据基础就不能有效果好的大模型,以及其下游应用;数据工作很脏,从以上我们的实践可以看出,我们是无路可走了,无奈只能采用很多看起来很“笨”的办法,但做好之后发现,这两年大模型层出不穷,但是我们的脏活累活还一直有效,可以形成壁垒;数据工作很吃经验,做个顶层架构简单,但真做起来,几乎每一步都需要经历各种尝试和失败,这些经验本身就是宝贵的财富。

数据本身很有价值,他可能是为数不多,在AI浪潮下垂类企业可以倚靠的“底牌”和“护身符”。

希望通过本文,可以让你对数据的几个第一性问题有基本认知。

来源:建筑结构杂志社

相关推荐