专访 | 王宁远:AI考古,会看见更清晰的历史吗

B站影视 欧美电影 2025-03-31 11:44 1

摘要:大概三四年前,浙江省文物考古研究所一场招聘考试,岗位是数字考古。笔试最后一道题,大意是,某个灰坑(相当于古人扔垃圾的垃圾桶)发现了一堆陶片,如果硬件技术足够快足够好,请你提一个方案,怎样用计算机作为辅助的方法,把这些碎陶片拼对一遍。

潮新闻客户端 记者 马黎

大概三四年前,浙江省文物考古研究所一场招聘考试,岗位是数字考古。笔试最后一道题,大意是,某个灰坑(相当于古人扔垃圾的垃圾桶)发现了一堆陶片,如果硬件技术足够快足够好,请你提一个方案,怎样用计算机作为辅助的方法,把这些碎陶片拼对一遍。

那天,来了很多程序员。

浙江省考古所科技考古中心主任王宁远还记得大家的回答,每个人都写了工作流程,思路逻辑基本都很对。

那时候,AI,也就是人工智能,还没有完全进入大众视线,但已经是一个快速演进的领域,很多垂直专业,比如考古学界,已经敏锐地感受到AI对考古工作的实际应用。AI可以辅助生成遗址或文物的高精度三维模型,对海量遥感数据可以快速分类。从这道题可以看出,王宁远所在的浙江考古界对考古实操领域,早已有迫切的需求。

考古学是一门综合学科,对于新技术的敏感度和应用速度,或许跟你想象的“挖呀挖“完全不同。从碳14测年法的革命性突破,到近年来的遥感、GIS、古DNA、AI等前沿技术,考古学的技术革新史几乎与科学史同步。

1946年,化学家威拉德·利比(Willard Libby)发明碳14测年法,通过测量有机物的放射性碳衰变确定年代。考古学迅速get,1950年代就被应用于埃及金字塔、欧洲新石器遗址的年代校准,彻底推翻此前基于地层学的模糊断代体系。1955年,温州籍考古学家夏鼐力主筹建中国的测年体系,1965年发布《放射性碳素测定年代报告(一)》,公布河南安阳殷墟、陕西西安半坡遗址等十余处遗址的测年数据,首次为中国新石器至商周遗址提供绝对年代标尺。在浙江,如果没有碳14,良渚文化还被认为是龙山文化;河姆渡遗址距今7000年,揭示了长江流域和黄河流域同为“摇篮”;而蒋乐平至今还记得上山遗址夹炭陶片的4个测年数据,距今11400—8600年,意味着中国东南地区的新石器时代历史将被彻底改写。

1996年,浙江省就开始了遥感考古研究,首先进行的是航空遥感考古研究,主要应用在浙北湖州地区土墩墓的普查。更著名的例子,浙江考古人在2011年用科技找到了5000年前的良渚水坝。

2011年,通过对良渚地区1960年代的美国间谍卫星影像分析和实地调查勘探,发现了外围低坝系统,完整的水利系统结构基本显现。

而从2019年到2024年,浙江所完成了浙江地区的历史遥感数据库建立,包含了浙江及长三角地区大量珍贵历史遥感影像。

良渚水利系统结构与发现过程

浙江省文物考古研究所的科技考古团队,利用地理信息系统(GIS)与遥感技术(RS)技术,可以在较短的时间内覆盖更大的区域,快速定位可能的遗址点,并进行进一步的研究和分析。这种方法,在良渚古城外围水利系统的研究中得到了充分体现。

2011年至今,考古人员利用遥感技术和GIS技术在两三年内就找到了20多条水坝遗迹,并对部分水坝进行了碳样测年,基本确定了距今近5000年的良渚水利系统。结合良渚考古工作,浙江所已经初步总结出了一套基于空间考古的水利系统遗迹快速调查方法。

而现在,技术又迭代了,AI加入了找水坝团队。

浙江省文物考古研究所和南京大学合作,探索了一种自动寻找水坝的机器学习方法,准确率可以达到70%。

最新成果,就是绍兴越国水利系统的发现与确认。项目前期通过运用遥感、地理信息、人工智能等技术手段,初步划定了97个疑似点。再通过实地调查勘探,确定是古水坝的有24处,其中获得测年样的古水坝19处,属于越国时期的古水坝11处。

但是,王宁远又想到了三年前的这道题。

AI在普通人的生活中全覆盖的今天,这道题依然没有落地实现,也成为王宁远的一个“痛点”。为什么?

AI如何帮助考古人找到千年前的水坝?在考古工作中,AI能做什么,正在做什么?能做还没有开发的有什么?AI不能做,做了后出现的问题又是什么?

记者和考古学家王宁远聊了聊AI的那些事。

【1】

找水坝,他们已经取得丰硕成果

潮新闻记者:其实良渚外围水利系统的发现,经历了近30年历程,两代人,这其中就可以看到考古方法的改变。比如最早上世纪八、九十年代,考古学家通过地面调查发现,在良渚古城的北面发现了塘山长堤1条。2009年到2010年,因为工程建设暴露,通过田野考古勘探,陆续在良渚古城西北部山间发现了岗公岭、老虎岭等6条堤坝。2011年开始,地理信息系统(GIS)和遥感(RS)就进入了,我们总结了一套自己的方法,主要是用遥感目视解译,结合考古勘探。但是,现在再回头看,似乎遥感也变成“传统”方式了。

王宁远:技术方法其实有个逐步迭代的过程。最开始,是考古学家路过,或者是因为某个线索自己发现的。后来我们更多用遥感和地理信息系统的方法,再后来还有水利,环境的方法。这些方法固然是可以的,但是专业知识是有门槛的。

普通的考古学者不具备这些专业背景。我们需要有做遥感的,做地理信息的,做测绘的,还要有做水利的——做水利的人,他才会知道大概在哪个地方会有这些坝的线索。所以,浙江省文物考古研究所从2011年到现在,对遥感(RS)和地理信息系统(GIS)技术进行改良,结合水利与考古手段,加以机器学习验证,形成了一种水利系统遗迹的快速调查方法。在良渚和浙江其他地区已经有了丰富的经验和成果,效率也很高,我们用这种方法已经做了十多年,团队有近十人,各种专业都有。

现场调查

潮新闻记者:良渚申遗时,我们说良渚水利系统有11条水坝。 2020年以后,我们用这套快速找水坝的方法,又新发现了20多条水坝,几乎遍及良渚周边每个山口。其中8条已完成测年,距今5000年左右,与之前公布的11条水坝一致,属于统一建设的水利设施,证实了这套找水坝的方法效率高而且准确。那为什么我们还要再找新的方法?

王宁远:这几年我们就会想一个问题,如果你缺了这样一支团队,那这项研究几乎没法开展了。

潮新闻记者:也就是说,这样的多学科配置,没法普及到全国的考古工作团队。

王宁远:大家都知道古代水利很重要,这些年长江中游屈家岭、城河、石家河等诸多新石器时代遗址也有水利系统遗迹的重要发现,证实古代水利建设具有普遍性和广泛性。但现在真正具有全链条研究的团队,全国大概就一两个。这也就意味着,很多省份没办法找,这些地区水利遗迹的发现几乎是零了。

石家河遗址水坝

为了验证调查法的科学性和普适性,我们申报了浙江省科技保护项目“古代山塘水坝调查的关键技术及示范应用”课题,并得到国家文物保护专项经费支持,对浙江省全域的古代山塘水坝开展专项调查,一方面作为快速调查法的验证,同时成果可以直接纳入目前广泛开展的“四普”工作。

验证结果是,全省疑似古代水坝大概有接近1000个。

潮新闻记者:这个古代的范围是什么?

王宁远:从目前已有的测年结果看,可能大部分在先秦时期,唐宋有一些少量的。也就是说,水利工程在古代是非常普遍的现象。这些遗迹现在落在各个山里面,无人知晓。有一部分就被破坏了,另外一部分,如果仍然存水的,是当水库的,经常会被水利部门浇水泥加固。

中国是世界水利大国,水利开发历史悠久。一个是数量很多。还有一个,水利和社会发展关系很密切。水利建设应该是聚落规划的普遍现象。聚落等级越高,边上的水管理设施就越多,控制范围也越大,有一种直接对应关系。良渚就是一个例子,它是一个都城,边上的水利系统就特别发达。如果是小村子,水利设施就会简单一点。

所以,水利设施考古,对于揭示古代文明与自然环境的关系、了解古代社会结构与组织能力以及推动城市考古与历史文化研究具有重要意义。

但是,早期水坝常用生土堆筑,几乎没有任何包含物,普通考古调查勘探极易误判,没有经验的时候,很容易把它认为是自然的山体。所以迄今为止全国范围内,发现的水利遗迹还很少。目前长江中下游良渚、屈家岭、城河、石家河等水利遗址的发现,主要是通过遥感、地信等手段提供线索,并进行专项调查得到结论。而常规考古单位一般不具备这样的人员和技术条件,很难独立高效完成水利系统调查。

所以我们就想,这十多年,我们已经积累了很多找水坝的经验,知道它有某些规律,比如分布的位置有规律,形态有规律,所以,如果要去推广我们这个方法,那我们能不能先让机器学习,用AI进一步去做?

所以,我们尝试引入深度学习方法,通过训练模型、自动标注的方式开展水坝预测。在两三年前,我们和南京大学合作,共同探索了一种自动寻找水坝的机器学习方法,让机器去找水坝。

我们的目标是,最后生成一个预测模型,其他的都不用管,你把卫星影像扔进去,它咚咚咚就给你标出来,然后考古人根据它标的点,去验证。这样的话,我们只需要培训考古人员如何判定是否水坝就行,前面的流程机器完成了。

潮新闻记者:它跟以前我们这套快速找水坝的方法有什么不同?

王宁远:它解决了很关键的两个问题,一个是不需要很全的人员团队,另一个是非常高效。虽然目前不能百分百找准,但是找水坝,不需要每一条都让它自动帮你找出来。只要在那个山口帮你找到一条,你就可以在边上做人工调查,就能把其他的找出来。

目前在这样小样本的情况下,它已经能告诉你哪个地方有。我觉得前景是比较好的。整个浙江,或者整个长江下游,我们会再慢慢拓展去找。所以怎么找,可能就是两种方法。一种,团队齐全的,还是传统的目视解译方法,另外一种就是同步用机器学习的方法,和前一种方法相互验证。

现场调查勘探

【2】

AI可能更高效找水坝吗

潮新闻记者:绍兴地区,就是我们最新的一个试验地。这里插播一则新闻:浙江省文物考古研究所、南京大学、河海大学组织多学科团队,于2022年9月至2024年7月对绍兴地区开展古代水利专项调查,在会稽山北麓确认越国水坝11条,揭示了又一处都邑外围大型水利系统,这也是继良渚古城水利系统之后,浙江境内所发现的又一处都邑外围的大型水利设施。

王宁远:在绍兴,两种方法我们都做了。良渚可以说是总结这个方法的起点,而这次在绍兴,等于是初步验证,准确率还是比较满意的。

潮新闻记者:这个准确率怎么算出来的?

王宁远:通过两年工作,我们确认了绍兴地区古代水坝遗迹25处,其中越国水坝11处。从方法验证的结果看,确认的25条古水坝中,有20条来自我们先前标记的66处高度疑似点,占比30%;另有15个高度疑似点目前仍为水库,已被水泥硬化,暂时无法测年,占比23%;另外14条或地貌破坏严重,或遇石无法勘探,需要进一步调查。真正被排除的高度疑似点只有13处,是对水渠和山地的误判,占比20%。所以,从预判方法的角度,目视解译的准确率为80%。而机器学习方法,代替目视解译自动找点,目前大概有7成的点和目视解译重叠。

而形成鲜明对比的是,影像并没有标注而现场调查我们根据目视临时增加的100处疑似点中,只有5处确认为古水坝,准确率只有5%。所以,调查结果表明,基于影像遥感的快速调查法对古代水坝具有显著的指示效果,而一般常规的地面勘探调查则效率极低。

去年,我们就用这个方法把浙江省的古代水坝都找遍了,刚才讲到有1000多处,这些样本我们通过考古验证完以后,就可以喂给这个模型,它就会提高自己的准确度,它最终准确率有可能会超过我们目视解译。我们希望在三五年内,在类似的环境下,在安徽或者江西开展,可以给考古提供更好的指示。

绍兴地区古水坝分布情况(1969年影像) 1.横塘 2.长塘 3.瓜岭 4.塘城 5.裘家岭 6.中灶 7.秦望 8.施家桥 9.岔路口 10.坡塘 11.云松 12.黄庙 13.里木栅 14.董坞 15.兰亭 16.皇游荡 17.大坞 18.马交山 19.古城 20.大溪坞 21.黄泥埂头南 22.黄泥埂头北 23.龙头 24.白鱼潭 25.马坞

潮新闻记者:这个机器模型它的思考逻辑是什么?

王宁远:模型告诉你的,不是说这是个良渚水坝,他告诉你,这里有个坝,但不是现代的水泥坝。中国古代的水利设施,有一些作为今天的山塘水库继续在使用,水利部门逐年会对这些土坝实施排险加固工程,坝体就会被水泥硬化,但是在浇水泥之前,他们的形态都是一样的。但是,到底是汉代的、唐代的,还是什么年代,依然要靠我们考古手段验证。

所以,我们有两种思路。第一种,“由坝找城”,就是模型找到了很多坝,去确定年代,和绍兴的做法一样,所有的水利设施是可以做水文分析的,它能影响到哪个范围,古人去建的时候,肯定都是要服务于自己的,遗址就应该在水坝的影响范围内。

以绍兴为例,从考古学的意义上来说,绍兴地区的越国都城,具体在哪里目前是不知道的。文献记载,越国曾在山麓冲积扇、沼泽平原和沿海地区,兴建了山塘、运河、海塘等不同类型的水利工程,为兴越灭吴提供了后勤保障。绍兴地方的文史和水利部门对越国水利的文献史学研究已经有相当的积累,但没有开展系统的考古调查,普遍缺少年代学依据。

潮新闻记者:这个逻辑是,我们现在把都邑外围的水利设施找到了,那么它的影响片区、都城,就在那儿。

王宁远:这次确认的越国水坝群沿会稽山口呈半环状分布,守护着北侧平原的亭山、南山、稽中、大湖头等这些年新发现的越国大型建筑基址构成的聚落群,构筑了越国核心区的结构框架,这就为考古确认越国都城提供了重要线索。

还有一种思路,“由城找坝”,就是通过已知遗址找未知水坝。

如果这是一个新的地区,边上发现了一大堆水利设施,但这里并没有发现过遗址,也没有文献记载,如果水坝的年代是相对集中的,这里肯定有一个跟水利匹配的遗址,那你就可以通过水坝去找遗址。

我们现在大部分聚落考古还只是做聚落内的,里面也有河道,也属于水利。但是实际上我们现在发现的很多古城,不仅仅是聚落内部有水管理设施,外围肯定还有。我们可以在这些重要的遗址边上,拓展它的研究范围,去找一找服务于它的水管理系统。这个道理很简单,北京市在那里,外围就有一个密云水库,要服务于它。所以这就拓展了我们对聚落考古边界的观念上的认识。

潮新闻记者:就像我们最近发现的皇朝墩遗址,包括居住址和生产区,甚至还包括周边水利,是个完整的景观聚落。

王宁远:我想每一个城市,每一个聚落,都是这样。所以这是一件比较有意义的事情。现在中国科技考古很热闹,但是目前大部分科技考古的领域,都是西方提出的研究范式、技术路径。相当于中国学者去学了人家的技术方法,他这个体系是完整的,甚至设备都是别人的。然后拿中国样本,按照西方模式得出了一个结果,当然很有收获。但是这对科技考古的领域拓展,或者是体系性建设的贡献,并不大。我觉得我们可能可以在水利这个方向上整合一下,提出一种适于我们这个区域的或者大区域的方法,也可以推广到别的地方。古代水利系统不仅是中国有,世界上都有。如果我们可以总结一套经验,就可以推广到国外,提升我们自己在这个领域的研究能力和影响力。

潮新闻记者:这已经不仅仅是考古发现,而是对整个考古学学科的发展,都有探索意义。在这个过程中,你碰到的问题是什么?

王宁远:现在的问题是样本不够,一般的总要几万,但是目前我们发现确认的良渚水坝只有30多条,全国加起来也不会过百。

机器学习,相当于一个黑箱,你告诉他,这个是,然后他自己去学习了。但是,最后他给你标出来的点,得出的结论,你不知道它的逻辑是什么,有时候可能会胡说八道。你告诉他的信息越多,他总结出来的可能越准。类似AI深度学习里面,你干预一下,让它强化学习。

但我们现在还没办法做到这个。我们目前做的只是直接喂给它,标上这几个“是的”,然后让他在几十张不同年代的卫星影像里去找,最后它给你了一个结果。

这个卫星影像,你让它找的位置,是我们分析过的,它先用地形地势去找——这就相当于,一个,用考古学的经验,还有一个,就是水利学的分析。水坝的分布位置有特征,我们先把区域划出,让它在这个范围里去找,效率就高。现在还是比较初步的模型。

刚才说到,浙江地区我们已经找完了,圈定好了,已经喂给它了,现在我们只是在用模型做方法验证:它找的跟我们找的是不是一样的,甚至不准也没关系,它只要跟我们圈的范围是差不多的,就代替了我们前面很大一部分的工作,这就可以了。

潮新闻记者:所以并不需要完全准确。

王宁远:我认为不需要百分之百准确,百分之七八十就很够了,因为有的坝根本看不见,像良渚老虎岭水坝,机器找不出来,目视解译也找不出来的,因为它很短,这一定是要考古学家现场踏勘才能找到。所以机器最重要的工作,是给我们指示一个位置,这里有,就行。

我们现在还是标准化的操作,先资料收集,再对遥感影像进行配准作业,使影像具备真实的经纬度坐标,这是很费钱费力的,实际上你让机器找,变形也没关系,它找到后,发现这个地方有很多坝,那再拿去配准,这就省了很多前期影像处理的工作。

我们现在正在做影像库,每一张图都配准完后,里面可能90%的地方它是没有水坝的,可能有别的用途。

潮新闻记者:等于海选,千辛万苦配准完,但不一定里面有水坝。

王宁远:所以,我们现在甚至可以改变操作顺序。我直接把变形的影像原图扔进去,它也能找出来。找出来以后,如果说这个地方水坝很多。好,我只要把这张影像拿来配上,然后移动端适配——把影像和疑似水坝坐标点导入手机、平板等移动设备,方便后期地面调查的精准定位。我觉得最终推广的话,可能还是用这种方法会比较快。

【3】

AI还能为考古做些啥

潮新闻记者:除了找水坝,从你的角度看,考古人对AI还有哪些迫切的需求?

王宁远:其实需求是很多的。考古本身是用自然科学的手段去研究,也就是说它是对科学技术是有高敏感性的。碳14测年技术,获得诺贝尔奖没多久,考古学就用上了。实际上,考古现在有非常大的痛点。比如说陶片的拼对。

潮新闻记者:拼对,大家可能比较陌生,但是拼图却是小孩子益智和大人解压的利器。高难度的拼图往往1000片以上,甚至有4000片以上,完成一个高难度拼图可能需要长达上月的时间。但是我们知道:一个拼图包装中,只有一个完整的图案,我们甚至知道这个图案是什么样子的,只需要为碎片找到正确的位置即可。而拼对的对象是灰坑里的各种器物,陶器是大宗。考古人员无法预知这些碎片会组成多少个器物,也不知道器物是什么样子的,并且大量器物是残缺的,只能根据有限的形状、颜色信息去拼对。难度可想而知。

记者去年在衢州石角山遗址库房看到的碎陶片,来自不同地层

王宁远:我们现在发掘出来大部分的都是“垃圾堆”,就是灰坑,里面大量是碎片,理论上要尽量把它们拼起来,但实际是基本上拼不起来的。用人力的方法非常慢,要把坛坛罐罐分开,碎片分类,口部、底部,用人工的穷举方法,效率很低。大部分也就是画个口沿,画个底,做很粗略的统计。

但实际上这是不对的,比如中间的腹部碎片,是鼎的,还是釜的,还是罐的,你分不清楚,所以很粗疏。做考古整理的时候,你花的时间跟发掘是一样的,非常累。当然对于考古来说,拼对这个事情,是所有的考古学家都需要去面对的一个问题。

我记得八九十年代计算机出来没多久,就开始做甲骨拼缀。当时,电脑硬件也不行,软件也不行,算力也很低。我记得曹锦炎老师跟我说,费劲巴拉弄半天,还不如根据经验去拼拼快。现在当然仍然有人在做,随着软硬件和扫描技术的改变,我觉得可能效率会提高很多。

三年前,我们单位就招过一个做数字考古的人,他原来是程序员。当时我们出的题目最后一道题,就是用计算机作为辅助的方法,把这些碎陶片拼一遍。说明这是一个迫切需要解决的问题。

现在最大的问题,或者说最大的短板,就在于陶片形态的扫描速度。

潮新闻记者:所以三年后,现在这个问题还是没有解决。因为这些碎片的数据作为“饲料”,还没有办法全部喂给AI,而且“饲料”如何加工也是问题。

王宁远:1000块碎片,你要拼对,陶片的茬口,首先你用视觉的方式,比如黑的和红的,不同材质的,先分开,现在我们都人工分。但最大的问题在于扫描的速度。这个断茬和那个断茬,它是不是吻合的。

曾经有团队来试过,怎么样把这些碎片迅速地扫一遍,各个面都扫,因为你不知道哪个茬口缺哪一块,他们基本上是用穷举的方式。

这个方式,针对墓葬,可能是可以的,因为我们非常确定碎片一定是在墓这个范围里。但是灰坑、地层里的碎片数量庞大,本身发掘出来还是不全的,怎么弄?效率就会成问题。

有人提过一种方法,四周放一圈相机,你把一块陶片从空中“啪”掉下来,在掉下来的过程中,多角度拍摄。

潮新闻记者:全息摄影。

王宁远:对,你做模型就要多角度,如果这个解决了,我想后面的那个拼的逻辑是没问题的。

除了扫描,还有另一个问题。考古是要“排队”的。一张张卡片做好。如果要写一本考古报告,这些小卡片里的信息,就是完整的文本描述。一排罐子,后面是文字叙述。现在我们需要补一个课,是什么东西呢?

你真正要研究的时候,是要细到某一件东西的某一个口沿部分,那考古报告中是看不到卡片中的“字段”的。

潮新闻记者:纸质报告没有链路,当我们看到一个器物的时候,它是死的,所有的信息不会自动跳出来,那就无法可视化。如果是在电脑中,你点这个器物,链接的信息就全部出来了。

王宁远:我们现在想做一件事。良渚文化考古和研究八十多年了,各种考古报告、资料和研究论文数量巨大,江浙沪各个省都有。那能不能用一种简单的办法把它们给还原回去,自动生成数据库。

考古描述一件器物都是有标准和统一模式的,把一个个字段摘出来,那是很容易的,用大语言模型就可以给它弄回去。但这不仅仅是一个资料性的问题。

我们说考古分期,就跟电视机的发展一样,最开始是显像管CRT的,后来是厚液晶,现在是最薄的平板。所有的器物,它都有时代的演变特征,这个逻辑,考古上是根据地层学早晚,下边早,上边晚,然后进行主观判断。但是地层划分,以及器物类型的排队,实际上是主观性的,这个考古学家排出来是这样的逻辑,另一个考古学家拿着相同的东西,排出来的顺序可能就不一样。大趋势是知道的,不会错,但要分得细了,就会不一样,年代的早晚可能就会弄错。

比如说良渚文化,在浙江,我排出来的年代是这样的,但江苏可能在50年代挖了一个很不起眼的遗址,就会影响之前的判断。那么,如果你资料的掌握越多,就可以纠错。

但任何一个考古学家,资料掌握都是不全的。以前的考古学家,最厉害的是家里柜子全是卡片,但其实有很多劳力性的东西,我认为现在可以用机器替代。

除了考古学发掘资料以外,现在考古学学科很多,动物的、植物的、环境的,我们每一个人的知识体系都是很窄的。我在这里发掘了一个遗址,但对于这个地方的矿物、环境、水文,我知道的肯定没有专门研究的那个人多。

潮新闻记者:如果是个人角度出发做研究,就会有局限性。

王宁远:所以,我们能不能把各个学科的资料都找出来汇总,然后去训练一个啥都懂的“专家”。理论上是可以的,而且它又不会累,每天24不间断学习。

潮新闻记者:培养一个机器人专家。

王宁远:对,所有东西它都可以不停地学,这个“人”以后去介绍良渚古城,肯定比我们任何一个人都厉害。所以训练一个这样的专家,不但是对考古学,对于文化阐释,博物馆讲解,都有用。它把我们所有会的都学会了。

【4】

如何提高AI的可靠性

潮新闻记者:但这个训练的前提就是刚才说的资料的全息掌握。

王宁远:我们也准备做一做这个事情。良渚博物院把2019年之前所有跟良渚有关的文献资料收齐了,有一个文献库,而且是筛选过的,去掉了垃圾信息。

但是,也有问题。现在的问题是,置信度的不同。

最近三五年,我们对良渚又有了新的认识,把前面不对的都纠正了。比如那本书是50年代写的,可能结论就是错,但资料是客观的,是很珍贵的,只是研究结论搞错了。这个时候机器看不出来,机器肯定不行。

所以,这个巨大的文本库里,是有不同的置信度的,需要人来修正。50年代哪个地方的发掘出来的器物,这件器物的尺寸,是可信的,但结论很可能是不对的。而现在,我们对良渚的认识置信度可能会标得更高一点。

实际上这个资料库有两个层面,一个是客观的,就是发掘资料,置信度是最高的。另一个就是研究观点,那就需要验证。他写了一个结论,最后你发现江苏挖出来完全不是这样,那这文章就没用了。这就需要人工干预。我们目前还没有开始实施这件事情。

潮新闻记者:人工干预跟纠错,是比较大的一个问题。

王宁远:现在不一定要完全人工干预到底。比如说,我们请一些业内公认的专家,就器物排队的问题,先排序,那机器也自动可以排。然后材料库里跟专家不一样的,机器就自动把这些材料降为低置信度的一类。

但是,专家也会错。这是一件比较繁复的事情,实操层面要怎么去操作,我们还没有理清思路。我有一个在医院放射科工作的朋友,他们前几年做过一次AI读片评估,CT片或者B超片。他说最后的结果是,机器比人好。虽然你很有经验,但是你一天工作8小时,后面疲惫了,小东西就会漏,机器不会漏。

潮新闻记者:你平时生活里也会用各种AI,最大的感受是什么?

王宁远:我们整天在用,各种都用过,比较糟糕的问题是,它会编。

潮新闻记者:可能会一本正经的胡说八道。

王宁远:我之前最简单验证一下,问它王宁远是谁?结果说毕业于吉林大学,它把刘斌跟我搞错了。但如果你不认识我们,是完全看不出来。我过了半个月再去试,它就改掉了,因为我跟它说你错了。

但这件事是很危险的,对于学术研究来说。不知道就不知道好了,但它会编,而且编得很像,有部分细节是真的,但这个结论又是错的。

还有一个问题。理论上很多考古资料是不能对外发布的,所以这个模型训练好了,我们肯定要建本地部署。

潮新闻记者:如果我是一个普通的考古爱好者,只想知道一些入门级的信息,这个时候AI会更好用吗?

王宁远:所有通俗的东西,都要深入浅出。你首先要深入以后才能浅出。公众教育,并不是一个简单的问题。所有的东西都要在深度的基础上,再做一个通俗化表达,那才是可信的。而不是要教一个小学生,让初中生来教就可以。我觉得本质上是要把专业的东西做好,在专业中做科普,把这部分科普的东西开放给公众。

来源:钱江晚报

相关推荐