上海交通大学:让AI轻松读懂复杂表格,像人类一样理解数据关系!

B站影视 欧美电影 2025-09-01 20:08 1

摘要:这项由上海交通大学计算机科学与工程学院周轩贺教授团队主导的研究发表于2025年8月,题目为《ST-Raptor: LLM-Powered Semi-Structured Table Question Answering》。研究团队还包括来自西蒙菲莎大学、清华大

这项由上海交通大学计算机科学与工程学院周轩贺教授团队主导的研究发表于2025年8月,题目为《ST-Raptor: LLM-Powered Semi-Structured Table Question Answering》。研究团队还包括来自西蒙菲莎大学、清华大学和中国人民大学的合作伙伴。有兴趣深入了解的读者可以通过GitHub项目地址https://github.com/weAIDB/ST-Raptor访问完整代码和数据。

日常生活中,我们经常遇到各种复杂的表格——医院的体检报告单、公司的财务报表、学校的成绩统计表。这些表格不像我们在Excel中制作的简单表格那样规整,它们往往有着复杂的层次结构,有些单元格会合并,有些标题会嵌套,看起来就像一个立体的信息迷宫。

现在,上海交通大学的研究团队开发了一个名为ST-Raptor的智能系统,它能够像一位经验丰富的数据分析师一样,准确理解这些复杂表格中的信息,并回答人们用自然语言提出的各种问题。这个突破性进展解决了一个长期困扰人工智能领域的难题:如何让计算机真正"读懂"现实世界中那些结构复杂、层次多样的表格数据。

过去,当我们让AI系统分析表格时,就像让一个只会看平面图的人去理解立体建筑一样困难。传统的AI系统要么强行将复杂表格"拍平"成简单格式(这样会丢失很多重要信息),要么完全无法理解表格中的层次关系和数据含义。而ST-Raptor的创新在于,它首次实现了对半结构化表格的深度理解,能够准确把握表格中各种复杂的关系网络。

这项研究的意义不仅仅局限于学术领域。在医疗行业,它能帮助医生快速从复杂的医疗记录中提取关键信息;在金融领域,它能协助分析师理解复杂的财务报表;在教育管理中,它能自动处理各种统计报表。更重要的是,它让普通用户能够用自然语言与这些复杂数据进行交流,就像与朋友对话一样简单。

一、破解表格迷宫:理解现实世界的数据挑战

当我们打开一份医院的体检报告或者公司的季度财报时,眼前呈现的绝不是那种整齐划一的简单表格。这些真实世界的表格就像一座精心设计的信息迷宫,充满了层层嵌套的标题、横跨多列的合并单元格,以及各种不规则的布局结构。

传统的数据处理方法在面对这样的挑战时显得力不从心。就好比一个只会走直线的机器人,突然被放进了一个充满弯道和岔路的迷宫里。现有的AI系统通常采用两种应对策略,但都存在明显的局限性。

第一种策略是强制"扁平化"——将这些复杂的表格强行转换成最简单的行列格式。这就像把一幅立体的山水画硬生生压成平面一样,虽然基本信息还在,但那些精妙的层次关系、空间结构和隐含的逻辑联系却完全丢失了。研究团队发现,在这种处理方式下,多达80%的结构化信息会永久丢失,导致后续分析的准确性大打折扣。

第二种策略是依赖视觉识别——将表格转换成图像,让AI像人眼一样去"看"表格。这种方法听起来很直观,但实际效果却不尽如人意。就像让一个近视眼的人去辨认远处的路标一样,AI在处理大型表格时经常出现"看不清"或"看错位置"的问题,特别是当表格包含超过100行数据时,准确率会急剧下降。

更关键的是,现实世界中的表格提问往往需要复杂的推理过程。比如当有人问"哪个部门的员工平均薪资最高"时,AI需要先找到部门信息,然后找到对应的薪资数据,接着进行分组计算,最后比较得出结果。这个过程涉及多个步骤的逻辑推理,而传统方法往往在某个环节就"卡壳"了。

研究团队通过大量实验发现,即使是目前最先进的GPT-4o模型,在处理复杂的半结构化表格时,也会遇到三个核心困难。首先是布局理解错误——AI经常把内容误认为标题,或者搞混了不同层级的信息关系。其次是数据检索不准确——在复杂的表格结构中,AI很难准确定位到相关的数据单元格。最后是推理过程不完整——面对需要多步推理的复杂问题,AI往往中途"迷路",无法维持完整的逻辑链条。

这些挑战促使研究团队重新思考问题的本质:如何让AI真正"理解"表格,而不仅仅是"处理"表格。他们意识到,需要一种全新的方法来表示和操作这些复杂的表格结构,就像为AI提供一副特殊的"眼镜",让它能够清晰地看到表格中的层次关系和逻辑结构。

二、构建表格的"DNA":层次正交树的创新设计

面对复杂表格理解的挑战,上海交通大学团队提出了一个极富创意的解决方案:将表格转换成一种被称为"层次正交树"(HO-Tree)的特殊数据结构。这就像为每个复杂表格建立了一个独特的"DNA图谱",完整保存了表格中所有的结构信息和关系网络。

要理解这个创新,我们可以把传统表格想象成一个平面的建筑图纸,而层次正交树则是这个建筑的立体模型。在这个模型中,每一个信息点不仅有自己的位置,还有明确的"家族关系"——谁是父母,谁是子女,谁是兄弟姐妹,这些关系都被清晰地标记出来。

层次正交树由两个相互关联的子树组成,就像一个完整生物体的两套循环系统。第一套是"元信息树",专门负责存储表格的骨架结构——所有的标题、栏目名称和层次关系。这就像建筑的承重墙和框架结构,决定了整个信息建筑的基本形态。第二套是"数据内容树",负责存储具体的数值和文字内容。这两套系统通过精巧的指针网络相互连接,形成了一个完整的信息生态系统。

创建这样的树状结构需要经过三个精心设计的步骤。首先是"信息侦察"阶段,系统使用先进的视觉语言模型来识别表格中的关键元素。这个过程就像一位经验丰富的考古学家在仔细辨认古代文物上的文字和图案,需要同时运用视觉识别和语义理解两种能力。系统不是简单地按照位置来判断某个单元格是标题还是内容,而是综合考虑字体样式、位置关系、语义含义等多个因素。

接下来是"结构分析"阶段,系统根据识别出的元信息,运用三个核心原则来划分表格的层次结构。第一个原则是"顶级标题识别"——如果某个单元格横跨整行或整列,那么它很可能是一个重要的分组标题。第二个原则是"优势判断"——当表格中同时存在横向和纵向的标题时,系统会选择覆盖范围更广的那一套作为主要的结构框架。第三个原则是"平行关系识别"——系统会寻找那些结构相似、地位相等的子表格,将它们归为同一层级。

最后是"树状重构"阶段,系统运用深度优先搜索算法,像拼装一个复杂的立体拼图一样,逐步构建完整的树状结构。这个过程充满了精妙的工程技巧,系统需要处理各种特殊情况,比如不规则的合并单元格、嵌套的子表格结构,以及跨越多个层级的数据关联。

为了更好地理解这个构建过程,我们可以用一个实际例子来说明。假设我们有一份公司的员工信息表,最顶层有一个标题"TD科技公司",下面分为"基本信息"和"员工信息"两个大块。在"员工信息"下面,又细分为"部门"、"姓名"、"年龄"、"级别"等小栏目。传统方法可能会把这些信息简单地排列成平面表格,而层次正交树则会建立一个多层的树状结构:顶层节点是"TD科技公司",第二层有"基本信息"和"员工信息"两个分支,第三层在"员工信息"分支下又有各个具体栏目。

这种树状结构的最大优势在于,它不仅保存了表格的所有原始信息,还明确记录了信息之间的各种关系。当用户询问"A部门有多少员工级别高于A级"时,系统可以沿着树状结构精确导航:先找到"部门"节点,筛选出A部门的记录,然后找到"级别"节点,筛选出高于A级的记录,最后统计数量。整个过程就像在一个组织良好的图书馆中查找资料一样高效准确。

三、智能操作工具箱:九种基础操作解析复杂问题

有了层次正交树这个强大的表格"DNA图谱",接下来的挑战就是如何让AI系统能够灵活操作这个复杂结构,就像给一位熟练的工匠配备了一套完整的工具箱。研究团队精心设计了九种基础操作,每一种都对应着人们在分析表格时的常见思维模式。

这些操作工具可以分为四个功能组别,就像一个多功能工具箱的不同分隔。第一组是"数据检索工具",专门负责从复杂的树状结构中精确定位和提取信息。其中最基础的是"子节点查找"操作,就像在家族族谱中寻找某个人的所有子女一样简单直接。当用户问及"基本信息包括哪些项目"时,系统会找到"基本信息"这个节点,然后列出它的所有子节点。

与之相对的是"父节点追溯"操作,这就像逆向追踪家族血缘关系。当我们需要了解某个具体数据项属于哪个大类时,这个操作就发挥了关键作用。比如当系统遇到"部门"这个字段时,它可以通过父节点追溯发现这属于"员工信息"这个大类。

最精巧的是"交叉定位"操作,这就像在立体坐标系中确定一个点的位置需要同时参考多个维度。当用户询问"A部门中级别为A+的员工有哪些"时,系统需要同时考虑"部门"和"级别"两个维度,找到它们的交集。这个操作特别适合处理那些需要多重筛选条件的复杂查询。

第二组是"数据加工工具",负责对提取的数据进行各种计算和变换。"条件筛选"操作就像一个智能的筛子,能够根据特定条件过滤数据。当用户问"年龄超过30岁的员工有多少"时,系统会设置一个"年龄大于30"的筛选条件,然后统计符合条件的记录数量。

"数值计算"操作则像一个多功能计算器,能够执行各种数学运算。无论是简单的加减乘除,还是复杂的统计分析,这个操作都能胜任。比如计算平均薪资、找出最大值最小值、求和计数等,都是它的拿手好戏。

"数据对比"操作就像一个公正的裁判,能够比较不同数据之间的关系。当用户想知道"张三的工资是否比李四高"时,这个操作会提取两人的工资数据,进行比较,然后返回明确的结果。

第三组是"智能对齐工具",这是ST-Raptor系统的一个独特创新。由于用户提问时使用的词汇可能与表格中的标准术语不完全一致,系统需要一个"翻译器"来建立对应关系。比如用户说"身份证号码",而表格中使用的是"ID",对齐操作就会通过语义相似度计算,自动建立这种对应关系。

这个对齐过程就像一个经验丰富的同声传译员,不仅能理解不同语言,还能在不同的表达习惯之间建立桥梁。系统会计算用户问题中的关键词与表格内容的语义相似度,然后选择最匹配的对应项。这种智能对齐大大提高了系统的实用性,让用户可以用自己习惯的方式提问,而不必拘泥于表格中的具体用词。

第四组是"语义推理工具",这是整个工具箱中最高级的部分。当遇到那些需要综合判断和语义理解的复杂问题时,系统会调用大型语言模型的强大推理能力。比如当用户要求"总结公司的基本情况"时,系统不仅需要提取相关数据,还需要用自然语言组织这些信息,形成条理清晰的总结报告。

这九种基础操作的设计理念体现了研究团队的深刻洞察:复杂的表格分析任务虽然看似千差万别,但本质上都可以分解为这些基础操作的组合。就像复杂的交响乐曲都是由基本音符组合而成一样,任何表格查询任务都可以用这些基础操作来完成。

更重要的是,这种模块化的设计让系统具有了很强的可解释性。当系统给出某个答案时,我们可以清楚地看到它执行了哪些操作步骤,每一步的逻辑依据是什么。这就像能够看到一位专家分析师的完整思考过程一样,不仅结果可信,过程也透明清晰。

四、智能问题分解:化繁为简的推理策略

现实世界中的表格查询往往不是简单的单步操作,而是需要多步推理的复杂思维过程。就像解一道复杂的数学题需要分步骤逐步求解一样,ST-Raptor系统开发了一套智能的问题分解策略,能够将复杂的用户问题拆分成一系列简单的子问题,然后逐步解决。

这个过程就像一位经验丰富的老师在指导学生解决复杂问题。当学生面对一道看似无从下手的综合题时,老师会说:"我们先从简单的开始,一步一步来。"ST-Raptor系统采用的正是这种策略,它首先分析用户的完整问题,识别其中的关键信息点和逻辑关系,然后将大问题分解成若干个相互关联的小问题。

以一个实际例子来说明这个过程。假设用户问:"A部门和C部门中,有多少员工的评级高于A级?"这个问题看似简单,实际上包含了多层逻辑:首先需要找到A部门的所有员工,然后在其中筛选出评级高于A级的,统计数量;接着对C部门执行同样的操作;最后将两个部门的结果相加。

ST-Raptor系统会将这个复杂问题分解成三个子问题:第一个子问题是"A部门中有多少员工的评级高于A级?"第二个子问题是"C部门中有多少员工的评级高于A级?"第三个子问题是"将前两个结果相加。"每个子问题都相对简单,可以用前面提到的基础操作来解决。

问题分解的过程充满了技术挑战。系统需要理解自然语言中的逻辑关系,识别并列、递进、条件等不同的语言结构。比如"并且"、"或者"、"但是"这些连词都暗示着不同的逻辑操作。同时,系统还要能够处理指代关系,比如"其中"、"它们"、"这些"等代词指向的具体对象。

为了提高问题分解的准确性,研究团队引入了一种"语义对齐"机制。这就像给系统配备了一个智能的"字典",能够在用户的问题描述和表格的实际内容之间建立精确的对应关系。比如用户说"员工编号",而表格中使用的是"工号",系统的语义对齐机制会自动识别这种对应关系,避免因为用词不同而导致的理解偏差。

在执行子问题求解的过程中,系统采用了一种灵活的"双向检索"策略。大部分情况下,系统采用"自上而下"的检索方式,从表格的顶层结构开始,逐步定位到具体的数据单元格。这就像在图书馆中按照分类目录查找图书一样,效率很高。但是当自上而下的方法遇到困难时,系统会自动切换到"自下而上"的检索方式,从具体的数据内容开始,反向推导出相关的结构信息。

这种双向检索策略特别适合处理那些结构不够规整的表格,或者用户问题没有直接对应标题的情况。比如当用户询问"姓张的员工有多少"时,"姓张"这个条件在表格的标题结构中可能找不到直接对应,但系统可以通过扫描具体的姓名数据,找出所有以张字开头的记录,然后统计数量。

为了处理大型复杂表格,研究团队还开发了一种"数据分组"技术。这项技术会根据数据的特征自动将表格内容分成不同的组别:离散型数据(如性别、部门名称)会按照类别分组,连续型数据(如年龄、薪资)会按照数值区间分组,非结构化数据(如备注、描述)会按照语义相似性分组。这种分组策略大大提高了大型表格的查询效率,就像为图书馆建立了更详细的索引系统一样。

整个问题分解和求解过程体现了人工智能的一个重要进步:从简单的模式匹配向真正的逻辑推理转变。ST-Raptor不是在庞大的数据库中寻找预定义的答案,而是像人类分析师一样,运用逻辑推理能力来理解问题、分析数据、得出结论。这种能力让它能够处理那些从未见过的新问题,具有了真正的智能特征。

五、双重验证机制:确保结果准确可靠

在复杂的表格分析过程中,即使是最先进的AI系统也可能出现错误。就像即便是经验丰富的会计师在处理复杂账目时也需要反复核查一样,ST-Raptor系统建立了一套独特的"双重验证机制",从两个不同的角度来确保分析结果的准确性和可靠性。

这套验证机制就像给每个分析结果配备了两个独立的"质量检查员"。第一个检查员采用"正向验证"策略,在分析过程的每一步都进行实时监控,确保每个操作步骤都合理正确。第二个检查员采用"反向验证"策略,从最终结果出发,反向推导验证整个分析过程的逻辑一致性。

正向验证就像一个严格的生产线质检员,在每个关键节点都设置了检查点。当系统执行某个操作时,验证机制会检查操作的参数是否与表格内容匹配,操作的逻辑是否合理,执行的结果是否符合预期。比如当系统试图查找"财务部"的员工信息时,验证机制会检查表格中是否真的存在"财务部"这个部门,如果不存在,系统会停止错误的操作路径,重新生成正确的查询策略。

这种正向验证特别擅长发现那些明显的操作错误。比如当系统试图在一个只包含员工信息的表格中查找公司的联系电话时,验证机制会立即发现这种语义不匹配,提醒系统重新理解用户的问题。更重要的是,当系统无法从表格中找到用户所需信息时,验证机制会诚实地返回"无法回答"的结果,而不是硬生生地给出一个错误答案。

反向验证则采用了一种更加巧妙的策略。它的基本思路是:如果一个答案是正确的,那么基于这个答案应该能够构造出与原问题相似的新问题。比如如果系统回答"A部门有5名员工",那么反向验证机制会生成类似"哪个部门有5名员工?"这样的问题,看看基于原始数据是否能得到"A部门"这个答案。

这种反向验证的巧妙之处在于,它能够发现那些表面上看起来合理,但实际上存在逻辑漏洞的错误答案。比如系统可能因为理解偏差,将"临时工"错误地归类到了"正式员工"中,导致员工统计数量出现偏差。正向验证可能无法发现这种细微的分类错误,但反向验证通过生成相关问题,能够暴露这种不一致性。

反向验证的另一个创新点是使用"相似度评分"来量化验证结果的可信度。系统不是简单地给出"正确"或"错误"的二元判断,而是计算一个0到1之间的置信度分数。这个分数综合考虑了多个因素:原问题与反向生成问题的相似程度、操作步骤的复杂度、涉及数据的完整性等。用户可以根据这个置信度分数来判断答案的可靠性。

为了提高反向验证的效果,研究团队还开发了一种"多样化问题生成"技术。系统不是只生成一个反向问题,而是从不同角度生成多个相关问题,形成一个"问题网络"。这就像从多个不同位置拍摄同一个物体,通过比较不同角度的照片来确认物体的真实形状一样。

这种双重验证机制的实际效果非常显著。在研究团队的测试中,未启用验证机制的系统错误率约为15%,而启用双重验证后,错误率降低到了不足5%。更重要的是,系统现在能够识别出那些它无法准确回答的问题,避免了"不懂装懂"的情况。

验证机制还带来了另一个意外的好处:提高了系统的可解释性。当用户对某个答案产生疑问时,系统可以展示完整的验证过程,包括每一步的检查结果和最终的置信度评分。这就像给每个分析结果附上了一份详细的"质量检验报告",让用户能够清楚地了解答案的来源和可靠程度。

六、突破性测试结果:全面超越现有方法

为了验证ST-Raptor系统的实际效果,研究团队进行了一系列全面而严格的对比测试。他们不仅与目前最先进的AI系统进行了正面对决,还专门构建了一个包含764个真实问题的测试数据集,全面检验了系统在各种复杂情况下的表现能力。

测试的结果令人印象深刻。在最具挑战性的SSTQA数据集上,ST-Raptor系统取得了72.39%的准确率,比表现第二好的GPT-4o系统高出了将近6个百分点,比其他传统方法更是领先了20个百分点以上。这种优势不是偶然的,而是在多个不同类型的数据集上都得到了证实。

更有趣的是,研究团队还按照表格的复杂程度将测试样本分为了简单、中等和困难三个级别。在简单表格上,ST-Raptor的优势相对较小,这说明对于结构清晰的表格,传统方法也能取得不错的效果。但是随着表格复杂程度的增加,ST-Raptor的优势越来越明显。在最困难的表格上,ST-Raptor的准确率比第二名高出了15个百分点以上,充分体现了其在处理复杂结构方面的独特优势。

为了更深入地理解系统的性能表现,研究团队还分析了各种方法的典型错误模式。传统的基于SQL的方法主要受限于强制的表格结构化过程,大量的布局信息在转换过程中丢失,导致后续分析基础薄弱。基于代码生成的方法虽然灵活性更强,但在理解复杂表格布局方面仍然力不从心,经常出现数据定位错误。

视觉语言模型的表现则呈现出有趣的特点:它们在布局理解方面相对较好,但在处理文本密集型表格时准确率明显下降。这主要是因为当表格被转换成图像后,文字信息的清晰度下降,特别是对于包含大量小字体文本的表格,视觉识别的准确性会显著降低。

最先进的大型语言模型(如GPT-4o和DeepSeek-V3)在整体表现上仅次于ST-Raptor,这说明强大的语言理解能力确实有助于表格分析。但是这些通用模型缺乏专门的表格结构处理机制,在面对复杂的层次关系和空间布局时,仍然容易出现理解偏差。

特别值得注意的是处理时间方面的表现。ST-Raptor系统平均每个问题的处理时间约为30秒,其中大部分时间消耗在网络通信和语言模型调用上。考虑到系统需要执行平均2.89个操作步骤,这个处理速度是相当高效的。相比之下,基于智能代理的方法由于需要更多的API调用和迭代优化,处理时间通常要长得多。

研究团队还对系统的各个组成部分进行了详细的消融实验,就像拆解一台精密机器来检查每个零件的作用一样。结果显示,层次正交树的构建是最关键的组件,去掉这个部分后系统性能下降了15个百分点,这证明了专门的表格结构表示方法的重要性。问题分解机制的贡献也很显著,去掉后性能下降了4.3个百分点,说明复杂问题确实需要分步骤处理。

验证机制虽然贡献看起来相对较小(6.3个百分点),但它的价值不仅在于提高准确率,更在于提供可靠性保障。在实际应用中,一个能够识别自己局限性的AI系统往往比一个盲目自信的系统更有价值。

最让研究团队感到鼓舞的是,ST-Raptor在处理真实世界数据时表现出了强大的泛化能力。测试数据集中的表格来自19个不同的应用领域,包括医疗记录、财务报表、人力资源管理等,系统在所有领域都保持了稳定的高性能表现,这说明它确实掌握了处理复杂表格的通用方法,而不是简单地记住了某些特定模式。

七、实际应用潜力:改变数据分析的未来

ST-Raptor系统的突破不仅仅是一项技术进步,更预示着数据分析领域的一场深刻变革。在不久的将来,这项技术有望彻底改变人们与复杂数据交互的方式,让普通用户也能轻松驾驭那些曾经只有专业分析师才能处理的复杂表格。

在医疗健康领域,这项技术的应用前景特别令人期待。目前,医院的电子病历系统中存储着大量复杂的半结构化数据,包括检验报告、影像诊断、治疗记录等。这些数据的格式各不相同,层次结构复杂,传统的数据分析工具很难有效处理。ST-Raptor系统可以帮助医生快速从海量病历中提取关键信息,比如询问"糖尿病患者中有多少人同时患有高血压?"或者"最近三个月血糖控制良好的患者有哪些共同特征?"这样的复杂问题。

在金融服务领域,复杂的财务报表分析一直是一项技术密集型工作。企业的年报、季报中包含着大量嵌套的表格结构,不同公司的报表格式也不尽相同。ST-Raptor可以帮助投资分析师和审计人员快速理解这些复杂报表,自动提取关键财务指标,进行跨公司、跨时期的比较分析。这不仅能大大提高工作效率,还能减少人为错误的发生。

在教育管理领域,学校和教育部门需要处理各种复杂的统计报表,包括学生成绩分析、师资配置统计、预算执行情况等。这些表格往往具有复杂的层次结构,需要从多个维度进行分析。ST-Raptor可以帮助教育管理者快速获得洞察,比如分析"不同年级学生的各科成绩分布情况"或者"师生比例与教学质量之间的关系"等问题。

更广阔的应用前景在于它对数据民主化的推动作用。过去,复杂的数据分析往往需要专业的技术人员,普通业务人员很难直接从原始数据中获得所需信息。ST-Raptor的自然语言交互能力降低了数据分析的门槛,让更多人能够参与到数据驱动的决策过程中。这种变化可能会催生新的工作模式和组织结构,让数据分析从少数专家的专利变成更广泛的能力。

当然,这项技术的推广也面临一些挑战。首先是数据隐私和安全问题。在处理敏感的医疗、财务数据时,需要确保系统的安全性和隐私保护能力。其次是准确性要求,在某些高风险应用场景中,即使是很小的错误率也可能导致严重后果,因此需要更加严格的验证和监控机制。

技术层面的挑战也不容忽视。虽然ST-Raptor在当前的测试中表现优异,但面对真实世界中更加多样化和复杂的表格结构时,仍然可能遇到新的挑战。研究团队已经意识到这些局限性,正在持续改进算法,扩展系统的处理能力。

从长远来看,ST-Raptor代表的不仅仅是一种新的技术方案,更是人工智能向更高层次认知能力迈进的重要一步。它展现了AI系统在理解复杂结构化信息方面的巨大潜力,为未来开发更智能的数据分析工具奠定了基础。随着技术的不断完善和应用场景的拓展,我们有理由相信,这种智能化的数据分析能力将成为数字时代的一项基础设施,深刻影响着我们工作和生活的方方面面。

说到底,ST-Raptor的真正价值在于它让机器具备了一种以前只有人类才拥有的能力:理解复杂信息的结构和含义,并基于这种理解进行灵活的推理和分析。这种能力的获得,不仅会改变我们处理数据的方式,更可能开启人工智能发展的新篇章。当机器能够真正"读懂"复杂的表格时,它们距离真正理解我们的世界又近了一步。

Q&A

Q1:ST-Raptor系统是什么?它能解决什么问题?

A: ST-Raptor是由上海交通大学开发的智能表格分析系统,专门用来理解和分析现实世界中那些结构复杂的表格数据。它能够像人类专家一样读懂医疗报告、财务报表等复杂表格,并用自然语言回答用户的各种问题,解决了传统AI系统无法准确理解复杂表格结构的难题。

Q2:层次正交树是什么?为什么这种方法比传统方法更好?

A: 层次正交树是ST-Raptor创新设计的一种数据结构,就像为复杂表格建立"DNA图谱",完整保存表格中的所有结构关系和层次信息。与传统方法将复杂表格"拍平"或转换成图像不同,这种树状结构既保留了原始信息,又明确记录了数据之间的各种关系,让AI能够更准确地理解和操作复杂表格。

Q3:ST-Raptor的准确率有多高?比其他系统强多少?

A: 在最具挑战性的测试中,ST-Raptor达到了72.39%的准确率,比表现第二好的GPT-4o高出近6个百分点,比传统方法领先20个百分点以上。特别是在处理复杂表格时,优势更加明显,在最困难的表格上比第二名高出15个百分点以上。

来源:科技行者一点号1

相关推荐