摘要:在海外社交媒体 X 平台,埃隆·马斯克(Elon Musk,@elonmusk)关注的一位头部科技博主“AK(@_akhaliq)”发布推文,推荐 TeleAI 的首个工业级表格生成报告评测基准 T2R-bench。
近日,一项来自中国电信人工智能研究院(TeleAI)的开源工作在国外又双叒叕火了!
在海外社交媒体 X 平台,埃隆·马斯克(Elon Musk,@elonmusk)关注的一位头部科技博主“AK(@_akhaliq)”发布推文,推荐 TeleAI 的首个工业级表格生成报告评测基准 T2R-bench。
AK(@_akhaliq)介绍:“(这是)一个用于从现实世界工业表格生成文章级报告的基准。”
DailyPapers(@HuggingPapers)评价:“它能够应对将复杂、多样的表格转化为连贯、富有洞察力的叙述内容这一挑战。”
Rohan Paul(@rohanpaul_ai)表示:“该基准要求进行全面分析,而非生成碎片化内容,因此着重考察(模型的)长上下文处理能力、跨表格关联能力以及对表格布局特殊情况的处理能力。”
TeleAI 的前沿创新工作已经不是第一次受到国外科技圈的关注。此前,针对“智传网(AI Flow)”的技术报告就得到包括 AK(@_akhaliq)在内的一众海内外科技博主和科技媒体的热议和报道。
正是在“智传网(AI Flow)”的技术布局下,TeleAI 进一步推动包括大模型、具身智能、智能体等技术的创新和应用。
本次发布的 T2R-bench 评测基准之所以能引发如此热度,还要从大模型落地的一个关键场景说起:工业级 AI 表格分析。
在真实应用场景中,表格并不会像“标本”那样格式完美。非统一的布局、分层表头、合并单元格、超大表格、多表格数据联动才是常态。这些复杂的表格结构,往往会对大语言模型的表格分析与结构化理解构成挑战。
此外,尽管已有大量研究关注大语言模型在表格推理任务上的表现(如问答、简短文本生成等),但这些任务往往停留在碎片化信息,和工业界期望的“从表格生成完整报告”(Table-to-Report)相去甚远。
生成综合报告不仅需要模型深度理解表格内容、执行多步推理,还需整合信息、保障数值准确,并符合行业报告的逻辑性和实用性要求。当前缺乏能够反映此类复杂任务的评估基准,导致大语言模型在工业环境中的应用效果仍不明确。
为了解决这些难题,TeleAI 发布并开源业内首个面向真实工业场景的表格生成报告基准 T2R-bench。相比于各类开源表格数据集,该基准是业内目前覆盖工业级表格类别最全的数据集,包括单表多 sheet、多表多 sheet、复杂结构表、超大宽表等。
T2R-bench 共收录 457 个真实业务表格,覆盖 6 个一级大类和 19 个二级业务小类,包括:汽车、能源、金融、政务、财务、科技、教育、银行等垂域,还开源了 910 个高质量问题和 4320 个经过人工标注的高质量报告关键点(金标准)。
论文地址:
GitHub 地址:
Huggingface 地址:
T2R-bench 的构建过程
T2R-bench 的构建过程采用了多阶段的人工协作方法,覆盖表格数据收集、表格问题标注和报告关键点标注三大环节,核心目标是创建一个可靠且可评估的基准,以支持大语言模型在报告生成任务上的测试。
表格数据收集阶段:
所有表格数据均来自真实工业环境,以确保实用性和多样性。
首先,TeleAI 科研团队从市政开放数据平台(如中国国家统计局官网)、行业协会网站和开源表格数据集预筛选表格,重点关注 6 大领域(工程、金融、政务、交通物流、生活方式、环境管理等)和 19 个子领域(如电子制造、金融分析);随后过滤掉含较多乱码文本或空白单元格的低质量表格,并进行人工审核以脱敏。
最终,T2R-bench 数据集包含了 457 张表格(252 张中文表和 205 张英文表),并涵盖多种表格类型,如复杂结构表(28.9% 的表格含分层索引或合并单元格)和超大规模表(8.3% 的表格超过 5 万单元格)。
表格问题标注阶段:
为了生成有针对性的报告任务,问题标注采用半自动化方法平衡效率和质量。
专家团队(24 名标注者,具备数据分析和报告撰写经验)精心设计 10 个种子问题和5个提示模板作为生成基础;然后,科研团队使用自指导(self-instruct)技术结合 GPT-4o 模型,基于表格内容自动生成候选问题池。
人工标注阶段由两名标注者独立评估每个问题,依据三个标准:是否可仅用表格数据回答(无需外部知识)、是否聚焦单一分析维度以得出明确结论、以及是否与其他问题互补无重叠。不一致结果由资深标注者仲裁,确保最终筛选出 910 个高质量问题。
报告关键点标注阶段:
鉴于报告生成任务输出的非唯一性(如表达风格差异),T2R-bench 创新性地引入“报告关键点”(report keypoints)作为评估基准。
关键点代表了报告的核心内容,如核心观点、分析结论和证据数据。
构建过程分三步:
第一步,使用多个 LLM 为每个 对生成 3 份不同报告。
第二步,从每份报告提炼 5-10 个关键点。
第三步,进行人工验证,双标注者审核关键点是否忠实于表格、相关且非冗余,分歧由专家裁决。
最终,产生 4320 个标注关键点,作为后续评估的黄金标准。
T2R-bench 的评价维度
传统表格任务评估基准(如 BLEU/ROUGE)存在两大缺陷:无法验证报告中的数值与表格的一致性,无法避免机械式的文本对照匹配。为此,T2R-bench 设计了三准则互补评估框架,覆盖数值准确性(NAC)、信息完整性(ICC)和总体报告质量(GEC)三大准则。
准则1:数值准确性(NAC)
T2R-bench 通过以下流程对生成报告中的所有数值陈述进行事实核查,评价大模型是否“说得对”。
首先,从报告中定位含数值的句子(如“库存量增加 15%”)。随后,将数值语句转化为验证问题(例:若报告写“总销售额为 ¥24,892”,则生成“计算表 1-3 的销售总额”)。接着,使用 Qwen2.5-32B-Coder、Deepseek-Coder、CodeLlama-70B 三类代码模型解析问题,生成 Python 代码并从原表提取数据执行计算。最后,依据多数投票裁决,至少两模型结果一致时判定为正确,否则标记为“无法验证”。
准则2:信息完整性(ICC):
T2R-bench 将 4320 个报告关键点(report keypoints)作为金标准,衡量生成报告中包含多少关键信息内容,评价大模型是否“说得全”。
其中联合概率 P(ki,sj) 及其边缘概率通过每个关键点 ki 与句子集群 sj 之间的相似度矩阵 S(经由 BERTScore计算)得出。经归一化处理后,ICC 值范围处于[0,1]之间。
准则3:总体报告质量(GEC):
在这一环节,T2R-bench 主要衡量大模型生成报告的文本质量和实用性,并补充前两准则的局限性,评价大模型是否“说得好”。
评估涉及到推理深度、类人风格、实用性、内容完整性、逻辑连贯性这五个维度,并采用 LLM-as-Judge 范式,输入报告和评分规则(10 分制),输出各维度分数及理由。最终的 GEC 得分为五个维度的均值。
T2R-bench 的评测结果
TeleAI 研究团队依据 T2R-bench 基准,全面测试了当前领先的 25 种大语言模型(包括开源和闭源)。在众多模型中,即使表现最优的 Deepseek-R1,也仅取得 62.71 的平均综合得分。这凸显了在真实的工业场景下,大语言模型尚未具备稳健可靠的表格理解、信息转换与深度分析能力,报告生成任务上仍有很大改进空间。
此外,实验还揭示了表格生报告任务中的关键影响因素:
表格输入格式影响:即使是相同的表格数据,以 Markdown 格式输入模型相较于 HTML或 JSON 格式,有显著的表现提升。
表格复杂性影响:随着表格单元格数量的增加,及表格结构样式的复杂性提升,模型整体性能出现显著下降,这一现象在多表关联、复杂结构表格及超大宽表上更为明显。
语言差异影响:大多数模型在中文和英文环境下的表现相似,但仍有一些模型(例如Llama 系列模型)显示出较大性能差异,从侧面刻画了不同模型在表格生报告任务上的本质差异。
幻觉及关键信息缺失影响:数值事实错误、生成错误、表格结构理解错误及生成的报告未能全面覆盖要点导致的信息缺失,都会不同程度的影响模型整体推理能力,进而显著降低生成报告的最终质量。
T2R-bench 为大语言模型在工业场景中的落地应用提供了重要的评估基准,更显著提升了评估的严谨性与可解释性。
在产业应用中,这一基准将极大推动大模型在金融分析、生产分析、能源管理、城市管理等众多高频高价值场景中的落地,帮助提升决策效率水平。T2R-bench 的开源也将加速产学研用协同,在开源生态中加速未来技术演进,让 AI 成为真正赋能产业变革的核心力量。
大规模表格理解、分析、问答是大语言模型的核心能力,在多种行业和领域有着重要的应用前景。TeleAI 进行长期深入研究,并取得众多成果,在“ACL 2025”(第 63 届国际计算语言学年会)举办的“国际语义评测(SemEval)”竞赛中,斩获“大规模表格问答基准评测任务”赛道冠军。
来源:TeleAI