摘要:导读在人工智能技术快速发展的浪潮中,数据作为驱动 AI 发展的核心要素,其范式变革不断推动着技术的突破。近年来,高质量推理数据逐渐成为行业关注的焦点,成为 AI 发展新的重要驱动力。蚂蚁数科在这一领域展开了深入探索与实践,本文将围绕蚂蚁数科在推理数据领域的研究
导读 在人工智能技术快速发展的浪潮中,数据作为驱动 AI 发展的核心要素,其范式变革不断推动着技术的突破。近年来,高质量推理数据逐渐成为行业关注的焦点,成为 AI 发展新的重要驱动力。蚂蚁数科在这一领域展开了深入探索与实践,本文将围绕蚂蚁数科在推理数据领域的研究成果,从高质量推理数据范式、金融场景应用、智能标注、智能质检以及 AI 数据合成与生产技术平台等方面展开详细阐述。
主要内容包括以下几个部分:
1. 高质量推理数据成为行业新范式
2. 推理数据在金融场景的探索
3. AIGD: AI 数据合成与生产技术平台
4. 问答环节
分享嘉宾|蔡健生 蚂蚁数科 高级技术专家
编辑整理|王红雨
内容校对|郭慧敏
出品社区|DataFun
01
在人工智能的演进历程中,其发展可清晰划分为三个典型阶段。第一阶段是 2022 年以前,以决策式人工智能为主导的时期。此阶段深度学习技术蓬勃发展,通过构建数据闭环实现决策优化是核心目标。数据收集主要围绕用户行为等描述性数据展开,提升决策的准确性。
第二阶段自 2022 年底生成式人工智能兴起,以 OpenAI 的 GPT-3 发布为标志性事件,开启了知识注入时代。在这个阶段,数据标注成为提升模型能力的核心手段。
面向未来,通用人工智能(AGI)将成为发展方向。然而,互联网数据增速与模型需求之间存在着结构性矛盾,随着模型对数据量和质量的要求不断提高,传统依赖互联网数据的模式已难以满足需求,数据合成将成为关键路径。强化学习与仿真技术等或将支撑 AI 实现数据自生成与智能进化。
添加图片注释,不超过 140 字(可选)
当前,我们正处于生成式 AI 向 AGI 过渡的关键节点。2025 年春节期间 DeepSeek R1 的推出,标志着推理模型的全面爆发,能够在复杂问题场景中展现出强大的逻辑推理能力。这一转变使得数据需求发生了根本性调整。相较于生成式 AI 阶段依赖的大规模标注语料,推理模型更强调小规模、高质量的推理数据,尤其是包含长思维链(COT)的推理密集型数据。此类数据成为驱动模型推理能力跃升的核心要素 。从大模型综合排行榜Chatbot-Arena也能清晰看到推理模型的快速崛起。自去年 OpenAI 的 o1 模型出现,到 DeepSeek R1 模型推动推理模型加速发展,短短数月,推理模型已在排行榜上占据半壁江山。
以下将从数据视角,详细阐述 DeepSeek R1 模型的训练过程:
第一阶段为 DeepSeek V3 基础训练,此阶段与其他模型训练范式相似。
第二阶段是推理注入阶段。引入小规模(千级别)的推理密集型数据训练出 R1-zero。该模型虽在推理能力上表现突出,但能力较为单一,如同擅长理科竞赛的“奥赛选手”,在实际复杂场景应用中存在局限性。
第三阶段为推理泛化阶段。模型实现从专注特定领域推理到具备广泛场景适应性的转变,如同从“理科奥赛选手”成长为“理科博士”,最终形成 DeepSeek R1 模型。该模型兼具强大的推理能力与泛化能力,能够高效胜任多种复杂任务,展现出优秀的综合性能。
以 DeepSeek 的训练模式为范例,该模式为各行业训练垂类推理模型提供了重要参考。在未来,各行业势必会借鉴这种训练方式,结合自身领域特性构建专属的垂类推理模型。而在垂类推理模型从理论走向实际应用的进程中,高质量的长思维链数据将成为不可或缺的关键要素,直接决定着垂类推理模型的性能上限与应用价值。
02
推理数据在金融场景的探索
在金融这个垂直行业,训练大模型常用的数据集可大致分为两类。一类是逻辑推理较强的数据集,如金融数值计算、金融逻辑回答等,这些数据需要模型具备深度的逻辑分析和计算能力,以解决复杂的金融问题,例如计算金融衍生品的价值、分析金融市场的走势逻辑等 。另一类则是推理相对较弱的数据集,如金融对话、金融知识问答等,主要用于满足日常金融咨询和简单知识交互的需求。
目前,这些数据集大多采用传统的 QA(问答)形式,但其中缺乏关键的推理过程。蚂蚁数科猜想,如果能够补全中间的推理过程,将其转化为高质量的长思维链数据,或许能显著提升模型在不同金融任务中的性能。基于此假设,蚂蚁数科展开了一系列探索。
蚂蚁数科构建了金融长思维链数据的生产链路,主要包括长思维链数据的合成和长思维链数据的评估两部分。在数据合成方面,通过“由果推因”和“由因推果”两个步骤进行数据扩充。
“由果推因”基于因果推断中的反事实技术。具体操作是,对每一条 QA 数据进行分析,提取关键变量,并分析这些变量与答案之间的关联关系。之后,调整答案,驱动关键因素发生变化,从而形成新的数据,并对新数据进行质量检查,包括因果合理性判断和语句通顺度检查,确保新生成的数据符合常识和逻辑。
“由因推果”则是在补充完数据集后,利用大模型对长思维链数据进行进一步补充,为后续训练做准备 。在质量检查环节,考虑到金融数据的稀缺性和昂贵性,蚂蚁数科引入反向改写技术,保留无效数据并将其转化为有效数据,从而增加整体数据量 。最后,通过专家标注环节,对筛选和扩充后的数据进行 Ranking 和改写,得到高质量的长思维链数据。
03
AIGD: AI 数据合成与生产技术平台
蚂蚁数科自主研发的 AI 数据合成与生产技术平台——AIGD,构建了完整的数据产品生产链路,全面覆盖数据采集、加工、标注合成及质检评估四大核心环节。
通过该平台,能够为大模型全生命周期提供多样化数据支持 。在预训练阶段,提供大规模通识数据,帮助模型建立广泛的知识基础;在微调阶段,提供高质量垂类专家标注数据,使模型能够适应特定领域的需求;在后训练阶段,针对推理模型,提供长思维链数据,提升模型的推理能力。
旨在通过产出高质量行业数据,加速各领域垂类推理模型的落地进程 。能有效解决智能体预定义工作流难以处理复杂任务的局限性。
此外,蚂蚁数科在 AI 领域的布局不仅局限于数据服务,还延伸至 AI 安全、智能体应用等方向。尤其在金融综合解决方案上,蚂蚁数科最近发布了金融推理大模型 Agentar-Fin-R1,金融 CoT 数据集 Agentar-DeepFinance-100K,以及金融智能体开发平台 Agentar,加速大模型在金融行业的落地应用。
04
问答环节
Q1:反式改写如何保证要素抽取、因果图关联及改写的正确性?
A1: 质量把控:采用不同模型投票机制确保合理性,最终由专家标注把关,确保因果合理性和语句顺畅度。
Q2:数据过滤 pipeline 的算子体系如何迭代更新?
A2:算子管理:AIGD 平台设有算子广场,包含通用算子及垂类场景算子。开发同学基于数据加工需求自由组装,如无合适,再开发新算子放入库中。
Q3:如何核定高质量数据?打标时筛选哪些指标?
A3:质量核定:行业专家对同一问题的多个推理过程进行排序,判断合理性及质量,必要时进行改写,以专家经验作为质量兜底。
以上就是本次分享的内容,谢谢大家。
来源:DataFunTalk
