注意,AI工程师不会说:“模型能力就这样了”

B站影视 电影资讯 2025-09-06 14:25 1

摘要:在人工智能领域,如何有效利用AI技术并确保其可靠性和可扩展性是一个关键问题。本文通过实际案例,深入探讨了AI项目中的模型边界、可观测性以及数据工程的重要性。

在人工智能领域,如何有效利用AI技术并确保其可靠性和可扩展性是一个关键问题。本文通过实际案例,深入探讨了AI项目中的模型边界、可观测性以及数据工程的重要性。

上周AI训练营第一批学员(1、2班)毕业了,最终给出了平均80分的课程评价,其中最低的70分,最高的95分,还出现了几个推荐学员的情况,如释重负,总算没有被当成割韭菜的…

这里特别想要炫耀一嘴的是其中一位产品负责人的感叹:

我终于知道,为什么搞不懂公司那批程序员在做什么了,他们在做技术架构的时候采用的是AI Max思路:

一个开源技术不行就换一个,单智能体不行就换多智能体,全部试过以后就说AI的上限就是这样,没有优化空间了,等新的技术开源了就再来一遍。

我有时候确实好奇,忍不住要问一他们怎么量化上限、有没有过程方法论?这批程序员就说量化不了、沉淀不了,都是别人的东西跑一下就好了。

我总觉得哪里不对,但因为不懂也说不出个所以然,只能听之任之,现在好了,确实不行,老子来给他们设计技术路径!

其实,上述场景是很多公司正在遭遇的问题:因为AI项目的入场门槛太低,导致整个公司没一个人懂到底什么是AI项目,也可以开发出一个70分的东西,但要优化到80分就整个完犊子了…

根据以之前的经验,一次试错少点50万,多点甚至上千万,AI技术负责人在第三次的时候,就不得不真的深入下场探索合适的技术路径了,这个东西的成本嘛至少100万起…

于是麻烦事也就出来了,公司花了100万的AI项目看着像玩具样,你问技术负责人怎么改,技术负责人一脸懵逼最后来一句:当前模型能力就这样了,我也没法啊…

最终的结果各个老板对AI的预期大减,觉得泡沫太大,也不愿意做过多投入,所以2025年到如今,80%+以上的公司都在各种搭建工作流,根本没有涉足AI项目的深水区。

这些深水区至少包含以下三点:

第一,如何将认知整理成知识,或者已经有知识的情况下,如何组织数据;第二,数据应该如何与AI交互,保证每次AI都能拿到相关数据。发现由于数据不足导致的AI问题,应该如何用生产数据反馈系统优化知识库,这就是我们常说的数据飞轮系统,他是数据工程的一个分支;第三,也是最后一个关卡,意图识别;

如果非要将这里所谓深水区再做精炼、浓缩,变成面试过程中的一句话,那么他可以是:AI项目的模型边界,或者AI项目的可观测性。这里的可观测性也就是各个技术负责人苦苦追寻的技术路径。

只不过这句话的背后却有着一连串的背景知识,复杂度极高,那么有没有简单的理解方式呢?答案是也可以有!

可观测性

最近在给学员上课的时候,最常说的一句话是:做AI应用一定要了解模型边界!这里所谓模型边界涉及了AI应用的两个流派:

AI Max:能用AI就用AI;AI Min:能不用AI就不用AI;

就简单的三句话就直接指向了RAG 技术的最初开创者之一Douwe Kiela的核心观点:关注AI项目的可观测性,而非仅仅准确性。

AI项目的可观测性比准确率更重要。在保证基础准确率后,重点要转向归因追溯、审计追踪和错误分析,然后,建立反馈闭环监控系统,确保合规并持续改进。

在AI项目中,达到100%的准确性几乎是不可能的。即使能达到90%或95%的准确率,企业现在更关心的是如何处理那缺失的5%或10%——即不准确的部分。当出现错误时该如何应对?

除了基本的准确性要求外,关键在于如何处理不准确性,这就需要可观测性。需要仔细评估系统表现,并确保有适当的审计追踪,尤其是在受监管行业。

而这里所谓的可观测性,只在能不用AI就不用AI的模式下可行,他的背后体现的是模型的边界认知:追求完美准确率不现实,关键是要知道错在哪、为什么错、怎么改!并且能证明技术框架是闭环可重复的!

而这里的哪里错、为什么错、怎么改,恰恰是前面各个技术负责人难以回答的问题,今天我们就用一个简单案例来解释解释什么是能用AI就用AI,什么是能不用AI就不用AI,什么又是AI项目的可观测性。

模型边界

之前AI课的时候学员过多,需要一个排班系统,大概的需求是:

学员在微信群打出自己每天的空余时间,AI会主动统计大家都有空的时间,如果满足条件就预约会议,学员在群里的聊天信息如下:

A:20.00-22.00有空
B:18-20点没空,其他都可以
C:二十点后可以;
D:下午4点前没空;
E:我随便了,都行;

当然,实际功能会有很多提醒、少数服从多数,协调学员调整时间等功能,但主体需求就是一个时间算法。

非常简单的需求,但就是这么一个简单的系统就能聊清楚什么是模型边界。

首先是能用AI就AI的技术路径:

一、能用AI就AI

全部用AI就很简单了,直接一股脑丢给模型加一句“请问今天我该安排什么时间上课”就行:

DeepSeek的回答:

如果在简单场景下,能用AI就AI其实是最优解,包括很多智能体如Manus在简单任务里面的表现是非常不错的。

随后就是,能不用AI就不用AI:

最小化AI应用

所谓最小化AI应用,就是只在不得不使用AI的地方使用,比如这里不得不使用的地方就是提取关键词,也就是语义识别每个学员的空闲时间:

A:空闲时间段为 20:00 – 22:00(即晚上8点到10点)。B:18:00 – 20:00 没空,其他时间空闲(即 00:00 – 18:00 和 20:00 – 24:00)。C:二十点后可以,即 20:00 – 24:00 空闲。D:下午4点前没空,即 16:00 – 24:00 空闲(下午4点为16:00)。E:所有时间都空闲(即 00:00 – 24:00)。

拿到空闲时间后,再自己用算法去做实现,这里马上就涉及了另一个问题了:在最小化AI应用的场景里,什么时候需要用AI?

泛化能力

答案很简单,在充满泛化场景的时候需要,比如上面ABCDE的回答,你很难用正则的方法给他匹配出来,类似这种关键词(关键知识)的提取只能依靠AI;

类似的场景是,我要求学员的昵称必须是学号-昵称-城市的格式,但学员一定会做得五花八门,比如就有学号_昵称_城市、城市_学号_昵称、学号昵称@城市等等莫名其妙的排布方式。

这种在学员自己设置后,也只有AI能快速帮他们做更正。

所有类似这种泛化要求较高的往往都必须AI出场,并且AI在这个领域做得挺好的!

那么,什么又是模型能力可观测性呢?

可观测性

答案也非常简单:如果出现了AI识别不了的情况,能很快识别并解决!

比如现在出现一个F,他给的答案比较另类:戌亥之时,余有暇。

类似于这种回答,模型很可能识别不了,那么排班系统就会出问题,这个在能不用AI就不用AI的模式下就可以被识别并优化。

这里的可以被识别且优化就是我们所谓的模型能力可观测。

最后一个问题:如何优化?

如何优化?

如果发现问题要优化就很简单了,最简单的做法是将戌亥之时,余有暇。对应的时间当放到提示词,做一个古文时间与现在时间的映射。

如果要泛化能力强一点就可以启动后训练,可以是微调也可以是RL,都一样。

以上整个就是所谓模型边界最简单的描述,真实场景当然会复杂太多!

演进逻辑

其实眼尖的同学已经发现了,所谓最大化模型使用与最小化模型使用在这个案例里面其实没有明显的界限,以最小化模型使用优化后的模型(训练过)来说,他是完全可以被最大化模型使用所利用的。

只不过差别是:是否建立了这套观测机制,而观测机制对应的最终多半都是数据工程…

AI应用的终局,都是数据工程,数据如何配合最小化模型应用把准确率做到99%,在这个基础上就可以切换至最大化模型使用增加整体的AI应用泛化能力。

学员排班系统当然很简单,但他背后体现出来的模型边界、能用/不用AI、可观测性优先的理念,却是构建可靠生产级别AI应用的基石!

这套逻辑在教育、法律、金融、医疗等对准确性、合规性、可解释性要求极高的领域,尤为重要,而其演进的核心驱动力,正是数据工程。

举个例子:

AI边界与数据飞轮

合同审批对于稍微大点的公司都是头疼的事情,文本冗杂、法规多变、零容错等都是挑战…

最小化模型应用

这个场景对模型最核心的诉求是高确定性动作:

精准抽取关键字段(金额、法律适用地等),F1值≥0.98;规则引擎比对白名单条款,覆盖率≥95%;异常即熔断:遇未知条款自动转人工,日缺失率≤0.5%。

最大化模型应用

当基础链路稳定(>99%精度),解锁高阶能力:

生成风险摘要(改写建议+法条链接);智能追踪多版本差异;自动草拟谈判邮件;

有了以上基础就可以实现数据飞轮:

飞轮系统

这里的应用可观测性的结果是各种错误数据收集:

错误样本:解析失败条款→标注→微调模型;指标实时监控:字段缺失率超0.5%触发警报,AI与规则结论冲突超0.1%启动双检;

实现上跟上面的排班系统理念类似,只不过复杂度高了不少,具体来说就四个点:

错误转化链:人工修正→自动生成训练对→对抗样本增强精准训练:按错误类型分库+小模块微调闭环验证:历史错误测试/影子模式/业务指标监控溯源机制:追踪码贯穿数据-模型-决策全链路

系统自动捕获合同审核中的AI错误(如条款误判、引用失效),触发人工复核流程。法务人员在专用界面修正错误时,同步生成〈错误样本-正确答案〉数据对,并标注错误类型。

捕获的数据进入自动化处理管道:首先清洗无效样本,随后生成对抗性变体(例如将误判条款改写为不同表述)。处理后的数据按类型归档至专项训练库,例如“赔偿条款库”或“数据跨境库”。

模型更新采用靶向训练策略:每周选取特定错误类型的专库数据,对基础模型进行轻量化微调。新模型上线前至少要确定在历史错误样本上测试复发率…

其他,大家再自己去理解吧,说再多就要露底了…

结语

当前AI行业受Manus类智能体思维影响严重,总是想要一口气吃个大胖子,各种宣导模型即所有,这种其实是不对的。

真正可落地的AI应用,并不是一股脑交给模型或完全依赖规则的二选一,而是在 最小化与最大化模型使用 之间建立一条以 可观测性 为核心的演进曲线:

先用小而精的 AI 能力解决泛化难点,配合明确的监控指标、可追溯链路和数据飞轮,不断把错误转化为增量资产;当基础链路稳定到 99% 以上,再逐步释放大模型的创造性与泛化力。

当然,以上也仅仅是我一家之言,大家随意就好…

来源:人人都是产品经理

相关推荐