新模型上线后就不如老模型了,这正常吗?

B站影视 日本电影 2025-06-08 20:18 2

摘要:在数据分析和机器学习领域,模型迭代是提升性能的常见手段,但一个令人困惑的现象是:新模型上线后有时反而不如老模型表现好。这种现象在信贷风控、海外现金贷等领域尤为突出。

在数据分析和机器学习领域,模型迭代是提升性能的常见手段,但一个令人困惑的现象是:新模型上线后有时反而不如老模型表现好。这种现象在信贷风控、海外现金贷等领域尤为突出。

22年我写了一篇《关于那个新老策略模型孰好孰坏的问题》,当时是有感于,我看到一些大厂在迭代模型时,总是看到巨大的效果提升,尤其是在严重多头之类的下沉客群。这里有巨大的陷阱,我懒得说,说了也没人信,因为他们不敢信。

最近有一些做海外现金贷的读者来交流问题,我才意识到,这个探讨更大的价值在海外现金贷。因为海外场景,客群下沉通过率低,模型 AUC/KS 不高波动又大,常常会出现,新模型开发样本上效果比老模型好很多,上线后反倒又不如老模型了。

这是因为你们的评估是不客观的,开发时和上线后的评估都不客观。大部分信贷场景,没有真正的随机流量和 abtest,新模型上了老模型就下了,开发时,算新模型效果多算了 swap-out 人群,上线后,算老模型效果多算了 swap-in 人群。

开发时和上线后的换入换出如上,在开发样本上评估,对老模型不公平,在上线后样本上评估,对新模型不公平。想要公平,一定要对齐样本。

有三种样本是对齐的。一个当然就是4个象限的全体,一个是both-in客群,一个是both-in、swap-in和swap-out一起。

新老模型策略到底哪个好哪个坏,解决办法有四种。所有的办法都是在解决这个样本对齐问题。

……

任何在这个行业里做过较长时间策略或模型的人,一定会经历模型策略迭代的过程;任何经历过模型策略迭代的人,只要有过独立思考,一定会遇到新策略是不是一定比旧策略更好的问题。

贷前也好,贷中也罢,当前的风险表现都是当前这套风险策略的结果。当我们要迭代模型策略的时候,KS也好,Lift值也罢,你会高估新模型策略的效果,更为可靠的说法是,你会高估新版对旧版的提升效果。

因为评估的样本,并不完全是应用的样本,这就产生了选择偏差,或者说幸存者偏差,我们是在“幸存者”上确保了新好于老。

常见的现象是,新模型永远比旧模型好,但却并不一定是真的好。试问,如果新模型新策略永远比旧模型旧策略更好的话,为什么业务没有变得更好?

因为上述问题的必然性和重要性,新老策略模型究竟孰好孰坏,可以说是这个行业最经典的问题。

我们今天来聊一聊解决办法。思来想去,解决办法似乎有四种,是哪四种呢?这四种又具备哪些优劣点呢?

1、随机流量

最彻底的一种是随机流量。随机一部分流量例如1%,让其通过,给随机额度随机定价,任其表现。也不需要100%通过,政策风险、欺诈风险等前置稳定不变的策略可以照常有。

这部分流量,可以用来建模,可以用来评估,最重要的是用来评估。任你选什么样本,任你做多少模型,任你套什么算法,只要在这个随机流量上效果是更优的,就有理由认定为模型是更优的。策略当然也是一样。

当然,还有一些前提要满足,例如样本量得足够大、时间窗口得足够长、模型本身稳定性得尽可能高。因为,真正的目标是在未来的随机流量上的效果好。

这个办法没有任何坏处,除了费钱。信贷领域,随机流量的成本太高了,年化24%的产品,多少个好客户的收益才能弥补一个坏客户的损失?

所以,这个办法用的并不多。只有头部效应明显、营收稳定的平台有可能会预留一部分资产预算用于随机流量。

也不对,远超过24%年化的那个黄金年代,也适用,只是他们不是为了随机流量而随机,而是没有太多风控,暴力催收+高息可以搞定。

2、拒绝推断

顾名思义,拒绝推断就是对拒绝的样本进行风险表现的推断,是去解决幸存者偏差的问题。有了全量样本的表现,模型策略孰好孰坏一算便知。

上面说的随机流量,其实就可以看作拒绝推断的一种解决办法。其他的办法,不管是推断拒绝样本的表现也好,还是获取拒绝样本在其他产品上的表现也好,总归是非真实的。你说引入了信息,我说引入了噪声。

引入不精确的信息来解决精确性的问题,总归是值得怀疑的。事实上,拒绝推断有没有用就是一个玄学,它压根就不值得做。

对于拒绝推断,实际上在用的是少之又少。因为太多假设,因为不准,就不如不用,就像判别模型大体总是比生成模型有效。

3、冠军挑战者

国外来的叫法,但其实就是ABtest。

当前线上的策略作为冠军组,拟上线的策略作为挑战组,挑战组可以有多个。因为表现期滞后且本金损失大,随机切小部分流量给挑战组,不宜过多,例如10%。任其表现,优劣自明。

挑战成功,则挑战者成为新的冠军者,可以全部切换新策略。但也可以不全切,甚至可以永远保持50%:50%的冠军挑战者。好处当然是对比得更充分,且可以应对突发情况,其一下线其一递补。

ABtest当然具备很强的严谨性,但在风控领域,效率不行。前已备述,风控不需要做ABTest?

ABtest最大的优势是,当你无法评估多个方案的优劣时,你不知道哪种字体、哪个颜色、哪种文案、多少度的倒角,究竟哪个好哪个坏,试了才知道。

而风控领域,你做了一个模型,然后跟老板说我也不知道有没有更好,测了才知道。祝你好运!

你做的模型一定是要离线评估更优的,当然,离线评估没有线上真实去测的可靠性那么高,但也应该尽可能高。

4、分群评估

上述办法的弱点都很明显,那有没有弱点没那么明显的办法?有,那就是分群评估。

请君静听。

分群评估当然就是把整个客群分成很多的客群,分别看这些客群下的效果。关于分群的艺术,可以说是互联网业务中最重中之重的法宝。不信?我的客群观,互联网业务的流量之争

分群评估的奥秘在于,不同客群的通过率或者额度定价是不同的,受策略影响大的客群评估效果离真相越远,那受策略影响小的客群评估效果则离真相就会越近。

在一个通过率10%的客群上,新模型优于旧模型易如反掌,但这不是真的优,我说的是在开发时。在一个通过率90%的客群上,新模型优于旧模型才是真的更优。

分群评估在这个问题上有效,取决于一个假设,那就是一个模型相比另一个模型要好,那会是全方位地好。如果模型B优于模型A,那么不管是整体,还是各个客群,都是B更好。

反之亦然。在受样本有偏影响更小的客群上,即可靠性高的客群,新模型优于旧模型,则有理由认为在其他客群上也会更优。

值得强调的是,我们所讨论的是模型策略迭代的对比,如果你针对的就是局部客群的优化,则不在此列。

……

前面三个,即随即流量、拒绝推断、冠军挑战者,都是全体样本的对齐,包括both-in、swap-in、swap-out和both-out。由于不经济、不准确、低效率等明显的原因,它们都不常用。

在上新模型就下老模型,而不是新老模型并联一起用时,both-in、swap-in和swap-out的对齐也无从获得。

只有both-in,在开发样本中即可获得,但你不会去得到它。只要将新策略模拟布在开发样本上,剔除swap-out即可,但这个阶段你并没有开始做策略,模型还没有被论证有效,策略不会搭理你。当然你可以简单用模型分直接cutoff模拟。

但,你有更有效的办法。那就是上文说的第四种,分群评估。在优质客群上,其实就是both-in的近似对齐。

仅存的问题是,局部客群的提升幅度能多大程度上代表整体?

在优质客群上KS提升2个点,在下沉客群上KS提升10个点,整体到底提升了几个点?答案会接近2个点,而不是10个点。

该判断需要随机样本数据才能证实,但其实这没那么重要。

我不喜欢过度依据数据来建立认知,逻辑很多时候是可以超越数据而成立的。如果一个数据不符合某个逻辑,我更倾向于怀疑数据而不是逻辑。当然,程度问题必然还需依靠数据。数据真正的价值在精细化中、在寻求极限中得到。

你得知道什么是对的,什么是错的,什么是有效的,什么是无效的,但你不知道什么是这种有效的极限,然后你通过数据去达成了。这才是数据的价值,是实践的意义。

来源:人人都是产品经理

相关推荐