新模型上线后就不如老模型了，这正常吗？

摘要：在数据分析和机器学习领域，模型迭代是提升性能的常见手段，但一个令人困惑的现象是：新模型上线后有时反而不如老模型表现好。这种现象在信贷风控、海外现金贷等领域尤为突出。

在数据分析和机器学习领域，模型迭代是提升性能的常见手段，但一个令人困惑的现象是：新模型上线后有时反而不如老模型表现好。这种现象在信贷风控、海外现金贷等领域尤为突出。

22年我写了一篇《关于那个新老策略模型孰好孰坏的问题》，当时是有感于，我看到一些大厂在迭代模型时，总是看到巨大的效果提升，尤其是在严重多头之类的下沉客群。这里有巨大的陷阱，我懒得说，说了也没人信，因为他们不敢信。

最近有一些做海外现金贷的读者来交流问题，我才意识到，这个探讨更大的价值在海外现金贷。因为海外场景，客群下沉通过率低，模型 AUC/KS 不高波动又大，常常会出现，新模型开发样本上效果比老模型好很多，上线后反倒又不如老模型了。

这是因为你们的评估是不客观的，开发时和上线后的评估都不客观。大部分信贷场景，没有真正的随机流量和 abtest，新模型上了老模型就下了，开发时，算新模型效果多算了 swap-out 人群，上线后，算老模型效果多算了 swap-in 人群。

开发时和上线后的换入换出如上，在开发样本上评估，对老模型不公平，在上线后样本上评估，对新模型不公平。想要公平，一定要对齐样本。

有三种样本是对齐的。一个当然就是4个象限的全体，一个是both-in客群，一个是both-in、swap-in和swap-out一起。

新老模型策略到底哪个好哪个坏，解决办法有四种。所有的办法都是在解决这个样本对齐问题。

……

任何在这个行业里做过较长时间策略或模型的人，一定会经历模型策略迭代的过程；任何经历过模型策略迭代的人，只要有过独立思考，一定会遇到新策略是不是一定比旧策略更好的问题。

贷前也好，贷中也罢，当前的风险表现都是当前这套风险策略的结果。当我们要迭代模型策略的时候，KS也好，Lift值也罢，你会高估新模型策略的效果，更为可靠的说法是，你会高估新版对旧版的提升效果。

因为评估的样本，并不完全是应用的样本，这就产生了选择偏差，或者说幸存者偏差，我们是在“幸存者”上确保了新好于老。

常见的现象是，新模型永远比旧模型好，但却并不一定是真的好。试问，如果新模型新策略永远比旧模型旧策略更好的话，为什么业务没有变得更好？

因为上述问题的必然性和重要性，新老策略模型究竟孰好孰坏，可以说是这个行业最经典的问题。

我们今天来聊一聊解决办法。思来想去，解决办法似乎有四种，是哪四种呢？这四种又具备哪些优劣点呢？

1、随机流量

最彻底的一种是随机流量。随机一部分流量例如1%，让其通过，给随机额度随机定价，任其表现。也不需要100%通过，政策风险、欺诈风险等前置稳定不变的策略可以照常有。

这部分流量，可以用来建模，可以用来评估，最重要的是用来评估。任你选什么样本，任你做多少模型，任你套什么算法，只要在这个随机流量上效果是更优的，就有理由认定为模型是更优的。策略当然也是一样。

当然，还有一些前提要满足，例如样本量得足够大、时间窗口得足够长、模型本身稳定性得尽可能高。因为，真正的目标是在未来的随机流量上的效果好。

这个办法没有任何坏处，除了费钱。信贷领域，随机流量的成本太高了，年化24%的产品，多少个好客户的收益才能弥补一个坏客户的损失？

所以，这个办法用的并不多。只有头部效应明显、营收稳定的平台有可能会预留一部分资产预算用于随机流量。

也不对，远超过24%年化的那个黄金年代，也适用，只是他们不是为了随机流量而随机，而是没有太多风控，暴力催收+高息可以搞定。

2、拒绝推断

顾名思义，拒绝推断就是对拒绝的样本进行风险表现的推断，是去解决幸存者偏差的问题。有了全量样本的表现，模型策略孰好孰坏一算便知。

上面说的随机流量，其实就可以看作拒绝推断的一种解决办法。其他的办法，不管是推断拒绝样本的表现也好，还是获取拒绝样本在其他产品上的表现也好，总归是非真实的。你说引入了信息，我说引入了噪声。

引入不精确的信息来解决精确性的问题，总归是值得怀疑的。事实上，拒绝推断有没有用就是一个玄学，它压根就不值得做。

对于拒绝推断，实际上在用的是少之又少。因为太多假设，因为不准，就不如不用，就像判别模型大体总是比生成模型有效。

3、冠军挑战者

国外来的叫法，但其实就是ABtest。

当前线上的策略作为冠军组，拟上线的策略作为挑战组，挑战组可以有多个。因为表现期滞后且本金损失大，随机切小部分流量给挑战组，不宜过多，例如10%。任其表现，优劣自明。

挑战成功，则挑战者成为新的冠军者，可以全部切换新策略。但也可以不全切，甚至可以永远保持50%：50%的冠军挑战者。好处当然是对比得更充分，且可以应对突发情况，其一下线其一递补。

ABtest当然具备很强的严谨性，但在风控领域，效率不行。前已备述，风控不需要做ABTest？

ABtest最大的优势是，当你无法评估多个方案的优劣时，你不知道哪种字体、哪个颜色、哪种文案、多少度的倒角，究竟哪个好哪个坏，试了才知道。

而风控领域，你做了一个模型，然后跟老板说我也不知道有没有更好，测了才知道。祝你好运！

你做的模型一定是要离线评估更优的，当然，离线评估没有线上真实去测的可靠性那么高，但也应该尽可能高。

4、分群评估

上述办法的弱点都很明显，那有没有弱点没那么明显的办法？有，那就是分群评估。

请君静听。

分群评估当然就是把整个客群分成很多的客群，分别看这些客群下的效果。关于分群的艺术，可以说是互联网业务中最重中之重的法宝。不信？我的客群观，互联网业务的流量之争

分群评估的奥秘在于，不同客群的通过率或者额度定价是不同的，受策略影响大的客群评估效果离真相越远，那受策略影响小的客群评估效果则离真相就会越近。

在一个通过率10%的客群上，新模型优于旧模型易如反掌，但这不是真的优，我说的是在开发时。在一个通过率90%的客群上，新模型优于旧模型才是真的更优。

分群评估在这个问题上有效，取决于一个假设，那就是一个模型相比另一个模型要好，那会是全方位地好。如果模型B优于模型A，那么不管是整体，还是各个客群，都是B更好。

反之亦然。在受样本有偏影响更小的客群上，即可靠性高的客群，新模型优于旧模型，则有理由认为在其他客群上也会更优。

值得强调的是，我们所讨论的是模型策略迭代的对比，如果你针对的就是局部客群的优化，则不在此列。

……

前面三个，即随即流量、拒绝推断、冠军挑战者，都是全体样本的对齐，包括both-in、swap-in、swap-out和both-out。由于不经济、不准确、低效率等明显的原因，它们都不常用。

在上新模型就下老模型，而不是新老模型并联一起用时，both-in、swap-in和swap-out的对齐也无从获得。

只有both-in，在开发样本中即可获得，但你不会去得到它。只要将新策略模拟布在开发样本上，剔除swap-out即可，但这个阶段你并没有开始做策略，模型还没有被论证有效，策略不会搭理你。当然你可以简单用模型分直接cutoff模拟。

但，你有更有效的办法。那就是上文说的第四种，分群评估。在优质客群上，其实就是both-in的近似对齐。

仅存的问题是，局部客群的提升幅度能多大程度上代表整体？

在优质客群上KS提升2个点，在下沉客群上KS提升10个点，整体到底提升了几个点？答案会接近2个点，而不是10个点。

该判断需要随机样本数据才能证实，但其实这没那么重要。

我不喜欢过度依据数据来建立认知，逻辑很多时候是可以超越数据而成立的。如果一个数据不符合某个逻辑，我更倾向于怀疑数据而不是逻辑。当然，程度问题必然还需依靠数据。数据真正的价值在精细化中、在寻求极限中得到。

你得知道什么是对的，什么是错的，什么是有效的，什么是无效的，但你不知道什么是这种有效的极限，然后你通过数据去达成了。这才是数据的价值，是实践的意义。

来源：人人都是产品经理

标签：模型挑战者 ks 幸存者偏差 abtest

本文地址：http://news.43b.com.cn/a/546379.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐