NeurIPS&_B站影视

摘要：回归模型在推荐系统中至关重要。由于推荐场景的目标数据（如观看时长、成交金额）分布常呈现高偏性（High-skewed），业界普遍会先对目标做一下变换（如对数变换）再用回归模型拟合，以改善模型的收敛表现。然而，我们发现这种做法会引入重变换偏差，导致模型出现系统性

回归模型在推荐系统中至关重要。由于推荐场景的目标数据（如观看时长、成交金额）分布常呈现高偏性（High-skewed），业界普遍会先对目标做一下变换（如对数变换）再用回归模型拟合，以改善模型的收敛表现。然而，我们发现这种做法会引入重变换偏差，导致模型出现系统性预测偏差，从而影响线上推荐候选分发。为解决此问题，我们提出 TranSUN ，该方法采用联合偏差学习的方式，兼具理论保障的无偏性和优越的收敛性。此外，我们将它进一步推导为一套广义的回归模型（广义TranSUN ， GTS ），其既可作为即插即用的去偏框架，也能作为无偏模型的通用开发框架。该工作已经在淘宝首页猜你喜欢的商品短视频推荐场景推全，业务效果（p-value 手淘首猜商品成交金额 +1.06% ，成交价值效率 +0.92% ；手淘首猜短视频成交金额 +1.83% ，成交价值效率 +1.57% 。

均方误差损失（Mean Square Error，MSE）是主流的回归损失，其对目标和输入特征进行高斯先验假设，即。其中，是一个参数化的预估器，旨在预估目标数据期望。然而，推荐场景目标分布常因 高偏性 （High-skewed）违背高斯假设，这影响模型收敛表现。因此，业界普遍在MSE前对目标采用 目标变换 函数（缩写为T-MSE）来提高变换后分布与假设分布的一致性，其损失为

其中是一个自定义的双射函数，是训练数据集。

然而，我们发现T-MSE模型会引入重变换偏差（Retransformation bias），即

一个常见的例子 ：假设逆变换是下凸的（convex），比如或，那么该偏差将导致模型预测出现 系统性低估 ，因为

其中由 Jensen 不等式得到。当上凸时，不等号反向。

咱们先用一个例子直观感受下重变换偏差：以为例，我们采样一个样本特征和三个样本标签，于是LogMSE对该样本的预测为:

而无偏模型（例如MSE或本文提出的TranSUN/GTS）的预测为:

故这里重变换偏差导致了低估。

可以发现，重变换偏差的本质原因是：变换本身在条件概率空间下是非线性的。因此，我们纠偏的关键思路就是以原模型为基础构建一个在下仍保持线性的新变换（可被简单形式化为下式），这也就是本文要介绍的GTS理论的核心思想—— 条件线性 。

而后，为了让新变换结果便于模型学习，我们采用乘性偏差建模的方式来刻画这个变换，即将取值为原模型预测绝对值的倒数，于是便可推导出本文要介绍的TranSUN方法了。

进一步，我们直接在下图展示 TranSUN/GTS和其他相关模型的优劣势、模型假设比较 ，读者在阅读下文前可以据此提前思考，也建议读完全文后再回到这里梳理脉络～

3.1 方法介绍

TranSUN方法在T-MSE模型中引入了辅助分支来显式建模 乘性偏差 ，即监督来学习真实值与有偏预测的比率，因此该偏差学习损失为

其中用于防止的梯度传递到（以保证方法的理论无偏性，具体证明见3.2.1.），表示的绝对值，是一个正超参数（以避免“零除”问题）。采用乘性偏差建模方案的原因是目标比率的方差较小且异常值比例低（在3.2.2.展示），因此可以使损失收敛更加平滑。在训练阶段，TranSUN模型联合学习偏差建模任务和主回归任务，以实现“模型内”去偏，因此总损失为

在推理阶段，模型预测公式为。

3.2 方法优势 优势一：理论保障的无偏性

为证明TranSUN的理论无偏性，我们仅需证明模型预测是的估计值即可。具体来说，由于算子的梯度隔离，总损失的优化可以分解为两个独立的部分，即

而在第二部分中可通过以下推导得到模型预测即为的估计。

优势二： 收敛性优越

下图展示MSE、LogMSE和TranSUN（为对数变换）的偏差问题和收敛表现。其中，Batched PGR表示各Batch样本上模型预估均值和标签均值的比值，以展示模型预测偏差；Normalized Loss表示被最大归一化的损失值，以展示模型收敛表现。如图所示，MSE收敛表现很差，LogMSE模型虽然收敛表现优越但存在显著预测偏差问题。不同地，我们的TranSUN不仅能保持优越的收敛性（损失曲线平滑），而且能保证预估无偏性（训练PGR接近1）。

收敛表现差异分析： 这三个模型收敛表现的关键差异在于它们损失的 收敛平滑度 。这是因为拟合目标的方差和异常值比例不同，导致优化曲面（optimization landscape）具有不同的平滑度。如下表所示，我们列出了三个模型在公开数据集（CIKM16和DTMart）的目标方差 Var 、方差除以期望值的平方 V/E2 以及异常值（超出3倍标准差）的比例 Outlier% 。可以发现， 的方差显著小于朴素MSE，异常值分布也更优秀，因此 收敛得更平滑。综上分析， TranSUN/GTS 本质上是将一个困难的学习任务分解为两个更简单、更平滑的任务 。

其他优势

通用性： TranSUN与目标变换函数无关，适合任意双射变换

效率高： 因为新增分支可以与原模型共享底层参数（嵌入层、序列层），故额外资源开销极小，ROI高

实现简单： 仅需在原模型上新增一个MLP分支和一个损失函数

参数热启友好： 因本方法不会变更已有网络的参数和结构，故支持原参数全部直接热启，从而进一步加速收敛

3.3 关键讨论

根据上文的推导，我们提出一个有趣的论点： 并非所有显式偏差学习方案都能在理论上保证无偏性 。举个例子，假设我们将的拟合目标调转分子分母，即的学习目标变为有偏预测与真实值的比率，则模型预测会变成的估计（推导如下），显然这是个有偏估计，会导致模型低估（实验见原论文Table 5）。因此，我们将在下文指出 条件线性 才是保证TranSUN无偏性的本质机制。

4.1 方法介绍

接下来，我们将TranSUN推广为一套广义的回归模型族，称为广义TranSUN（Generalized TranSUN，GTS），为我们方法的无偏机制提供更多洞见。 GTS的总损失形式为

其中是由和参数化的自定义先验分布，是分布的期望函数，是一个无参函数且。

具体地，第一个损失项称为 条件点损失 （conditional point loss），它通过自定义先验条件概率假设监督学习一个条件点估计（如算术平均值、中位数、众数），因此有以下关系

第二个损失项称为 线性变换损失 （linear transformation loss），它与基于线性变换的T-MSE非常相似，关键区别在于GTS的斜率由条件点动态生成。由于算子，斜率实际上完全由决定。在推理阶段，GTS 的预测为，关于其理论无偏性的完整数学证明参见原论文附录B.4.。

4.2 模型假设

作为点估计器： 给定样本特征，GTS 本质上利用以为条件的点估计（缩写为）来生成斜率，从而新构建出一个对目标的线性变换。因此，GTS 的模型假设为

其中。如上式所示，斜率在上是保持不变的，故GTS就类似采用分段线性变换的T-MSE，其分段区间由条件划分。因此，GTS 可视为基于 条件线性 变换的T-MSE，而由于线性变换不会引入重变换偏差，因此其无偏性天然得以保持。值得注意的是，违反模型假设不会改变模型的理论无偏性，只会影响模型性能（如收敛表现）。此外，可以发现假设分布的方差其实被建模为，因此可以通过领域知识指定和来 显式地建模异方差 ，故GTS展现出比MSE 更通用的模型假设。

升级为区间估计器： 更进一步，如果想让GTS能够直接建模条件概率，只需将GTS模型假设的标准差建模为的函数，便可形式化为一个新的概率建模模型（PMM）。此时模型假设变为

其中本质是对标准差倒数的建模。在训练阶段，可以参考条件变换模型（CTM）建立基于评分规则的损失函数，即

其中为指示函数，表示轴上预定义的升序网格点，，定义为

因此，总损失升级为

在推理阶段，GTS 采用下式建模条件概率：

4.3 应用场景优势

GTS 主要有以下两个应用场景：

无偏模型开发： 通过定制假设和函数型，可以直接设计出各种无偏回归模型以应对不同的数据场景。相关开发原则参见原论文附录A.6.，可参考的实验结果见原论文Table 10,15。

已有模型去偏： 还能作为即插即用的纠偏模块，直接根除任意模型的预测偏差（即使模型未使用任何变换）。具体地，对于给定的回归模型，只需将GTS损失中的设为恒等变换，设为的损失，再将设为的预测，即可建立纠偏后的模型。相关实验结果见5.3.。

因此，GTS相对于TranSUN的优势可以归纳为：

扩展性： TranSUN仅适用于T-MSE，而GTS可以应用于任何回归模型。

灵活性： 当真实数据分布严重违背TranSUN模型假设时，TranSUN很可能会收敛困难。此时可以通过自定义GTS模型的和，使假设分布与真实分布更加一致，从而让GTS实例收敛更平滑。

数据和指标： 原论文分别在合成数据（分布见下图，详细介绍见原论文4.1节）、公开数据集（CIKM16、DTMart）和专有工业数据集（Indus）上开展实验。合成数据的测评指标采用SRE（Signed Relative Error），即

，其中和分别是预测值和标签值。真实世界数据采用TRE（Total Ratio Error）和MRE（Mean Ratio Error）作为偏差检测指标（无偏的必要条件，推导见原论文附录D.2.2.），它们分别定义为和，其中为预测，为标签，为样本数。我们还采用一些常用的值准度指标（NRMSE（无偏的充要条件，推导见原论文附录D.2.2.）、NMAE）和序准度指标（XAUC、NDCG）。

实现细节： TranSUN实现源码展示在原论文 Code 1 。此外，为优化TranSUN的线上效果，我们额外采用了两个有效技术：排序损失建模和模型预测集成，具体细节参见原论文附录A.4.。

接下来仅摘取原论文的部分实验结果， 强烈推荐阅读原论文中的实验分析以获得更多insights （原论文4.2、5.2、5.3节）。

5.1 TranSUN纠偏有效性验证

本实验在公开数据集上开展。由于目标分布都是右偏的，我们采用常用的凹函数（即对数、平方和反正切变换）来比较T-MSE和TranSUN的性能。由于重变换偏差是一种拟合偏差，故测评在训练集上开展。如下表所示，T-MSE表现出严重的偏差问题，其中变换最为严重。不同地，TranSUN显著减轻了所有变换的偏差（大部分）。

5.2 推荐领域回归模型偏性对比

本实验在合成数据上开展。如下表所示，只有TranSUN（为对数变换）成功在所有合成分布上保持无偏。接下来我们对基线的偏性进行逐一分析：MAE模型由于采用中位数建模，故在左偏数据上高估均值，在右偏数据上呈现低估；WLR在RS-ZIG上的误差为，接近（为正样本率），这与WLR原论文的推导一致；ZILN和OptDist在某些分布上均表现出显著偏差，因为这些分布严重违反了LogNorm/ZILN 分布假设；MDME在左偏数据上高估均值，在右偏数据上低估均值，这可能是因为它本质是众数子分布下众数桶的均值的估计，这也解释了它在SM-BU和SM-U上的偏差来自于采样误差导致的众数估计误差；TPM在左偏数据上低估均值，在右偏数据上高估均值，这可能因为它本质是所有分位数的均值；CREAD存在与TPM类似的偏差问题，但由于其EAD分箱方法，偏差问题略有缓解。

5.3 GTS纠偏有效性验证

本实验在公开数据集上开展。GTS的函数采用

如下表所示，通过集成GTS，基于分类的模型（MDME、WLR）和值回归模型（ZILN、OptDist）的偏差问题均得到了显著缓解（TRE和MRE相对提升达）。

5.4 离线效果对比

在工业数据集上，TranSUN 与常见的回归损失（例如MSE、MAE）、变换模型（例如LogMSE、LogMAE）、基于分类的回归模型（例如TPM、MDME）以及先进的值回归模型（例如ZILN、OptDist）进行了比较。如下表所示，TranSUN在偏差检测指标（TRE、MRE）和值准度指标（NRMSE、NMAE）上均取得了最佳性能。值得注意的是，在LogMSE上应用TranSUN通常会导致XAUC轻微下降，不过可以显著提升高值样本上的XAUC（ > +0.015 ）。

XAUC下降原因分析： 完整分析参见原论文附录A.1.。简而言之，纠偏会在做准高值样本的同时牺牲部分困难低值样本的准度，这在高度右偏数据上会导致XAUC的下跌。不过幸运的是，XAUC与线上业务指标存在 不一致性 ，因为主导XAUC下跌的这一大部分低值样本只贡献了线上指标的一小部分（例如，Indus数据集中70%的头部低值样本仅贡献了20%的GMV）。因此，我们补充观察高值样本XAUC和NDCG作为更一致的离线迭代指标（NDCG结果见原论文Table 11）。