如何做好并用好风控模型监控？

雷帅 2023-08-07 23:33:03

使用没有监控的模型，就像使用没有指针的钟表，它可能在工作，但你怎么知道呢？

模型监控就是模型上线之后，根据数据的变化来判断模型是否正常运行。

兹事体大。

一、为什么重要

“最近通过率下降了，怎么办？”

“最近逾期率上升了，怎么办？” 或者，“最近逾期率没什么变化，真开心。”

当你不做监控时，上面是你可能发出的提问。这些问题 low 不 low，你自己说。

报表体系的搭建对于任何一家金融机构都尤为重要，对于风控模型，上线部署后会因内外部各种因素引起模型分数偏移，甚至出现错误。

为了能在第一时间发现问题，我们需要对模型进行动态监控。有一套相对完整的报表系统，能对模型的有效性、稳定性做到及时的掌控，以确保模型如期运行。否则，应启动迭代新的模型。

在这之后，你的问题会变成，

“最近有个渠道客群模型均分下降了十几分，通过率低了很多，要不要下线这个渠道？”

“最近逾期率没什么变化，但模型分 KS 下降了 5 个点了，是不是模型有问题了？”

你应该意识到，报表让你提出了更针对性的问题，并指向你去解决问题。

二、如何做监控

我们都知道风险表现是滞后的，用户申请之后需要一个表现期你才能知道这个人是好的还是坏的。模型同学往往重点关注模型效果，需要先有 label，但在没有 label 之前，肯定也不能放任不管。以需不需要 label 为界，我们可以把监控分为前端监控和后端监控。

产品经理，产品经理网站

申请时我们能获取得到的东西，可以用来做前端监控，例如，申请量、通过率、客群分数分布等。如果我们更进一步，关注策略的稳定性，拒绝流的监控就很重要。除此之外，我们，还应该关注重要特征的监控。

这一步，是为了在第一时间监控到线上发生了什么，以及我们的客户是什么人。申请量、通过率的稳定，最让人省心，出现较大波动，则应对其原因有基本的了解，是既定的渠道推广，还是什么不知名的原因。通过率最为重要，如其发生非预期的变化，就要去看拒绝流的哪个环节出现问题，拒绝流是决策引擎中规则执行的顺序，例如，先过黑名单、再过强规则、再过模型，检查这些比例是否稳定合理。模型通过率的变化是客群分数分布变动导致的，又可以溯源至特征的分布。

而后端监控主要是关注模型性能和资产表现，最直接对应的就是 KS 和坏账率 PD。后端监控中应该统计出每个分数段的人数和坏客户比例，这才是和决策直接相关的东西。

资产质量永远是最重要的，放出去的钱有多少能回来本质上都取决于资产的质量。后端监控当然很有用，但别忽略了前端监控，客群的均分、收入、征信表现等 x，或者 f(x)，都一定程度上体现了 y。

前后端，是更有效率和更准的问题。

模型和策略的共同点是都很关注人，异同点则是前者是模型视角，关注评分，后者是资产视角，关注钱。

三、如何读监控

数据分析的三板斧，看趋势、看对比、看细分。解读监控报表亦如此。光有一个数据是无意义的，比较才能使其有洞见，怎么比？和过去比，和其他的比，分开了自己比。

趋势分析：关注业务量、通过率、逾期率、KS 等指标逐月甚至是逐日的变化趋势。申请量增长显著的话，还得保证资金储备充足。每个关键指标趋势变化的拐点都值得注意，不一定存在问题，但至少应予以思考。

对比分析：分为纵向比较和横向比较，前者是自己和自己比，后者是自己和别人比。纵向对比还包括环比和同比，环比就是本期和上期比，例如这个月和上个月比，同比是本期和上一周期的同期比，例如今年 618 和去年 618 比。很多数据指标是有周期性的。横向比较就是跟行业其他平台比一比，这个很有用，出问题了是行业问题还是你自己的问题，大面上有这个横向比较就差不多知道了。

细分分析：选取一些关键维度，如渠道、年龄、地域、收入等，去关注这些维度不同客群各指标的差异。贷前最主要的一个维度就是获客渠道，要密切关注各渠道的转化和风险。好渠道是用来拓展业务的，坏渠道只会增加损失。数据分解，定义哪些是问题，哪些不是问题，或者说，哪些是机会，哪些不是。如果你的业务规模和业务模式总是一成不变的，也许不需要分解。然而，这种情况是极少的。归因分析的基础就是细分。

因为你要这样读监控，你就自然知道如何做监控。有效的解读监控，让你关注到真正的问题点，而后才能解决问题。

四、采取行动

如果模型和策略同学不按时审阅监控结果，那工作也是很难开展的。如果审阅监控结果后，不采取行动，那工作是无意义的。

最终的行动就只有两个，一是调整策略，一是迭代模型。

通过率下降、风险上升，是最恶劣的情况。策略调严是没办法的第一步，但这没什么用，因为通过率已经很低了。大概率是模型失效了，也许是数据质量导致的，也许就是模型部署有问题，这肯定要迭代模型。

另外三种 case 呢，通过率上升、风险下降，皆大欢喜；通过率上升、风险上升，通过率下降、风险下降，就有点难了。三种行动，调整策略，迭代模型，什么都不做，选哪个？

我们都知道做产品增长呢有一个“北极星指标”，也叫“唯一关键指标”（OMTM，One metric that matters），就是产品现阶段最关注的指标。信贷业务的北极星指标是什么呢，更常见的说法可能是在贷余额。招商银行还曾经把 app 月活用户数当北极星指标。那如果要给模型定一个 OMTM 呢？不管是在贷余额还是月活，我们都是要越多越好的，怎么多起来，就是要模型足够好。模型足够好，通过率才能足够高，营销才敢放开。那模型的 OMTM 最好的选择就是 KS。

现在好办了，关注这个 OMTM，不达标就行动。例如模型 KS 下降 10 个点，或者下降比例 30%，就考虑去迭代模型。

说的是考虑迭代模型，不是说必须。前面的分析应该让你对下降原因有了一些了解，结合起来看。

明确核心指标有助于我们在复杂的大盘数据中找到重点，快速做出决策。特别是在同时订阅多个指标时，有些指标正向，有些负向，就可以重点关注核心指标，舍弃不太重要的指标。采取行动会更迅速且更具共识。