风控策略模型下集：模型这样做

雷帅 2023-08-07 22:41:40

模型开发是为业务需求服务的，高效解决业务的难点和痛点，就是模型开发的护城河。而不是所谓的算法。

业务有什么样的需求，模型就要做针对性的设计。这是实际工作中最吃功夫的内容。也是和那些建模比赛差异点最大的地方。

模型开发并不是一件容易的事情。所以更要确保各个环节合理有效，才能完成整个项目的交付。关键要点包括模型定位的合理性、数据质量的可靠性、建模方法的适用性、模型输出的准确性，以及模型表现的稳定性。

模型开发周期可根据项目的需求及难度可以适当调整，开发期间通常需要安排至少 3 次里程碑会议。

立项会议：参会方应包括模型开发方、模型使用方(需求发起方)、以及模型验证方。主要阐述模型立项的背景和目标，同时明确模型开发方、使用方、验证方、及部署方的职责与排期；
初步汇报：由模型开发方展示模型初步的数据分析结果和建模思路，并与各方确定模型框架；
模型评审：模型方汇报模型开发的过程和结果，验证方给出验证结果，各方对模型结果和模型应用展开讨论，确定最终版模型。

我们下面概述下模型开发中最为关键的内容，包括模型定位和目标、标签定义、样本选择、数据来源与处理、模型开发和模型评估。

一、模型定位和目标

为了量化处理业务中不同的实际问题，模型开发方需要与业务方沟通确定建模目标。

我们知道，信用风险模型主要是为了评估用户还款能力和还款意愿；反欺诈反作弊模型防止用户骗贷、薅羊毛和保证平台安全等功能；资本计量模型主要适用于 Basel 体系确定最低资本要求和进行压力测试。

但模型定位和目标的沟通不止于此。我们需要了解的更多，模型被用于哪些场景，模型的应用客群是什么，有没有需要重点针对的客群，预期效果怎么样，什么时候要用等等。

目标是 KS 越高越好，还是 30 以上就行（这个 30 应该是参考已有模型的一个经验值），对接下来的模型方案是完全不同的。

前者是寻求上限问题，要求你清楚地知悉现有体系的弱点，在合理的排期下做最优决策。特征空间是不是跟不上业务的发展了，标签定义是不是可以改进，业务上是不是在做新的客群，是不是需要分客群建模，能不能用外部的数据做实时模型，等等问题都需要回答。

后者是保证下限问题，实现起来容易地多，挑最重要的一两个点进行优化，往往就能解决。

二、标签定义

标签一般分为 GBIE，G 是 good 好用户，B 是 bad 坏用户，I 是 indeterminacy 不确定用户，E 是 exclusion 排除用户。

产品经理，产品经理网站

观察期：用来加工用户的特征，也就是说对观察多久来统计建模；
观察点：贷前是申请时点，贷中可以是任意时间点；
表现期：用来定义好坏样本的时间区段，看用户在这个时间窗口内的逾期变现来加工标签；
表现点：是表现期的末端。

我们从观察点开始看用户，这个时点不需要考虑的用户就可以定义为 E 用户，例如信用模型不考虑欺诈用户。表现期内风险良好的定义为 G，风险高的定义为 B，中间段还设有 I。

观察期的长短视特征加工的时间范围确定，表现期的长度需根据 vintage 曲线定义。我们需要客户的违约是比较稳定的，这样才能保证结果的准确性。B 逾期程度的定义需要计算滚动率。

工程上，这些定义会有很多明细要求。

三、样本选择

样本选择是最能体现模型开发定位和目标的，也是最吃功夫的部分。不同模型的开发，其他的有迹可循，唯有样本的选择是各有各的不同。

1. 样本选取原则

选取样本时要考虑样本的代表性，是否能够有效地代表总体，必须包含可靠的预测信息和表现信息。通常来说在选择样本上需遵循三点原则：

代表性：样本必须能够代表总体，过去以及未来；
充分性：样本量太大则需要业务积累时间较长，数据加工要求更高；太小，可能达不到统计的显著性，置信度太低；
时效性：建模样本需要与当前实际群体具有相似特征，如果由于外部环境或具体业务发生巨大变化，建模样本可能不再具有时效性。

需要剔除的样本，一般就是非模型应用客群，这个被定义在 E 客群上了，自然就被建模排除在外了。

2. 抽样原则

在样本数据较大及运算能力有限的情况下，应对总体样本进行抽样处理。

简单随机抽样：在给定样本规模之后从总体中完全随机抽取，每个抽样单元被抽中的概率相同；
分层抽样：根据业务需求确定样本的类别，确定针对每个类别的抽样个数，在每个类别内随机抽样；

一般，业务简单就随机抽样，业务复杂精细化程度高，就分层抽样。

3. 样本不平衡问题

好坏样本的比例总是差别很大的，尤其是反欺诈这个场景里面。极端的不平衡可能会导致模型忽略小样本的学习。

1）欠采样

随机欠采样：对多数类样本（一般是 G）随机抽一个比例。
有选择的欠采样：通过一定规则有选择的去掉对分类作用不大，即远离分类边界或引起数据重叠的多数样本。

2）过采样

简单复制法：对少数类样本（一般是 B）复制个倍数。
人工合成数据：借用已有样本，组合构造一些数据。

在通过欠采样或者过采样后，样本的比例发生了变化，因此需要在入模时通过权重调整法将比例调回来。如果只在乎排序性，这个也可以不考虑。

4. 分群

林子大了什么鸟都有。不同的人差别可能很大，一个模型不能有效地适用于所有客群。有时间需要用不同的特征来对不同的人群进行预测，即构建多个模型运用在各个子客群上。

分群也可以分为基于经验的分群和基于数据的分群。

基于经验的分群，主要是利用从业务知识中了解到的客群差异分群，如不同的营销渠道上风险差异较大，新的子产品上线了，业务更下沉了等等。

也可以通过聚类、决策树对数据进行分群，但因为我们本身建模都用集成树模型，分群本身就是树模型训练时干的事情。做任何额外的工作，都要考虑下必要性。

四、数据来源与处理

数据一般分为内部数据与外部数据。内部数据，是公司内部搜集存储的客户信息，例如商户在平台的销售、贷款、运营信息，客户的登陆、注册、消费信息等；外部数据一般为第三方数据，例如人行征信报告、运营商数据、第三方机构提供的多头借贷数据等。

模型开发文档中需明确列出所用到的数据来源和特征列表，并且需要多方确认数据可用，包括持续稳定和监管许可等。

同时，模型开发还需要考虑对缺失值处理和异常值处理。

1. 缺失值处理

直接删除含有缺失值的样本，缺失值较少，这是比较合适的，但当缺失值样本比例较大时，就会产生较大损失。

根据样本之间的相似性填补缺失值是更技术的方法。但是工程上更常用的方法是根据经验进行默认值填充，例如-1 或者 0 等。

不处理也是一种处理，而且也许是最好的处理。尤其是风险模型都在用 XGB，它可以自动学习缺失的最优划分。

2. 异常值处理

异常值是指明显偏离大多数数据分布的数值。可以采用离群值检测的方法来找出样本总体中的异常值。

有单变量离群值检测、局部离群值因子检测、基于聚类方法的离群值检测等等。

同样的，如果是树模型预测分类问题，异常值处理并没有太大必要。

3. 变量筛选

变量分为数值型变量和类别型变量。两者筛选不太一样。

数值型变量筛选可以用特征稳定系指数（Characteristic Stability Index）、信息价值（Information Value）、模型重要性排序（Feature Importance）等多方面考量，对于使用证据权重（Weight of Evidence, WOE）转换的模型，需保证根据变量分组后的样本分布符合业务逻辑。

对于类别型变量指标，应选择样本分布符合业务逻辑的变量，并考虑各类别取值的分布是否充足且较为均衡，避免因少数异常值伤害类别的代表性。