风控建模的常见误区与一般建议
一、建模的标签不是固定的
一般情况下,风控数据比赛的数据都有既定的好坏用户样本标签,在此基础上可以直接着手特征工程与模型训练。而实务中,样本标签是要权衡数据与业务两个因素才能最终确定:
- 从数据角度来看,坏样本个数要大于1000个以上(一般经验)才能保证建模的学习性能;
- 从业务角度来看,坏样本尽可 能地取自真实的坏样本,尽可能少地误杀好用户。
数据与业务两者是相互拉扯的,想要获得更多的坏样本,就需要表现期足够短,但好用户被误杀的可能也更大;要想少的好用户被误杀,就要求表现期足够长,这样最终能确定的坏样本更少更精确。因此在确定标签时要多用数据尝试,找到这两个因素的平衡点。
二、模型并不是越复杂越好
有些刚入门的朋友会觉得深度模型与集成模型效果一定比简单的线性模型效果好。甚至在一些简单项目上也要优先尝试复杂模型,但效果也许并不理想。就好比杀鸡焉用牛刀。炫技不是目的,解决问题才是。
其实,在一些简单的项目中,逻辑回归就能很好的满足性能要求,且健壮性极好;在简单问题上使用复杂模型很容易造成overfitting,进而降低模型的泛化能力。
三、模型的审核很有必要
许多机构在模型开发上往往是一人独立承担一个(甚至多个)模型项目的开发工作,从数据准备、特征工程、再到建模与调优。虽然极大降低了人力成本,但也带来问题,除了交付时间难以保证,更重要的是很容易发生模型集中度风险。
在模型团队内部或外部设立审核小组,从数据、代码、业务应用场景、建模流程等多方面对模型组开发的模型进行全方位诊断,以此降低模型集中度风险的发生。这种组织结构早已在国外多家数据驱动型金融机构践行。
四、慎用AutoML
AutoML顾名思义就是自动化的机器学习,一直都是业内热门,最大特点是可以替代大部分AI训练师繁琐重复的工作。大家都知道,模型的开发需要大量的人工干预,主要表现在特征构建、特征演变、特征提取、模型选择与参数调节等方面。AutoML视图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用,以此大大降低模型开发的时间成本,应用AutoML可以将全流程人工条件下为期2-4周的开发作业压缩到最短半天。
一个完整的AutoML过程可以分成这么两类:一类是将以上的三个步骤整合成一个完整的pipeline;另一类则是network architecture search,能够自动地学习到最优的网络结构。在学习的过程中,对特征工程、模型选择、算法选择都进行了一些优化。
虽然AutoML有着大大降低模型开发时间成本、提升模型精度等多种优势,但在特征构建与演变中,很容易脱离实际业务指导模型的意义,无法从特征上体现出与风险目标明显的业务相关性。尤其是模型后段应用类似逻辑回归等线性算法时,对于模型稳定性、效力下降时,模型问题溯源成为难点。
因此,对于AutoML的使用,更建议应用在反欺诈、精准营销等不需要明示业务与模型的关联场景上,对于风控场景,可以在子模型的开发上多加应用,或者AutoML+人工干预。完全实现风险模型开发与上线自动化,还为时尚早。
五、特征选择:仅仅区分度高还不够
在做特征构造和筛选的时候,往往大家都会把区分度好的特征都堆进模型,这样在测试集上的模型性能会非常的好看,但在挑选特征的时候,除了区分度之外,还有其他的因素也是不能忽略的:
1. 覆盖度
如果特征的覆盖度不够高,就不能在众多样本上发挥作用,更不能提升模型的线上的整体性能。一般覆盖度达到20%以上时,可以考虑使用。覆盖度较低的特征需要分析其业务属性,如果该特征的缺失值比较具有区分能力,比如涉诉信息,可以考虑将该特征作为黑/白名单使用,而没有业务含义的极少客户才有的特征数据,区分度不大,就没有必要用。
2. 稳定性
在信贷业务中,特征具有时间属性,特征是否稳定,对于模型效果来说影响重大。同一个特征在不同时间段内的分布很可能不一致,我们需要筛选出相对稳定的特征,这样建出来的模型才会在时间上具有平稳性。在特征分布随时间的推移下相对稳定的前提下,基于历史学习到的统计信息才能在未来较长时间内保持区分度。
3. 可解释性
风控的对象是人,我们要透过数据去理解人的行为,所以我们构建的特征是需要人能够理解其风险情况的,我们经常通过数据构建并验证假设来建立模型。进而可以得到一系列规则并应用于业务中去(自顶向下的方法),其中可解释性是整套方法的解释,它衔接了规则和所产生的行为策略。
很多时候因果关系不那么明确,一个坚实的模型就需要为决策提供可靠的解释,帮助人们清晰的理解。如果一个特征的效果很好,但它在风险上的表现和我们常识无法理解甚至完全违背,这样的特征是很难去说服业务方采纳的。
六、不是所有好的特征都要入模
这里主要强调的是特征与业务开展情况的关系。比如地理位置的信息的区分度非常好,但业务却是按地区逐步推广开展的,不同地区的运营方式和产品有差异,那地理信息调整的灵活度很大,那么此时考虑放在策略中往往更合适;随着业务的演进,如果已经覆盖了许多地区,各个地区的统计信息具有稳定的分布表现,此时模型中使用地理位置信息就变的很有用了。
作者:王小宾;微信公众号:一起侃产品
本文作者@并不跳步交叉步 。
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!