导读:本文源自风控技术专家、AI技术专家和算法专家梅子行老师知乎专栏的大数据风控答疑文档,有关大数据风控的问题都在这里了。
答:个人感觉IV和目标函数的关系更大,但是一半用IV做初筛,iv很低,不用进模型,但是IV是单个变量的作用,而feature_importance有一个特征组合效应在里面。我个人是这么理解的。所以按理也可以推出,不一定是选IV最高的变量组合在一起就一定能够ks最高,而是特征组合在一起综合效应最高的才是KS能够达到最高的。
66. 怎么解决测试集上auc偏低的问题?我这个数据集比较小,训练集有1000个,是前20天,测试集有200多个,是后10天,这个是纯多头数据,原始多头变量120个,自己做衍生变量到7000左右。训练集违约率20%左右,测试集违约率14%左右。
答:太小了,感觉模型学不到什么的,应该不会有太明显的改善的,做个单变量分析看看比现有特征的强弱就可以了。
67. 如果客群风险发生变化,会怎么做?我想的是
1)看变化前后用户特征(重要特征)的分布是否发生变化
2)是不是有欺诈的可能
3)如果以上都不是,是不是需要调整准入规则或者申请模型。
答:对的,一般不是欺诈就是该迭代了
68. 一般在业务中哪种分箱用得更多啊?
答:一般用基于iv或者卡方的自动分箱
69. 现在市面上在金融风控中用的无监督算法都有哪些?
答:主要是基于图的离群检测和聚类,其次还有孤立森林,LOF这种,还有通过聚类进行特征衍生
70. 利用rf看特征的重要性,碰到了类别型的特征,是直接做one_hot处理还是分箱转为woe,或者不参与特征的排序
答:一般woe效果比较好
71. 构建一个申请评分卡需要多长时间,就是从数据库选择数据、拉取数据,到最后生成一个评分卡需要多久,然后部署上线稳定运行又需要多长时间?
答:最慢能一个月,别人给上线得排期,还得慢慢核对变量逻辑,最快能一两天,自己开发自己上线
72. 有30天的放款表现数据,其中有不连续10天的用户逾期率较低,有不连续20天的用户逾期率较高,那么一般是什么原因造成,该怎么找到造成这样的原因?
答:跟业务发生的时间线对一下看看吧,我理解这个是需要分析一下的,可能对完了发现是哪个渠道不好,或者是量比较小导致的偶然现象。
73. 梅老师,AUC计算时的那个threshold是怎么确定的?当时觉得thresholds应该小于1,这里出现了1.8
答:y_true:真实的样本标签,默认为{0,1}或者{-1,1}。如果要设置为其它值,则 pos_label 参数要设置为特定值。例如要令样本标签为{1,2},其中2表示正样本,则pos_label=2。把pos_label参数去掉就是默认为1了。
74. 想问下梅老师,进行线性相关性和多重共线性检验的时候,特征是用原始特征还是WOE编码后的特征呢?
75. 对于评分卡模型,是先特征选择还是先对特征进行分箱处理?对于特征非常多的情况下,分箱的效果也不太好,我就考虑是不是先对特征进行选择再处理呢?
答:是这样的,分箱是单特征之间进行的,和特征多少是否筛选没有关系。
所以你说的应该是单个特征取值特别多的情况下如何进行分箱是么?分箱的时候首先考虑用什么算法。lr必须做分箱,不然鲁棒性会很差。xgboost做了,稳定性上升,准确度下降,有舍有得。lightgbm绝对不要做,直方图算法加上分箱对性能影响比较大。
然后分箱分两种情况,一种是对连续变量做分箱,一种是将字符变量做合并。前期粗分箱通过等频和IV(卡方)进行划分。后期通常根据bivar图来确定。
个人建议,类别变量统一做woe处理。省心效果还好。
76. 对于信贷评分卡模型 数据量一般在多少范围比较合适?
答:首先合适的样本量和预计入模特征数量有关系,模糊的说,可能是5000一档,5万一档,50万一档。5000档以下模型不稳定,负样本通常非常少。5000-5万档模型逐步稳固,特征通常不超过样本的百分之一,lr相应的要用更少的特征。5万到50万感觉提升不明显,更多的是对正样本做下采样,进行均衡学习。50万以上深度学习效果突出。
77. 小微正常过反欺诈,主要考虑哪些?
答:信用风险,行业情况。挺多的,我抛个砖你参考下,发票流水进项,销项 的金额 、频次,和时间以及传统统计指标 做笛卡尔乘积,还有行业指标,区域指标,企业间销售关系,专票循环网络造假骗贷啥的。
78. 我们的模型基本上都是基于样本不均衡的数据的,那么问题就来了,特征工程里不做采样处理的话,样本是极不均衡的,那么做出来的模型有的时候也会失真。
如果做采样的话,那么虽然模型有保证了,但是训练模型的好坏分布并不符合线上的实际好坏分布。这个问题怎么解决呢?
答:我们是把采样权重记录下来,不参与模型训练,只作为计算KS和最终模型模拟时候的权重。然后测试集是没有做采样变换的,所以直接就是真实的
79. 如果采样特征完备性比较好,是不是采样全中就不需要考虑了。或者这个权重怎么把它和ks计算结合起来?
答:因为采样后的训练集这张表长得会不一样嘛,所以会把权重丢进去,就是算样本数量的时候,再乘以一个权重。
80. 那么ks指标计算,会考虑这个权重吗,还是继续使用采样过后的?
答:训练过程里面,训练集我是没有考虑还原的,只是最终报告里面还原成真实的了
81. neo4j 上线,实时构建图谱的 性能如何?
答:实时性问题基本上可以达到一秒以内一个用户。2亿节点,5亿关系。
82. 梅老师,无监督与xgboost结合的反欺诈模型该如何做?
答:首先聚类,得到每一个簇的聚类中心,然后取出所有的聚类中心,对这些点进行异常值检测(本质是在对簇做异常簇检测)。比如说放进孤立森林中,得到异常值作为整个簇的异常值,带入xgboost进行训练。
83. 想问一下老师,群里面提到的根据业务构造损失函数,能举个例子么?
答:为业务定制损失函数,说起来高级,其实很简单的。假设现在有一个preA模型,用处是拒绝5%的客户,那么他的损失函数也使用AUC,并不能保证捕获率足够大。所以可以改写一个优化捕获率的损失函数,只要保证是凸函数或者满足使用算法的优化条件就行。
# 自定义损失函数需要
#取百分位点对应的阈值
#按照阈值处理成二分类任务
84. 催收主要工作就是失联修复,本质上是催收成本与收益的平衡,过程中需要考虑安全与体验性,这样说对吗?
答:催收工作的直接目的是回收逾期账款减少不良产生。长远目的是改变债务人的还款习惯,让债务良性循环。
这里有个前提概念需要清楚的是,信贷本来就是为有还款能力的人提供适当超前消费服务的,并不是为没有还款能力的人应急用的,所以目前的市面上的绝大部分信贷产品的产品设计出发点是有一定偏差的。存在即合理你知道就好,反正一时半会儿也无法改善。
催收成本与收益的平衡和过程的考虑安全性与体验性这句话是没错的。可以这样来理解:催收成本包含了很多,最大一块就是人力成本,解决人力成本是催收的未来出路,所以自动化催收工具及智能催收是市场的主流研究方向,只是现在仍旧处于初级阶段,本质原因是合规问题。
因为样本少,无法通过常规的方法论得到想要的预测结果,这就会导致一个奇怪的现象,每家都有C卡,但是每家C卡的请开给你只对自己的案件有效果,平移同类就没办法保证预测结果,或者随着时间的推移自己的C卡结果都会有很大程度的波动。
这是一个方面,但是说回来如果为了回收账款导致支出过大是完全不可取的。
通常解决办法有两个,一个是用其他的盈利去补贴(一些股份制或者大行有自有催收团队的都会这么做,具体做法很多可以脑补充,可以说只有想不到没有做不到)。
一个是采用外包(这里包含人力外包或系统外包)所谓安全和体验安全是指客户信息数据的安全合规合法、体验是客户体验,因为获取客户的成本很高很贵所以一般银行做法都会有交叉营销或者客户重复利用。典型的如平安。
85. 催收策略是如何设计、优化,具体怎么制定及优化催收策略。策略规则在决策引擎中是怎么测试及部署上线的?
答:我是一直在催收业务线进行工作的,具体策略模型我并没有实际研究过,这里我只能用业务的理解给你解答,仅供参考
催收策略一般都会有2套以上,后台的运作一般都是同时运行,比如进入策略的的案件100个,一般会3:7 或者2:8开,少的部分就是测试,多的部分就是常规。通过产生的两组不同数据进行监控效果,如果少的部分效果比多的部分好和稳定那么就会逐步替代多的部分作为主要运行,如此更迭。算法上决策树和xgboost都是比较常用的办法。
实际就是关键区分指标要找到。举个例子。我们在做经济复苏模型(哪些人在未来会还款)关键指标选择调整的时候有一条对于设备安装APP的种类作为关键指标,我们选择了母婴类APP作为关键区分项效果很好。乍一看感觉和还款没啥关系,但是实际想想不难推测为什么这类人未来还款会很强。
这类APP如果不是刚性需求是没有人会安装的。即使出厂有安装也多半都会被卸载。反过来急然有需求那么一定说明经济状况还不错家庭情况也相对稳定才会考虑哺育后代的。所以这也说明安装这类人的经济情况已经好转。
以上的情况可能比较跳跃但是我想说的是关键的指标调整除了一些常规的什么申请次数之类的也要多想想一些被拆分的很碎的指标的衍生用途。多尝试。
另外我接触比较多的一线的催收人工策略就是诸如什么时候打电话,什么时候发信息,要怎么个频率。以及话术的一些应用的策略,这个没有什么算法,都是通过在线的案件表现和最终的效果进行积累和调整的,这个应该不在你的工作范围中,不过建议有空可以多和一线管理人员交流看到真实的表现这样对你的催收策略调整设计都很有用。
(如何设置规则方法论:市面上常见是通过决策树算法(聚类分析)得出,平衡其触发率和命中率还是要通过风控指标的监控进行调整.)
86. 就是说评分卡做好以后,先在原有基础上等上一段时间,积累一定的数据量,然后再将积累的数据和线下的评分模型比较;那么我上线以后,在通过一些指标监控的时候,什么样的情况下模型变得不好需要重新调整,什么样的情况下模型良好而不需要调整?
87. 怎么更新评分卡或模型,比如通过决策规则获得数据构建评分卡或模型,上线一段时间之后,想更新模型,该用什么数据去建模
答:refit就是用最新的数据来,rebuild就是按照之前的逻辑重新做一次。
关于作者:梅子行,风控技术专家、AI技术专家和算法专家,现就职于满帮科技,负责机器学习在风控领域的算法优化。历任多家知名金融科技公司的风控算法研究员、数据挖掘工程师。师承Experian、Discover等企业的风控专家,擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法,热衷于数据挖掘以及算法的跨领域优化实践。
延伸阅读《智能风控:原理、算法与工程实践》
推荐语:以当前流行的机器学习模型作为技术线,以信贷业务的风险管控作为场景图,以线带面勾勒出了信贷领域智能风控的最佳实践,是一本贴合当前智能风险管理业务需要的佳作!
Q: 你还有哪些问题要问?
在公众号对话框输入以下关键词
据统计,99%的大咖都完成了这个神操作