使用MaxCompute进行网贷业务风控预测分析

  • 时间:
  • 浏览:2

一、违约评估架构

1.​数据源:数据包括某借贷网站提供的借款人资料以及否有有按时还款等具体情况构成的记录,一共3万条记录;

2.数据同步至阿里云:使用DataX工具将数据导入到在ODPS建立的表中;

3.流程计算:阿里云构建算法分析流程

4.分析结果:对计算出的违约风险储存于表中;

5.数据可视化展示:从数据库中读取数据进行可视化展示。

摘要:网络借贷地处网上实现借贷,借入者和借出者均可利用你你这俩网络平台,实现借贷的“在线交易”。网络借贷分为b2c和c2c模式。一切认证、记账、清算和交割等流程均通过网络完成,借贷双方足都没有户即可实现借贷目的,因此一般额度有的是高,无抵押,纯属信用借贷。网络借贷的风险并非 ,构建三个 准确率高的风控系统显得格外重要,现在当.我.我.我.我利用某网络贷款网站提供的几年来贷款风险数据(经过脱敏外理),使用机器学习的法律依据构造三个 能准确从借款人的资料中判断其违约的前一天性(借钱不还)。

三、违约评估预测结果展示

当.我.我.我.我分别在尝试在logistics regression、随机森林、xgboost上进行模型训练并进行预测

1.在logistics regression上,利用5折交叉验证,将参数正则化惩罚项‘C’设置为0.4,正则化选折 L1正则,在验证集上9000个样本上进行预测,AUC的值达到了0.72993。



2.在随机森林上,利用5折交叉验证,将决策树的个数设置为50,决策树最大层厚设置为13,决策树三个 节点所都要用来分裂的最小样本数设置为150,在验证集上9000个样本上进行预测,AUC的值达到了0.720267。



3.在xgboost上,利用5折交叉验证,将增强树的数量设置为113颗,决策树最大树深设置为3,最小业主节点样本权重和设置为5,在验证集上9000个样本上进行预测,AUC的值达到了0.751850。

二、分析法律依据



1.本文中的3万记录来之于国内某网络借贷平台的经过脱敏外理的真实借贷风险数据。

2.获得的数据导入阿里云数加平台,数据表包蕴含每一笔借款的借款时间、借款人籍贯、借款应学历、借款人社交信息、借款人否有有按期还款等等一些字段。

3.在数加的算法平台上建立回归预测的算法流程如上图。

4.采用数加组件的缺失值统计,对每一借款人资料的缺失比例进行统计,对比其在训练集和测试集上缺失比例的分布具体情况,剔除哪哪几个资料缺失异常的记录;统计每个数值型字段的标准差,剔除掉标准差几乎为零的字段,哪哪几个字段对结果的区分度几乎为零;

1)剔除异常值(横坐标为每三个 贷款人,纵坐标为每三个 贷款人信息的缺失字段的个数;左边为训练集中,右边为测试集中)



2)剔除标准差为几乎零的价值形式(以小于0.1作为剔除的阈值)



5.从信息中构造价值形式

1)分开统计出贷款违约的借款人和正常还款的借款人在每天的成交数量,从中可不都要看出两者的分布不一样,故看出时间对借款人否有有正常还款地处区别性,什么都从成交时间中提取出月份日期信息;

2)每天的成交数量否有有有履约的分布具体情况(count_1:贷款违约,count_0正常还款)



3)将借款人的籍贯信息利用城市等级进行分类合并;前一天将借款人所在城市信息作为每三个 人借款人的价值形式倒入xgboost中进行训练学习,得到每三个 城市的重要度排名,提取出重要度最高的前40个单独作为一类城市,一些的城市进行合并为同一类;

4)从提供的登录信息中提取每个借款人的登录信息计算出其平均登录间隔,借款后哪几个天才会登录等等一些组合价值形式;

5)将类别型价值形式使用独热向量编码;

6)最后将数值型的字段进行标准化,既能加快模型的训练时延,可不可不可否将数据倒入三个 标准分布内,使每个价值形式之间的数值大小差距尽前一天小。

6.将外理完毕的数据分别倒入logistics regression、随机森林,xgboost中进行分应学习,并用网格搜索各分类器达到最佳具体情况。

7.可视化展示,将流程计算的结果,进行可视化展示。

数据信息:

包括信用违约标签(因变量,违约前一天不违约)

建模所需的基础与加工字段(自变量)

相关用户的网络行为原始数据

本着保护借款人隐私的目的,数据字段前一天经过脱敏外理。



Master表(每一行代表三个 成功成交借款样本,每三个 样本蕴含50多个各类字段)



Log_Info(借款人的登录信息)



Userupdate_Info(借款⼈修改信息)