二代征信系统的结构化解析与特征工程

发布时间:2021-01-18浏览次数:546

二代征信系统自2018年着手启动,并于202054日开始全面替代一代系统。相较于一代征信,二代征信不但在信用报告格式上发生了诸多改变,展示版面更加明确清晰.与一代征信系统相比,二代征信在数据维度上更加丰富,展示的信息数量明显增加,对信贷决策提供了丰富的信息。主要有以下几点变化:1.更多非银行金融贷款信息已经进入征信;2.征信显示还款记录由最近2年拓展至最近5年每期还款实付金额;3.信用卡大额分期在征信中显示;4.相关付费信息明确列出;5.增加了共同借款人标识。这些显著变化为征信报告的在信贷领域更广泛深入的应用提供了机会.

上海财经大学统计与管理学院上海征信研究院与业界合作研究,目前初步完成了二代征信报告系统的结构化解析与特征衍生系统的开发.其中信用报告的数据存储采用了MySQL数据库架构,关系数据库的构建采用了E-R模型,该模型根据信用报告的内容构建关系数据库,并通过将标准的报文解析成结构化数据导入MYSQL数据库存储.MySQL作为广泛使用的开源数据库,开发和运維成本较经济,适合在企业内网作为数据集市存储工具,且和PythonSAS等统计分析软件有较好兼容性,能较好兼容和支撑后续的数据分析工作。依托统计与管理学院在统计理论方法上的优势,上海征信研究院针对二代征信报告进行了深度挖掘,衍生了大量的特征变量,覆盖面广,逻辑性强,为征信报告数据在信贷流程中的应用奠定了良好基础.征信报告是金融机构信贷决策依赖的核心数据.信用报告的特征变量适用于信贷全流程的量化信用风险管理,例如,在贷前管理中,可用于提供针对于特定目标客户的产品设计、制定相应的准入策略、授信策略,对于设计的产品,可通过信用报告中的特征变量构建营销模型、风控模型,以进一步完善监控体系;在贷中监控中,信用报告的特征变量可用于建立动态风险监控模型、收益评估模型和基于风险的重新定价模型等,并对模型进行迭代及优化。信用报告的特征变量也可用于预测客户流失和提前还款等。此外,信用报告的特征变量也可在额度提升和交叉营销上提供决策依据;在贷后管理中,信用报告的特征变量可用于建立催收评分模型,为拖欠催收和违约损失追讨提供决策建议,来保证效益最大化。因此,对征信报告信息的深度挖掘对金融机构控制信贷风险,提高经营业绩具有重要意义.

目前,上海征信研究院已经将该系统应用于贷款产品的风险建模中.针对某金融机构2012年到2014年小微信用贷款产品,共2.4万笔成交并到期贷款,该贷款产品额度为10万或20万,期限为12期和36期,申请者均有信用报告,数据中累计的12个月坏账率不超过1%.采用信用报告衍生变量350个,建立风险评估模型,可在验证集上实现K-S0.35以上的效果,有效控制信贷风险.