返回上一页

AI在小微企业信贷业务的全场景应用

王强  深圳前海弘犀智能科技公司创始人,董事长兼首席科学家

 

今天我给大家分享一下人工智能在小微信贷整个全场景的应用,我们用了一些新的算法在小微信贷这个领域,小微信贷现在是个世界性的难题,刚才听了各位专家一些很深入细节的工作,我是从理性的角度来看待这个问题。  

一、小微在各个场景应用的痛点 

第一个就是成本高风险大。第二个是内生动力不强,因为它不赚钱。第三个马太效应还是比较严重的。那么其实小微技术发展这么多年,它经过了三代,第一代分了两半,第一部分是全手动的。然后, IPC进入到第二代,号称“信贷工厂”半自动化。之后进入到第三代的互联网金融这一块,全线化的这部分。那么它其实都只解决了部分问题,就是难和贵的问题都没有解决掉。

第三个问题就是痛点就是小微企业面临欺诈,它的欺诈是特殊性的,它是一些虚增资产虚增利润、流水的这些欺诈。 

第四个就属于共享问题。其实大家一直在提联邦学习的方法,在现实上联邦学习的落地性还是比较差的,因为他没法应对的多达 400多个的数据源使用不同的算法。联邦学对同样的算法是比较有效的,但用不同的算法还是比较麻烦的。第五个是降低成本提高效率,小微企业的基本是线下获客,成本高效率很低下。风险和运营成本也非常高的。

最后一块重要的就是风险。很重要的问题就是,其实你不要从横切面看中小企业,其实要看它的持续经营能力,这是怎么识别小微企业的持续经营能力。第二个是隐债恶劣程度有多大。第三个就是区域性、行业性的集中爆发,还有供应链的上游企业的传染。再一个就是小微企业怎么评估小微企业的违约成本,其实是小微企业应用场景的一个最关键的难点、痛点。  

二、小微信贷的三个模式

三个模式都还是比较多的,一个是全手动的,一个是半自动的,最后是全自动的。那么在全手动这个领域,包括像台州、泰隆,它起的更多的是属于属地杀熟,用蜜蜂采蜜的方式,规模化,人的依赖性、客观性,道德风险、操作风险成本都非常的昂贵,异地扩张复制也很难,它比较适合中小银行。那么现在大部分很多的做的比较成功,像台州和泰隆的银行。

第二个是半自动化信贷工厂制造资金,比如中行、建行,它适合大型银行来处理,包括像富国的模式,是当时我在美国时候帮他们一道建的这套模式。信贷工厂是淡马锡在原来美国富国模式基础上总结出来的,最关键的是确定一个标准的产品,然后获客、调研、审批、贷后管理整个系统化和标准化,风控模式主要是规则 +评分卡+尽调材料输入。

全自动化的是从产品到获客到最后的贷后全部过程自动化,它的风控模式就会面临一系列很复杂的数据化的处理,包括白名单 +子模型数据+策略+风控模型+客户分层+客户价值+数据价值+智能交叉验证+CV、NLP历史尽调数据处理+融合模型。其实想要做到全自动化,需要一个庞大的数据和很强悍的基于传统和机器学习的建模团队、完整的运营团队、客户价值提升的团队。那么问题出在哪里呢?一个是数据共享的问题,第二个是,外部数据收集很好但数据可查的概率,第三是数据质量,第四是规约化管理,第五是业务场景闭环,第六是特殊反欺诈,第七个是收集过程中隐私的保护,还有特别是监管透明化。

三、小微全流程

接下来我们看一下小微的全流程里,大家需要做哪些事情,这是我给大家提的建议。第一个就是从产品设计、获客、反欺诈、风控模型的自动化审批和贷中、贷后预警、催收的支撑体系。那么如果银行想要去做这样的小微体系,你要保证你未来具有规模化,这很难,但规模化问题都要解决掉,那么你就需要考虑从八个方面来提升自己的能力。怎么做产品设计,获客、反欺诈、风控模型,到自动化审批,到贷后预警,到催收,到自动化体系。

那么在 AI这个过程中解决这个问题的时候,从产品设计上AI都会参与到哪些?第一个就是做产品线的时候考虑用哪些人工智能的技术来降低成本。第二个是,怎么重新定义产品的数据架构体系,原来这种基于数仓、基于决策的统计分析架构体系肯定是有问题的,实际上数据处理不是那么简单的。

第二个获客方面,怎么考虑客户的行为做到千人千面,做客户分群,既要做客户分区,又要做到千人千面。然后要考虑怎么能够提升你的获客的能力,要考虑你的预售性的准确度,其实预售性是对小微企业一个很重要的获客的提升方式。

 反欺诈一个是社群切割,上游企业的传染性,用VVD的方式考察的区域风险。对迁移学习和知识图谱、对经营反欺诈的能力,当你获得这些非书面数据的时候,如何通过知识图谱方式来看看它们之间的相关联性。

下面风控模型,包括 LR、集成学习,对于0样本少的还有一些双轨模型,双轨模型对于那些既要警示性又要精度、还要很多的准确度的要求是非常有意义的。还有二阶融合,二阶融合是解决了整个的联邦学习的一个逻辑性问题和自动化建模问题。

自动化审批和贷中就是产品运营这块,像 RPA、CV这些今天的模板智能化和LP的审批的质检和贷后的一些预警,包括DNN的文本、数据的特征。

催收这块像SKM债务人的切割,包括智能的催收、智能体系,像Face ID OCR、设备指纹、点击模型和生物探针这些东西也会运用到。

那么在精准获客这一块,其实我们就要看三个模式,一个是怎么去拿到数据,第二个是用什么算法,第三个怎么做分层。第四个是用机器人的处理方式解决怎么去处理客户的问题。

进入后第二个就是隐债,隐债这部分我重点强调一下,其实隐债不可怕,但是隐债的恶劣程度是非常可怕的。所以说第一步我们在做隐债的模型的时候,其实很多人是靠的经验,这种往年的经验去考虑是不够准确的。那么第一个问题,我们要考虑怎么建立隐债的分类,怎么去识别隐债,怎么评估它的恶劣性,包括现金流状况、利息数量与高低这些参数。

那么下一部分就是,做线下的时候很关键的一件事,是怎么去做防包装的尽调模板。很多的尽调模板需要怎么去考虑它?比如说事后暗访,然后看后台数据来处理来触发它的规则,然后对他所有的地址要做质检。

四、风控用算法技术

算法在这里我提到八种运用方向。包括规则的挖掘方案,集成的评分卡,项目冷启动,幸存者偏差,不均衡学习,异常的检测,反欺诈模型的优化,网络挖掘方案这些内容。

那么其实在我们的算法里,弘扬我们自己的算法,包括我在各个学校里头,包括在清华、西安交大,我们也提供了这样的一些技术,包括也有学生、有些国家自然科技基金,还有 863的项目,也现在叫国家重点项目。我们也用了一些新的方式,包括像半自动化的建模的技术和方法,很重要的问题是其实原来是可以做自动化,但是因为一个是建模流程你如果做得很好的话,如果你有完整的数据,好的 y的样本,就是说你的贷后的样本,那么其实模型基本上两天就可以出来。

第二,双轨模型兼顾了稳定性、解决性和准确性问题,而且融合了一些大量的数据源。小微在大量数据源处理的时候,征信是个数据源、电力数据源、税务数据源,比如说这几百个数据源,基本上就有几千上万的维度。那么这样的话双轨模型是有点好处的,先做子的模型,然后通过基层学习再把它融合在一起,然后再做迁移之间的关系。使用集成监督学习对子模型算法进行融合,建立面向 Y的精准主模型。把一些好的样本坏样本融合在一起来做聚焦推断,这对稳定性是非常有意义的。

自动化挖掘其实更多的是先考虑优质策略生成,就是说在做 LR还是其他,集中学习再算出来某一个变量或者衍生变量,它的KS很高的情况下,你可以单独把它拿出来作为一个规则,这其实比专家定义的规则意义要很大。

衍生变量设计其实更多的是第一基层的二次特征设计和优选变量,比如说在大样本的二次特征设计中,包括其图计算的关系,基于这种深度挖掘的关系和 DNN的文本搜索的关系,来找出之间关系的关联性,这比根据专家经验设计的变量要复杂、还要有用得多。而且有了这些大量的变量之后,比如说有些人说我衍生变量要成千上万个或者有几十万个,没有大量的没有几千万的样本,或者1000万的样本,其实是做不到的,变量再多你没有样本,其实学不到那么多的。

然后是财务预测的技术。财务预测我就不多讲了,怎么能够把人文的、非书面的东西变成书面的好的。

下面就是 DNN对一些收益特征的处理,在这里我讲的是DNN的方式,其实更多地通过预训练的词切入模型,通过隐含马克罗夫的模式的放进来,到最后的从词嵌入层、词向量表征、CNN的特征提取到分类器的网络,最后做出来我们考虑的一个关键词的向量空间的关系。

第二个是根据时序提出风险的预测,其实根据时序来看,不是看了一个界面,而是看整个小微企业的一个生命周期,那么生命周期对时序 DNN的数据是非常有意义的。DNN在处理这种时序的生命周期数据,特别在预测小微企业的经营性和有效或者持续性是非常有意义的。

后面我会提一个更有作用的做法,就是四 K的智慧金融,其实你要想做好一个小微企业,第一要KYC了解客户,第二KYP了解你的产品,第三KYE了解你的员工,其实你要做定量的,第四个KYT了解你的交易。其实很多银行在处理这个问题的时候,不太会从自由的结算账户里头去挖掘这样的信息,这个其实是很重要的。

五、风险决策落地建议

那么风险建议决策落地方式,一般方式就是通过两类数据,非结构化数据和非结构化数据。那么非结构化数据主要是一些像 300家的数据源非吸收数据,最后我会做出一些特征,包括了关联、专家、深度学习、特征和 LSTM等,最后会分出来一系列的,比如包括履约、历史、行为、偏好、社交,后边还有一系列的基于企业的维度,这些个人的维度属性。

那么 2+2的模型这里头讲了很重要的问题,即既有个人属性,还有企业征信属性,最后形成了行为、社交和语义的风险模型,最后做二阶融合,展示出它的违约概率。

落地建议这里头的话从业务流程开始,用户申请到反欺诈到评分,那评分里头会做一个图像查询的引擎,一个规则引擎,还有机器学习模型的引擎,那么用 ABtest的方式来处理反欺诈和评分的问题。

最后还会有个特征引擎,包括网络特征、专家特征、特征执行、深度学习特征文件,就用底层数据架构来处理,不用 Hadoop,还是用 Oracle的数据库来处理,这是比较有效的。谢谢。

 

来源:2020(第十六届)中国金融风险经理年度总论坛(11月)

请登录!