2019,科技进步更加彰显金融本质 《上海科技报》。
2018,人工智能在疾病预测中的应用《自然杂志》2018年05期。
2017,人工智能技术赋能金融科技应用创新——“平安脑”助力平安“大金融”战略《金融电子化》 2017年09期。
2018,人工智能赋能金融科技《大数据》2018年03期。
2019,科技进步更加彰显金融本质 《上海科技报》。
2018,人工智能在疾病预测中的应用《自然杂志》2018年05期。
2017,人工智能技术赋能金融科技应用创新——“平安脑”助力平安“大金融”战略《金融电子化》 2017年09期。
2018,人工智能赋能金融科技《大数据》2018年03期。
金融行业尽管是一个很成熟、传统的行业,现在却面临着互联网和科技领域的一些挑战。不管在获客、服务、运营,还是在风控方面,都有很多痛点。尽管看上去很风光,但实际上问题很多,比如说我们的获客,金融领域跟客户的交互频次很低,所以要更好地理解客户的需求,实际上是比较困难的。在运营服务方面模式都很重,比如像平安有150多万员工,成本是很高,效率是偏低。
风控是今天的主题,风控在我们平安的平台上,既有宏观又有中微观,种类非常多,欺诈和风险都是很繁杂的,要管理好是很困难的。那么这些的痛点对业务来说是挑战,但是对我们从事科技的人员来说是非常好的一些创新应用的机会。我们今天主要讲一下在这些领域我们用人工智能做了些什么工作,重点是讲风控领域。
在人工智能方面,我们首先要打造我们的基础,要具备基本的技术能力。在平安的话,我们从这个基础进行图像、视频分析。视觉的能力,听就是语音分析的声纹分析的声音,阅读和阅读理解和说就具备了自然语言理解,对文本的分析这些能力,以及最后把结果说出来的能力,在这些方面我们建立了相当多的基础技术,这样的话就可以让我们有了基础的能力,可以去做一些业务方面的应用。
但是光有技术是远远不够的,因为我们知道很多的业务场景,实际上光有技术拿来用,经常是四不像,产生不了实际的效果。我们要把技术和业务结合好,有业务的人员帮助我们去真正打造出行之有效的业务方案,才能够真正解决我们业务的问题。尤其在风险领域,它是一个非常专业的领域。
与其他的任何人工智能应用一样,在底层把数据打扎实。人工智能一定是底层有数据算法算例,然后才跟业务结合去做方案。
数据主要就三类,一类是静态数据,如财务报表、工商信息等。另外动态的数据比如说社交、舆情、新闻,法律诉讼。然后第三类是关系网络,如投资关系、高管关系、供应链关系等。有了这些数据以后,我们就形成了知识图谱,然后用各种人工智能技术对数据做分析处理,保障数据质量和时效性,然后把数据的重要因子挖掘出来,建立各种的模型。
针对风险场景,我们建立了宏观、中观、微观各种不同类型的因子。有了因子库以后,我们就可以在宏观的风险预测,中观的行业产业风险预测和微观的个体企业风险预测这些领域都相应建立模型,然后应用在我们的信贷投资、信贷尽调等不同场景上。
宏观方面,现在宏观经济数据有很大的问题,一个是它的吸入性非常高,另一个是它时间序列很短,没有丰富的时间序列特性,因此它的加工和筛选是一个核心。另外统计数据经常是滞后的,它的关系链条也不是很清楚。所以,我们把底层数据打扎实以后,就在因子加工和筛选上花很大力气,先是保证数据质量,然后是通过各种相关性的线性因果关系等检验技术,帮我们筛选,加工好因子,并且根据不同的场景筛选出来。然后通过不同的机器学习、深度学习和时间序列分析等模型,针对不同的场景去建立模型,建立分析效果。
这里有一个例子,我们预测不良贷款率会上升,可以一直追踪到它最初的源头,可能是因为工业品价格和消费品价格的剪刀差变差,导致工业企业的利润变差,然后导致了投融资的意愿和不良贷款的情况都会变差。它会去分析根由,而不只是简单的给一个结果,这样的话会帮我们业务更好地去规划下一步的工作。
另一个例子,通过招聘岗位需求和薪资等等信息,我就可以构建这样的一个指数。这是我们上千个因子中一个,可以看到它跟工业总产值增速是有很强的相关性,指数可以提前1.5个月对该市工业总产值增速趋势进行预测,序列相关系数达到0.7,增加该因子后模型精度提升超过20%
如果把全部就业预警指数,还有别的人流数据、车流数据、招投标,主流产品的关注度等,很多类似的因子都结合起来,我们就可以对宏观经济进行预测。我们在这个城市做14项主要经营指标的56项预测,趋势判断的平均准确率为77%,核心指标可以超过80%。
我们除了用刚才说的数据之外,还有很多用到了一些遥感、传播运输等数据还有专家观点,这些数据我们可以进行一些自然语言理解的分析和遥感图像的处理,然后我们可以得到一些重要的信息,通过不同模型的融合校正,我们可以预测一些地区的农产品的产量,然后根据这些信息,最终我们可以得到一个整体的商品价格预测。
风险预测的话主要是看短期的景气预判和中长期的周期预测。在短期的景气预判上跟前面讲的步骤和做法差不多,我们要帮助金融机构快速识别这个行业的下行风险,这样就会提前布局我们的投资信贷策略。
通过类似的步骤,我们可以把底层的数据通过分析校验,把里面的重要因子,以及宏观中观微观的重要因子都提取出来,形成因子库。然后我们根据不同的应用场景去做不同的行业,做核心因子的筛选,这个步骤同样的也是非常重要的,筛选完之后,我们就可以提前预测短期的景气指数以及中长期的周期。
简单举例,对于中长期的周期研判。我们可以对原始信号进行分解。不是简单的做信号分解,然后就用这个分解出来的结果作为长期周期,而是分解出来得到一些低频的周期因子,然后再通过大数据优化,调整这些因子的组合参数,最终分离出中长期的周期信号。
对于集成电路产业,利用自研模态分解模型,对目标变量进行信号分解,从众多数据噪声中,提取低频周期因子,测算行业发展周期。通过我们的分解,得到周期低频信号,看到集成电路行业周期大概是6-9年,其中上行通常4-5年,跟专家的观点比较一致。预测到未来还是在一个波动向上的上行期。
下面我们来看短期的景气运行,可以看到它跟半导体的销售额累计同比指标有比较好的相关性,媒体热度变好的时候,销售额指标会有一定的上升相关性,变差时它会有一个下降的相关性。尽管不是非常贴切地反应情况,但是有很好的相关性,所以我们综合很多这样的类似媒体热度因子,就可以得到整个半导体行业提前一个月的景气度预测。可以看到它跟实际发生的情况也是比较接近的,这可以比较准确的去预测趋势方向,方向精度可以达到比较高的水平。
第一个例子是债券投资的例子,我们知道债券市场非常大,最近这几年爆雷的也很多。我们也是一样对底层数据,企业知识图谱数据做分析。我们覆盖了2.2亿企业和个体工商户,其中1.1-1.2亿是现存的。这些构成知识图谱,挖掘出因子以后建立5种模型,然后对这5种模型进行融合、调优,得到最终的一个债券风控总体模型。那么我们不仅是给总分,另外还有5个不同维度的分析,最定位风险的源头,我们的业务才能够真正去决定策略。另外这个模型不能有很高的误报率,否则业务是没法用的。所以误报率要控制在30%以下。那么就可以完成7×24小时的全天候的风控,提前3-9个月,在6个月以上就可以预警风险。这是一个结果,就是从19年到今年10月15号违约的有264只,我们可以提前三个月以上成功预警251支,覆盖2000多亿,并且可以一直追溯到源头。
另外一个就是企业的多种经营风险,企业经营风险也是非常重要的一个指标,对于我们金融机构的很多业务的决策都起到很重要的作用,包括信贷、投资等。如果我们用标准化的因子,通用的传统的标准化的因子来做企业风险的话,有一个问题是场景非常多,不同的场景下对这些因子的需求是不一样的,因此我们是场景化建模,也是场景化选择因子。
并且我们要用一个非常便利的手段快速地挖掘出所有的企业,不仅是上市企业,发债企业,还有所有的小企业,挖掘出相关信息,因为信息实际上是非常缺失的。我们要用巧妙的方法,而不是一个很庞大的爬虫,快速挖掘出这些相关信息。构建不同领域的持续的时效性好的精度高的数据,然后再挖掘不同场景的各种因子,通过不同场景的筛选,最后建立不同场景的模型。除了分场景模型之外,我们还需要通过关系的传导,发现上下游相似的风险主体,然后可以运用在我们金融机构的定向风险排查,专项审计等场景里。
对于一家公司,我们可以在20多种特殊风险场景专门给出报告,比如说有裁员风险,投诉风险等,我们都可以自动挖掘,给出风险画像,这样我们的业务人员就可以在出现风险的时候快速采取一些相应的策略。我们现在可以覆盖30多个高新技术产业的大部分实体。
以上是我们今天介绍的一些例子,是我们在应用人工智能技术、大数据分析在风险防控上做的一些工作。但我们知道风险控制是个非常专业的领域,而且这个领域范围很广,很多风险我们都不知道在哪里。目前我们的技术只能解决一部分问题,但是我们相信随着人工智能大数据技术得到更广泛的应用,我们能够越来越好地利用这些技术帮助风险管理团队更地地控制风险。
来源:2020(第十六届)中国金融风险经理年度总论坛系列11:智能风控——肖京《前瞻性金融风险分析》