一、风控与数据的双螺旋关系
数据和风控其实是一个双螺旋关系,这个双螺旋关系可以清晰地从银行风险管理中看出。
从最近十几年的发展看,2004-2005年,国内银行开始建立数据仓库,数据仓库的建立解决了整个银行的数据整合问题。数据整合完成之后,2006-2007年,银监会开始推动巴塞尔新资本协议在中国的实施。在实施过程中,国内银行为了建立PD、LGD模型等,对数据进行了大量的清洗,由此国内银行业终于意识到数据积累和数据质量管理对银行精细化管理的重要性,之后国内银行业普遍开始建立数据治理的体系,这是风控与数据的第一个循环。2012年前后,大数据的出现使得数据与风控形成了第二个循环。大数据的出现使银行意识到很多银行以前忽视的数据其实对风控是非常有用的,因此银行开始逐渐将这类数据引入风险控制模型。与此同时,在2012年前后,以互联网金融为代表的大量新型金融业态出现,这些新型金融业态的数据积累和银行的数据积累也不一样,它们将很多银行以往没有关注到的客户点击行为的数据、客户在网上的买卖行为的数据等引入风控体系,形成了所谓的大数据风控,或者以人工智能驱动的风控,由此风控和数据之间又形成了另外一个循环。以上两个循环构成了数据与风控的第一个循环体系。
第二个循环体系是业界实践和监管之间的循环体系。巴塞尔新资本协议的实施,最早其实是由业界进行驱动的。在巴塞尔协议引入以PD、LGD模型为代表的计量模型之前,其实很多银行就已经开始使用这些模型了。银行先行引入模型和数据,然后驱动监管跟上业界发展构成了业界实践和监管之间的循环体系,但是这个循环在2008年受到了当头一棒——精细化的模型和大量的数据,在一个结构化的波动面前都会变得无效。所以巴塞尔协议在这次金融危机之后进行了很多改进。总体来讲,在银行领域,模型的应用会越来越复杂,越来越精细化,但是从监管的角度来看,则呈现了另外一个态势,监管越来越趋向于对模型持一种怀疑的态度。巴塞尔协议三的出台使银行意识到要从另一个角度看待风险计量技术的发展和数据收集、处理和模型的发展,争取达成二者之间的一个均衡。
二、大数据风控的困难点
信用风险有很多的来源,但是最根本的来源是信息不对称,这几年通过大数据和很多新技术的发展,我们看到了一丝解决这一问题的曙光。但从目前情况看,与以前相比,目前的大数据技术和人工智能技术虽然有了比较大的突破,但还是必须要重视其中的一些困难点。
(一)无法收集全量数据
第一个困难点是银行可能无法收集全量数据。例如,PD模型或LGD模型输入的都是银行的历史数据,但是银行的历史数据却不能代表整个社会客户的全量情况。这是因为,银行的客户在进入银行之前,就已经进行了一次筛选,也就是说,进入到银行模型的样本,从最开始就是一些好样本,真正的坏样本在收集数据之前就已经被丢弃掉了。基于这样的数据样本所产生的模型,如果无限制地推广到没有经历过的客户上,那么银行将面临巨大的风险。
(二)数据欺诈
第二个困难点是数据欺诈。数据欺诈是指当模型建立之后,很多人都会去研究这一模型。例如,银行内部存在风控和业务人员的矛盾,业务人员会研究哪些因素会影响风控模型的结果。在业务经营过程中,业务人员可能会有意识地去影响这些因素,这是第一个方面。更重要的是另外一个方面,即客户会利用模型的短板去“制造”数据。这种情况经常发生在电商客户中。例如,商户为了证明自身经营状况良好,自己可能会进行很多假交易以欺骗银行的模型。此外,银行还面临另外一个问题,对于小微企业,这几年很多银行都在做以税务数据为基础的信用贷。通常认为税务数据是比较真实的,所以银行利用税务的数据发放贷款应该比较保险,但一些案例表明,税务数据也存在造假的可能。例如,地方政府现在有很多的优惠政策,如税收返还政策,那么有些企业就会利用这些政策的漏洞,先到税务数据库里产生一笔交税的数据,然后通过返税的方式把钱返回去,但是在数据库里只有该企业交税的数据,没有返税的结果,这个时候如果仅用那一笔税收数据带入信用风险模型的话,信用风险依然是存在的。信用风险将来会有多种风险来源,而数据本身的风险来源将会成为一个越来越重要的因素。
(三)模型风险
第三个困难点是模型风险。当市场上所有的行为趋向一致的情况下,这个市场的风险是最大的,因为它极有可能出现崩溃。如果市场参与者的很多行为都是基于类似的数据模型和类似的数据来源,那么市场上同样会出现一种趋同的行为,这个时候如果没有一个更高层次的数据一致性的验证,那么就可能会出现一些我们不太想看到的情况。所以,我们希望银监会能够在更高的层面上对银行使用外部数据和使用模型的情况进行管控,这种管控可以避免较大的系统性风险。
三、人为因素对大数据风控的影响
在大数据的数据和风控的双螺旋体系下,在数据越来越多、技术越来越复杂、服务形式也越来越多样的情况下,进行银行风险管理,一定要坚持底线原则,也就是任何模型、任何智能自动化的东西一定不能忽略人的因素,这里面包括数据欺诈的问题,包括人性的问题,也包括政策环境的问题。在数据收集整理工作中,人的因素是非常关键的,在传统的银行逻辑中,只有业务关注的指标才会进行收集和整理,这是一种通过人来定义、人来解释数据的模式。但是目前出现了一种新的趋势,即先采集再定义(datalake)。就是在采集之前并不知道需要什么数据,但是只要有一类技术能够保证数据是连续采集下来的,那么就可以先采集,等到使用数据的时候再定义,在使用中就可以对数据进行多维度的定义,这也许在一定程度上可以解决人在定义数据过程中产生偏差的问题。
金融危机后,为了防范大额的风险暴露,巴塞尔委员会制定了一套全球系统重要银行的监测模板。这个模板要求银行将最大的50个交易对手的所有数据按周上报给监管机构,这本质上是一个简单的统计问题,但是结果表明,几乎没有一家银行能够准确地做到这一点,主要问题出现在交易对手的定义上。例如,假设交易对手是工行,工行底下有若干的分支机构和若干的子公司,此外还有很多的海外分支机构,因此在统计的过程中,很难把控这一风险。
目前离我们目标中所想象中的大数据风控,仍然有很长的路要走,这件事情既有数据人的责任,也有风险人的责任,因为这个双螺旋仍然是由业务进行驱动、由数据技术进行跟进的一个关系。我也期望在新的技术里,未来能够把这两个因素处理好,在数据的驱动下让我们整个风控走上一个更高的台阶。