杨一民:大数据面临的一些现实挑战

大数据在近几年非常热门,我想结合自己在咨询公司的经验与大家做一个分享。在美国,资产超过500亿美元的银行大概只有三十几家,这些银行基本上就是我们主要的服务对象,我们做的事情大概可以分为两类,做得最多的是金融风险管理。最近两年,大型银行都开始运用人工智能与机器学习,所以我们现在也在帮这些大银行做人工智能和机器学习的模型和算法。

一、什么是大数据

几乎所有人都认为大数据的特点就是量大。针对当前经常被提及的数据库、云、各种软硬件,以及分析工具python等,我并不认为这些有什么特别之处,与我们之前的工具在本质上也没有太大的差距,只不过它们的速度更快一点。包括云技术、分布式计算等在内,不能说它们本身能够有太大的价值,而真正比较有价值的地方在于数据分析的技术应用,我认为将其称为大数据相对要合适一些。数据分析的有些部分可以成为价值发现,例如,以前我们用统计学和数学来做事情,现在开始用算法和AI来做事情。

二、数据的缺陷

数据多有好处还是有坏处,很多人认为数据越多越好,但我个人认为数据多其实有很多的坏处。

首先,数据多了就难以找到有用的信息,不知道有用的信息在何处。就好比挖矿,首先要知道矿在哪,这是个很令人头疼的问题。数据也是同样的道理。比如做信用评级模型,却不知道信用评级的信息在哪;比如做反洗钱模型,又不知道洗钱信息或犯罪信息在何处;等等。将这些有用的信息进行区分,实际是非常困难的。

其次,为有效利用信息,必须减少冗余度。就好比挖矿后矿土的提炼,如何提炼出其中的有效元素(比如稀土),这个过程也是极其复杂的。而且从我自身多年的建模经验来看,没有哪个模型能够超过10个以上的变量,超过10个以上变量的模型都是不稳定的,因此过多的维度是不现实的。所以我们要做的就是如何有效地利用信息,但在降维的过程中又会发现,实际上是很难进行取舍的。

第三,错的和假的数据太多,无法有效分离。以信用风险为例,坏的公司大概只占不到1%,存在洗钱问题的人可能只占1%-2%。但是,在清查收集到的数据时,错误的信息率甚至可以达到70%,网上收集的信息中有10%-20%,甚至更多,都可能是有额外难题的。因为大家在网上填数据的时候,数据很可能是错的、假的或者修改过的。如何进行这种错误信息的分离也是非常令人困惑的。

第四,数据多还存在稳定性问题。简单来说,就是存在大量的当前数据,而没有历史数据。如果要做信用模型,我可以肯定的说,历史数据是最重要的。美国金融危机期间一个非常重要的经验就是我们必须要历史数据。2008年以前,大家不太注重收集历史数据,从08年到现在美国金融界已经积累起十几年的跨周期数据。对信用领域来说,这种数据时最为重要的,数据量反倒其次。

最后,由于数据太多,所以难以避免过度拟合(overfitting)。例如,Google 关于流行感冒的预测就是一个很好的例子。在出问题之前,我们并不知道我们的模型是否过度拟合了。

三、数据与专业知识

鉴于上述问题,决策的重要性反而更应该加以强调,也就是说要依靠专业知识。常见的一个观点是有了大数据就可以减少对专业知识的依赖,可以肯定这绝对是错的。有些人可能会说,像AlphaGo这种人工智能比人做地好,但其规则就是专业知识,规则已经包含了所有的专业知识,人工智能是对已知规则的优化使用(比如计算器是对加、减、乘、除规则的优化机器)。正如我如果知道信用的规则,就不再需要系统评分。但现实中,我们并不知道这些规则,因此做大数据最重要的一点是具备这个领域的专业知识。

举个例子,分析肥胖者和减肥药的关系,鉴于两者之间强烈的相关度,于是模型(机器)会得出结论:肥胖是因为吃了减肥药。这是因为机器不懂因果关系,这种因果关系就是一个很简单的专业知识。类似地,研究希腊债务危机是什么造成的,模型发现希腊债务危机的变化与Facebook的使用者数目的关系基本上是一致的,换言之,Facebook的发展是造成希腊危机原因。两个例子表明,在没有专业背景的情况下,很难判断结论的对错。

此外,我们现在的统计学本身也是有些问题的。尽管我们经常用统计学来处理信息,事实上很多信息是不能被处理的。数据多不见得能有好模型。举个例子,我们有非常多的利率模型,数据量非常大,但每个模型都只能在很局限的范围内发挥有限的作用。与之相对,有的时候反而错的模型有用,有用与否不在于数据量的多少或者拟合效果,而要看是否合不合理,而这是机器做不到的。

 

四、其他的一些思考

做数据是一个工程,而非科学,科学与工程之间是存在区别的。原子弹爆炸原理是科学,但把原子弹造出来却是工程,需要用非常细腻的算法去做,用通用的算法是很难做出很好的结果出来的。

中美之间一个非常大的区别在于,在美国,特别是2008年金融危机以后,无论是AI还是大数据,它们看重的并不是技术的创新,而是成本的节约。但中国却正好相反。2008年金融危机以后,美国人认为不能相信任何模型,最后模型的结果一定要有人为的判断在里面。中国则认为模型一旦有了人为判断就不准确了,因此一定不能有人为因素加进去。这两个不同的观点很难说谁对谁错,但美国经过金融危机之后总结出的经验是值得思考的。

大数据是非常复杂的问题,下一个金融危机中,也一定会扮演非常重要的角色。

请登录!