联系我们
返回上一页
汪伟

汪伟

平安科技知识图谱技术团队副总工程师。目前主要负责知识图谱技术在金融、司法等领域创新产品孵化和AI 赋能工作。2016 年推出企业知识图谱产品- 欧拉图谱,2018 年推出债券分析和财务粉饰产品。产品获国家发改委专项资金支持,同时获IDC、TopDigital 等专业机构创新奖认可。
其他成果
 

2020,汪伟:知识图谱的原理、特性与金融业应用实践,未央研究,2020-04-20

2020,汪伟:知识图谱在商业地产管理中的应用案例,房天下产业网,2020-03-17

2019,平安科技AI智能识别财务“粉饰”有望成为作假企业的克星,央广网,2019-05-15

其他成果
 

2020,汪伟:知识图谱的原理、特性与金融业应用实践,未央研究,2020-04-20

2020,汪伟:知识图谱在商业地产管理中的应用案例,房天下产业网,2020-03-17

2019,平安科技AI智能识别财务“粉饰”有望成为作假企业的克星,央广网,2019-05-15

一、平安在宏观及行业AI分析方面的探索和实践

(一)宏观、产业分析与AI

      对企业而言,为什么要分析宏观和产业?从近年来电商企业间的竞争和行业风口来看,对于企业最重要的是发现机会,发现风险,发现风口,总结来说,见微知著,寻找时间提前量。这是我们做宏观和产业的出发点。

      基于以上三个出发点,在AI方面,我们的工作可以归纳为三部曲。第一步,识别。分析宏观和产业本质上都是在信息的海洋中识别和发现那些关键的、高能量的碎片化信息,能够给用户一些启发。第二步,关联。将识别出的高能量信息点与外部环境相关联。在关联的过程中,用户可以站在上帝视角,发现更多规律和启发。第三步,转化。在关联好的数据中加持更加场景化的技术,让数据变得更有价值。这三步可以总结为大海捞针、穿针引线和点石成金。

(二)探索与实践

      在宏观经济分析方面,首先是走势预测。除了与政府的合作,我们还对中国的主要地区的经济进行预测,包括深圳、上海、北京等城市和区域,基于这些预测,可以分析政府或市场上的一些经济主体可能会采取的行为措施。其次是态势纵览,通过比较一些先行指标,衡量行业的景气程度,影响投资板块的部署、资金分配、资产组合的配置。第三是归因分析,对多个维度、指标进行监测分析,显示出全国GDP景气指数,并且可以直观地看出GDP变化背后的因素和逻辑。

      在行业分析方面,主要针对产业结构、壁垒或痛点、关键技术、产业特征和商业模式这五个关键节点分门别类地捕捉市场中的信号,用机器获取更多碎片化信息,并且将它们关联起来,与人工报告形成互补,并且部分解决了人工撰写报告的周期问题。

      在政策分析方面,共有四个步骤,政策汇聚、政策结构化解析、政策关联、政策推演,即模拟和仿真。将全国各大城市、辖区的政策、热点收集起来,每天更新,并且自动解析,做成可视化的图形呈现。此外,还可以分析政策的发展脉络和演变趋势。在政策出台前,分析是否会与现有的政策出现冲突,寻找政策缺失和漏洞。帮助企业预测政策出台的时间、出台后的影响,并且将政策与产业链上的各环节关联,为提前布局投资板块提供帮助。

      来源:2020(第十六届)中国金融风险经理年度总论坛系列12:科技在金融业务中应用——汪伟《平安在宏观及行业 AI 分析方面的探索和实践》

 

二、关于知识图谱的原理与特性

(一)当前AI技术关于认知的逻辑框架与局限

       1、学习模式差异 

       第一个是学习模式的差异。学习模式主要有两种,一种叫外延式学习,另一种叫内涵式学习。现在所有的机器学习、数据挖掘和人工智能,都是基于外延式学习的。其优点是只需要告诉它事物明显的特征即可,不触及本质的内在结构,方便学习,成本很低。比如我们教小朋友认识事物,指着告诉他这是桌子,这是椅子就能懂了。但这种学习模式也有缺陷,就是在推广的时候有一些特殊情形,可能容易看错。内涵式学习,比如关于人的定义,古希腊说人是一种理性的动物,后来马克思说人是一切社会关系的总和。像这样的描述,的确触及到了事物的本质,但它不好的地方就是你把这个东西告诉计算机,它却没办法计算、没法工作。内涵式学习有一个很好的地方,就是定义清楚之后,它的泛化或者说推广能力非常强,这样的话只需要学很少的样本,它就可以推广出去。

       2、推理模式差异

       第二个是推理模式的差异。推理也有两种方式,一种是演绎推理,一种是归纳推理。演绎推理就是所谓的三段式推理。一个经典例子:人是要死的,苏格拉底是人,所以苏格拉底一定会死。注意一下最后的推理结论,它一定是一个确凿的,而不是概率性的结论。而归纳推理,比如说男生的头发通常是短的,张三的头发也很短,张三很可能是男生。最后的结论是一种程度的描述——很可能是男生,这个概率可能是70%,也可能是80%。但如果这个时候加一些描述,比如说张三穿了一件红色的衣服,戴了一副耳环,最后的结论就会发生变化,这是归纳推理所特有的性质。前面说的机器学习、人工智能和数据挖掘运用的都是归纳推理。在风险测量或者定价的时候,增加因子数量的多少,输入信息的变化会影响最终判断结果。

(二)知识图谱技术的原理、特性

       1、关联-从数据表到数据链

       知识图谱有一个很重要的特性,就是关联。在现实工作生活中,无论做企业分析还是个人分析,都会涉及到数据表。比如去办事,会被询问身份证、手机号、姓名、年龄、生日等信息,这些信息是拿来做关联的。但这种关联本身有局限性,比如很多东西关联不上,或者说关联没那么紧密。这种情况下该怎么办呢?我认为随着5G的发展,我们将从“主键关联”迈向“万物互联”,即物与物、设备与设备之间的关联,进而演进为“万数互联”的形态。

       为什么说万数互联是一种趋势,或者说万数互联有怎样的意义?一方面,关联面变大。举个例子,我们经常在新闻里听到面粉会发生粉尘爆炸,很少听到小麦会燃烧爆炸。这是由于小麦磨成面粉之后,它的表面积变化了,这个比表面积变化的量级是百倍级的,麦粒表面接触到的氧原子(在它磨成面粉之后)的接触面积变大了,导致物质的性质发生了质变——变得易燃易爆。另一方面,关联力度变细。比如说一家公司和另一家公司可能不会发生关联,但是公司和事件可以关联吗?事件和事件可以关联吗?这种关联在现有的表关联的结构体系中是很少出现的,但在知识图谱里他们可以被关联起来。

       2、推理-从大数定理到逻辑完备性链条

       我们现在的技术,所有的统计分析,基本上都是从大数定理或者中心极限定理来的。但这两个定理有一个前提条件,样本量要足够大。在做信贷审核的时候,分析个人信用都不成问题,因为个人信息很多。但是做企业信用评级就很麻烦,不同行业的差异性很大,要在里面找一些违约样本或者破产样本很难。这里我提出了一个数学公理和天文学原理。什么意思呢?天文学有一个非常重要的特征就是用极少的信息,来还原宇宙完整的真相。第二个特征就是天文学只是一次性的发生,比如说宇宙大爆炸就发生一次,它没办法反复做实验。如果只发生一次,也就是说有些样本只有一个,需要解决在这种情况下如何分析的问题——这就是天文学特有的分析方法论——模型嵌套思想。

       3、从相关性到因果性强AI发展路径

       现在所有的机器学习分析,数据挖掘也好,深度学习也好,其实都是基于相关性的角度去做工作,很少去讲为什么会这样?它的因果性是怎么样的?知识图谱或许能够回答这样的问题。

       在因果分析里其实有三个东西,第一是相关性,比如说太阳升起和公鸡打鸣经常伴随发生的;第二个是干预,如果鸡多叫两声太阳是不是升得更快,或者是太阳升得更大?干预一个因素,导致另外一个因素有没有相关的变化?第三个是反事实推理,假设这个鸡不叫了,太阳是不是就不升起了?这是一个现实当中不会发生的想象事件,但是它存在一个逻辑。因果性的存在有很重要的原因,因为因果性非常符合人类大脑的工作框架,人很容易或者很习惯地去问为什么。

来源:2020,汪伟:知识图谱的原理、特性与金融业应用实践,未央研究,2020-04-20