余宙 阿博茨科技联合创始人
我主要分享一下我们通过人工智能、大数据和云服务,在风控领域、运营领域,尤其是在银行方面的一些使用案例和心得。首先介绍一下我们公司——阿博茨ABC,ABC分别代表了 AI人工智能、big data大数据和cloud云服务,是一个覆盖全栈的 AI技术公司,同时也是一个面向业务的数据科技公司。
我这次分享的主题主要是基于自然语言的可视化的搜索引擎。当面临海量数据时,如何更高效地使用这些数据是我们面临的巨大难题,全球各国也非常关注这一方面的技术前沿,其中我们使用到的三项核心技术,基于自然语言的数据可视化,也在中美技术经营清单的名录中。今年我们也很荣幸被达沃斯世界经济论坛评为2020年的科技技术先锋,同时也在亚太地区IDC成长最快的101家公司中,得到行业内的认可。
很多企业内部的数据都存在“脏乱差”的问题,这些数据不仅不能成为企业的资产,反而可能会成为负资产,不仅不能带来收益,反而占用存储空间,人效比非常低。因此,数据多并不等于大数据,脏乱差的数据会成为企业的负担。
ABC所提供的解决方案就是致力于解决覆盖数据全生命周期的一条智能生产线问题,从数据的收集到提取、填报、搜索和最终可视化解决大家的核心问题。之前的数据收集宛如大海捞针,数据分析耗时耗力,数据整理枯燥重复,尤其在金融行业,每天90%以上工作都是体力活,包括整理数据、写报表、做报告等,而只有10%的脑力工作用于风险控制决策。因此,我们核心提供的这些能力,是为了帮助大家从这些日常琐碎的工作中释放出来,有更多的精力注重于需要脑力的事情。
我们提供的这个产品和服务叫做“数问”,能够实现一语观天下,让各个企业、各个决策层、风险控制层、运营层从前中后台的角度,对所有数据进行非常直观地治理、查询、报告。它具备几个特点:一是一目了然,能够通过各种各样的可视化的呈现方式,告别单一的静态数据,无需等待数据专家手工添加报表;二是一语中的,只要通过一句语音就可以直接查询到想要的数据;三是一步到位,移动设备可随时访问,查询数据,并对关键移动进行推送和提醒。
我们的一语中的就是可以告别一些非常复杂的报表操作。当大家在外面开会或内部汇报时,可能临时需要获取一些数据进行做决策,这时往往因为不能及时获得数据而只能下一次会议再进行汇报,然而下一次会议可能是在一两个星期之后,这极大地制约了决策速度,也让大家决策的连续性思维受到阻断。
通过该产品,我们可以通过一句简单的语言很容易地从财报里的数据抽取出来进行搜索,从而进行不同银行间的同业信息对比。我们也可以查询银行内部数据,例如北京东单支行的教育和旅游贷款的金额对比如何,甚至进行东单支行和西单支行这两项指标的对比,也能够非常简单直白地让风控审查人员和决策部门很快地获取这些数据。这一整套系统也可以部署在企业内部,来确保所有数据安全可控,叫做“只进不出”,公开的数据对内进行推送,对内的数据在数据自己完成之后可以推入我们的搜索引擎,去进行相应的检索。和传统的固定报表相比,它的灵活度变得更高,而不只是静态地呈现。
当所有数据查询出来后,往往需要进行各种各样报告的整理、视觉方案的呈现,ABC拥有独特的视觉解析技术,能够把大量报表里的图像和表格还原出来,同时通过机器学习来学习这些图像的绘制方法。我们通过独家的视频和图像解析技术,即使没有任何数据标签、图像和表格比较复杂,也能够把图像里的数字完整地还原出来,这样就使得数据的获取变得更加丰富,这是因为大量的数据不仅仅在数据库中,还藏匿于很多报告中。香港交易所也是我们的服务客户,它的财报里包含有无框表格、繁体中文、英文等内容,我们都可以通过技术手段把里面的数据全部抽取出来,入到数据库里面,最终能够实现一步到位的数据检索。
它也能学习不同图像的画法,例如当一个刚入职的新人不知道所得到的数据应该绘制成什么样的图表时,就可以通过我们的技术使机器阅读大量历史报告,从而解析出营业收入应该绘制成柱状图,同比应该绘制成折线图。它不需要一个个模型去做配置,只需要给系统灌入大量的报告就可以,所以ABC历史上累计已经训练有3000多万份财务类型的报告。它就像非常成熟的人脸识别技术一样,只是我们把它用于了金融类文档的训练,就使得绘图的引擎变得十分智能。
另外我们也提供了数据分析的“今日头条”,能够实现举一反三的关联数据推荐。例如我们搜索的指标中,营业收入总是和净利润相关联,不良贷款总可能要跟资产负债率或者储蓄余额进行相应的对比。以前就是查一得一,而现在能够实现举一反三,当我们去搜一个数据时,就能够推荐更多的相关联数据,同时也能够实现知识沉淀,让整个系统越用越聪明。以前在做数据分析、数据报告时,我们主要依赖人工,人一旦离职,这些经验就会全部被带走。但是现在所有查询信息都会被系统沉淀下来,包括一些风控决策运营部门所关心的问题,以前没有一个统一的渠道能够去进行收集、汇总、整理它们,现在这个系统中能够非常容易地通过方便的工具变相地收集人们的需求,实现整个系统越用越聪明,最后实现精准推荐。
它缓解了整个业务部门、数据部门、技术部门的痛点。业务部门能够更加及时地获取数据,无需再像以前一样让专门的技术部门运营部查数据,同时也不需要花很多代价去学习一些非常复杂的工具,也不让大家的拓展性思维受到限制。它让运营部门、数据部门可以从众多重复的无业务价值的需求中缓解出来,同时也解决了人员重复流动、培训成本高的问题。以前的数据和系统分散在各个不同的业务中,查询不同的数据需要到不同的系统,现在可以实现跨业务的数据多元整合。对于技术部门而言,也可以去平衡业务和需求的来源,能够知道哪些需求最强烈,哪些需求不紧急。很多时候的需求只是嘴上说,但是从实际的使用情况来看,其使用频率并不高,这些数据往往浪费了很多时间,而我们可以让这些量化的统计结果反馈给业务部门,让大家知道哪些数据、指标和文档是大家最关心的。
整个平台最终能够实现这四个效果。一是自助式的自主分析平台,无需去依赖技术或者运营人员;二是能够实现知识沉淀和积累,尤其是在风控领域,人们所关心的问题能够沉淀下来;三是多元业务数据整合;四是实现多技术整合的应用方案,通过知识图谱关联数据关系,通过机器视觉和自然语言技术提供非结构化数据解析能力,为数据的获取到二次加工提供全栈支持。
通过我们整个平台底层的能力,能够实现“一网打尽”。所有数据的来源不仅仅有数据库,同时也包括众多的影像、票据,甚至是一些文档。我们的整个解析中台可以通过自然语言的阅读理解去实现内容的抽取,获取更丰富的数据。
整套系统已经在香港交易所成功得到应用,港交所现在是我们的服务客户,它的用途就是审核上市公司的公告,包括增发、分红等各种各样的公告类型。一些报告可能不像季报那样标准统一,一些信息,例如一些银行手机APP的活跃度、信用卡的发卡量、和哪些商场或者航空公司有联名的卡推出等,都藏匿于文档段落当中。我们就可以通过这项阅读理解的技术,实现在众多几十页、上百页的文档中,回答所提出的问题。最终我们使得香港交易所成功实现了从原来260多人3-5天的监管审核工作,缩减到只需要20个人、两个小时就可以完成。通过我们的自然语言理解,包括对中英文的支持,例如保险公司的一些扫描件、银行票据、发票、医疗票据等影像,都可以被成熟地解析出来,实现所有段落、文本、图像一网打尽。
(责任编辑:许泰琦)
来源:2020(第十六届)中国金融风险经理年度总论坛