联系我们
返回上一页

数据科学在保险产品的实施和应用

金祖胜 美国 Bunker Hill 保险公司分析部负责人

 

一、数据驱动赋能保险产品

      在统计和数据上的研究目前基本上被称为数据科学,所以我也从这个角度来和大家分享在目前的新产品里面数据科学是如何应用的。我在进入新的公司时,正值公司推出新的房屋保险产品。一般而言,在美国传统的保险公司,申请保险时需要填很多表格,以前的产品里需要问150多个问题,例如是否养狗、房屋里是否有游泳池等等,由此评估申请人风险,最后进行保费的收取。这种情况下耗时就比较长,一般需要进行15到30分钟的填表,然后再开始定价。而目前的产品是完全数据驱动的,故目前到网站上只要进来填写地址等信息,只需要几秒钟的时间就可以完成定价,即在客户来到公司查询自己的保费是多少钱,后台已经将保费计算完毕。同时,在推广到全国的目标下,这个产品已经从六千万的保费到现有的2.5亿保费,在3年间翻了两倍。由于产品基本上是数据化驱动的,故其使用也非常容易,而这样的运作需要很多的模型支持。在生产线上,产品包含一个大的表格,六个州大概有两千万幢房屋,对于每幢房屋都有相应的定价与风险,在表格中十分容易搜索。这就是新产品相对而言与传统产品相比差别较大的地方。在发展此类产品的过程中,后续都是数据驱动的,所以数据科学在公司里是核心中的核心。

二、数据科学在产品客户生命周期中有重要应用

(一)潜在客户

      上述的保险产品,其潜在客户就是之前的两千万幢房屋。如果要针对房屋出售保险,就要对每一个房屋建立模型,计算其潜在风险,而这种风险不向监督机构报备,因为这是非约束下的风险,即根据机器学习、深度学习等各种模型得到的风险不需要报备。此外还有一个定价模型,而定价模型则需要向银保监会报备。这种定价模型与之前的模型也不太一样,因为这些模型有时使用的变量较少,或者模型是线性的,这是由于报备时必须解释每一个变量,要解释每一个变量的区间。这样就需要有很多的模型。此外,还要考量谁会对产品产生兴趣,这就需要响应模型。而在响应模型上,有一般的商业模型,也有直邮的响应模型,还有数字的响应模型,在各种渠道都有模型来支持。同时,对于房屋还要研究竞争者的可能定价,这也有很多的模型支持。由此可见,仅仅在潜在客户的方面,对于每一条命令都有十几个模型来提供支持,由此做到对客户的目标性选择。例如,通过模型将客户分为A、B、C、D、E五类,而对于代理人,一个A级客户有30%的提成,而E级客户只有5%的提成。在这种情况下,代理人就会自己去根据A级名单来进行保险销售。

(二)客户投保与产品定价

      在投保的时候,也需要针对客户优化的模型。而后,在产品定价时需要进行审批。在审批时候定价其实已经完成了,但因为定价是根据现有已知的数据进行的,审批时可能根据重置成本(Replacement cost),即如果房屋完全烧掉,房屋赔付的价格上限来调整。一旦需要调整这些数据,相应的定价也会调整。所以虽然价格预先给出,但当需要改动一些数据时,相应的价格也可能会调整。所以这时价格的弹性模型、核保效率等等都会有一些估计,这也需要相应的模型支持。

(三)客户管理

      完成审批后,就需要进行客户管理。客户管理主要包括两个部分,首先是投资,因为收取的保费,除了银保监会规定的预留金,都需要进行投资。受限于公司规模,投资上是委托其他人进行。但是在理赔、欺诈索赔、代偿这些方面,都有相应的模型支持。例如,一旦出现理赔要求,马上就有模型进行打分,进而告诉理赔员有哪些注意事项。

(四)客户续签

      最后,从生命周期的角度,当客户最后达到一年时,肯定要考虑续约。此时就需要客户流失的模型来进行估计,谁有可能不续约,有多大可能不续约?以及在续约时,由于对客户了解更多,此时会再建一个风险模型。根据新的模型,就可以分辨出适合续约的客户。在这种情况下,公司的损失率大体在10%,而对于能收回部分基本上是没有取得成本(acquisition cost)的。而且续约相比新的保单,一般而言更加有盈利能力。但不管在哪方面,无论是风险模型,还是综合价值模型,所用的数据是不同的。潜在客户的数据可以买到,故在投保之前就有相应数据,这方面的很多模型都结合了投保时期的数据。此外,客户管理、续签等方面也有相应的数据用于模型。

三、目标群体的寻求方向

      在面对两千万的潜在客户时,该如何确定目标群体?目标群体的选择主要有三个方向:

      一是盈利性。如何确定盈利性?公司收入主要来源于保费,而定价模型是通过银保监会报备的。报备的模型需要的变量相对较少,且需要可解释性。而要考虑风险和费用时,风险需要单独建立模型,即所谓真正的风险(True risk)。所谓真正的风险,是将所有变量全部输入,建立无约束的模型,这样所建立起的最好的模型所衡量的就是所谓真正的风险,然后再加上运营费用等产品的成本,例如经纪人的提成等,从而确定目标保费。由此,盈利性就是指价格能够高于目标保费。

      二是竞争力。只有盈利性也不行,例如对客户都收取1万保费就可以保证盈利性,但相对的没人会选择投保。所以还要考虑和竞争对手比较时,价格上是否有竞争力,而价格的比较就涉及定价模型的比较。我们的价格是否比竞争对手低?如果价格相似,我们的产品是否包含的内容更多?此外,还要观察竞争对手的定价,因为每个公司的定价都需要向银保监会报备,所以可以将公示的定价下载,利用自身模型再比较。由此,就可以覆盖到很多重要的因素,再结合自身建模去进行匹配,由此可以对竞争力进行比较和提升。

      三是预算的承受能力。尽管客户具有可盈利性,也可能有竞争力,但客户也可能第二年就不再续约。而获客成本很高,平均一个保单,可能需要五六百美元,而一年的保费也就一千多美元,如果只带一年则肯定亏本。即需要考虑长此以往,客户或房屋对公司是否有兴趣?在这个问题上,首先是响应模型,而后是如果有兴趣,即成为客户会给公司带来什么价值,这被称为生存曲线(survival curve),反应客户的存续时间。由此,可以计算客户未来的现金流,而又知道每年的保费,由此可以计算客户的终身价值。对于响应比较高,价值比较好,渠道的成本也比较好的情况下,顾客的成本的话平均下来就会很低。例如如果预测客户可能待5年,而另外一个人待两年,对于同样600的获客成本,那在5年的平均获客成本只有120了。

四、数据源与模型预测性改进

      从上述目标群体的选择中可以看到,模型起着十分重要的作用。如果盈利性预测做的不对,就对客户选择产生了直接误导,而在竞争力等方面也是类似的。因此,类似生存曲线的一系列模型都要考虑预测的准确性,并且一定要不停地改进。改进中非常重要的就是数据源。数据科学,数据是基础。在我刚到公司时,数据源只有三个。一是房屋数据,包括房屋类型、房屋是木制的还是砖制的、房顶是什么样的,屋顶是什么材料做的,此外还有是否有车库等。二是包括天气、温度等一些数据。此外是包含地区的收入情况,穷人、富人的数量,收入水平等等;而目前已经有45到50个数据源,包括天气、国家海洋等数据。获取数据后,就需要将原始数据变成可用变量,然后进行存储,这些数据就成为不同的模型预测的变量;然后根据不同的变量,就产生了很多的模型。而后就是利用模型打分,并放入数据库,整个形成一个大表格,运用于生产线。第一批的所有模型建成是2019初,在数据源建成以后大概有30多个数据源,而后大概建立起十几个模型;大概在2021年上半年我们则准备进行第二批更新,因为我们又增加了十几个数据源。如此看来,数据也是很关键的部分。主要的数据源是哪些方向呢?第一就是财产数据(Property data)。例如房屋的房顶、边角是什么样的?美国目前有很多所谓AI,就是通过房屋进行一些识别,对房屋的屋顶周围的拓补结构进行识别,然后售卖相关数据。为什么美国很多的保险产品为什么不像我们这么做?这主要有两大障碍:一是信用分数,即信用局的分数。但信用分数是我们不能直接使用的,因为法律上不允许,必须有人的授权才能使用。而对于上述的房屋,我们没有任何授权,因此只能通过别的数据把信用这方面,即对风险的贡献想办法预测出来。由此,我们就通过不同的公开记录,以及一些信用机构,他们也卖很多类似的市场上的数据;其次,我们是“靠天吃饭”的公司,所以所有历史上的天气,例如日照、飓风、冰雹等类似的数据也是需要的。这些数据源都可以通过爬虫等技术下载,进而变成所需的数据进行分析,也可以帮助打分。所有的这些数据源在我们来说,现在我们的数据库的数据都在使用,没有闲置,所以就是说我们的数据量现在非常大

五、新的方法、平台与工具

      此外,很大的挑战就是CEO提到的,我们要不停更新我们的方法,保证我们的模型是最优的。对于我们团队而言,使用的语言是不限制的。SAS、R、Python等语言都有应用。但语言的种类不重要,必需的是效率。员工写的代码一定要可复用,即可以下次再用,所以需要建各种不同的包。在语言上非常重要的是三个方面:变量的选择与处理、建模的选择与评估,以及可再用性。同时也需要向别的方向拓展,因为虽然每个人都有强力的工作站,但是有时还是需要更大的机器,例如计算距离成本时,就是要计算到海岸线的距离,6个州有2000万个数据,同时海岸线点也有将近400万个,要计算其之间的距离再取最小值,个人电脑是计算不了或者耗时很久的,因此需要到AWS等平台计算。

      此外也有不同的建模工具,例如Liftchat、Snowflake也是我们正在准备的平台,在上面也能够很容易运行Python和R。Snowflake会自动地配置所需的CPU、内存等,不需要人工配置。另外还有Alteryx,他们也是一家上市公司,我们现在也有他们的建模软件。每次向经理们汇报我们的模型或是进行团队汇报时,首先要汇报有多少方法、工具、能力是新的,经理们非常在意要有一些新的方法,不致于落后。

六、多样的数据分析方法

      数据分析方法的应用也很多,比较常用的包括以下的方法:

(一)学习目标

      在这方面,实验设计较为常用。无论是marketing还是inspection,以及房屋检查时,还有与代理人的策略方面,都需要设计不同的实验,观察什么样的提成和代理人可以达到最优效果,这就需要实验设计。我们每年的实验设计很多,当然不需要具体实施,我们只用负责计算样本量需要多少,然后安排实验设计即可。

(二)描述性分析

      在描述性分析上,即对数据进行描述时,常用的方法有因子分析、聚类分析等等。聚类时大部分情况下都是无监督聚类,即没有因变量或者说目标变量,此外PCA(主成分分析)也用的特别多。例如最近的一个项目考虑Agregation risk(聚集风险)。即美国的房屋如果在某一块聚集太多,一次飓风将房屋都摧毁时,公司就会垮台,这就是聚集风险。如果在某一个地区的业务做的特别好,这时是有很大的风险的。某一地区的客户越多,风险就越大。对于聚集风险的定义,例如对每一个新的房屋是否对其投保,就要去计算房屋一公里以内,有多少现有客户,然后再计算50公里以内的客户数等等,客户越多则风险越大。这就存在多个聚集风险的测度,如何将其融合?一开始是CEO提出的公式,即一公里以内乘上1,10公里以内乘上0.01等等进行加总。而利用PCA进行分析,可以发现上述变量会解释85%以上的数据变化,公式也较为类似。这就是相关方法的一些应用。

(三)预测性分析

      当然,模型使用最多的还是预测性分析,例如线性回归、逻辑回归,保险用的比较多的有严重性、频率等模型要件,这都是线性回归;而后是是否出现风险,客户对我是否有兴趣等等,这都是逻辑回归方面的问题。此外,也有生存分析,即客户持续多久,即前面提到的预测生存曲线,计算现金流,使用NPV的方法进行决策等。另外一个相对使用较多的就是决策树,例如Gradient Boost Model、extreme GBM、随机森林等,这些也是较为成熟的方法。

      还有另外一个方向,即神经网络的使用也较多,而深度学习则相对较少,主要是受机能和预算的限制。此外,混合模型的使用也稍微多一些,因为市场上不同的渠道在同时进行,例如直邮、数字化如Facebook的方面,同时还有代理人方面的市场;但是又很难,尤其是数字化渠道很难确认是否由其影响,所以基本上使用混合模型来观察不同渠道的影响,再进行优化,即相应预算的分配,市场广告的投放等。对于每一个渠道,都会计算其衰退曲线(Decay curve)。所谓衰退曲线即,以看电视为例,当看到电视广告的一件商品后,即使有购买意愿,也不可能当天就购买,特别是保险;广告真正的效果出现可能是两周以后,顾客到时候去上网或是与代理人说去购买保险。由此可见,广告投放后,一开始的效果较差,但是很快会达到高峰,然后长时间后效果逐渐消失,这样的曲线就是衰退曲线。然后,如果下次隔一段时间再次投放,就可以保证广告或其他宣传投放的效果达到最优。这也是我们为市场分析部门提供的内容。

七、产品业务团队的配合

      业务的开展不可能凭空进行,故我们有很多不同的团队,且我们与业务团队是紧密合作的。具体而言,由我现在直接管理的团队大概有6个,而还有2个在业务团队进行定价,但他们的项目都是由我带领。两边团队的数据科学家是一致的,他们也做我们的项目,我们也都在做他们的项目。所以我们所做的项目都是另一边极其需要的,不存在做出的成果还要销售给别人的情况。在这种情况下,基本上任何建模或是项目,都是一开始就与产品团队一起合作。

      此外,数据科学的市场上目前的问题是市场较为热门,所以人员流动比较多。这时我们就需要将我们的项目标准化,即获得的成果是公司的而不是个人的,不能因为人员流动就无法运营。正如中国的一句老话,“铁打的营盘流水的兵”。公司需要变成一个铁打的营盘,进来的“兵”马上就可以工作,完成后员工可以离开,但成果都还在,所以基本上所有的流程都是很标准的。

      因此,项目设计是最关键的。例如,样板应该如何设计?需要每个人工作的流程一致,但项目可能不一样。具体而言,样本如何设计?目标变量是什么?预测指标是哪些?这都是需要设计的。设计完成后就需要建模,建模以后就可以产生新变量。对此也有不同的代码,将不同的数据源进行结合,这都是流程化的工作。在这种流程下,每天只需要半小时对固定的文件进行检视。模型实施时也有一个流程,这样可以与业务团队有交接,交接以后还有回流,因为业务团队使用时还有一些变化,例如在某些地区可能有一定加价,这样修改完后再进行验证,实现循环。实施的流程、实施后的监控等都是比较标准化的东西。

      在这种情况下,大家看别人的代码、工作,听别人的汇报都是一目了然的。所以我们早晨每天9:00进行的例会,8个人每人汇报自己工作的内容,基本上15分钟就可以结束,因为大家都在明白别人的工作,不明白也可以通过询问了解。同时,在多余的时间,也可以让有兴趣的员工来介绍他的项目,练习自己的展示能力,也通过演示自己的流程或者是结果,获得反馈,然后进行改进。

      如何做到“铁打的营盘流水的兵”?每一个项目和模型都有个代号,并在中心化的环境工作,这种在线上的环境可以保证绝对安全,即使全部被删掉也能够从别的地方恢复备份。这样就一定要把所有的代码、结果汇总,以及申请的PPT统一,除了数据,因为数据太大。这样,就只用看三个文件,一个是“read me”文件,说明对应的框架,即代码对应的功能,不同代码的输入、输出都要展示清楚。第二个就是Microsoft Excel文件,每一个Excel文件里从一开始的设计到中间的分析,会不断地添加子表,所以整个Excel可以很大,有上百个子表,但非常清楚地展示不同部分的内容。这样就只用看一个文件就可以把所有的历史上的决定、中间的总结、所有的结论都展示出来。根据这些Excel文件,就需要建立自己的“故事”。在这种情况下,所有项目的文件结构都是一样的。当一个员工离职,另外一个员工入职后,依然可以非常容易地看懂。

      在搭建团队上,基本融合了在Merkle、Mckinsey、AIG等公司时的一些想法,搭建起类似的框架。具体而言,在招聘和培养时,主要关注两个方面。一是人格属性和技术能力。在人格属性上,有两大核心能力。首先是问题的解决,尽管发现问题也很重要,但是解决问题更加重要。其次是要有所成就,即所谓的“Get the job done”,要把工作顺利完成。另外一个方面被称为幽默随和者,即“Fun and pleasant”,也就是需要保证团队在一起可以互相帮助,一个人完成的软件包,马上就会为所有人所用。这样就不需要每个人都在编写重复的代码,只需要标注好引用就可以使用别人的工具。

      在技术能力上,则包括硬技术和软技术。作为数据科学工作者,基本上包括三个核心能力。一是编程能力。工作环境下没有时间再作更多训练,因此要求至少已经掌握一门语言,例如R、Python、Julia等。二是建模能力,要有编程的方法论。这也是核心能力,无论是深度学习、生存分析等都要有足够的了解。三是数据。做数据工程一定要对数据足够熟悉。以上三大能力是必须达到的要求。此外还有例如项目管理、人员管理、交流、展示等一系列技能。

(编辑:梁丹辉)

来源:TGES2020周末在线前沿讲座