1992,线性模型回归系数的自适应估计,硕士论文。
1992,线性模型回归系数的自适应估计,硕士论文。
一般而言,在美国传统的保险公司,申请保险时需要填很多表格,以前的产品里需要问150多个问题,例如是否养狗、房屋里是否有游泳池等等,由此评估申请人风险,最后进行保费的收取。这种情况下耗时就比较长,一般需要进行15到30分钟的填表,然后再开始定价。而目前的产品是完全数据驱动的,故目前到网站上只要进来填写地址等信息,只需要几秒钟的时间就可以完成定价,即在客户来到公司查询自己的保费是多少钱,后台已经将保费计算完毕。同时,在推广到全国的目标下,这个产品已经从六千万的保费到现有的2.5亿保费,在3年间翻了两倍。
1、潜在客户
如果要针对房屋出售保险,就要对每一个房屋建立模型,计算其潜在风险,而这种风险不向监督机构报备,因为这是非约束下的风险,即根据机器学习、深度学习等各种模型得到的风险不需要报备。此外还有一个定价模型,而定价模型则需要向银保监会报备。这种定价模型与之前的模型也不太一样,因为这些模型有时使用的变量较少,或者模型是线性的,这是由于报备时必须解释每一个变量,要解释每一个变量的区间。这样就需要有很多的模型。此外,还要考量谁会对产品产生兴趣,这就需要响应模型。而在响应模型上,有一般的商业模型,也有直邮的响应模型,还有数字的响应模型,在各种渠道都有模型来支持。同时,对于房屋还要研究竞争者的可能定价,这也有很多的模型支持。
2、客户投保与产品定价
在投保的时候,也需要针对客户优化的模型。
3、客户管理
客户管理主要包括两个部分,首先是投资,因为收取的保费,除了银保监会规定的预留金,都需要进行投资。受限于公司规模,投资上是委托其他人进行。但是在理赔、欺诈索赔、代偿这些方面,都有相应的模型支持。
4、客户续签
最后,从生命周期的角度,当客户最后达到一年时,肯定要考虑续约。此时就需要客户流失的模型来进行估计,谁有可能不续约,有多大可能不续约?以及在续约时,由于对客户了解更多,此时会再建一个风险模型。根据新的模型,就可以分辨出适合续约的客户。在这种情况下,公司的损失率大体在10%,而对于能收回部分基本上是没有取得成本(acquisition cost)的。而且续约相比新的保单,一般而言更加有盈利能力。
目标群体的选择主要有三个方向:一是盈利性。如何确定盈利性?公司收入主要来源于保费,而定价模型是通过银保监会报备的。报备的模型需要的变量相对较少,且需要可解释性。而要考虑风险和费用时,风险需要单独建立模型,即所谓真正的风险(True risk)。
二是竞争力。只有盈利性也不行,例如对客户都收取1万保费就可以保证盈利性,但相对的没人会选择投保。所以还要考虑和竞争对手比较时,价格上是否有竞争力,而价格的比较就涉及定价模型的比较。
三是预算的承受能力。尽管客户具有可盈利性,也可能有竞争力,但客户也可能第二年就不再续约。而获客成本很高,平均一个保单,可能需要五六百美元,而一年的保费也就一千多美元,如果只带一年则肯定亏本。
模型起着十分重要的作用。如果盈利性预测做的不对,就对客户选择产生了直接误导,而在竞争力等方面也是类似的。因此,类似生存曲线的一系列模型都要考虑预测的准确性,并且一定要不停地改进。改进中非常重要的就是数据源。数据科学,数据是基础。
语言的种类不重要,必需的是效率。员工写的代码一定要可复用,即可以下次再用,所以需要建各种不同的包。在语言上非常重要的是三个方面:变量的选择与处理、建模的选择与评估,以及可再用性。
1、学习目标
在这方面,实验设计较为常用。
2、描述性分析
在描述性分析上,即对数据进行描述时,常用的方法有因子分析、聚类分析等等。
3、预测性分析
模型使用最多的还是预测性分析,例如线性回归、逻辑回归,保险用的比较多的有严重性、频率等模型要件,这都是线性回归;而后是是否出现风险,客户对我是否有兴趣等等,这都是逻辑回归方面的问题。此外,也有生存分析,即客户持续多久,即前面提到的预测生存曲线,计算现金流,使用NPV的方法进行决策等。另外一个相对使用较多的就是决策树,例如Gradient Boost Model、extreme GBM、随机森林等,这些也是较为成熟的方法。
数据科学的市场上目前的问题是市场较为热门,所以人员流动比较多。这时我们就需要将我们的项目标准化,即获得的成果是公司的而不是个人的,不能因为人员流动就无法运营。正如中国的一句老话,“铁打的营盘流水的兵”。公司需要变成一个铁打的营盘,进来的“兵”马上就可以工作,完成后员工可以离开,但成果都还在,所以基本上所有的流程都是很标准的。
因此,项目设计是最关键的。例如,样板应该如何设计?需要每个人工作的流程一致,但项目可能不一样。具体而言,样本如何设计?目标变量是什么?预测指标是哪些?这都是需要设计的。设计完成后就需要建模,建模以后就可以产生新变量。对此也有不同的代码,将不同的数据源进行结合,这都是流程化的工作。
来源:TGES2020前沿讲座系列-12 :保险公司与风险管理《数据科学在保险产品的实施和应用》演讲文稿整理