联系我们
返回上一页

关于事件序列的债券主体信用风险预测模型实践

任亮 北京知因智慧数据科技公司CEO、中科院大学大数据分析技术实验室副主任、教授

 

一、当前债券评价体系具有局限性

      最近这几年发债主体在接连暴雷,2020年到11月底为止现在已经有25个发债主体首次违约,包括永煤、紫光等国企也发生了问题。我们统计了一下这些企业在发债时的评级情况:AAA级占到了12%,AA和AA+合计占到了46%。但是债券违约时的评级下调,往往都是出现在暴雷或者风险已经非常明显的时候,所以对于前瞻性的风险预测,我们需要有一个更加敏感的,更加实时的一套方法去进行评估。

      现在的内评法和外评法对于财务数据的依赖度比较高,而财务数据又具有滞后性,所以这一点是需要进行拓宽,放进更多的风险因子。包括公告、舆情、交易信息等因子在以前,特别是在发债主体的模型预测里面考虑地并不多,我本次也将重点就事件类的信息进行重点的探讨。

      在当前企业主体的评级体系的整个框架下,从行业到地域,特别是在偿债能力这个角度,其实主要引用的是一些财务型的变量。偿债意愿往往都是定性的因子。关于公司治理、流动性以及大数据调整因子是放在调整项当中,调整项就意味着在模型设定中是一个补充因素,并不是一个核心的因子。所以在新的模型当中,我们会更多地把焦点放在如何把这张表当中定性的部分通过大数据来定量化。然后在定量化之后,根据不同因子的特性,有些可以将其放在宽表里进行学习;而对于那些序列型和稀疏的矩阵型的因子,就需要用另外的方法进行处理,把它们结合起来才能更好地解决风险识别的问题。

二、新型债券主体风险模型的建立

      基于上述的思考,在探索发债主体风险之中,我们要同时考虑企业的自身风险和传导风险去进行企业的风险预测。在自身风险领域中,可以从以下几个角度来考虑:第一是企业的经营角度。这里面会把企业的财报等定量信息纳入进来,也会包括企业经营、工商层面管理层的变动因素。第二是企业的环境角度。把企业所处的行业、地域和区域环境,比如企业的集团和产业链的信息放入在考虑的因素之中。第三是企业的信用角度。这一方面主要考虑企业的司法、诚信、担保、关联关系等。传导风险在实际计量中,由于目前外部关系的数据相对来讲还不够充分,所以我们会把传导后的结果当做一类关联因子,放在关联的维度当中。

      上述这几个角度统称为一套Oscar的风险框架。我们在其上拓展了非结构化信息的变量,即事件,形成了一套OscarX的风险监控体系。因为事件是企业自身触发的各种阶段的行为表现,具有动态性、时间序列性。这类事件在传统的建模中并没有被充分地考量,所以把基于自身风险事件来触发的序列作为一个重要的因子,也会纳入到整个风险的框架之中,去进行风险的预测。

      我们在对于发债主体的研究当中也发现了一些规律:往往这些企业在风险爆发之前会有一些相似的事件发生次序。比如对于一家企业A,在发债后进行业务扩张,业务扩张失败后发生了高管变动,并且股价大幅波动,债券的利率发生上涨,之后债券遭到大规模抛售,最后出现债券违约。而对于另一家企业B,融资后进行业务扩张,但产品出现问题导致业务扩张失败,反映在其主要财务指标下降,随后发生高管变动以及关联子公司的司法诉讼,最后出现信贷违约。所以基于这些事件规律的分析,我们就可以把历史上所有的债券它们发生的事件和时间序列组合起来,然后根据其违约情况来找到其中有意义的事件组合,将这些事件序列与违约预测挂钩,作为进行风险计量的关键考虑。这里面既包括单个事件,也包括多个事件的组合,以及事件发生的先后次序。

      在进行建模的过程中,第一步就是要进行事件的定义和事件的提取。这一步我们通过考量企业的经营到企业的信用等各个维度,定义出一套关心的与企业风险相关的金融事件。并且因为事件这类数据是非结构化的,它大量存在于公告、新闻等不同的文本项之中,既有文章集的也有句子集的,所以关键就在于如何去提取并定义这些事件。在这里我们第二步采取的方法就是针对句子集进行事件的提炼。有了语料之后,在第三步就可以通过事件定义的一些触发词去做一个粗分类,先把相关的句子能够找出来。然后在第四步语料去重中,对相同的重复句子进行去重。接下来的重点就是第五步——进行语料标注。以经营预警为例,资产重组失败、抽逃资金和转移资产、资产查冻扣、破产清算、出售变卖资产、涉及民间借贷等都与经营预警时间相关。因为当每一个事件被定义出来以后,还要找到这个事件相关的主体和客体,所以在训练之前就需要前期的人工语料标注,标注之后形成样本,才能在之后结构化后通过机器进行学习。第六步就是模型训练,大家早期可能会用到LSTM,现在会用到BERT等一些更新的方法,这样机器就可以带着很多上下文的组合和关联,更好地来识别事件。接下来第七步,在事件形成以后,如果得到的是企业简称,还需要通过同义词的简称映射,将其映射到金融机构内部企业的客户关系系统或企业图谱中。这样的话我们才能将非结构化的数据和需要模型训练结构化数据之间打通,形成一个完整的样本。

三、新型债券主体风险模型的应用及效果

      通过事件的提炼,我们现在在训练模型的过程中大概涉及了230类金融事件;从历史的积累来看,形成了3000余万件金融历史事件,把它映射到约19万个企业群体上。这19万个企业群体包含了所有关于发债主体,包括上市主体等大中型企业。

      事件提取的过程中,有一点比较重要,即事件业务的定义和人工的运营。因为现在通过实践来看,通过机器提取的事件还是达不到100%的准确,所以在这里需要前期的人工标注以及后期人工对于事件的审核。这里面既包括对同义词、简称的审核,也包括对主体的核对。因为企业名称的全称是不变的,但是简称可能不断有新的词汇出现,所以在这个里面就需要通过机器每天把事件提取完之后,最后利用人工基于结果做最后的确认。人工确认和审核的结果会反应到机器的知识库里面,让下一次的提取作为语料能够更加精准地逼近事件提取的准确性。

      当事件提炼的过程能够不断形成为模型输入的事件因子之后,接下来就是要对事件进行建模。事件的建模过程中,我们也反复尝试过很多方法,包括状态转移矩阵、贝叶斯网络、条件概率、RNN等。因为事件的组合和事件发生的先后次序其实有点类似在文章中词汇的先后排列,所以我们现在发现通过RNN去提炼事件组合也是一种比较有效的方法。每一个企业主体所发生事件的先后次序,跟最后的违约会形成一个矩阵,这是一个非常宽且带有稀疏性的事件特点的矩阵。这样我们通过不断地反复建模,来寻找一个片段或一个事件组合与风险的一个比较高的相关性,去发现时间序列。

      我们在这个过程中找到了很多局部的事件次序。比如发行债券→招投标→公司项目→战略合作→对外投资→经营业绩→荣誉奖项→关联企业出现问题→法律硕士或经济纠纷;还有一种是兼并收购→股份转让→对外投资→战略合作→经营业绩→发生亏损或主要财务指标下降→证券价格异常波动→评级下调→债券违约,类似一个由盛而衰的事件组合。这样的序列有几个例子,比如康美药业、泰禾集团和紫光集团等2020年发生了债券违约的几家公司,它们在整个事件序列的表现上其实都包含了我们挖掘到的一些组合。当我们把不同的有意义的事件组合挖掘出来,其实在模型因子当中就可以成为进行风险预测的新的视角。这些因子再结合Oscar等不同的结构化因子,共同进行风险预测,就会达到非常好的效果。

      通过对发债主体进行更加全面的风险因子组合的分析之后,将新的模型与中债隐含评级作对比就可以发现:从覆盖率和准确率两个角度来看,新模型都好于原有的结果。如果将到2018年6月为止的中债隐含评级的AA-级及之后评级债券作为一个预警的名单,这个名单大概能覆盖80%左右的首次违约企业,且名单中的命中率是8%。所以通过这样的条件来作对比,新的模型在准确率和覆盖率上都有明显的提升。

      时间序列模型在债券主体风险预测的过程中,一方面通过企业自身风险,把经验、环境、信用、增信等角度通过大数据和宽表做大规模的学习,能够提炼出比传统内评法相比更多的有意义的结构化因子。我们针对序列型、稀疏型的因子,通过事件项因子的挖掘,做了另外一个角度的提炼。这个组合在一起就会形成很好的补充效果。另一方面在关联的角度上,我们将传导类的因子也作为一类补充,这样就通过OscarX这样一套体系其实是可以形成一个相对更完整的发债主体风险预测的框架。这个框架还可以再进一步扩展,不仅是发债主体,包括上市主体、大型的信贷主体,在这个领域上都可以得到比较好的应用。

 

(责任编辑:唐寅灏)

来源:2020(第十六届)中国金融风险经理年度总论坛(11月)

 

任亮:关于事件序列的债券主体信用风险预测模型实践
时间:2020-11-28
演讲题目:基于事件序列的债券主体信用风险预测模型实践
专家简介:北京知因智慧数据科技公司CEO、中科 院大学大数据分析技术实验室副主任、教授
任亮-基于事件序列的债券主体信用风险预测模型实践 任亮-关于事件序列的债券主体信用风险预测模型实践
请登录!