论文部分内容阅读
生产经营和消费是带动国民经济发展的重要驱动因素,在主要经济体国家都占到国内生产总值的三分之二以上。中小企业贷款作为生产经营和消费活动的重要组成部分,在技术创新、推动经济增长、改善民生和增加就业等方面有重要的作用。然而,现有的商业银行信贷审核和评价体系很难满足中小企业的融资需求,大多数信贷评估标准是为大型企业设计的。为了满足银行的这些信贷评估标准,很多中小企业选择互相提供贷款担保以获得银行授信。当越来越多的企业参与进来时,它们就形成了结构复杂的担保网络。这对国民经济来说是一把双刃剑。一方面,这些担保贷款有助于企业在经济增长时期迅速筹集资金,促进发展。另一方面,虽然复杂的网络可以在经济低迷时期减缓违约风险,但也会导致系统性违约发生并大规模传播。目前针对中小企业信贷风险的研究仍然停留在对企业个体的评估方面,缺乏针对整个担保网络的风险评估和违约预警。因此,本文提出了针对担保信贷的风险评估预测方法,探索解释了担保网络中企业风险违约的主要影响特征,提出了针对复杂担保网络的低维特征表示方法,进而设计了信贷风险预测和传播模型,最后开发了担保网络风险可视分析系统。本文的贡献和创新点主要体现在以下几个方面:1.深度风险特征自动提取方法及其可解释性发掘:提出了一种违约风险的特征提取方法,该方法基于深度神经网络,学习稀疏输入和映射层的稀疏权重,同时和经典算法相比,分类精度得到了较大的提升。最后探索和揭示了该方法提取出的风险特征的金融业务含义,并提出了其在风险监控中的指导意义。2.二元高阶和跳跃游走网络表征方法:传统网络嵌入方法主要是针对社交网络提出的,本文介绍了担保网络和社交网络在结构和统计特性上的差异。针对担保网络节点的二元性,设计了二元高阶网络表征方法。基于语言模型和担保网络的桥接特征,提出了跳跃游走的网络表征方法,实验结果表明这两种方法在担保网络的违约分类任务中,相比于其他网络嵌入模型,具有更高的精度,同时设计的算法在大规模网络中具有很好的可拓展性。最后探索和揭示了这两种方法学习出的信贷网络结构特征。3.正加权k近邻方法:k最近邻分类器是一种经典的分类方法。在对数据分布未知的情况下,经常作为分类研究的首选方法。但是和大多数机器学习方法一样,k最近邻也需要数据样本中的类别数量近似均衡。传统的不均衡分类问题主要通过多数类欠采样、少数类过采样、代价敏感或者集成学习的方法来解决,它们存在着有偏采样以及模型复杂等问题。信贷违约预测问题中,违约样本通常只占正常样本比例的6%以下,因此本文设计了正加权k近邻方法,它便于工程实现,原生支持不均衡分类问题同时具有很好的可解释性。实验表明在不均衡分类问题中,该方法和其他现有不均衡问题的解决方案相比具有较高的精度。4.违约风险传播模型:很多研究表明,担保网络中的风险具有传播特征,但是目前的研究非常缺少对这种行为的有效建模。本文提出了违约在担保网络中传播的概率图模型,该方法将企业违约概率分为其自身状态概率和传播概率共同构成。针对网络复杂程度不同,超参数d可以用来适配担保网络中风险传播的阶数。最后实验结果表明,加入风险传播建模的方案在违约分类能够获得更高的精度,在传播阶数d<4的情况下尤其明显。5.信贷网络风险可视分析系统:尽管已经存在了众多针对复杂网络的可视分析系统,但是很少有针对网络风险特征的专用可视分析工具。本文设计和开发了针对担保网络的可视分析系统,重点包括违约关键特征可视化、风险模式发现、网络生长过程可视化、风险传播路径和资金流向分析。最后通过银行实际的用户研究,表明了本系统的有效性。