基于网络结构logistic模型的企业信用风险预警-方匡南.pdf
《基于网络结构logistic模型的企业信用风险预警-方匡南.pdf》由会员分享,可在线阅读,更多相关《基于网络结构logistic模型的企业信用风险预警-方匡南.pdf(6页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第33卷第4期2016年4月统计研究Statistical ResearchV0133。No4Apr2016基于网络结构Logistic模型的企业信用风险预警方匡南 范新妍 马双鸽内容提要:随着计算机和互联网的快速发展,特别是在大数据时代,企业积累了大量有关企业经营、财务等相关数据,变量众多且关系纷繁复杂,如果利用传统的logistic回归建立企业信用风险预警模型往往效果不好。本文在充分考虑变量间的网络结构(Network)关系基础上,提出了网络结构Logistic模型,通过惩罚方法同时实现变量选择和参数估计。蒙特卡洛模拟表明网络结构Logistic模型要优于其他方法。最后,我们将其应用到我国
2、企业信用风险预警中,充分考虑财务指标间的网络结构关系,科学地选择评估指标,构建更加适合我国国情的企业信用风险预警方法。关键词:企业信用风险;网络结构;logistic模型中图分类号:C812 文献标识码:A 文章编号:10024565(2016)040050一06Forecasting of EnterpriseS Credit Risk Based on Network-logistic ModelFang Kuangnan Fan Xinyan Ma ShuanggeAbstract:With the rapid development of computer and the Intern
3、et,especially in the era of big data,some enterpriseshas accumulated a lot about their operation and finance dataSince the data is numerous and complicated,if we use thetraditional logistic regression lo build up the enterprise credit risk,the performance usually isnt goodIn this paper,wepropose net
4、worklogistic model based on considering the network relationship among variables,via penalized method toconduct variable selection and parameters estimation simultaneouslySimulation results show that networklogistic modelperforms better than other compared methodsFinally,we apply it to forecast ente
5、rpriseS credit risk,under consideringthe network relationship between financial indicators,select significant variables and build up a suitable credit riskforecasting model for Chinese enterprisesKey words:EnterpriseS Credit Risk;Network;Logistic Model一、引言上市公司信用风险预警是通过财务比率数据分析预测企业出现财务危机的可能性。从方法角度来看,
6、信用风险预警方法主要有多元线性判别分析、机器学习、Logistic回归等,但是这些方法均存在不同程度的缺陷。多元线性判别分析对预测变量有着严格的联合正态分布要求,或者要求协方差矩阵相等,然而大量实证结果表明多数财务比率数据并不满足这一假设条件。机器学习模型除存在过度拟合问题外,需要大量样本数据,而企业的信用风险数据由于其特殊性搜集较为困难。对于传统的Logistic模型,随着计算机和互联网的发展,企业的信息纷繁复杂、变量众多,对建模带来较大的难度,此外,各财务指标之间的关系也错综复杂,彼此之间往往呈网络结构关系。本文在充分考虑变量间的网络结构关系基础上,提出了网络结构Logistic模型,通过
7、惩罚方法同时实现变量选择和参数估计,并将其应用到我国企业信用风险预警中,充分考虑企业财务指标问的网络结构关系,科学地选择评估指标,以期构建更加本文获国家自然科学基金面上项目“广义线性模型的组变量选择及其在信用评分中的应用”(71471152)、国家社会科学基金重大项目“大数据与统计学理论的发展研究”(13&ZDl48)和国家社会科学基金青年项目“大数据的高维变量选择方法及其应用研究”(13cTJ001)的资助。万方数据第33卷第4期 方匡南等:基于网络结构Logistic模型的企业信用风险预警 51适合我国国情的企业信用风险预警方法。二、文献综述从1966年Beaver利用单一的财务比率来预测
8、财务状况起,公司信用风险分析已经有近50年的历史。Altman(1968)1率先应用多元判别分析的方法对美国企业破产进行预测。但应用线性判别模型的条件为总体服从正态分布且协方差矩阵相等,这些条件在实际中很难得到满足。Ohlson(1980)21以美国的105家破产公司和2058家正常公司为样本,建立了Logit财务困境预测模型并通过实证研究证明Logit模型预测效果好于多元线性判别分析。但由于财务指标间的多重共线性,Logit模型在变量选择时存在限制。为解决指标间共线性问题,Aguilera等(2006)1将主成分分析与Logistic回归相结合来预测企业违约问题。但主成分的实际意义难以解释。
9、此外,机器学习技术被广泛地应用到模型的建立过程中,Franco Varetto(1998)运用遗传算法研究企业破产风险,Min和Lee(2005)将支持向量机的方法运用到上市公司信用风险预测上。然而这些方法依旧存在弊端,其运算复杂,要求大量的训练样本,且存在过度拟合的危险。国内方面,赵健梅和王春莉(2003)H1选取了40家ST公司和非sT公司作为样本,采用Zscore方法对上市公司财务危机预警问题进行了实证研究。鲜文铎和向锐(2007)1基于混合Logit模型对A股上市公司进行预测,放宽了传统标准Logit模型的个体选择偏好同质性和不相关备选方案独立性两方面的限制。韩立岩和李蕾(2010)o
10、针对中小上市公司建立了财务危机判别模型。邓晶等(2013)71将因子分析与Logistic模型相结合对上市公司信用风险进行预测。王小燕等(2014)1提出了adSGL109it信用评分模型。Logistic模型由于其计算简单、系数易解释等特点在实际中使用广泛。但是随着计算机和互联网的快速发展,特别是在大数据时代,企业获取数据越来越方便、快捷,很多企业积累了大量有关企业经营和财务等相关数据,变量众多而且变量间关系纷繁复杂,如果利用传统的logistic回归建立企业信用风险预警模型往往效果不好。究其原因主要有:首先,Logistic模型中如果包含过多的变量,一方面由于多重共线性等问题可能会降低模型
11、的预测准确性,另一方面模型中选人一些无关变量,会浪费人力物力搜集这些信息;其次,传统Logistic回归以及变量选择方法都忽略了变量间的网络结构关系。因此,如何选择合适的变量是大数据时代下的企业信用风险预警的重点和难点。关于变量选择,目前最常用的是惩罚方法(Penalization)。国内外学者就利用惩罚函数进行高维回归模型变量筛选问题做了大量的研究。最早的惩罚函数法是由Hoerl和Kennard(1970)提出的岭回归(ridge regression)。随后Frank和Fredman(1993)提出了桥回归(bridgeregression)。Tibshirani(1996)提出了LASS
12、O方法,该方法保留了最优子集的优点,可以同时进行变量选择和参数估计。随后,Fan和“(2001)p。提出了SCAD法,Zhang(2007)。1叫提出MCP变量选择方法,对LASSO估计的有偏性进行了改进。然而上述方法在进行变量选择时都将对变量的惩罚与变量之间的相依关系看作是独立的,忽略了变量间的网络结构关系,倾向于在一组高度相关的变量中只选出一个变量,变量之间的高度相关性可能会影响变量选择的效果(Zou和Hastie;2005)。Huang等(2011)在高维的线性回归变量选择中考虑变量间网络结构关系,认为这有助于提高变量选择和预测效果。本文将在原有MCP惩罚函数的基础上对变量之间的网络结构
13、关系进行惩罚,提出了网络结构Logistic模型,并将其应用到我国企业信用风险的预警中。三、网络结构Logistic模型(一)网络结构Logistic模型介绍假设有独立同分布的观测值(石i,Y。),i=1,2,n,其中戈。是解释变量,Y。是二元离散被解释变量,即Yi0,1,则Logistic线性回归模型为:log焉南)xi,其中,r#(x。)=风+戈冶。+s。,i=1,2,n。采用网络结构Logistic模型对口进行估计:西=arg minp:!:盟+P,:,(f;) (1)L 凡 J其中,f(p)是Logistic回归的似然函数,即:f(卢)=(邵)7Yl rlog1。+exp(邓)(2)P
14、,A 2,y(卢)是由MCP惩罚和网络结构惩罚两部分构成的惩罚函数,即:万方数据52 统计研究 2016年4月P2,(卢)=p(;A。,7)+A:h I(3js正反)2 (3)r I式(3)中,p(t;A-,7)=Af01一戈(yjt-)+如为MCP惩罚项。关于MCP方法的详细介绍见Zhang(2010)1“。式(3)的第2项非负二次型为网络结构惩罚项,其中a。为自变量之间网络结构关系的一种度量,即相邻矩阵(Adjacency Matrix)的元素,si=sgn(ai)。MCP惩罚项是对回归系数稀疏性的惩罚,通过控制A和7,对回归系数卢进行压缩。随着A,的增大,卢逐渐被压缩至0。网络结构惩罚项
15、的主要作用是对回归系数进行平滑。根据Huang等(2011)的研究结论,可用自变量协方差矩阵的3次幂表示自变量之间的网络结构关系,即(aq)州,=(corX)3。网络结构惩罚项使正相关的自变量的回归系数趋同,而使负相关变量的回归系数符号存在相异趋势。I二)回归系数西的估计本文采用坐标下降法(Coordinate Descent,简称CD)对参数进行估计。该算法每次变化卢中的一个系数口。而固定其他系数3j(Ji),歹=1,2,P不变,寻找卢。的最优值使目标函数达到最小。遍历每一回归系数寻找最优卢。重复上述过程直到卢收敛。为了与CD算法对应,本文对目标函数做如下整理:R(3。)=一l(3)n+p(
16、J卢。|;A。,y)+A:h I(3;一s业岛)2 (4)其中:一l(3)n=土(1:log1。+exp(X一pI+XpI)一书kx:),+cp(;h7)=川一等反IAT)扣:1I(3。一s业岛)2=A:I慨一23。止岛则CD算法可表示为:(1)初始化口,令卢=(0,0)。(2)对于k=0,1,P若1 xr(yPa_k)+A:。艉|At,则卢t=0。否则,卢。=argminR(3。)。(3)重复步骤(2)直到该过程收敛。其中,P。为反=0,Y=1的概率值,旧(yP肼)+A:口艉IJL-,反=0为KKTJk条件。(三)调和参数jL。、A:的选择考虑到传统的CV(Cross Validation)
17、参数选择方法计算量太大,以及基于AICBIC准则将忽略掉网络结构惩罚项使J:L:趋于0的情况,本文提出了双层参数选择法。具体方法如下:(1)设定A。取值范围,在每一个A:值下采用AICBIC准则选择最优A。的值,形成参数对(A,A 2);(2)采用CV参数选择法,选择最优参数对。双层参数选择方法既避免了AICBIC准则对参数A:处理上的偏误,相比CV参数选择法又减少了计算复杂度。本文以k-fold为例说明计算复杂度的减少,采用CD算法重复次数作为计算复杂度的度量。设备选参数A。的个数为L。,备选参数A:的个数为:,对于单纯的k-fold方式选择参数,计算复杂度为l|L。如,而采用双层变量选择法
18、计算复杂度为2(1+k)。对于正则化参数7,就MCP模型而言Zhang(2010)引建议采用y=2(1一maxj,。I z菇t I尼),而在Breheny和Huang(2011)川的模拟中建议y=3,并且该文还试了几个不同的值,得出的结论基本是一样的。本文取7=5,同时本文尝试取几个不同的值,结果基本是一致的。四、模拟实验本文通过蒙特卡罗模拟方法比较网络结构Logistic模型、MCP Logistic模型、SCAD Logistic模型、LASSO Logistic模型的优劣。数值分析模型为:log墨1 P揣Y 1 )(x)珂p(5)。【 一( = X)J 1”7 、7本文共进行了两组模拟,
19、分别设置了两组不同的真实系数结构,详见例1和例2。本文利用双层万方数据第33卷第4期 方匡南等:基于网络结构Logistic模型的企业信用风险预警 53参数选择法选择调和参数,其备选集合为A,k10:k=1,3,5,9;f=,一1,1,A 2 Ek10:k=1,2,3,9;f=,一1,1,。由于模型结果对正则化参数不敏感,考虑计算的简便性取正则参数y=5。取样本容量n=100,每种情况重复100次试验。为了比较本文提出的网络结构Logistic模型、传统的MCP Logistic模型、SCAD Logistic模型和LASSO Logistic模型的优劣,本文所选取的评判标准有:所选显著变量个
20、数(num)1000个样本外的错误识别率(ER),显著变量的错误发现率(FDR)、假阴性率(FNR)。例1:设除常数项外自变量个数为P,P50,100,200,真实回归系数取口=(0,1,1,1,0,0),真实模型的显著变量个数为25个,且取值都为1。除常数项外,自变量服从标准正态分布,且每5个自变量为一组,组内自变量戈。与菇,之间的相关系数为P h刊,P05,09,组间变量相互独立。例2:设除常数项外自变量个数为P,P50,100,200,真实回归系数取JB=(0,1,1,一3,一3,1,1,一3,一3,1,l,0,0)。除常数项外,共25个显著变量,每5个为1组,第1组、第3组、第5组变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 网络 结构 logistic 模型 企业 信用风险 预警 方匡南
限制150内