用Logistic回归模型预测糖尿病人病情程度毕业论文.doc
《用Logistic回归模型预测糖尿病人病情程度毕业论文.doc》由会员分享,可在线阅读,更多相关《用Logistic回归模型预测糖尿病人病情程度毕业论文.doc(25页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 目 录摘要 关键词AbstractKeywords前言11.绪论 11.1 研究意义 11.2 研究背景 22.Logistic回归模型简介 22.1二分类Logistic回归模型32.2多分类Logistic回归模型 42.3 Logistic回归模型的参数估计方法 53.用Logistic回归模型预测糖尿病人病情程度73.1问题分析 73.2相关性分析83.3模型建立及检验 103.4结论 12参考文献 13附表1 14附表2 15附表3 17附表420致谢 22 用Logistic回归模型预测糖尿病人病情程度摘要:本文首先总结近年来有关Logistic回归模型的研究概况。然后在Logi
2、stic回归模型的基础上,重点介绍了二分类和多分类变量Logistic回归模型。并使用最大似然估计法对模型中的参数进行估计,然后根据拟合优度检验法对模型进行检验。最后利用SPSS统计软件对糖尿病人的病情程度建立模型,进行系统的分析并将预测结果与实际结果进行比对。关键词:Logistic回归模型 ;拟合优度;最大似然估计;回归系数Logistic regression model was used to predict the severity of diabetic patients Abstract:This topic summarizes some surveys researched
3、in recent years about Logistic Regression Model. Then on the basis of Logistic Regression Model, introduce two categories and multiple categories variable of Logistic Regression Model, .Firstly, use maximum likelihood to estimste parameters of the model, and secondly, use the goodness of fit test fo
4、r the model, thirdly, use SPSS statistical software to build model for the severity of patients with diabetes mellitus, carry out the system analysis and contrast the forecast and real result. Keywords:Logistic regression model; goodness of fit ;maximum likelihood estimate; regression coefficients.
5、II 前言 Logistic回归模型作为重要的统计模型,对种群生态学的研究具有核心理论价值。近代以来,它几乎是描述种群S型曲线增长的唯一数学模型。可以利用它表征种群的数量动态,如养鱼模型中鱼类种群的增长、收获与时间的关系和国民生产总值的预测等。因此,对其的产生、发展、演变及其类型给以系统的阐述显得非常有必要。1838年比利时数学家PFVerhult推导出Logistic基本方程,但被长期湮没,直到上世纪20年代才被生物学和统计学家RPearl和LJReed重新发现。实践应用表明,它能有效地描述某些有界增长现象,在信息科学、生物学、预测学、农业学和经济学等领域都有较为广泛的应用,但对于Logis
6、tic方程中3个待估参数的确定方法却一直困扰着使用者。章元明等介绍了16种Logistic方程参数的估计方法,而这些方法既受到运用范围的限制,又牵涉到许多复杂的计算,尽管可以用Excel、Mathematica等软件辅助分析,但步骤仍然比较繁琐、且工作量大。SPSS软件以交互性好、无需编程、易学易用等优势,它包含着两种Logistic拟合曲线的方法。本文根据Logistic回归模型原理,利用糖尿病人胰岛素含量,生长素含量之间的关系,建立Logistic回归模型,在SPSS中实现,得到模型回归系数,建立方程,从而预测出病人病情程度,最后将预测结果和实际结果进行比对。 1绪论11研究意义 在医学研
7、究中,生存与死亡、发病与未发病、阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯等许多因素有关这时用线性回归模型的方法对实际问题进行研究已经不再适用,而应用Logistic回归模型则可同时分析包含离散变量和连续变量的多个自变量,并能有效地分析自变量之间的交互作用,为多个自变量与因变量之间的相互关系提供一个定量描述,从而弥补了线性模型的不足。 Logistic回归模型不仅用于医疗卫生领域的研究,还应用于社会学、经济学等各个领域。例如研究学生龋齿严重程度与刷牙、饮食习惯、年龄等可能的影响因素之间的关系,不同的婚姻状况与收入、心理状态和孩子数量间的关系等等。近年来,随着计算机技术的发展,统计软
8、件的日益成熟使得Logistic回归模型作为一种有效的数据处理方法被广泛应用。12研究背景Malthus提出生物总量增长定律后,Verhulst最早提出了Logistic回归模型进入二十世纪以后,随着人口问题的不断尖锐化,美国统计学家Pearl和Read重新发现了该模型,并将其应用于研究各国人口的变化情况【1】。近年来,关于Logistic回归模型的研究主要集中在参数估计理论研究和假设检验理论研究两个方面。1983年,Mc Cullagh和Nelder提出了Logistic回归模型的极大似然估计【1】。随着半Logistic分布的出现,Balakrishna N等人又考虑基于二型截尾数据的半L
9、ogistic分布的参数估计,2001年,King和Zeng探讨了如何对稀有事件Logistic回归模型的参数进行校正。为扩大Logistic回归模型的应用范围,VEVimi与MTenenhaus提出用偏最小二乘回归法来估计Logistic回归模型的参数【2】。随着计算机技术的发展及统计软件的日益成熟,韩俊林、陈励就如何运用EM算法对随机效应Logistic回归模型进行参数估计进行了讨论,随后Howard对Logistic回归模型的参数估计进行了更深一步的研究。1980年,G Hosmer DW和Lemeshow S研究出多元Logistic分布的拟合优度检验,随着多分类Logistic回归模
10、型的提出,Begg与Gray研究出一新的检验方法:将多分类Logistic回归模型分解为一系列二分类Logistic回归模型,从而将多分类Logistic回归模型的显著性检验问题转化为我们所熟悉的二分类Logistic回归模型的拟合优度检验。为评价多分类Logistic回归模型,Lesaffre与Albert提出多分类Logistic模型的回归诊断,却由于其涉及过多的计算方法而阻碍其推广。于是,Pigeon与Heyse又对原有的几种检验方法进行了修正;高歌、何露等人阐述了因变量为多分类有序变量时Logistic回归应用条件的检验方法;2006年,张标研究了Logistic回归模型的半参数极大似
11、然估计的渐近性;2007年,AKGuptaa等人又探讨了多分类有序Logistic回归模型的假设检验问题;在原有的二分类Logistic回归模型的拟合优度检验方法上,Jell J.Goeman、Morten W.Fagerland等人进一步讨论了多分类Logistic回归模型的拟合优度检验问题【3】。 2Logistic回归模型简介 20世纪70年代以来随着对该模型研究的深入, 形成了多值Logistic回归模型(多项反应分类logistic回归模型和有序反应分类Logistic回归模型) 、多水平Logistic回归模型和模糊Logistic回归模型等回归模型,本章将对多分类Logistic
12、回归模型和二分类Logistic回归模型作简单的介绍。2.1 二分类Logistic回归模型2.1.1 二分类Logistic回归模型的应用背景 当事件A为一般分类变量,将事件A令为Y(Y的取值为0或者1),并且在整个过程中Y服从二项分布,即:,则可以应用二分类Logistic回归模型对事件进行分析。二分类Logistic回归要求Y有两种取值,即两个分类(0或1),预测事件发生或者不发生的概率分别是多少。在此模型中,因变量必须是连续的。二分类Logistic回归模型也被广泛应用于社会生活的预测分析中。例如,品质变量性别有两个类别,可将这两个类别分别以0或1二值变量的形式重新编码。如设置变量Y1
13、表示是否男,取1表示男,取0表示女。一位年轻人可能高中毕业或未能毕业;一位工人可能被雇用或失业;一位处在临床试验中的病人在一个观察期内对治疗可能有反应或没反应。这类数据具有两种可能的结果,被称为二分类数据。习惯上,其结果通常被描述为成功或失败。关注的实质结果一般被看作成功(Y=1),而它的反面则被看作失败(Y=0)。对于二分类因变量,研究者的目标是以一组自变量为条件来估计或预测成功或失败的概率。2.1.2 二分类Logistic回归模型的定义 在分析分类变量时,通常采用对数线性模型,Logistic回归模型是对数线性模型的一种特殊形式。假设有一个理论上存在的连续反应变量代表事件发生的可能性,其
14、值域为负无穷到正无穷,当该变量的值域跨越一个临界值C时,便导致事件发生,于是有: (2-1)这里,是实际观察到的反应变量。=1表示事件发生,=0表示事件不发生。因变量是二值的,仅取0和1两个值,为研究对象,设有个因素影响的取值,则称 (2-2)为Logistic回归模型,其中的个因素称为Logistic回归模型的协变量。若上式(2-2)中是线性的,则称上述模型为Logistic线性回归模型: (2-3)其中是待估参数。由(2-2),可以求得优势的值 (2-4)从而得到概率的计算公式: (2-5)2.2 多分类Logistic回归模型2.2.1 多分类Logistic回归模型的应用背景Logis
15、tic回归模型比较常用的是因变量为二分类的情况,这也是比较简单的一种形式。但在现实中,因变量的分类经常多于两类,如疗效可能是无效、显效、痊愈三类。当然我们可以把其中两类进行合并,然后仍然按照二分类Logistic回归进行分析,但是合并的弊端是显而易见的,它可能损失一定的信息,而多分类Logistic回归模型则充分利用了完整的信息,可能提供更多的结果。多分类变量是将预测结果分为三类或者三类以上。用于探索影响反应变量的因素,研究在某一定条件下个体呈现某种状态的概率, 比较在不同自变量取值组合下个体呈现某种状态的相对危险性等。Logistic回归模型在离散资料的分析中应用广泛,特别是在医疗卫生领域发
16、挥着十分重要的作用。 2.2.2多分类Logistic回归模型的定义设Logistic回归模型中,因变量Y不再是0,1二值的,而是有多个水平,多个分类,例如有个水平,Y的取值分别为0,1,显然.,为相应的k个自变量即影响Y取值的因素,则可拟合如下个Logistic回归方程: (2-6) (2-7) (2-8)以上三式为多分类Logistic回归模型,其中的k个因素为模型的协变量,其中,是关于的线性方程,从而得到个概率的计算公式6:= (2-9) (2-10) = (2-11)2.3 Logistic回归模型的参数估计方法Logistic回归模型的参数估计方法有很多,如最大似然估计、最小二乘估计
17、、稳健估计、Bayes估计、带惩罚项的极大似然估计等等,但使用最广的还是最大似然估计与最小二乘估计。这一方法的原理是根据线性回归模型选择参数估计值,使因变量的观测值与模型估计值之间的离差平方值为最小。而最大似然估计则是统计分析中另一常用模型参数估计方法,最大似然估计既可以用于线性模型,也可以用于复杂的非参数估计。由于Logistic回归模型有线性和非线性两种模型,因此,最大似然估计是最常用的估计方法。2.3.1最大似然估计简介最大似然估计是利用总体的分布密度或概率分布的表达式及其样本所提供信息建立起求未知参数估计量的一种方法。它与用于估计的一般线性回归模型参数的普通最小二乘法(OLS)形成对比
18、。OLS通过使样本观测数据的残差平方和最小来选择参数,而MLE通过最大化对数似然值来估计参数。最大似然估计法是一种迭代算法,以一个预测估计值作为参数的初始值,根据算法确定能增大对数似然值的参数的方向和变动。估计了初始函数后,对残差进行检验并用改进的函数进行重新估计,直到收敛为止。最大似然估计就是选取,的估计值,,使得似然函数值最大,该项工作可由spss软件计算得到。最大似然估计法为统计中的估计问题提供了一个非常有用的工具,且相应的估计量在一定的正则条件下具有较好的性质。2.3.2二分类Logistic回归模型最大似然估计方法2.3.2.1似然函数假设有由N个案例构成的总体,从中随机抽取n个案例
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 用Logistic回归模型预测糖尿病人病情程度 毕业论文 Logistic 回归 模型 预测 糖尿病人 病情 程度
限制150内