多元线性回归、回归讲稿.ppt
《多元线性回归、回归讲稿.ppt》由会员分享,可在线阅读,更多相关《多元线性回归、回归讲稿.ppt(74页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、多元线性回归、回归1第一页,讲稿共七十四页哦n n概念概念概念概念 多因素分析是同时对观察对象的两个或两个以上的变量进多因素分析是同时对观察对象的两个或两个以上的变量进多因素分析是同时对观察对象的两个或两个以上的变量进多因素分析是同时对观察对象的两个或两个以上的变量进行分析。行分析。行分析。行分析。常用的统计分析方法有:常用的统计分析方法有:多元线性回归、多元线性回归、Logistic回归、回归、COX比例风险回归比例风险回归模型、因子分析、主成分分析,等。模型、因子分析、主成分分析,等。2第二页,讲稿共七十四页哦多变量资料数据格式多变量资料数据格式多变量资料数据格式多变量资料数据格式例号例号
2、X X1 1X X2 2X Xp pY Y1 1X X1111X X1212X X1p1pY Y1 12 2X X2121X X2222X X2p2pY Y2 2n nX Xn1n1X Xn2n2X XnpnpY Yn nY Y为定量变量为定量变量为定量变量为定量变量Linear RegressionLinear RegressionY Y为二项分类变量为二项分类变量为二项分类变量为二项分类变量Binary Logistic RegressionBinary Logistic RegressionY Y为多项分类变量为多项分类变量为多项分类变量为多项分类变量Multinomial Logist
3、ic RegressionMultinomial Logistic RegressionY Y为有序分类变量为有序分类变量为有序分类变量为有序分类变量Ordinal Logistic RegressionOrdinal Logistic RegressionY Y为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局Cox RegressionCox Regression3第三页,讲稿共七十四页哦Y,X直线回归直线回归 Y,X1,X2,Xm多元回归(多重回归)多元回归(多重回归)第十五章第十五章 多元线性回归多元线性回归 (multiple linear regres
4、soin)P.261例:例:欲研究血压受年龄、性别、体重、性格、职业欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。等因素的影响。4第四页,讲稿共七十四页哦 0 0为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为,表示各自变量均为,表示各自变量均为0 0时时时时y y的平均值;的平均值;的平均值;的平均值;mm为自变量的个数;为自变量的个数;为自变量的个数;为自变量的个数;1 1、2 2、mm为偏回
5、归系数(为偏回归系数(为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:意义:意义:意义:如如如如 1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,固定条件下,固定条件下,X X1 1 每增减一个单位每增减一个单位每增减一个单位每增减一个单位对对对对Y Y 的效应(的效应(的效应(的效应(Y Y 增减增减增减增减 个单位)。个单位)。个单位)。个单位)。e e为去除为去除为去除为去除mm个自变量对个自变量对个自变量对个自变量对Y Y影响后的随机
6、误差,称残差(影响后的随机误差,称残差(影响后的随机误差,称残差(影响后的随机误差,称残差(residual)residual)。多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式一、多元回归模型一、多元回归模型5第五页,讲稿共七十四页哦 为为为为y y的估计值或预测值(的估计值或预测值(的估计值或预测值(的估计值或预测值(predicted value)predicted value);b b0 0为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为,表示
7、各自变量均为,表示各自变量均为0 0时时时时y y的估计值;的估计值;的估计值;的估计值;由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:b b1 1、b b2 2、b bmm为偏回归系数(为偏回归系数(为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:如意义:如意义:如意义:如 b b1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,固定条件下,固定条件下,X X1 1 每增减一个每增减一个每增减一个每增减一个单位对单位对单位对单位
8、对Y Y 的效应(的效应(的效应(的效应(Y Y 增减增减增减增减 b b 个单位)。个单位)。个单位)。个单位)。6第六页,讲稿共七十四页哦适用条件:适用条件:适用条件:适用条件:线性(线性(线性(线性(linearlinear)、独立性()、独立性()、独立性()、独立性(independentindependent)、正态性()、正态性()、正态性()、正态性(normalnormal)、等方差)、等方差)、等方差)、等方差(equal varianceequal variance)“LINE”“LINE”。线性线性线性线性自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系
9、是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。独立性独立性独立性独立性任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。正态性正态性正态性正态性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y均服从正态分均服从正态分均服从正态分均服从正态分布。即要求残差服从正态分布。常用残差图分析。布。即要求残差服从正态分布。常
10、用残差图分析。布。即要求残差服从正态分布。常用残差图分析。布。即要求残差服从正态分布。常用残差图分析。等方差等方差等方差等方差就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y的方差均相同。的方差均相同。的方差均相同。的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。7第七页,讲稿共七十四页哦8第八页,讲稿共七十四页哦(1 1)因素筛选:)因素筛选:)因素筛选:)因
11、素筛选:(因素分析)(因素分析)例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:1 1)哪些是主要因素?)哪些是主要因素?)哪些是主要因素?)哪些是主要因素?2)各因素的作用大小?)各因素的作用大小?)各因素的作用大小?)各因素的作用大小?(2 2)提高回归方程的估计精度)提高回归方程的估计精度)提高回归方程的估计精度)提高回归方程的估计精度 多元回归比只有一个自变量的简单直线回归更能多元回归比只有一个自变量的简单直线回归更能缩小应变量缩小应变量Y对其估计值的离差,在预测和统计控制对其估计值的离差,在预测和统计控制方面应用的效果更
12、好。方面应用的效果更好。(3 3)控制混杂因素)控制混杂因素)控制混杂因素)控制混杂因素n n多元线性回归除具有直线回归的基本性质外,还具有以下多元线性回归除具有直线回归的基本性质外,还具有以下多元线性回归除具有直线回归的基本性质外,还具有以下多元线性回归除具有直线回归的基本性质外,还具有以下特点(用途):特点(用途):特点(用途):特点(用途):9第九页,讲稿共七十四页哦(1)用各变量的数据建立回归方程)用各变量的数据建立回归方程(2 2)对总的方程进行假设检验)对总的方程进行假设检验)对总的方程进行假设检验)对总的方程进行假设检验(3 3)当总的方程有显著性意义时,应对每个自变量的偏回归系
13、)当总的方程有显著性意义时,应对每个自变量的偏回归系)当总的方程有显著性意义时,应对每个自变量的偏回归系)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则数再进行假设检验,若某个自变量的偏回归系数无显著性,则数再进行假设检验,若某个自变量的偏回归系数无显著性,则数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。应把该变量剔除,重新建立不包含该变量的多元回归方程。应把该变量剔除,重新建立不包含该变量的多元回归方程。应把该变量剔除,重新建立不包含该变量的多元回归方程。二、多元回归分析步骤
14、二、多元回归分析步骤二、多元回归分析步骤二、多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程序进对新建立的多元回归方程及偏回归系数按上述程序进对新建立的多元回归方程及偏回归系数按上述程序进对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后行检验,直到余下的偏回归系数都具有统计意义为止。最后行检验,直到余下的偏回归系数都具有统计意义为止。最后行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。得到最优方程。得到最优方程。得到最优方程。10第十页,讲稿共七十四页哦例例例例15-115-1(P.262P.262)27 27名糖尿
15、病人的血清总胆固醇、甘油三脂、空腹胰名糖尿病人的血清总胆固醇、甘油三脂、空腹胰名糖尿病人的血清总胆固醇、甘油三脂、空腹胰名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表岛素、糖化血红蛋白、空腹血糖的测量值列于表岛素、糖化血红蛋白、空腹血糖的测量值列于表岛素、糖化血红蛋白、空腹血糖的测量值列于表15-215-2中,试建立血中,试建立血中,试建立血中,试建立血糖与其它几项指标关系的多元线性回归方程。糖与其它几项指标关系的多元线性回归方程。糖与其它几项指标关系的多元线性回归方程。糖与其它几项指标关系的多元线性回归方程。表15-2 27名糖尿病人的血糖及有关变量的测
16、量结果序号i总胆固醇甘油三脂胰岛素糖化血血 糖(mmol/L)(mmol/L)(U/ml)红蛋白(%)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3265.840.928.616.413.3273.841.206.459.610.411第十一页,讲稿共七十四页哦由上表得到如下多元线性回归方程:由上表得到如下多元线性回归方程:1 1、建立回归方程、建立回归方程、建立回归方程、建立回归方程12第十二页,讲稿共七十四页哦2、回归方程的假设检验、回归方程的假设检验F检验检验n n结果无显著性结果
17、无显著性结果无显著性结果无显著性 1 1)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;2 2)也可能由于样本例数过少;)也可能由于样本例数过少;)也可能由于样本例数过少;)也可能由于样本例数过少;n n结果有显著性结果有显著性结果有显著性结果有显著性 表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。H
18、H0 0:1 1=2 2=mm=0=0HH1 1:1 1、2 2、mm不等于不等于不等于不等于0 0或不全等于或不全等于或不全等于或不全等于0 013第十三页,讲稿共七十四页哦14第十四页,讲稿共七十四页哦3 3、各个偏回归系数的假设检验、各个偏回归系数的假设检验、各个偏回归系数的假设检验、各个偏回归系数的假设检验tt检验检验检验检验n n将将将将总胆固醇总胆固醇总胆固醇总胆固醇(X(X1 1)剔除。剔除。剔除。剔除。注意:注意:注意:注意:通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。对于同一资料,不同
19、自变量的对于同一资料,不同自变量的对于同一资料,不同自变量的对于同一资料,不同自变量的t t值可以相互比较,值可以相互比较,值可以相互比较,值可以相互比较,t t的绝对值越大,的绝对值越大,的绝对值越大,的绝对值越大,或或或或P P越小,说明该自变量对越小,说明该自变量对越小,说明该自变量对越小,说明该自变量对Y Y所起的作用越大。所起的作用越大。所起的作用越大。所起的作用越大。15第十五页,讲稿共七十四页哦n n重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程注意:表中偏回归系数已变化。注意:表中偏回归系数已变化
20、。注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。16第十六页,讲稿共七十四页哦n n对新建立的回归方程进行检验对新建立的回归方程进行检验检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。17第十七页,讲稿共七十四页哦n对新方程的偏回归系数进行检验对新方程的偏回归系数进行检验检验结果均有意义,因此回归方程保留检验结果均有意义,因此回归方程保留甘油三酯甘油三酯(X2)、胰岛素、胰岛素(X3)和和糖化血红蛋白糖化血红蛋白(X4)三个三个因素。因素。最后获得回归方程为:最后获得回归方程为:18第十八页,讲稿共七十四页哦1、确定系数(、确定系数(R2):)
21、:意义:意义:意义:意义:在在在在y y的总变异中,由的总变异中,由的总变异中,由的总变异中,由x x变量组建立的线性回归方程所能解释变量组建立的线性回归方程所能解释变量组建立的线性回归方程所能解释变量组建立的线性回归方程所能解释的比例。的比例。的比例。的比例。01 01,越大越优。,越大越优。,越大越优。,越大越优。特点:特点:特点:特点:R R2 2是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增大。因此,因此,因此,因此,在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。在相
22、近的情况下,以包含的自变量少者为优。三、回归方程的评价三、回归方程的评价三、回归方程的评价三、回归方程的评价、R复相关系数复相关系数(multiple correlation coefficientmultiple correlation coefficient)表示表示表示表示mm个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程 度。度。度。度。0R10R1。即。即。即。即Y Y与与与与 的相关系数。的相关系数。的相关系数。的相关系数。19第十九页,讲稿共七十四页哦、校正确定系数(、校正确定系数(
23、adjusted R-square,R2a)越大越优。越大越优。越大越优。越大越优。R R2 2a a不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。校正确定系数的计算:校正确定系数的计算:校正确定系数的计算:校正确定系数的计算:p 为方程中包含的自变量个数,为方程中包含的自变量个数,p mp m。R R2 2一定时,一定时,一定时,一定时,p p R R2 2 a a P.268 P.268 20第二十页,讲稿
24、共七十四页哦21第二十一页,讲稿共七十四页哦四、各自变量的评价四、各自变量的评价1、偏回归平方和、偏回归平方和 是指将某自变量是指将某自变量是指将某自变量是指将某自变量x xj j从回归方程中剔除后所引起的回归从回归方程中剔除后所引起的回归从回归方程中剔除后所引起的回归从回归方程中剔除后所引起的回归平方和的减少量平方和的减少量平方和的减少量平方和的减少量间接反应了自变量间接反应了自变量间接反应了自变量间接反应了自变量x xj j对应变量的贡对应变量的贡献大小。献大小。各个自变量的偏回归平方和可以通过拟合包含不同自变各个自变量的偏回归平方和可以通过拟合包含不同自变各个自变量的偏回归平方和可以通过
25、拟合包含不同自变各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到。量的回归方程计算得到。量的回归方程计算得到。量的回归方程计算得到。22第二十二页,讲稿共七十四页哦回归方程中包含的自变量回归方程中包含的自变量平方和平方和SSSS回回SSSS残残X X1 1、X X2 2、X X3 3、X X4 4133.711133.71188.84188.841X X2 2、X X3 3、X X4 4133.098133.09889.45489.454X X1 1、X X3 3、X X4 4121.748121.748100.804100.804X X1 1、X X2 2、X X4 41
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 讲稿
限制150内