医学北京大学医学部医学统计学进阶多重线性回归与相关.pptx
《医学北京大学医学部医学统计学进阶多重线性回归与相关.pptx》由会员分享,可在线阅读,更多相关《医学北京大学医学部医学统计学进阶多重线性回归与相关.pptx(128页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、主要内容第一节 偏相关第二节 多元线性回归第1页/共128页n医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。n在这些有关系的现象中,它们之间联系的程度和性质也各不相同。第2页/共128页关系:可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。第3页/共128页 相关就是用于研究和解释两个变量之间相互关系的。第4页/共128页复习:复习:直线相关直线相关Linear Correlation一、相关的类型二、
2、相关系数三、相关系数的假设检验第5页/共128页为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。第6页/共128页一、相关的类型正相关 负相关 完全正相关 完全负相关 零相关 第7页/共128页二、相关系数 样本的相关系数用r(correlation coefficient)相关系数r的值在-1和1之间。正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两
3、变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。第8页/共128页一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关?分析问题:总体分析问题:总体-样本、样本、目的、变量、关系目的、变量、关系 第9页/共128页编号(1)尿雌三醇mg/24h(2产儿体重kg(3)编号(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.5182
4、53.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2 待产妇尿雌三醇含量与产儿体重关系 第10页/共128页SPSS计算程序1.做散点图:GRAPHS-SCATTERT-SIMPLE-DEFINE2.相关分析:ANALYZE-CORRELATION BIVARIATE-VARIAB
5、LES第11页/共128页第12页/共128页第13页/共128页从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间呈正相关,相关系数是0.61。第14页/共128页根据资料类型选择不同的方法计算r Pearson:连续变量,双变量正态分布资料Kendall:资料不服从双变量正态分布或 总体分布未知,等级资料。Spearman:等级资料第15页/共128页问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?第16页/共128页三、相关系数的假设检验 上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是
6、,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。第17页/共128页对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:=n-2 第18页/共128页 H0:=0 H1:0 =0.05 r=0.61,n=31,代入公式t=n-2=31-2=29 t=4.14查t值表,t0.05(29)=2.045,查t值表,t0.05(29)=2.045,上述计算t=4.142.045,由t所推断的P值小于0.
7、05按=0.05水准拒绝?,接受?认为待产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。第19页/共128页第20页/共128页另外的例子:识字数,鞋大小游泳票与冰激凌销售量 需要排除其它变量的干扰!第21页/共128页例题:已知某地29名13岁男童身高X1(cm)、体重X2(kg)和肺活量Y(ml),请计算身高与肺活量,体重与肺活量的相关关系。第22页/共128页1、身高与肺活量的简单相关系数第23页/共128页2、体重与肺活量的简单相关系数第24页/共128页3、身高与体重的简单相关系数第25页/共128页第一节 偏相关第26页/共128页一、概念 当有多个变量存在时,为了研究任何
8、两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。二、偏相关系数 偏相关系数是用来衡量任何两个变量之间的关系的大小。第27页/共128页当控制一个变量时,偏相关系数的计算公式:当控制多个变量时,偏相关系数的计算公式较为复杂,此处省略。第28页/共128页Analyze-Correlation-Partial把分析变量选入 Variable 框把控制变量选入 Controlling for 框点击 Options点击 Statistics:选择 Mean and standard deviation Zero-order c
9、orrelation Continue OK三、SPSS操作步骤第29页/共128页结 果:第30页/共128页身高与肺活量的偏相关系数(体重为控制变量)P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.X2(体重)Y(肺活量)X1(身高)Y(肺活量)1.0000 .098 (0)(26)P=.P=.619X1(身高).098 1.0000 (26)(0)P=.619 P=.第31页/共128页P A R T I A L C O R R E L A T I O N C O E F F I C
10、I E N T S Controlling for.X1(身高)Y(肺活量)X2(体重)Y 1.0000 .569 (0)(26)P=.P=.002X2 .569 1.0000 (26)(0)P=.002 P=.肺活量与体重的偏相关系数(身高作为控制变量)第32页/共128页 在待产妇尿中雌三醇含量和产儿体重之间的关系中,知道了二者之间成正相关。那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出产儿的体重吗?或产儿的体重可能在什么范围内呢?这要用直线回归的方法来解决。第33页/共128页一、回归方程二、回归系数三、回归系数的假设检验四、直线回归的应用复习:直线回归Linear Regres
11、sion第34页/共128页知知道道了了两两个个变变量量之之间间有有直直线线相相关关关关系系,并并且且一一个个变变量量的的变变化化会会引引起起另另一一个个变变量量的的变变化化,这这时时,如如果果它它们们之之间间存存在在准准确确、严严格格的的关关系系,它它们们的的变变化化可可用用函函数数方方程程来来表表示示,叫叫它它们们是是函函数数关关系系,它它们们之之间间的的关关系系式式叫叫函数方程函数方程。第35页/共128页但但在在实实际际生生活活当当中中,由由于于其其它它因因素素的的干干扰扰,许许多多双双变变量量之之间间的的关关系系并并不不是是严严格格的的函函数数关关系系,不不能能用用函函数数方方程反映
12、,为了区别于两变量间的函数方程,我们称这种关系式为程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程直线回归方程,这种关系为直线回归,这种关系为直线回归.第36页/共128页直线回归就是用来描述一个变量如何依赖于另一个变量。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。第37页/共128页一、回归方程简单直线回归(linear regression)是用来描述一个变量依赖于另一个变量的线性关系。这里两变量的地位是不同的,其中X为自变量,可随机变动亦可人为取值;而Y被视为依赖于X而变化的因变量。第38页/共128页a称为截距(inter
13、cept),表示X取值为0时Y的平均水平。b称为回归系数(regression coefficient)或直线的斜率(slope),表示X每变化一个单位时,Y平均改变b个单位。b0时,随X的增大而增大;b0时,随X的增大而减小;b=0时,直线与X轴平行,Y与X无直线关系 第39页/共128页二、回归系数在数理统计中,用最小二乘法的原理可求出a a、b b的计算公式。求解a a和b b实际上就是怎样”找到一条直线使所有数据点与它的平均距离“最近”。第40页/共128页这就是我们求得的二者关系的回归方程从公式可求得:根据上例的数据,求待产妇尿中雌三醇含量与产儿体重之间的回归方程。第41页/共128
14、页SPSS程序ANALYZE-REGRESSIONLINEAR第42页/共128页回归直线的描绘 根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(0,a),()。这两点可以用来核对图线绘制是否正确。第43页/共128页第44页/共128页=2.15+0.061X是否一定能说明雌三醇与产儿体重之间存在回归关系?第45页/共128页三、回归系数的假设检验与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在抽样误差问题。所以,需要对样本的回归系数b进行
15、假设检验,以判断b是否从回归系数为零的总体中抽得。总体的回归系数一般用表示。第46页/共128页回归系数的检验方法有两种:(1)方差分析(2)t检验两种方法是等价的。第47页/共128页(1)方差分析第48页/共128页因变量Y的变异的分解Y的分解:移项:考虑全部样本:上式用符号表示:SS总称为Y的总离均差平方和SS回称为回归平方和SS残称为残差平方和或剩余平方和第49页/共128页 不考虑回归时,Y的总变异SS总全部视为随机误差;而回归以后,回归的贡献使得随机误差减小为SS剩。如果两变量间总体回归关系确实存在,回归的贡献就应当大于随机误差;大到何种程度时可以认为具有统计意义,可计算如下的F统
16、计量:第50页/共128页自由度分别是:回1,残n-2 MS回与MS残分别称为回归均方和残差均方。求得F值后查F界值表得到P值,最后按所取 水准作出总体回归关系是否成立的推断结论。第51页/共128页(2)t检验:H0:=0H1:0 =0.05统计量t的计算公式为:自由度=n-2第52页/共128页例1:H0:=0H1:0 =0.05自由度=31-2=29,查t界值表,t0.05(29)=2.045,P0.05,按=0.05检验水准,拒绝H0,接受 H1,认为待产妇24小时尿中雌三醇含量与产儿体重之间存在直线回归关系。第53页/共128页对于一元线性回归来说,方差分析与t检验是完全等价的,且有
17、关系式:第54页/共128页利用SPSS实现直线回归:SPSS操作步骤:Analyze-Regression-Linear dependent:因变量 independent:自变量 method:可选择 enter forward backward stepwise点击statistics:出现若干统计选项可供选择ContinueOK第55页/共128页第56页/共128页第57页/共128页第58页/共128页第59页/共128页四、直线回归的应用1.描述两变量之间的依存关系 通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。2.利用回归方程进行预测 把自变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 北京大学医学部 统计学 进阶 多重 线性 回归 相关
限制150内