《回归和相关分析.ppt》由会员分享,可在线阅读,更多相关《回归和相关分析.ppt(45页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第 九 章 相 关 与 回 归 主要内容主要内容 一一 线性相关线性相关 二二 秩相关秩相关 三三 分类变量的关联性分析分类变量的关联性分析 一一 线性相关的概念线性相关的概念 线性相关线性相关(linear correlation)(linear correlation)又称又称简单相关简单相关(simple correlation)(simple correlation),用于,用于双变量正态分布双变量正态分布(bivariate normal distribution)(bivariate normal distribution)资料。其性资料。其性质可由散点图直观的说明。质可由散点图直
2、观的说明。目的目的:研究研究 两个变量两个变量X,YX,Y数量上的依存(或相关)数量上的依存(或相关)关系。关系。特点:特点:统计关系统计关系二、相关系数的意义与计算二、相关系数的意义与计算1.1.意义:相关意义:相关(correlation coefficientcorrelation coefficient)又称)又称PearsonPearson积差相关系数,用来说明具有直线关系积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。的两变量间相关的密切程度与相关方向。2.计算:计算:样本相关系数的计算公式为样本相关系数的计算公式为例例-某地某地1515名名3 3岁儿童体重与
3、体表面积资料如岁儿童体重与体表面积资料如表表9.1,9.1,试求相关系数。试求相关系数。由例由例-得得 由公式得由公式得相关系数的特点相关系数的特点1.1.相关系数相关系数r r是一个无量纲的数值是一个无量纲的数值,且且-1r1;-1r02.r0为正相关为正相关,r0,r0为负相关为负相关;3./r/3./r/越接近于越接近于1,1,说明相关性越好说明相关性越好./r/./r/越接近于越接近于0,0,说明相关性越差说明相关性越差.相关系数的统计推断相关系数的统计推断(一)相关系数的假设检验一)相关系数的假设检验 例例9-29-2 继例继例9-19-1中算得中算得r=-0926r=-0926后后
4、,试检验相关是否具试检验相关是否具有统计学意义有统计学意义检验步骤检验步骤 本本例例 n n=15=15,r r=-0.926=-0.926,由由公公式式(11-411-4)和和公式公式(9-5)得本例本例 ,查查 界界值值表得表得 ,故拒,故拒绝绝 接接受受 ,认为认为凝血凝血酶酶浓浓度与凝血度与凝血酶酶时间时间之之间间存在存在负负相关。相关。此此结结果与果与查查表的表的结结果是一致的。果是一致的。线性相关中应注意的问题线性相关中应注意的问题1.1.样本的相关系数接近零并不意味着两变量间一样本的相关系数接近零并不意味着两变量间一定无相关性定无相关性.2.2.一个变量的数值人为选定时莫作相关一
5、个变量的数值人为选定时莫作相关.3.3.出现异常值时甚用相关出现异常值时甚用相关.4.4.相关未必真有内在联系相关未必真有内在联系.5.5.分层资料盲目合并易出假象分层资料盲目合并易出假象.简单回归分析Simple linear regression analysis双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总体:无限或有限对变量值无限或有限对变量值 样本:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值 (X X1 1,Y,Y1 1),(X X2 2,Y,Y2 2),(X Xn n,Y,Yn n)目的:目的:研究研究X X和和Y Y的数量关系
6、的数量关系 方法:方法:回归与相关回归与相关 简单、基本简单、基本直线回归、直线相关直线回归、直线相关简单回归分析简单回归分析直线回归的概念直线回归的概念 目的:目的:研究应变量研究应变量Y Y对自变量对自变量X X的数量依的数量依 存关系。存关系。特点:特点:统计关系。统计关系。X X值和值和Y Y的的均数均数的关系不同于一般数的关系不同于一般数学上的学上的X X 和和Y Y的函数关系的函数关系 为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表-1)进行回归分析,得到图-1所示散点图(scatter plot)No.12345678910111213141
7、5X 1.11.21.0 0.9 1.2 1.1 0.9 0.6 1.00.91.10.91.1 1.0 0.7Y 141315151314161714161516141517 由由图图-可可见见,凝凝血血时时间间随随凝凝血血酶酶浓浓度度的的增增加加而而减减低低且且呈呈直直线线趋趋势势,但但并并非非所所有有点点子子恰恰好好全全都都在在一一直直线线上上,此此与与两两变变量量间间严严格格的的直直线线函函数数关关系系不不同同,称称为为直直线线回回归归(linear linear regressionregression),其其方方程程叫叫直直线线回回归归方方程程,以以区区别别严严格格意意义义的的直直
8、线线方方程程。回回归归是是回回归归分分析析中中最最基基本本、最最简简单单的的一一种种,故故又又称称简简单回归。单回归。样本线回归方程样本线回归方程 为各为各X X处处Y Y的总体均数的估计。的总体均数的估计。简单线性回归模型简单线性回归模型 1 1a a 为回归直线在为回归直线在 Y Y 轴上的截距轴上的截距2.2.b b为回归系数,即直线的斜率为回归系数,即直线的斜率b b 的统计学意义是:的统计学意义是:X X 每增加每增加(减减)一个单位,一个单位,Y Y 平均改变平均改变b b个单位个单位 残残差差(residual)(residual)或或剩剩余余值值,即即实实测测值值Y Y与与假假
9、定定回回归线上的估计值归线上的估计值 的纵向距离的纵向距离 。求求解解a a、b b实实际际上上就就是是“合合理理地地”找找到到一一条条能能最最好好地代表数据点分布趋势的直线。地代表数据点分布趋势的直线。原则原则:最小二乘法:最小二乘法(least sum of squares)(least sum of squares),即可保,即可保证各实测点至直线的纵向距离的平方和最小证各实测点至直线的纵向距离的平方和最小回归参数的估计回归参数的估计最小二乘原则最小二乘原则 Y的离均差,总变异残差回归的变异 回归参数的估计方法回归参数的估计方法 简单回归分析简单回归分析 为了直观地说明直线回归的概念,以
10、为了直观地说明直线回归的概念,以1515名健康人名健康人凝血酶浓度(凝血酶浓度(X X)与凝血时间)与凝血时间(Y Y)数据(表数据(表-1-1)进)进行回归分析,得到图行回归分析,得到图-1-1所示散点图(所示散点图(scatter scatter plotplot)简单回归分析简单回归分析No.123456789101112131415X 1.11.2 1.0 0.9 1.2 1.1 0.9 0.6 1.0 0.9 1.10.9 1.1 1.0 0.7Y 141315151314161714161516141517简单回归分析本例:n=15 X=14.7 X2=14.81 Y=224 XY
11、=216.7 Y2=3368简单回归分析简单回归分析回归方程的假设检验回归方程的假设检验 建立样本直线回归方程,只是完成了统计建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,它所来自的总体的直线回归关系是否确实存在,即是否对总体有即是否对总体有?1 1方差分析方差分析 Y的离均差,总变异残差回归的变异第二第二 节节 线性回归的应用线性回归的应用 (估计和预测)(估计和预测)反映其抽样误差大小的标准误为反映其抽样误差大小的标准误为例例9 9-1 1中,第一观测值中,第一观测值X X1
12、=1.11=1.1,0.4994 0.4994,0.404 0.404,代入代入(9.89.8)式获得第一观测点)式获得第一观测点X X1 1对应的对应的 的标准误的标准误为为 0.1599 0.1599Y Y的总体均数的的总体均数的95%95%置信区间为置信区间为 14.0957(2.16)(0.1599)14.0957(2.16)(0.1599)(13.750213.7502,14.441214.4412)对象实测值 X实测值 Y预测值均值均值的标准误Y均值的95%CIY值的95%预测区间残差下限上限下限上限11.11414.09570.159913.750214.441212.96181
13、5.2297-0.095721.21313.39770.215912.931313.864112.221214.5741-0.397731.01514.79370.130014.512815.074713.677715.90970.206340.91515.49170.143615.181515.802014.368016.6155-0.491751.21313.39770.215912.931313.864112.221214.5741-0.397761.11414.09570.159913.750214.441212.961815.2297-0.095770.91615.49170.143
14、615.181515.802014.368016.61550.508380.61717.58580.325616.882518.289216.296918.8747-0.585891.01414.79370.130014.512815.074713.677715.9097-0.7937100.91615.49170.143615.181515.802014.368016.61550.5083111.11514.09570.159913.750214.441212.961815.22970.9043120.91615.49170.143615.181515.802014.368016.61550
15、.5083131.11414.09570.159913.750214.441212.961815.2297-0.0957141.01514.79370.130014.512815.074713.677715.90970.2063150.71716.88780.255316.336317.439315.675118.10050.1122以上是给定某一以上是给定某一X X值时所对应的总体均数的置信值时所对应的总体均数的置信区间。当同时考虑区间。当同时考虑X X的所有可能取值时,总体均的所有可能取值时,总体均数的点估计就是根据样本算得的回归直线数的点估计就是根据样本算得的回归直线 (1-1-)置信区
16、间的上下限连起来形成一个弧形)置信区间的上下限连起来形成一个弧形区带,称为回归直线的(区带,称为回归直线的(1-1-)置信带)置信带(confidence bandconfidence band)。同样,因为其标准误是)。同样,因为其标准误是X X的函数,所以在均数(的函数,所以在均数()点处置信带宽度)点处置信带宽度最小,越远离该均数点,置信带宽度越大。最小,越远离该均数点,置信带宽度越大。图图9-49-4中,左图显示位于最小二乘回归线上下两侧的中,左图显示位于最小二乘回归线上下两侧的两条弧形虚线为总体回归线的(两条弧形虚线为总体回归线的(1-1-)置信区带。)置信区带。右图的实线表示可能的
17、总体回归线,它们落在弧形右图的实线表示可能的总体回归线,它们落在弧形虚线所确定的置信带内。虚线所确定的置信带内。(1-1-)置信带的意义是:在满足线性回归的假设)置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内线所形成的区带内,置信度为(置信度为(1-1-)PICI决定系数决定系数(coefficient of(coefficient of determination)determination)定义为回归平方和与总平方和之比,计算公式为:取值在取值在0 0到到1 1之间且无单位,其数值大小反映了之间且
18、无单位,其数值大小反映了回归贡献的相对程度,也就是在回归贡献的相对程度,也就是在Y Y的总变异中回归关的总变异中回归关系所能解释的百分比。系所能解释的百分比。直线回归应用的注意事项直线回归应用的注意事项直直线线回回归归用用于于定定量量刻刻画画应应变变量量Y Y对对自自变变量量X X在在数数值值上上的的依依存存关关系系,其其中中应应变变量量的的定定夺夺主主要要依依专专业业要要求求而而定定,可可以以考考虑虑把把易易于于精精确确测测量量的的变变量量作作为为X X,另另一一个个随随机机变量作变量作Y Y,例如用身高估计体表面积。例如用身高估计体表面积。两两个个变变量量的的选选择择一一定定要要结结合合专
19、专业业背背景景,不不能能把把毫毫无关联的两种现象勉强作回归分析。无关联的两种现象勉强作回归分析。1 1根据分析目的选择变量及统计方法根据分析目的选择变量及统计方法2 2进行回归分析前应绘制散点图进行回归分析前应绘制散点图(1 1)散点图可考察两变量是否有直线趋势;散点图可考察两变量是否有直线趋势;(2 2)可发现异常点(可发现异常点(outlieroutlier)。)。散点图对异常点的识别与处理需要从专业知识和现散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的设
20、错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。除或采用其它估计方法。3 3资料的要求资料的要求 直直线线回回归归要要求求至至少少对对于于每每个个 X X 相相应应的的 Y Y 要要服服从从正正态态分分布布,X X可可以以是是服服从从正正态态分分布布的的随随机机变变量量也也可可以以是是能能精精确确测测量量
21、和和严严格格控控制制的的非非随随机机变变量量;对对于于双双变变量量正正态态分分布布资资料料,根根据据研研究究目目的的可可选选择择由由 X X 估估计计 Y Y 或或者者由由 Y Y 估估计计 X X,一一般般情情况况下下两两个回归方程不相同)。个回归方程不相同)。反反应应两两变变量量关关系系密密切切程程度度或或数数量量上上影影响响大大小小的的统统计计量量应应该该是是回回归归系系数数的的绝绝对对值值,而而不不是是假假设设检检验验的的P P值。值。P P值值越越小小只只能能说说越越有有理理由由认认为为变变量量间间的的直直线线关关系系存存在在,而而不不能能说说关关系系越越密密切切或或越越“显显著著”。另另外外,直直线线回回归归用用于于预预测测时时,其其适适用用范范围围一一般般不不应应超超出出样样本中自变量的取值范围。本中自变量的取值范围。4 4结果解释及正确应用结果解释及正确应用
限制150内