数理统计课件 61回归分析.pdf
《数理统计课件 61回归分析.pdf》由会员分享,可在线阅读,更多相关《数理统计课件 61回归分析.pdf(15页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第六章第六章 回归分析回归分析 回归分析是研究变量之间相关关系的数学方法。回归分析是研究变量之间相关关系的数学方法。在自然界中,变量之间的关系是多种多样的,但大致分为两类:确定性关系,相关关系在自然界中,变量之间的关系是多种多样的,但大致分为两类:确定性关系,相关关系 例例1 圆面积 圆面积 s 与半径与半径 r 之间的关系是确定性关系之间的关系是确定性关系 例例2 人的年龄 人的年龄 x 与血压与血压 Y 之间的关系是非确定性关系之间的关系是非确定性关系 例例3 一个学生的高考成绩 一个学生的高考成绩 x 与大学在校成绩与大学在校成绩 Y 之间的关系是非确定性关系之间的关系是非确定性关系 例
2、例4 小麦的亩产量 小麦的亩产量Y与施肥量与施肥量x之间的关系是非确定性关系之间的关系是非确定性关系 通常称变量之间的非确定性关系为通常称变量之间的非确定性关系为相关关系相关关系 类似的例子还很多。对这类问题,人们经常需要寻找存在于两个类似的例子还很多。对这类问题,人们经常需要寻找存在于两个(或多个或多个)变量之间的函数关系,并希望利用观测数据拟合系统的数学模型,其中最简单的模型是线性模型。本章先从一元线性回归模型分析开始,介绍线性回归分析的主要内容和方法,然后讨论多元线性回归分析。变量之间的函数关系,并希望利用观测数据拟合系统的数学模型,其中最简单的模型是线性模型。本章先从一元线性回归模型分
3、析开始,介绍线性回归分析的主要内容和方法,然后讨论多元线性回归分析。6.1 一元线性回归一元线性回归 一、一、一元线性回归模型一元线性回归模型 例例 6.1 在农业生产中,小麦的亩产量在农业生产中,小麦的亩产量Y与施肥量与施肥量x有一定关系,在一定范围内,若施肥量较大,则小麦的亩产也较大,但我们希望知道有一定关系,在一定范围内,若施肥量较大,则小麦的亩产也较大,但我们希望知道Y与与x间的函数关系。间的函数关系。按照数理统计处理问题的方法,先做一些试验,分别给按照数理统计处理问题的方法,先做一些试验,分别给x赋赋n个不同的值个不同的值1(,)?Tnxx,假设其他条件不变,则相应地得到,假设其他条
4、件不变,则相应地得到n个个Y的观测值的观测值1(,)?Tnyy。一般可假设。一般可假设Y为随机变量,为随机变量,x为非随机变量,在此基础上寻求它们之间的关系为非随机变量,在此基础上寻求它们之间的关系 (,)Yf x=这里这里 为随机变量为随机变量(通常表示误差通常表示误差),f为未知函数,当为未知函数,当f为线性函数且为线性函数且2(0,)N 时,考虑如下数学模型时,考虑如下数学模型 Yx=+=+我们希望利用试验得到的数据,估计上式中的未知参数我们希望利用试验得到的数据,估计上式中的未知参数,2,并进行某些假设检验及亩产量,并进行某些假设检验及亩产量Y的预测。的预测。现把例现把例 6.1 中的
5、模型做一般性的描述,进而给出一元线性回归模型的定义。设随机变量中的模型做一般性的描述,进而给出一元线性回归模型的定义。设随机变量Y和非随机变量和非随机变量x(也称为可控制变量)服从线性关系(也称为可控制变量)服从线性关系 Yx=+=+,(6.1)(,)(1,)?iiY xin=是是(,)Y x的的n个观测,它们满足关系个观测,它们满足关系 2(0,),1,?iiiiYxNin=+=+=(6.2)其中其中i 相互独立相互独立.称上述模型为一元线性回归模型,或一元线性正态回归模型。称上述模型为一元线性回归模型,或一元线性正态回归模型。关于定义中的假设需注意以下几点:关于定义中的假设需注意以下几点:
6、(1)由于假设由于假设i 相互独立且服从相互独立且服从2(0,)N,则则iY亦相互独亦相互独 立服从立服从(,iNx +2),但均值不等。一般将但均值不等。一般将(,)iiY x1,?in=称为回归观测值称为回归观测值(或回归样本或回归样本),它与一般简单样本是不同的;,它与一般简单样本是不同的;(2)关于关于Y与与x的线性假设是根据实际问题提出的,也是为了数学上处理的方便,有时的线性假设是根据实际问题提出的,也是为了数学上处理的方便,有时Y与与x间的关系是非线性的。间的关系是非线性的。(3)由假设知由假设知iiEYx =+,故,故iiiYEY=+。对于一元线性回归模型,通常所考虑的统计推断问
7、题是:对于一元线性回归模型,通常所考虑的统计推断问题是:1.利用已知的观测值利用已知的观测值(,)iiy x(1,?in=),估计未知参数,估计未知参数,和和2;2.对对,的某种假设进行检验,的某种假设进行检验,3.对对Y进行预报等。进行预报等。二、未知参数的估计 二、未知参数的估计 1.1.(,)的最小二乘估计 对一组回归观测值的最小二乘估计 对一组回归观测值(,)iiy x(1,?in=),它满足:,它满足:iiiyx=+=+,2(0,)iN ,1,?in=最小二乘法是寻找未知参数最小二乘法是寻找未知参数(,)的估计的估计(,),使得,使得 22,11()min()nniiiiiiyxyx
8、 =(6.4)满足式满足式(6.4)的估计的估计,称为称为(,)的最小二乘估计。的最小二乘估计。一般采用微分法求解。记一般采用微分法求解。记 21(,)()niiiQyx =,令令 (,)(,)(,)(,)0,0,QQ =(6.5)则则(6.5)式可写为式可写为 211,nniiiiinnxnynxxx y=+=+=+=+=(6.6)其中其中1111,nniiiixxyynn=.由于假设由于假设ix互不相同,故互不相同,故(6.6)式的系数行列式 式的系数行列式 2222111()0nnniiiiiinnxnxnxnxxnxx=故方程组故方程组(6.6)有惟一解,其解为有惟一解,其解为 112
9、2211()()()nniiiiiinniiiiyxx ynxyxxyyxnxxx=上述推导是对一组回归观测值上述推导是对一组回归观测值(,)iiy x(1,?in=)做出的,若将做出的,若将(,)iiy x换为换为(,)iiY x时便得时便得(,)的最小二乘估计量 的最小二乘估计量 121()()()niiiniiYxxx YYxx=(6.7)2.(,)的最大似然估计 的最大似然估计 由于由于iY(1,)?in=相互独立且相互独立且2(,)iiYNx+,则,则1(,)?nYY的联合概率密度函数为 的联合概率密度函数为 22111exp()22niiiLyx=22111()exp()22nni
10、iiyx=要求要求(,)使似然函数使似然函数L取得最大值,只要 取得最大值,只要 21(,)()niiiQyx =取得最小值即可。这回到了最小二乘估计的情形,也即对一元正态线性回归模型、最小二乘估计与最大似然估 取得最小值即可。这回到了最小二乘估计的情形,也即对一元正态线性回归模型、最小二乘估计与最大似然估计是等价的。将计是等价的。将,代入代入EYx =+=+,得,得 Yx =+=+,(6.8)一般将式一般将式(6.8)称为称为Y关于关于x的线性回归方程。的线性回归方程。3.3.2 的估计 的估计 由于由于22DE=,故可以用,故可以用211niin=对对2 做估计,而做估计,而iiiYx=是
11、未知的,以是未知的,以,的相应估计量代入,可得 的相应估计量代入,可得 2211()niiiYxn=(6.9)式 式(6.9)可看作近似矩估计。由于可看作近似矩估计。由于Yx =,为计算方便起见,将为计算方便起见,将2 变形,可写为变形,可写为 21()niiiYx=1(niiYY=+=+x 2)ix =222111()2()()()nnniiiiiiiYYxx YYxx=+221()2niiYY=22211()()nniiiixxxx=+=22211()()nniiiiYYxx=即即 22221111()()nniiiiYYxxnn=例例6.2 表表6.1给出了给出了12个父亲和他们长子的身
12、高分别为个父亲和他们长子的身高分别为(,)(1,12)?iixyi=这样一组观测值:这样一组观测值:(1)做做(,)iixy的散点图;的散点图;(2)求求Y关于关于x的线性回归方程。表 6.1(单位:in)的线性回归方程。表 6.1(单位:in)父亲的身高父亲的身高x 65 63 67 64 68 62 70 66 68 67 69 71 儿子的身高儿子的身高Y 68 66 68 65 69 66 68 65 71 67 68 70 解:解:(1)图图 6.1 给出表给出表 6.1 的散点图的散点图(2)将表将表 6.1 的数据代入式的数据代入式(6.6)中,有中,有 128008118005
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计课件 61回归分析 数理统计 课件 61 回归 分析
限制150内