《31回归分析的基本思想及其初步应用.ppt》由会员分享,可在线阅读,更多相关《31回归分析的基本思想及其初步应用.ppt(43页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、导入新课导入新课 在在数学数学3中,我们对两个具有线性相关中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,关系的变量利用回归分析的方法进行了研究,其步骤为其步骤为:画散点图画散点图求回归直线方程求回归直线方程用直线方程进行预报用直线方程进行预报 函数关系是一种确定性关系函数关系是一种确定性关系, ,而相关关系是一而相关关系是一种非确定性关系种非确定性关系. .那么那么, ,这节课我们就学习对具有这节课我们就学习对具有相关关系的两个变量进行统计分析的一种常用方相关关系的两个变量进行统计分析的一种常用方法法回归分析回归分析. . 提问:提问:“名师出高徒名师出高徒”这句彦语的意这
2、句彦语的意思是什么?有名气的老师就一定能教出厉思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?害的学生吗?这两者之间是否有关?1.1回归分析的基本思想回归分析的基本思想及及其初步应用其初步应用通过典型案例的探究,进一步了解回通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用归分析的基本思想、方法及初步应用.了解回归模型和函数模型的区别任了解回归模型和函数模型的区别任何模型只能近似描述实际问题何模型只能近似描述实际问题了解残差分析和指标了解残差分析和指标的含义的含义.教学目标教学目标知识目标知识目标能力目标能力目标具有初步应用回归分析的能力具有初步应用回归分析的
3、能力.情感目标情感目标 通过对回归分析的基本思想的学习,能通过对回归分析的基本思想的学习,能够在现实生活中应用此思想够在现实生活中应用此思想.教学重难点教学重难点重重 点点 (1)了解线性回归模型与函数模型的差异)了解线性回归模型与函数模型的差异; (2)了解判断刻画模型拟合效果的方法)了解判断刻画模型拟合效果的方法相关指数和残差分析相关指数和残差分析.难难 点点 解释残差变量的含义,了解偏差平解释残差变量的含义,了解偏差平方和分解的思想方和分解的思想.探究探究 对于一组具有线性相关关系的数据对于一组具有线性相关关系的数据 (x1,y1),(x2,y2),(xn,yn), 我们知道回归直线我们
4、知道回归直线y=bx+a的斜率和截距的最的斜率和截距的最小二乘估计分别为小二乘估计分别为niii=1n2ii=1(x - x)(y - y)b =,(x - x)a = y - bx,其中其中nniii=1i=111x =x ,y =y ,(x,y)nn 称为称为样本点的中心样本点的中心,你能推导出这两个,你能推导出这两个计算公式吗?计算公式吗? 回归直线过回归直线过样本点的中心样本点的中心 从已经学过的知识我们知道,斜距从已经学过的知识我们知道,斜距 和斜率和斜率 分别是使分别是使a biiiiQ(,) = y -y = y -(x +)取最小时取最小时 的值的值.由于由于,n2iii=1Q
5、(,) =y -x -(y -x)+(y -x)-n2iiiii=12y -x -(y-x) +2y -x -(y-x)(y-x)-+(y-x)- niii=1niii=1y -x -(y -x)(y -x-) = (y -x-)y -x -(y -x) 注注意意到到nniii=1i=1= (y-x-)y -x -n(y-x)= (y-x-)ny-nx-n(y-x)= 0,nn2iiiii=1i=12=y -x -(y-x) +2y -x -(y-x)(y-x-)+n(y-x-) ,继续继续n22iii=1Q(,) =y -x -(y-x) +n(y-x-),因因此此22nnn22iiiii=
6、1i=1i=1=(x -x) -2(x -x)(y -y)+(y -y) +n(y-x-)2nn22iiiin2i=1i=1inn22i=1iii=1i=12nii=1(x -x)(y -y)(x -x)(y -y)=n(y-x-) +(x -x) -(x -x)(x -x) +(y -y)继续继续 在上式中,后两项和在上式中,后两项和 无关,而前两无关,而前两项为非负数,因此要使项为非负数,因此要使Q取得最小值,当且仅取得最小值,当且仅当前两项的值均为当前两项的值均为0,即有,即有niii=1n2ii=1(x - x)(y - y) =(x - x)这正是我们所要推导的公式这正是我们所要推导
7、的公式., 从某大学中随机选取从某大学中随机选取8名女大学生,其身名女大学生,其身高和体重数据如下表所示:高和体重数据如下表所示: 例题例题1编号编号1 2 3 4 5 6 7 8身高身高/cm 165 165 157 170 175 165 155 170体重体重/kg 48 57 50 54 64 61 43 59 求根据一名女大学生的身高预报她的体重求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为的回归方程,并预报一名身高为172cm的女大的女大学生的体重学生的体重.解答解答第一步第一步:画散点图画散点图第二步:求回归方程第二步:求回归方程第三步第三步:代值计算代值计算
8、探究探究 身高为身高为172c的女大的女大学生的体重一学生的体重一定是定是60.316kg吗?如果不是吗?如果不是,其原因是什么其原因是什么?计算器得:计算器得:故线性回归方程:故线性回归方程:当当x=172时,时,0.849.b-85.712,a85.712.-0.849xy y0.849172-85.712 60.316(kg) 显然,身高显然,身高172cm的女大学生的体重不一的女大学生的体重不一定是定是60.316kg,但一般可以认为她的体重在,但一般可以认为她的体重在60.316kg左右,下图中的样本点和回归直线的左右,下图中的样本点和回归直线的相互位置说明了这一点相互位置说明了这一
9、点. 由于所有的样本点不共线,而只是散布由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关在某一条直线的附近,所以身高和体重的关系可用线性回归模型系可用线性回归模型 y=bx+a+e 来表示,这里来表示,这里a和和b为模型的未知参数,为模型的未知参数,e是是y与与bx+a之间的误差之间的误差.通常通常e为随机变量,为随机变量,称为随机误差称为随机误差.它的均值它的均值E(e)=0,方差,方差D(e)= 20,这样线性回归的完整表达式为,这样线性回归的完整表达式为y=bx+a+eE(e)=0, D(e)= 2.注意注意存在误差的原因存在误差的原因 (1)随机误差,其大小取决
10、于随机误差的方)随机误差,其大小取决于随机误差的方差差. 在线性回归模型中,随机误差在线性回归模型中,随机误差e的方差的方差 2越越小小 ,用,用bx+a预报真实值预报真实值y的精度越高的精度越高. (2) 和和 为斜率和截距的估计值,它们与为斜率和截距的估计值,它们与真实值真实值a和和b之间也存在误差之间也存在误差.ba 要牢记!要牢记!探究探究 在线性回归模型中,在线性回归模型中,e是用是用bx+a预报真实值预报真实值y的随机误差,它是一个不可观测的量,那么应的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?该怎样研究随机误差呢?在实际应用中,我们用回归方程在实际应用中,我们用
11、回归方程a xby 中的中的 估计估计bx+a. 由于随机误差由于随机误差e=y-(bx+a),所以所以 是是e的估计值的估计值. 对于样本点对于样本点 (x1,y1),(x2,y2),(xn,yn)y y -ye 而言,它们的随机误差为而言,它们的随机误差为 ei=yi-bxi-a,i=1,2,n,其估计值为其估计值为n,1,2,.,ia xbyy ye iiii ie 称为相应于点称为相应于点(xi,yi)的的残差残差(residual).要牢记!要牢记!思考思考如何发现数据中的错误?如何衡量模型如何发现数据中的错误?如何衡量模型的拟合效果?的拟合效果? (1)可以利用残差图来分析残差特性
12、;)可以利用残差图来分析残差特性; (2)可以利用)可以利用.nn22iii2i = 1i = 1nn22iii = 1i = 1(y- y )(y- y )R= 1 -=(y- y )(y- y ) 来刻画回归的效果来刻画回归的效果.何为残差图?何为残差图? 残差图残差图 作图时纵作图时纵坐标为残差,坐标为残差,横坐标可以选横坐标可以选为样本编号,为样本编号,或身高数据,或身高数据,或体重的估计或体重的估计值等,这样作值等,这样作出的图形称为出的图形称为残差图残差图.0编号编号12345671020304050607080-10-20-30-40-50-6090100要牢记!要牢记! 对对R
13、 R2 2的理解的理解(1)在含有一个解释变量的线性模型中,)在含有一个解释变量的线性模型中, R2恰恰好等于相关系数好等于相关系数r的平方的平方.(2)对于已经获取的样本数据,)对于已经获取的样本数据, R2表达式中的表达式中的 为确定的数为确定的数. 因此因此R2越大,意味着残差平方和越大,意味着残差平方和越小,即模型的拟合效果越好;反之,越差越小,即模型的拟合效果越好;反之,越差. n1i2i)y-(y n1i2i)y-(y要牢记!要牢记! 用身高预报体重时,需要注意以下问题用身高预报体重时,需要注意以下问题 (1)回归方程只适用于我们所研究的样本)回归方程只适用于我们所研究的样本总体;
14、总体; (2)我们所建立的回归方程一般都有时间)我们所建立的回归方程一般都有时间性;性; (3)样本取值的范围会影响回归方程的适)样本取值的范围会影响回归方程的适用范围;用范围; (4)不能期望回归方程得到的预报值就是)不能期望回归方程得到的预报值就是预报变量的精确值预报变量的精确值. 建立回归模型的基本步骤建立回归模型的基本步骤: : (1)确定研究对象,明确哪个变量是解释变确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;量,哪个变量是预报变量; (2)画出解释变量和预报变量的散点图,观画出解释变量和预报变量的散点图,观察它们之间的关系;察它们之间的关系; (3)由经验确定回归方程
15、的类型;由经验确定回归方程的类型; (4)按一定规则估计回归方程中的参数;按一定规则估计回归方程中的参数; (5)得出结果后分析残差图是否有异常,若得出结果后分析残差图是否有异常,若有异常,检查数据是否有误,或模型是否合适等有异常,检查数据是否有误,或模型是否合适等. .要牢记!要牢记! 为了对为了对x、Y两个变量进行统计分析,现两个变量进行统计分析,现有以下两种线性模型有以下两种线性模型 和和 试比较哪一个模型拟合的效果更好试比较哪一个模型拟合的效果更好.例题例题2关于关于X X与与Y Y有如下数据有如下数据: :x24568y3040605070 y = 6.5x +17.5 y = 7x
16、 +17 分析:既可分别求出两种模型下的总偏差分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,求出两种模型下的相关指数,然后再进行比较,从而得出结论从而得出结论.52ii2i=1152ii=1(y -y )155R =1-=1-= 0.8451000(y -y)22R =1-52iii=152ii=1(y -y )180=1-=0.821000(y -y),84.5%82%,所以甲选用的模型拟合效果较好,所以甲选用的模型拟合效果较好.解答解答 课堂小结课堂小结1.数学知识数学知识 (1
17、)建立回归模型及残差图分析的基本步骤;)建立回归模型及残差图分析的基本步骤; (2)不同模型拟合效果的比较方法;)不同模型拟合效果的比较方法; (3)相关指数和残差的分析)相关指数和残差的分析.2. 数学思想数学思想 数形结合的思想,化归思想及整体思想数形结合的思想,化归思想及整体思想. 3.数学方法数学方法 数形结合法,转化法,换元法数形结合法,转化法,换元法.高考链接高考链接 1. (2007年浙江)某校有学生年浙江)某校有学生2000人,其中人,其中高三学生高三学生500人,为了了解学生身体素质情况,人,为了了解学生身体素质情况,采用按年级分层抽样的方法,从该学生中抽取一采用按年级分层抽
18、样的方法,从该学生中抽取一个个200人的样本,则样本中高三学生的人数为人的样本,则样本中高三学生的人数为_. 解析:本题考查抽样的方法解析:本题考查抽样的方法. 由已知抽样比由已知抽样比200/2000=1/10,故样本中高三学生数为,故样本中高三学生数为500*(1/10)=50. 2.(2007年广东)下表提供了某厂节能降耗技年广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量术改造后生产甲产品过程中记录的产量x(吨)与(吨)与相应的生产能耗相应的生产能耗y(吨标准煤)的几组对照数据(吨标准煤)的几组对照数据.x3456y2.5344.5(1)请画出上表数据的散点图;)请画出
19、上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法)请根据上表提供的数据,用最小二乘法求出求出y关于关于x的线性回归方程的线性回归方程 y = bx+a . (3)已知该厂技改前)已知该厂技改前100吨甲产品的生产能吨甲产品的生产能耗为耗为90吨标准煤试根据(吨标准煤试根据(2)求出的线性回归)求出的线性回归方程,预测生产方程,预测生产100吨甲产品的生产能耗比技改吨甲产品的生产能耗比技改前降低多少吨标准煤?前降低多少吨标准煤?解析:解析: (1)如下图如下图66.54.5645342.53(2)yxin1ii 4.546543x 3.544.5432.5y 866543i2222n1
20、i2x 266.5-4 4.5 3.566.5-63b=0.786-4 4.586-81 a = Y-bX= 3.5-0.7 4.5=0.35 故线性回归方程为故线性回归方程为y=0.7x+0.35. (3)根据回归方程的预测,现在生产根据回归方程的预测,现在生产100吨产品吨产品消耗的标准煤的数量为消耗的标准煤的数量为0.7100+0.35=70.35. 1.选择选择 课堂练习课堂练习(1)下列说法中正确的有)下列说法中正确的有:( ) 若若r0,则,则x增大时,增大时,y也相应增大也相应增大; 若若r0,表示两个相关变量正相关,表示两个相关变量正相关,x增大增大时,时,y也相应增大,故也相
21、应增大,故正确正确. r0,表示两个变,表示两个变量负相关,量负相关,x增大时,增大时,y也相应减小,故也相应减小,故错误错误. |r|越接近越接近1,表示两个变量相关性越高,表示两个变量相关性越高,|r|=1表表示两个变量有确定的关系(即函数关系),故示两个变量有确定的关系(即函数关系),故正确正确. (2)对两个变量)对两个变量y与与x进行回归分析,分别选进行回归分析,分别选择不同的模型,它们的相关系数择不同的模型,它们的相关系数r如下,其中拟合如下,其中拟合效果最好的模型是(效果最好的模型是( ) A.模型模型的相关系数的相关系数r为为0.98 B.模型模型的相关系数的相关系数r为为0.
22、80 C.模型模型的相关系数的相关系数r为为0.50 D.模型模型的相关系数的相关系数r为为0.25 解析解析:根据相关系数的定义和计算公式可知,根据相关系数的定义和计算公式可知,|r|1,且,且|r|越接近于越接近于1,相关程度越大,拟合效果,相关程度越大,拟合效果越好;越好;|r|越接近于越接近于0,相关程度越小,拟合效果越弱,相关程度越小,拟合效果越弱.A (3)对有线性相关关系的两个变量建立的回)对有线性相关关系的两个变量建立的回归直线方程归直线方程 中,回归系数中,回归系数 ( ) A.可以小于可以小于0 B.小于小于0 C.能等于能等于0 D.只能等于只能等于0axbyb 解析解析
23、: 时,得时,得r=0,这时不具有线性,这时不具有线性相关性,但相关性,但 能大于能大于0,也能小于,也能小于0.b0 bA2.解答题解答题 (1)现随机抽取了我校)现随机抽取了我校10名学生在入学考名学生在入学考试中的数学成绩(试中的数学成绩(x)与入学后的第一次考试中)与入学后的第一次考试中的数学成绩(的数学成绩(y),数据如下:),数据如下: 学生号学生号12345678910 x120 108 11710410311010410599108y84648468696869465771 试问这试问这10个学生的两次数学考试成绩是否具个学生的两次数学考试成绩是否具有显著性线性相关关系?有显著
24、性线性相关关系? 查表得自由度为查表得自由度为10-2=8相应的相关关系临相应的相关关系临界值界值 由由 知,两次数学考试成绩知,两次数学考试成绩有显著性的线性相关关系有显著性的线性相关关系.101i2i116584x101i2i47384y107.8x 68y 73796yx101iii 易得易得则相关系数为则相关系数为解答解答2273796 10 107.8 68r0.7506 (116584 10 107.8 )(47384 10 68 ) 0.05r0.6021 0.05r r (2)观察两相关量得如下数据)观察两相关量得如下数据:x-1-2-3-4-553421y-9-7-5-3-1
25、15379求两变量间的回归方程求两变量间的回归方程.i12345678910 xi-1-2-3-4-553421yi-9-7-5-3-115379xiyi9141512551512149解答解答列表列表:10101022iiiii=1i=1i=1x = 0,y = 0,= 110,= 330,= 110.yyxx10iii=11022ii=1-10 xy110-10 0b =1110-10 0-10yxxx a=y-bx=0-b 0=0 y = x .所求回归直线方程为所求回归直线方程为习题解答习题解答1. 画散点图的目的是通过变量的散点图判断两个画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据接用线性回归模型来拟合原始数据.2. 分析残差可以帮助我们解决以下几个问题:分析残差可以帮助我们解决以下几个问题: (1)寻找异常点,就是残差特别大的点,考察)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错;相应的样本数据是否有错; (2)分析残差图可以发现模型选择是否合适)分析残差图可以发现模型选择是否合适.3.(1)解释变量和预报变量的关系是线性函数关)解释变量和预报变量的关系是线性函数关系;系; (2)R2=1.
限制150内