总体均数与总体率的估计研.pptx
《总体均数与总体率的估计研.pptx》由会员分享,可在线阅读,更多相关《总体均数与总体率的估计研.pptx(95页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、随机抽样随机抽样总体样本统计推断第1页/共95页【例6-1】欲了解某地正常成年男性血清胆固醇的平均水平,某研究者在该地随机抽取正常成年男性120名,得其血清胆固醇的均数为3.86mmol/L,标准差为1.73 mmol/L,据此认为该地正常成年男性血清胆固醇的平均水平为3.86 mmol/L。以样本均数3.86mmol/L来代表该地区正常成年男性血清胆固醇的平均水平是否合适,为什么?第2页/共95页第一节 抽样误差与标准误第3页/共95页【例6-2】假设已知某地正常成年男性红细胞数的均值为5.001012/L,标准差为0.431012/L。现从该总体中进行随机抽样,每次抽取10名正常成年男子,
2、并测得他们的红细胞数,抽取100份样本,计算出每份样本的均数。每个样本均数是否都恰好等于总体均数,各样本均数是否相等?第4页/共95页第5页/共95页均数的抽样误差(sampling error)抽样误差:由于个体变异的存在,在抽样研究中产生的样本统计量和总体参数之间的差异各种参数都有抽样误差,这里我们以均数为研究对象第6页/共95页原因:个体变异抽样表现:样本均数和总体均数间的差别、样本均数和样本均数间的差别抽样误差是不可避免的,但抽样误差有自己的规律第7页/共95页样本均数的分布和标准误当固定样本含量n从同一总体中随机抽取多个样本时,样本均数间存在差异,那么这些样本均数的分布是怎样的呢?能
3、否用某个指标来描述它们之间的变异?第8页/共95页图图6-1 1006-1 100个样本均数的频数分布图个样本均数的频数分布图第9页/共95页样本统计量的标准差称为标准误(standard error)样本均数的标准差称为均数的标准误(SEM),用 表示 说明样本均数围绕总体均数的离散程度,可用来反映样本均数的抽样误差大小第10页/共95页中心极限定理从正态总体 N(,2)中,随机抽取例数为 n 的样本,样本均数也服从正态分布;即使从偏态总体随机抽样,当 n 足够大时(n 50),样本均数近似正态分布第11页/共95页从均数为,标准差为 的正态或偏态总体中,抽取例数为 n 的样本,样本均数的总
4、体均数也为 ,标准差与原标准差成正比,与样本例数的平方根成反比第12页/共95页第13页/共95页 常未知,用 s 估计,因此均数标准误的估计值为实际应用中,若标准差固定不变,可通过增加样本含量n来减少抽样误差第14页/共95页4.标准误的计算标准误的计算【例例】随机抽取某市随机抽取某市200200名名7 7岁男童的身岁男童的身高均数为高均数为124.0cm124.0cm,标准差为,标准差为4.6cm4.6cm,估,估计抽样误差的大小计抽样误差的大小第15页/共95页 意义不同:意义不同:标准差:表示观测值的变异程度标准差:表示观测值的变异程度 标准误:反映抽样误差的大小标准误:反映抽样误差的
5、大小 用途不同:用途不同:标准差:确定医学参考值范围标准差:确定医学参考值范围 标准误:用于统计推断(参数估计、假设检验)标准误:用于统计推断(参数估计、假设检验)公式不同:公式不同:标准差与标准误的区别第16页/共95页第二节 t 分布第17页/共95页t 分布的演化第18页/共95页 常未知,若用常未知,若用 ,这时对样本均,这时对样本均数进行的不是数进行的不是 z z 变换而是变换而是 t t 变换变换 统计量 t 不再服从N(0,1)标准正态分布第19页/共95页英国统计学家 William Sealey Gosset 于1908年以“Student”笔名发表论文,证明统计量 t 服从
6、v=n-1的t分布第20页/共95页又称为Student t分布(Students t-distribution)第21页/共95页t 分布的图形及特征第22页/共95页t 分布的特征为:以0为中心,左右对称的单峰分布 越小,t值越分散,峰越矮,尾越高 增大,t分布逐渐逼近z分布,时,t分布即为z分布第23页/共95页t 界值表横标目:自由度纵标目:概率 P(曲线下面积)表中数字:自由度为,概率P 为时,所对应的 t 界值,记为t,第24页/共95页单侧:单侧:或或双侧:双侧:即即第25页/共95页在相同自由度时,t 的绝对值越大,P 越小在相同 P 值时,自由度越大所对应的 t 界值越小在相
7、同 t 值时,双侧概率 P 为单侧概率 P 的两倍 时,t界值即为z界值第26页/共95页第三节 总体均数的估计 第27页/共95页统计推断(statistical inference)统计推断是指如何抽样,以及如何用样本性质推断总体特征参数估计(parameter estimation)假设检验(hypothesis testing)第28页/共95页参数估计点估计(Point Estimation)To use a number to estimate the parameter.区间估计(Interval Estimation)To obtain a range so as to inc
8、lude the parameter.第29页/共95页点估计的缺陷第30页/共95页区间估计的实质假设某个总体的均数为,需要找到两个量A和B,使得在一个比较高的可信度下(如95%),区间(A,B)能包含。即P(A 50)第35页/共95页 例6-3中,因n=120,试求该地正常成年男性 血清胆固醇平均水平的95可信区间。即(即(3.553.55,4.174.17)mmol/L mmol/L 第36页/共95页3.当未知n 较小-t/2,v 0 t/2,v 第37页/共95页单侧可信区间和双侧可信区间应用条件应用条件双侧双侧100(1-100(1-)%)%可信区间可信区间上侧上侧100(1-1
9、00(1-)%)%可信区间可信区间下侧下侧100(1-100(1-)%)%可信区间可信区间已知已知未知,未知,n n足够大足够大未知,未知,n n较小较小第38页/共95页单侧可信区间的计算例 随机抽取罐装牛肉10听,亚硝酸盐含量均数为17.6mg/kg,标准差1.64mg/kg,估计这批罐头的平均亚硝酸盐含量单侧可信区间!(仅有上限有意义,不高于某一个数值)上限为故95%CI为低于18.55mg/kg第39页/共95页可信区间的涵义从总体中作随机抽样,每个样本可以算得一个可信区间。如95%可信区间意味着做100次抽样,算得100个可信区间,平均有95个估计正确。在实际研究中,一般只进行一次抽
10、样,算得一个可信区间,对于这个可信区间来说,我们有95%把握认为其包括了总体均数第40页/共95页图图6-5 6-5 从从NN(0,10,1)中随机抽样算得的)中随机抽样算得的100100个个9595可信区间(可信区间(n n=10=10)第41页/共95页下列说法正确吗?算得某95%的可信区间,则:总体参数有95%的可能落在该区间 有95%的总体参数在该区间内 该区间包含95%的总体参数 该区间有95%的可能包含总体参数 该区间包含总体参数,可信度为95%第42页/共95页可信区间的两个要素可信度(Confidence):可靠性,即1-。一般取90%,95,可人为控制精确性(Precisio
11、n):区间的大小(区间的长度),越小越好必须二者兼顾第43页/共95页均数的可信区间与参考值范围的区别区别点区别点均数的可信区间均数的可信区间参考值范围参考值范围意义意义按预先给定的概率,确定按预先给定的概率,确定的未知参数的可能范围的未知参数的可能范围“正常人正常人”的解剖、生理、的解剖、生理、生化、某项指标的波动范围生化、某项指标的波动范围计算计算公式公式已知或已知或未知但未知但 n n 较大较大未知:未知:正态分布:正态分布:偏态分布:偏态分布:P PX X P P100-100-X X用途用途估计总体均数估计总体均数判断观察对象的某项指标正判断观察对象的某项指标正常与否常与否第44页/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 总体 估计
限制150内