欢迎来到得力文库 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
得力文库 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    MRAF-C10 抽样估计与样本量确定.pptx

    • 资源ID:5710128       资源大小:4.29MB        全文页数:65页
    • 资源格式: PPTX        下载积分:50金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要50金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    MRAF-C10 抽样估计与样本量确定.pptx

    調查分析預測調查分析預測MRAFMRAF第第10章章 抽样估计与样本量确定抽样估计与样本量确定 1調查分析預測調查分析預測MRAFMRAF七、抽样误差七、抽样误差 调查结果的准确性无疑是调查组织者十分调查结果的准确性无疑是调查组织者十分重视的问题。其准确性通常用抽样误差的重视的问题。其准确性通常用抽样误差的高低来反映,高低来反映,在抽样方式和总体既定的前在抽样方式和总体既定的前提下,抽样误差的大小主要取决于抽样数提下,抽样误差的大小主要取决于抽样数目的多少目的多少。对抽样误差的控制主要是通过对抽样误差的控制主要是通过控制抽样数目来实现的。因此,控制抽样数目来实现的。因此,抽样误差抽样误差与抽样数目与抽样数目的确定,是随机抽样市场调查的确定,是随机抽样市场调查中两个重要的问题。中两个重要的问题。2調查分析預測調查分析預測MRAFMRAF (一)抽样误差的估算方法(一)抽样误差的估算方法 1.抽样误差大小的影响因素抽样误差大小的影响因素 (1)总体各单位之间的差异程度)总体各单位之间的差异程度。总体变量存。总体变量存在变异是客观的,差异程度愈大,其分布就愈分在变异是客观的,差异程度愈大,其分布就愈分散,抽样误差就愈大;反之,愈小。这种差异程散,抽样误差就愈大;反之,愈小。这种差异程度,在统计上叫做标志变异度,通常用方差或标度,在统计上叫做标志变异度,通常用方差或标准差来表示。准差来表示。 (2)样本数目,即样本容量有多少。)样本数目,即样本容量有多少。当样本容当样本容量达到与总体容量一样时,抽样调查就变成全面量达到与总体容量一样时,抽样调查就变成全面市场调查了,抽样误差随即消失。市场调查了,抽样误差随即消失。 (3)抽样方式。)抽样方式。一般地说,等距随机抽样和分一般地说,等距随机抽样和分层随机抽样的抽样误差要小于简单随机抽样和分层随机抽样的抽样误差要小于简单随机抽样和分群随机抽样的误差。不重复抽样的误差要小于重群随机抽样的误差。不重复抽样的误差要小于重复抽样的误差。因此,要根据不同的抽样方式分复抽样的误差。因此,要根据不同的抽样方式分别估算抽样误差。别估算抽样误差。3調查分析預測調查分析預測MRAFMRAF4調查分析預測調查分析預測MRAFMRAF5調查分析預測調查分析預測MRAFMRAF6調查分析預測調查分析預測MRAFMRAF样本量的确定 (二)必要抽样数目的确定(二)必要抽样数目的确定 抽样数目过多,使得抽样调查所需成本费抽样数目过多,使得抽样调查所需成本费用提高,从而带来不经济;抽样数目过少,用提高,从而带来不经济;抽样数目过少,又会使调查结果存在较大误差,达不到要又会使调查结果存在较大误差,达不到要求的精度。求的精度。 所谓所谓必要抽样数目,就是在事先给定的抽必要抽样数目,就是在事先给定的抽样误差范围内所确定的、能够达到对调查样误差范围内所确定的、能够达到对调查结果精确度要求的样本单位数。结果精确度要求的样本单位数。7調查分析預測調查分析預測MRAFMRAF样本量的确定 1.影响合理的必要抽样数目的因素影响合理的必要抽样数目的因素 (1)总体各单位之间的标志差异程度。)总体各单位之间的标志差异程度。总体单总体单位之间的差异越小,一定数目的总体单位对总体位之间的差异越小,一定数目的总体单位对总体的代表性就越高。当总体单位的标志值都相等时,的代表性就越高。当总体单位的标志值都相等时,一个总体单位的标志值就足以代表总体的平均水一个总体单位的标志值就足以代表总体的平均水平。平。 (2)允许误差的大小。)允许误差的大小。一般来说,调查的准确一般来说,调查的准确度要求高、调查力强、调查经费充足,允许误差度要求高、调查力强、调查经费充足,允许误差就可以定得小一些。就可以定得小一些。 (3)不同的抽样方式和方法。)不同的抽样方式和方法。一般情况下,简一般情况下,简单随机抽样和分群随机抽样比等距随机抽样和分单随机抽样和分群随机抽样比等距随机抽样和分层随机抽样所需的样本单位数要多,重复抽样比层随机抽样所需的样本单位数要多,重复抽样比不重复抽样的样本单位数要多。不重复抽样的样本单位数要多。8調查分析預測調查分析預測MRAFMRAF9調查分析預測調查分析預測MRAFMRAF10調查分析預測調查分析預測MRAFMRAF11調查分析預測調查分析預測MRAFMRAF12調查分析預測調查分析預測MRAFMRAF13調查分析預測調查分析預測MRAFMRAF14調查分析預測調查分析預測MRAFMRAF15調查分析預測調查分析預測MRAFMRAF总体参数的点估计总体参数的点估计 点估计就是用样本的估计量直接作为总体点估计就是用样本的估计量直接作为总体参数的估计值参数的估计值。例如,用样本均值直接作。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。之差直接作为总体均值之差的估计。 点估计是容易做到的,但是,点估计没有点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度的信息。给出估计值接近总体参数程度的信息。 当样本均值与总体均值不完全相同时,样当样本均值与总体均值不完全相同时,样本均值与实际总体均值就存在着差距,形本均值与实际总体均值就存在着差距,形成抽样误差。成抽样误差。16調查分析預測調查分析預測MRAFMRAF总体参数的区间估计总体参数的区间估计 区间估计:在点估计的基础上,对总体参数的区区间估计:在点估计的基础上,对总体参数的区间或范围进行估计。间或范围进行估计。 区间估计不仅要说明区间大小,还要说明点估计区间估计不仅要说明区间大小,还要说明点估计值在区间内的概率,即置信度。置信度是一个百值在区间内的概率,即置信度。置信度是一个百分比,用来说明结果正确的长期概率。被估计的分比,用来说明结果正确的长期概率。被估计的区间则被称为置信区间。区间则被称为置信区间。 根据样本统计量的抽样分布理论,总体参数的区根据样本统计量的抽样分布理论,总体参数的区间范围是在一定的概率度下,由样本统计量加减间范围是在一定的概率度下,由样本统计量加减抽样误差而得到。抽样误差而得到。17調查分析預測調查分析預測MRAFMRAF训练题训练题 (P237238) 4.假设某快餐馆想要为一个新的菜单项目估计平假设某快餐馆想要为一个新的菜单项目估计平均销售量,这个餐馆观察了一个类似地点的销量,均销售量,这个餐馆观察了一个类似地点的销量,连续观测到如下结果:样本容量为连续观测到如下结果:样本容量为25,样本标准,样本标准差为差为100,每日平均销售量为,每日平均销售量为500。试估计这个餐。试估计这个餐馆启用新菜单后每天在馆启用新菜单后每天在95%的时间内销售量的范的时间内销售量的范围。围。18調查分析預測調查分析預測MRAFMRAF训练题训练题5.一家电器连锁商店正在进行空调的季节性降价促销。被抽取的一家电器连锁商店正在进行空调的季节性降价促销。被抽取的10个个样本商店销售出的空调数量如下(单位:台):样本商店销售出的空调数量如下(单位:台):82,113,2,41,71,83,99,52,84,30。那么,根据这些数据能否说明这次促销。那么,根据这些数据能否说明这次促销期间每家商店平均销售空调数量多于期间每家商店平均销售空调数量多于50台(台(95%)?)?19調查分析預測調查分析預測MRAFMRAF训练题训练题 6.假设你正计划对某市养狗的家庭进行抽样,假设你正计划对某市养狗的家庭进行抽样,以确定他们每月购买的狗食的平均数量。以确定他们每月购买的狗食的平均数量。已经制定了下面的标准:已经制定了下面的标准:95%的置信度,的置信度,小于小于5个单位的误差。以前的调研说明了标个单位的误差。以前的调研说明了标准差应该是准差应该是6个单位。那么,该项调查需要个单位。那么,该项调查需要多大的样本容量?多大的样本容量?20調查分析預測調查分析預測MRAFMRAF训练题训练题 7.在一项涉及在一项涉及400人的调查中,人的调查中,60%的人都对一个的人都对一个问题持积极态度。试在问题持积极态度。试在95%的置信度下确定比例的置信度下确定比例的区间估计。的区间估计。 8.在一个全国性的调查中,调研人员期望总体中在一个全国性的调查中,调研人员期望总体中有有30%的人将会同意某个态度陈述,要求误差小的人将会同意某个态度陈述,要求误差小于于2个百分点,并且具有个百分点,并且具有95%的把握性,那么,需的把握性,那么,需要多大的样本容量?假设调查总体为要多大的样本容量?假设调查总体为12000人,人,事先预计调查的回答率约为事先预计调查的回答率约为55%,那么,样本容,那么,样本容量又应该为多少?量又应该为多少?21調查分析預測調查分析預測MRAFMRAF22調查分析預測調查分析預測MRAFMRAF开篇案例开篇案例“百脑汇”调研中的样本计划问题 “百脑汇百脑汇”在中国华北几个省市经营连锁电脑超市,它希在中国华北几个省市经营连锁电脑超市,它希望获得更多关于其现有客户特点方面的信息。接受调研委望获得更多关于其现有客户特点方面的信息。接受调研委托的李文博士指派班上的王洪同学为样本计划小组的负责托的李文博士指派班上的王洪同学为样本计划小组的负责人。人。 通过与通过与“百脑汇百脑汇”的市场部经理乔兰的初次会谈,王洪了的市场部经理乔兰的初次会谈,王洪了解到调研的一个主要目的是分别按人口和心理因素来估计解到调研的一个主要目的是分别按人口和心理因素来估计“百脑汇百脑汇”的客户构成和比例。此外,确认总体估计值不的客户构成和比例。此外,确认总体估计值不超过实际值的超过实际值的50,可靠度为,可靠度为95。 为了达到这些要求,王洪和他的小组正努力寻找计算所需为了达到这些要求,王洪和他的小组正努力寻找计算所需样本容量的方法。样本容量的方法。23調查分析預測調查分析預測MRAFMRAF101 引言引言就是根据从样本中收集的信息对就是根据从样本中收集的信息对总体未知量进行推断的过程。总体未知量进行推断的过程。 抽样估计涉及的重要问题:抽样估计涉及的重要问题: 一个样本单元的一个样本单元的问题问题。,包括总体总量、均值和比例以及抽包括总体总量、均值和比例以及抽样误差的估计。样误差的估计。构成抽样设计程序的重要步骤和构成抽样设计程序的重要步骤和内容。同时,样本量的确定与样本估计值的精内容。同时,样本量的确定与样本估计值的精度密不可分。度密不可分。 24調查分析預測調查分析預測MRAFMRAF102 加权及权数调整加权及权数调整 设计权数是指每个样本单元所代表的调查总体的单元设计权数是指每个样本单元所代表的调查总体的单元数,它是由抽样设计所决定的,通常以数,它是由抽样设计所决定的,通常以wd表示。确定表示。确定设计权数是估计的第一步。设计权数是估计的第一步。 设计权数其实就是样本单元的入样概率的倒数。假如设计权数其实就是样本单元的入样概率的倒数。假如入样概率是入样概率是1/10,那么每个入选样本代表总体中的,那么每个入选样本代表总体中的10个单元,此时设计权数即为个单元,此时设计权数即为10。 不同样本单元的设计权数可能不同,这取决于抽样设不同样本单元的设计权数可能不同,这取决于抽样设计。因此,加权估计应区分等概率抽样的加权和不等计。因此,加权估计应区分等概率抽样的加权和不等概率抽样的加权。概率抽样的加权。 25調查分析預測調查分析預測MRAFMRAF等概率抽样的加权等概率抽样的加权 当每个单元都有相同的入样概率时,所有样当每个单元都有相同的入样概率时,所有样本单元的设计权数都相同,这种抽样就是本单元的设计权数都相同,这种抽样就是。 SRS抽样和抽样和SYS抽样都属于自加权设计,比例分抽样都属于自加权设计,比例分层抽样也是自加权设计。层抽样也是自加权设计。 另外,另外, PPS等也可以设计为一个自加权抽样。等也可以设计为一个自加权抽样。 对于自加权抽样设计,如果无需对权数调整,对于自加权抽样设计,如果无需对权数调整,则在计算比例、均值等估计量时可将其忽略,则在计算比例、均值等估计量时可将其忽略,对总值估计也仅需将样本总值乘上某个倍数。对总值估计也仅需将样本总值乘上某个倍数。(例例P215)26調查分析預測調查分析預測MRAFMRAF不等概率抽样的加权不等概率抽样的加权 自加权设计并不总是可行的。如,在使用分层抽样进行自加权设计并不总是可行的。如,在使用分层抽样进行一个全国调查时,可能需要采用纽曼分层。一个全国调查时,可能需要采用纽曼分层。 当所采用的抽样设计不是等概率时,正确地使用设计权当所采用的抽样设计不是等概率时,正确地使用设计权数就显得尤为重要。数就显得尤为重要。 例例10102 2 有关各层总体数和样本数资料见表有关各层总体数和样本数资料见表10-110-1。对。对于这项调查,被调查者的设计权数是多少呢?于这项调查,被调查者的设计权数是多少呢?收入层次各层单位数样本数量设计权数高收入层200033.3wd,1N1/n1=2000/33.3=60.1 中收入层12000133.3wd,2N2/n2=12000/133.3=90.0 低收入层600033.3wd,3N3/n3=6000/33.3=180.2 27調查分析預測調查分析預測MRAFMRAF设计权数的调整 上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。 权数估计常会遇到更真实和复杂的情况: 考虑无回答的情况,然后对权数做出调整; 考虑来自其他渠道的、更具权威性的某些辅助信息,将它们合并到权数中。 28調查分析預測調查分析預測MRAFMRAF对无回答的权数调整对无回答的权数调整 是指一个样本单元几乎所有的数据都缺失。简单的处理办法是忽略它。然而,如果发现忽略单元无回答是不适当的,则应该对权数进行调整。即,设计权数无回答调整因子=无回答的调整权数是原样本单元的权数和与给出回答的单元的权数和的比值。对于自加权设计,该比值可用原样本的单元数与给出回答的单元数的比值来表示。 无回答权数调整应区分两种不同情况: 等概率抽样 不等概率抽样29調查分析預測調查分析預測MRAFMRAF对无回答的权数调整对无回答的权数调整(SRS) 例例101033 从一个N=100人的总体中抽取一个n25人的简单随机样本。记回答单元的数量为nr,结果显示只有20个人提供了所需的信息。那么,此时无回答的调整权数是多少? 步骤步骤1:计算设计权数。:计算设计权数。 入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。步骤步骤2:计算无回答调整因子。:计算无回答调整因子。 由于在n25人中只有nr=20人提供了所需的信息,最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元,计算无回答调整因子为: n / nr = 25/20 = 1.25步骤步骤3:计算无回答的调整权数。:计算无回答的调整权数。 无回答的调整权数wnr等于设计权数与无回答调整因子的乘积: 525. 14nnwwrdnr30調查分析預測調查分析預測MRAFMRAF对无回答的权数调整对无回答的权数调整(STR) 例例10104 4 对于一项公共交通系统调查,总体由1100人组成,并按城乡分为两个层。分层及样本数据如表10-2所示。那么,回答者的权数是多少?表10-2 公交系统调查的分层数据层总体大小样本量回答者数量城市N11000n1200nr,1150农村N2100n250nr,240步骤步骤1:各层的设计权数为:各层的设计权数为: 城市层城市层 wd,1N1/n1=5 农村层农村层 wd,2N2/n2=2步骤步骤2:调整以弥补无回答。各层的无回答调整因子计算如下:调整以弥补无回答。各层的无回答调整因子计算如下: 城市层城市层:n1 / nr,1=200/150=1.33 农村层农村层:n2 / nr,2=50/40=1.25步骤步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:无回答的调整权数等于设计权数与无回答调整因子的乘积: 城市层城市层: 农村层农村层: 67. 633. 15nnwwr,11d,1nr,15 . 225. 12nnwwr,22d,2nr,231調查分析預測調查分析預測MRAFMRAF使用辅助信息调整权数使用辅助信息调整权数 为什么要使用辅助信息来调整权数呢? 首先,使调查的估计值与已知总体总值相匹配。例如,使用最新的人口普查数据来调整估计值,以确保这些估计值(如年龄、性别分布等)的一致性。 二是为了提高估计值的精度。将辅助信息与抽样设计相结合,将有助于提高估计的精度。 要想在调查设计阶段使用辅助信息,抽样框中的所有单元都必须具备这个辅助信息。否则,就只能在数据收集上来后,在估计阶段利用辅助信息提高估计值的精度。 32調查分析預測調查分析預測MRAFMRAF使用辅助信息调整权数使用辅助信息调整权数 例例101055 为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。在收集有关吸烟习惯信息时,收集了每个回答者的年龄和性别情况,且100人都做出了回答,由此得到样本数据的分布如表10-3所示: 事后分层估计值 男性 女性 总计 吸烟人数 164 47 211 总人数 360 420 780 吸烟者比例 0.455 0.111 0.271回答者数量男性女性总计吸烟人数25530总人数5545100 (nr)调查的估计值男性女性总计吸烟人数19539234总人数429351780吸烟者的比例0.4550.1110.30表10-5 利用辅助信息对抽样调查估计值的调整 表10-3 某公司吸烟习惯抽样调查数据表10-4 根据某公司吸烟习惯抽样计算的估计值33調查分析預測調查分析預測MRAFMRAF103 抽样分布与抽样误差抽样分布与抽样误差 抽样调查的目的是要对总体做出推断。 了解统计推断的理论基础,首先注意区分三种不同性质的分布: 总体分布 样本分布 抽样分布 同时,特别注意总体分布与抽样分布的关系。34調查分析預測調查分析預測MRAFMRAF三种不同性质的分布:总体各单位的观察值所形成的频数分布,总体分布通常是未知的。:一个样本中各个观察值所形成的频数分布就叫做。当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。:样本统计量的抽样分布,是指在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。抽样分布是一种理论分布。 抽样分布提供了样本统计量长远而稳定的信息,是进行推断的理论基础。分布类型均值比例标准差总体分布样本分布抽样分布 X P SxPXSPS表10-6 各种分布的均值、比例和标准差的符号表示 35調查分析預測調查分析預測MRAFMRAF样本均值的抽样分布 样本均值的抽样分布,是指在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布。 例例101066设一个总体,含有4个元素,即总体单位数N =4。4个个体分别为x1=1, x2=2, x3=3, x4=4。则总体分布如图10-1。 现在从总体中有放回地抽取n2的简单随机样本,则样本均值的抽样分布如图10-2。 36調查分析預測調查分析預測MRAFMRAF均值抽样分布的规律比较样本均值的分布与总体分布比较样本均值的分布与总体分布,得出如下结论:(1)样本均值的数学期望 等于总体均值,即E( )=。(2)在重复抽样条件下,样本均值的方差等于总体方差的1/n,或者说,样本均值的标准误 。(3)如果总体服从正态分布,即xN(,2),那么样本均值也服从正态分布,即 N(,2/n)。(4)如果总体不服从正态分布,那么当样本量足够大时,样本均值 也服从正态分布。中心极限定理中心极限定理,概括为:设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本,当n足够大(n 30)时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。 xnSxxx37調查分析預測調查分析預測MRAFMRAF样本比例的抽样分布,是在重复抽取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布。 比较样本比例的分布与总体分布,得出如下结论: 当样本容量足够大时,样本比例的抽样分布近似地服从正态分布,样本比例的数学期望等于总体比例,即E(p)=;在重复抽样条件下,样本比例的方差为总体方差的1/n,即 设从比例为、方差为 2的一个任意总体中随机抽取容量为n的样本,当n足够大(n 30)时,样本比例的抽样分布近似服从比例为、方差为(1-)/n的正态分布。 样本比例样本比例的方差的方差:n)1 (S2p样本比例样本比例的标准误:的标准误: n)1 (Sp38調查分析預測調查分析預測MRAFMRAF正态分布及标准值Z 正态分布有以下几个重要特征: 正态曲线呈钟形,曲线下的面积等于1,表明它包括了所有的调查结果。 在正态曲线下任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率。例如,任意抽取一个样本单元,IQ分数落在55-145之间的概率是99.72%,即图10-3中正态曲线下55-145之间的面积。 所有的正态分布在平均数1个标准差之间的面积相同,都占曲线下方面积的6826。这是正态分布的比例性,为统计推断提供了基础。 一个正态分布的特殊性由其平均数和标准差决定。 39調查分析預測調查分析預測MRAFMRAF标准正态分布 标准正态分布是一种平均值等于0、标准差等于1的正态分布(如图10-4)。 研究者可以将任何正态变量X转换为标准正态变量值(标准值)Z。计算方法就是,用将要进行转换的值中减去均值,然后再除以标准差。即 求出标准值Z之后,就可以查阅正态分布表(附录B-2),得到Z值的标准正态分布曲线下的面积(概率)。 式中,x 变量值; 平均数的假设或预期值; 变量的标准差。xZ40調查分析預測調查分析預測MRAFMRAF104 参数估计参数估计 参数估计就是根据从样本中收集的信息对总体参数进行推断的过程。 样本估计量 (如样本均值、比例等)都是随机变量,在具有特定概率(抽样)分布的样本之间有所变化。参数估计就是根据推断理论所阐明的抽样分布与总体分布之间的关系,由样本统计量的具体值估计总体参数(如总体均值、比例和方差等)。 参数估计有两种估计方法: 点估计 区间估计41調查分析預測調查分析預測MRAFMRAF总体参数的点估计总体参数的点估计 点估计就是用样本的估计量直接作为总体参数的估计值。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。 点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度的信息。 当样本均值与总体均值不完全相同时,样本均值与实际总体均值就存在着差距,形成抽样误差。42調查分析預測調查分析預測MRAFMRAF总体参数的区间估计总体参数的区间估计 区间估计:在点估计的基础上,对总体参数的区间或范围进行估计。 区间估计不仅要说明区间大小,还要说明点估计值在区间内的概率,即置信度。置信度是一个百分比,用来说明结果正确的长期概率。被估计的区间则被称为置信区间。 根据样本统计量的抽样分布理论,总体参数的区间范围是在一定的概率度下,由样本统计量加减抽样误差而得到。43調查分析預測調查分析預測MRAFMRAF总体均值的区间估计 在SRS抽样情况下,样本统计量的抽样分布均服从正态分布。可使用正态分布统计量Z来描述总体均值的区间估计,将总体均值区间估计表达为:= x2ZXS 在上式中,在上式中, 代表一定置信度下的代表一定置信度下的Z值。值。注意,注意,应除以应除以2,以便确定均值的每一边所包含曲线下区域的百分比。以便确定均值的每一边所包含曲线下区域的百分比。 代表样本均值的标准误,代表样本均值的标准误, 当当未知,用未知,用S来估计来估计,样本均值的标准误:,样本均值的标准误: 当当已知,样本均值的标准误的估计公式已知,样本均值的标准误的估计公式: nXSnSXS2ZXS44調查分析預測調查分析預測MRAFMRAF总体均值的区间估计 若调查从总体中随机抽取一个很小样本(n 30),则样本均值的抽样分布服从自由度为(n-1)的t-分布(较正态分布平坦和分散) 。随着自由度增大,t分布也逐渐趋于正态分布。在上述假设条件下,使用 t 分布统计量(附录B-3)来估计总体均值的置信区间。 t分布条件下总体均值置信区间的估计方法与正态分布条分布条件下总体均值置信区间的估计方法与正态分布条件下非常类似,只是查件下非常类似,只是查t分布表需要考虑自由度为分布表需要考虑自由度为(n-1)。统计量统计量 t(n-1) xt总体置信区间总体置信区间 = xXS2t45調查分析預測調查分析預測MRAFMRAF总体均值的区间估计例题例题 例例10107 7 某银行收集到由某银行收集到由3636信用卡用户组成的随机样信用卡用户组成的随机样本,得到各用户年龄本,得到各用户年龄( (周岁周岁) )数据如下数据如下2323,3535,3939,2727,3636,4444;3636,4242,4646,4343,3131,3333,4242,5353,4545,5454,4747,2424,3434,2828,3939,3636,4444,4040,3939,4949,3838,3434,4848,5050,3434,3939,4545,4848,4545,3232。 试建立信用卡用户年龄试建立信用卡用户年龄90%90%的置信区间。的置信区间。 已知n=36,1- = 90%,Z/2=1.64。根据样本数据计算得: =39.5,s=7.77 则,信用卡用户总体平均年龄在90%置信水平下的置信区间为: =39.51.64 =39.52.12 =(37.38,41.62)结论是:在90%的置信度下,信用卡用户的平均年龄为37.3841.62岁。 x= x2ZXS367.7746調查分析預測調查分析預測MRAFMRAF总体比例的区间估计 总体比例的区间估计假定总体服从二项分布。二项分布是指重复进行 n 次试验,出现“成功”的次数的概率分布。总体比例的抽样分布仍然可以由正态分布来近似,即适用中心极限定理。使用正态分布统计量Z来描述总体比例的区间估计,将总体比例区间估计表达如下: = p 2ZpS 在上式中,在上式中, 代表一定置信度下的代表一定置信度下的Z值。值。注意,注意,应除以应除以2,以便确定比例的每一边所包含曲线下区域的百分比。以便确定比例的每一边所包含曲线下区域的百分比。 代表样本比例的标准误,代表样本比例的标准误, 当当未知,样本比例的标准误未知,样本比例的标准误的估计式的估计式: 当当已知,样本比例的标准误的估计式:已知,样本比例的标准误的估计式: n)1 (Spn) p1 ( pSp2ZpS47調查分析預測調查分析預測MRAFMRAF总体比例的区间估计例题 例例101088 某商业公司想要估计经常光顾其大型购物中心中女性所占的比例,随机地抽取了400名经常性顾客,发现其中260名为女性。 试以95%的置信水平估计经常光顾该大型购物中心中女性比例的置信区间。 解:已知 n=400,p65%=0.65, 1- = 95%,Z/2 =1.96 则,总体比例在95%置信水平下的置信区间为: =0.651.96 =0.650.047 =(0.603,0.697)结论:在95%的置信度下,经常光顾该大型购物中心中女性比例的置信区间为60.3%69.7%。 = p 2ZpS4000.65)-65(1. 048調查分析預測調查分析預測MRAFMRAF总体方差的区间估计 在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布,构成样本方差的抽样分布。对于来自正态总体的简单随机样本,则(n-1)倍的样本方差与总体方差的比值的抽样分布服从自由度为 (n -1) 的2分布,即) 1n(s ) 1n() 1n(s ) 1n(221222222(n -1) 22s)1n( 2分布的特性分布的特性总体方差的区间估计提供了理论依据。当总体服从正态总体方差的区间估计提供了理论依据。当总体服从正态分布时,总体方差分布时,总体方差 2 的点估计量为的点估计量为s2。借助。借助 2分布表分布表(附录附录B-4)可可以查得以查得21-/2和和2/2分布曲线下的面积分布曲线下的面积(概率概率)。然后,可以给出总体。然后,可以给出总体方差在方差在1- 置信水平下的区间估计置信水平下的区间估计: 49調查分析預測調查分析預測MRAFMRAF105 样本量的确定 样本量的确定问题,首先涉及对总体参数估计值的精度要求,同时也涉及与各种运作限制(如可获得的预算、资源和时间)之间的平衡问题。 理论上,总体参数估计的精度取决于抽样误差和非抽样误差两类误差的大小。但是,确定样本量是为控制抽样误差,而不是对非抽样误差进行控制,进而提高对总体估计的精度。50調查分析預測調查分析預測MRAFMRAF估计精度与样本量的关系估计精度与样本量的关系 总体参数的置信区间可以描述为: 总体参数=总体参数的估计值抽样误差的范围 显然,估计精度取决于抽样误差大小。假设用E来定义抽样误差范围,则当简单随机选择一个容量足够大(n 30)的样本时,样本均值的抽样误差范围可以表示为: 抽样误差的范围是估计量标准误的倍数,乘数因子取决于在调查估计中所希望达到的置信水平。 在放回(重复)的SRS抽样条件下,假设回答率为100%,则样本均值的标准误公式可用来解释估计精度与样本量之间的基本关系:EXS2ZnSx51調查分析預測調查分析預測MRAFMRAF估计精度与样本量 无论是重复抽样还是不重复抽样,抽样误差的大小(即估计精度)与样本量紧密相关: 随着样本量的增加,对应估计量的抽样标准差就会不断减小,调查估计的精度则会不断提高。 同理,当要求不断提高调查估计值的精度要求时,所需样本量也会不断增加。 样本量要根据估计所要求的精度来计算和确定。下面的讨论分为两部分: 对初始样本量的确定及考虑 复杂情况的考虑及对初始样本量的调整52調查分析預測調查分析預測MRAFMRAF初始样本量的确定初始样本量的确定 初始样本量基于以下假定:抽样采用放回的SRS抽样,并且调查回答率为100%。样本均值的标准误表示为样本均值的标准误表示为: 抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量n: 从公式看出,样本容量从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。与置信系数和总体方差成正比,与边际误差成反比。为确定样本量为确定样本量n,需要知道允许的抽样误差范围,需要知道允许的抽样误差范围E、与给定置信水平相对应的、与给定置信水平相对应的标准值标准值Z、总体方差估计、总体方差估计2。nSxn2Z222/2EZn53調查分析預測調查分析預測MRAFMRAF初始样本量的确定 初始样本量基于以下假定:抽样采用放回的SRS抽样,并且调查回答率为100%。样本比例的标准误表示为样本比例的标准误表示为: 抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量n: 从公式看出,样本容量从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。与置信系数和总体方差成正比,与边际误差成反比。为确定样本量为确定样本量n,需要知道允许的抽样误差范围,需要知道允许的抽样误差范围E、与给定置信水平相对应的、与给定置信水平相对应的标准值标准值Z、总体比例、总体比例 。2Zn)1 (Spn)1 (22/2E)1 (Zn54調查分析預測調查分析預測MRAFMRAF对样本量基本公式的应用考虑对样本量基本公式的应用考虑 在确定初始样本量的公式中,抽样误差范围假定已知。但在实践中,如何确定调查估计的精度水平(抽样误差范围),却是一个值得思考的问题。 1多大的抽样误差对调研目标而言可以接受 常用95的置信度、6的抽样误差范围对客户的调查目标是否适宜,估计值是否需要更高或者更低的精度? 2是否需要对调查总体中的子总体(域)进行估计 例如,对一项全国性抽样调查而言,主办者可能要求对全国估计的抽样误差范围为3;但是对于省级估计值,抽样误差范围可能确定为5;而对于地市的估计值,10的抽样误差范围就足够了。55調查分析預測調查分析預測MRAFMRAF对样本量基本公式的应用考虑对样本量基本公式的应用考虑 3相对于调查估计值的抽样误差应该多大为宜 例如,政府要决定是否执行为某种使用人数较少的语种提供服务的新政策,假定做出决定的前提,是至少有5%的人群对这一语种存在需求。在这里,p005就是要确定的最小估计值。相对于该估计值,必须规定更小的抽样误差范围,如001(即,置信区间为005001)。 4精度要求的实际含义是什么 随着样本量的增加,估计值的精度也将提高。然而,精度的得益并不与样本量的增加成正比。如表10-10中描述的例子。 样本量抽样误差范围50100500100001386009800043800310表10-10 简单随机抽样估计比例P的样本量与抽样误差范围(当P=05) 56調查分析預測調查分析預測MRAFMRAF关于确定样本量的现实复杂考虑 在确定样本量基本公式之外,又有一些现实因素影响调查估计量的精度,进而影响样本量。这些因素主要包括 总体指标的变异程度 总体大小, 样本设计和所用的估计量 以及回答率 57調查分析預測調查分析預測MRAFMRAF关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑 随着调查总体中所研究指标的实际变异程度的增加,样本量也必须随之增大,以满足估计的精度要求。 为确保达到调查要求的精度,在计算样本量时,建议对某一指标的总体变异程度采取保守估计,即假定研究指标具有最大的变异程度。例如,对于二元变量,应该假定总体中该变量的变异程度为50-50对半平分,即假定p=05。 为确保样本量对所有的研究指标都足够大,应该根据最大变异程度或被认为最重要的指标来确定样本量。58調查分析預測調查分析預測MRAFMRAF关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑 在基本公式中,样本量的确定似乎与总体大小没有关系。因为当时假定在大总体中进行有放回的重复抽样,抽样总体的影响被忽略掉了。然而,在调研实践中,总体单元数量可能是有限的,而且可能采取非重复抽样,这时总体大小对样本容量的影响就应该被考虑进来了。在样本不放回的非重复抽样条件下在样本不放回的非重复抽样条件下 样本均值的标准误表示为样本均值的标准误表示为: 抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量:)Nn1 (nSx2Zn)Nn1 ( NZEZn222222/2在样本不放回的非重复抽样条件下在样本不放回的非重复抽样条件下 样本比例的标准误样本比例的标准误: 抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量:)Nn1 (n)1 (Sp2Zn)1 ()Nn1 ( N)1 (ZE)1 (Zn2222/259調查分析預測調查分析預測MRAFMRAF关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑 当使用复杂的样本设计时,估计值可能比SRS精确。当估计值更精确时,称所采用的样本设计更为有效。因此,实际抽样时必须考虑实际所用抽样设计的效率,并对初始样本量做出调整。即,在SRS抽样的样本量计算公式基础上乘以一个设计效应因子设计效应因子。 设计效应设计效应(Deff)是指在给定抽样设计下估计值的抽样方差,与相等样本量下的简单随机抽样的估计值的抽样方差之比。设某一抽样设计样本估计值的方差为设某一抽样设计样本估计值的方差为 ,同等样本量的,同等样本量的SRS设计的设计的样本估计值的方差为样本估计值的方差为 ,则抽样设计效应:,则抽样设计效应: Deff = 显然,对于简单随机抽样设计,显然,对于简单随机抽样设计,Deff=1;若;若Deff1,表明实际使用,表明实际使用的抽样设计的效率高于简单随机抽样;若的抽样设计的效率高于简单随机抽样;若Deff1,表明实际使用的抽,表明实际使用的抽样设计的效率低于简单随机抽样。样设计的效率低于简单

    注意事项

    本文(MRAF-C10 抽样估计与样本量确定.pptx)为本站会员(修****)主动上传,得力文库 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知得力文库 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

    © 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

    黑龙江省互联网违法和不良信息举报
    举报电话:0468-3380021 邮箱:hgswwxb@163.com  

    收起
    展开