MRAF-C10 抽样估计与样本量确定.pptx
《MRAF-C10 抽样估计与样本量确定.pptx》由会员分享,可在线阅读,更多相关《MRAF-C10 抽样估计与样本量确定.pptx(65页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、調查分析預測調查分析預測MRAFMRAF第第10章章 抽样估计与样本量确定抽样估计与样本量确定 1調查分析預測調查分析預測MRAFMRAF七、抽样误差七、抽样误差 调查结果的准确性无疑是调查组织者十分调查结果的准确性无疑是调查组织者十分重视的问题。其准确性通常用抽样误差的重视的问题。其准确性通常用抽样误差的高低来反映,高低来反映,在抽样方式和总体既定的前在抽样方式和总体既定的前提下,抽样误差的大小主要取决于抽样数提下,抽样误差的大小主要取决于抽样数目的多少目的多少。对抽样误差的控制主要是通过对抽样误差的控制主要是通过控制抽样数目来实现的。因此,控制抽样数目来实现的。因此,抽样误差抽样误差与抽样
2、数目与抽样数目的确定,是随机抽样市场调查的确定,是随机抽样市场调查中两个重要的问题。中两个重要的问题。2調查分析預測調查分析預測MRAFMRAF (一)抽样误差的估算方法(一)抽样误差的估算方法 1.抽样误差大小的影响因素抽样误差大小的影响因素 (1)总体各单位之间的差异程度)总体各单位之间的差异程度。总体变量存。总体变量存在变异是客观的,差异程度愈大,其分布就愈分在变异是客观的,差异程度愈大,其分布就愈分散,抽样误差就愈大;反之,愈小。这种差异程散,抽样误差就愈大;反之,愈小。这种差异程度,在统计上叫做标志变异度,通常用方差或标度,在统计上叫做标志变异度,通常用方差或标准差来表示。准差来表示
3、。 (2)样本数目,即样本容量有多少。)样本数目,即样本容量有多少。当样本容当样本容量达到与总体容量一样时,抽样调查就变成全面量达到与总体容量一样时,抽样调查就变成全面市场调查了,抽样误差随即消失。市场调查了,抽样误差随即消失。 (3)抽样方式。)抽样方式。一般地说,等距随机抽样和分一般地说,等距随机抽样和分层随机抽样的抽样误差要小于简单随机抽样和分层随机抽样的抽样误差要小于简单随机抽样和分群随机抽样的误差。不重复抽样的误差要小于重群随机抽样的误差。不重复抽样的误差要小于重复抽样的误差。因此,要根据不同的抽样方式分复抽样的误差。因此,要根据不同的抽样方式分别估算抽样误差。别估算抽样误差。3調查
4、分析預測調查分析預測MRAFMRAF4調查分析預測調查分析預測MRAFMRAF5調查分析預測調查分析預測MRAFMRAF6調查分析預測調查分析預測MRAFMRAF样本量的确定 (二)必要抽样数目的确定(二)必要抽样数目的确定 抽样数目过多,使得抽样调查所需成本费抽样数目过多,使得抽样调查所需成本费用提高,从而带来不经济;抽样数目过少,用提高,从而带来不经济;抽样数目过少,又会使调查结果存在较大误差,达不到要又会使调查结果存在较大误差,达不到要求的精度。求的精度。 所谓所谓必要抽样数目,就是在事先给定的抽必要抽样数目,就是在事先给定的抽样误差范围内所确定的、能够达到对调查样误差范围内所确定的、能
5、够达到对调查结果精确度要求的样本单位数。结果精确度要求的样本单位数。7調查分析預測調查分析預測MRAFMRAF样本量的确定 1.影响合理的必要抽样数目的因素影响合理的必要抽样数目的因素 (1)总体各单位之间的标志差异程度。)总体各单位之间的标志差异程度。总体单总体单位之间的差异越小,一定数目的总体单位对总体位之间的差异越小,一定数目的总体单位对总体的代表性就越高。当总体单位的标志值都相等时,的代表性就越高。当总体单位的标志值都相等时,一个总体单位的标志值就足以代表总体的平均水一个总体单位的标志值就足以代表总体的平均水平。平。 (2)允许误差的大小。)允许误差的大小。一般来说,调查的准确一般来说
6、,调查的准确度要求高、调查力强、调查经费充足,允许误差度要求高、调查力强、调查经费充足,允许误差就可以定得小一些。就可以定得小一些。 (3)不同的抽样方式和方法。)不同的抽样方式和方法。一般情况下,简一般情况下,简单随机抽样和分群随机抽样比等距随机抽样和分单随机抽样和分群随机抽样比等距随机抽样和分层随机抽样所需的样本单位数要多,重复抽样比层随机抽样所需的样本单位数要多,重复抽样比不重复抽样的样本单位数要多。不重复抽样的样本单位数要多。8調查分析預測調查分析預測MRAFMRAF9調查分析預測調查分析預測MRAFMRAF10調查分析預測調查分析預測MRAFMRAF11調查分析預測調查分析預測MRA
7、FMRAF12調查分析預測調查分析預測MRAFMRAF13調查分析預測調查分析預測MRAFMRAF14調查分析預測調查分析預測MRAFMRAF15調查分析預測調查分析預測MRAFMRAF总体参数的点估计总体参数的点估计 点估计就是用样本的估计量直接作为总体点估计就是用样本的估计量直接作为总体参数的估计值参数的估计值。例如,用样本均值直接作。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。之差直接作为总体均值之差的估计。 点估计是容易做到的,但是,点估计没有点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度
8、的信息。给出估计值接近总体参数程度的信息。 当样本均值与总体均值不完全相同时,样当样本均值与总体均值不完全相同时,样本均值与实际总体均值就存在着差距,形本均值与实际总体均值就存在着差距,形成抽样误差。成抽样误差。16調查分析預測調查分析預測MRAFMRAF总体参数的区间估计总体参数的区间估计 区间估计:在点估计的基础上,对总体参数的区区间估计:在点估计的基础上,对总体参数的区间或范围进行估计。间或范围进行估计。 区间估计不仅要说明区间大小,还要说明点估计区间估计不仅要说明区间大小,还要说明点估计值在区间内的概率,即置信度。置信度是一个百值在区间内的概率,即置信度。置信度是一个百分比,用来说明结
9、果正确的长期概率。被估计的分比,用来说明结果正确的长期概率。被估计的区间则被称为置信区间。区间则被称为置信区间。 根据样本统计量的抽样分布理论,总体参数的区根据样本统计量的抽样分布理论,总体参数的区间范围是在一定的概率度下,由样本统计量加减间范围是在一定的概率度下,由样本统计量加减抽样误差而得到。抽样误差而得到。17調查分析預測調查分析預測MRAFMRAF训练题训练题 (P237238) 4.假设某快餐馆想要为一个新的菜单项目估计平假设某快餐馆想要为一个新的菜单项目估计平均销售量,这个餐馆观察了一个类似地点的销量,均销售量,这个餐馆观察了一个类似地点的销量,连续观测到如下结果:样本容量为连续观
10、测到如下结果:样本容量为25,样本标准,样本标准差为差为100,每日平均销售量为,每日平均销售量为500。试估计这个餐。试估计这个餐馆启用新菜单后每天在馆启用新菜单后每天在95%的时间内销售量的范的时间内销售量的范围。围。18調查分析預測調查分析預測MRAFMRAF训练题训练题5.一家电器连锁商店正在进行空调的季节性降价促销。被抽取的一家电器连锁商店正在进行空调的季节性降价促销。被抽取的10个个样本商店销售出的空调数量如下(单位:台):样本商店销售出的空调数量如下(单位:台):82,113,2,41,71,83,99,52,84,30。那么,根据这些数据能否说明这次促销。那么,根据这些数据能否
11、说明这次促销期间每家商店平均销售空调数量多于期间每家商店平均销售空调数量多于50台(台(95%)?)?19調查分析預測調查分析預測MRAFMRAF训练题训练题 6.假设你正计划对某市养狗的家庭进行抽样,假设你正计划对某市养狗的家庭进行抽样,以确定他们每月购买的狗食的平均数量。以确定他们每月购买的狗食的平均数量。已经制定了下面的标准:已经制定了下面的标准:95%的置信度,的置信度,小于小于5个单位的误差。以前的调研说明了标个单位的误差。以前的调研说明了标准差应该是准差应该是6个单位。那么,该项调查需要个单位。那么,该项调查需要多大的样本容量?多大的样本容量?20調查分析預測調查分析預測MRAFM
12、RAF训练题训练题 7.在一项涉及在一项涉及400人的调查中,人的调查中,60%的人都对一个的人都对一个问题持积极态度。试在问题持积极态度。试在95%的置信度下确定比例的置信度下确定比例的区间估计。的区间估计。 8.在一个全国性的调查中,调研人员期望总体中在一个全国性的调查中,调研人员期望总体中有有30%的人将会同意某个态度陈述,要求误差小的人将会同意某个态度陈述,要求误差小于于2个百分点,并且具有个百分点,并且具有95%的把握性,那么,需的把握性,那么,需要多大的样本容量?假设调查总体为要多大的样本容量?假设调查总体为12000人,人,事先预计调查的回答率约为事先预计调查的回答率约为55%,
13、那么,样本容,那么,样本容量又应该为多少?量又应该为多少?21調查分析預測調查分析預測MRAFMRAF22調查分析預測調查分析預測MRAFMRAF开篇案例开篇案例“百脑汇”调研中的样本计划问题 “百脑汇百脑汇”在中国华北几个省市经营连锁电脑超市,它希在中国华北几个省市经营连锁电脑超市,它希望获得更多关于其现有客户特点方面的信息。接受调研委望获得更多关于其现有客户特点方面的信息。接受调研委托的李文博士指派班上的王洪同学为样本计划小组的负责托的李文博士指派班上的王洪同学为样本计划小组的负责人。人。 通过与通过与“百脑汇百脑汇”的市场部经理乔兰的初次会谈,王洪了的市场部经理乔兰的初次会谈,王洪了解到
14、调研的一个主要目的是分别按人口和心理因素来估计解到调研的一个主要目的是分别按人口和心理因素来估计“百脑汇百脑汇”的客户构成和比例。此外,确认总体估计值不的客户构成和比例。此外,确认总体估计值不超过实际值的超过实际值的50,可靠度为,可靠度为95。 为了达到这些要求,王洪和他的小组正努力寻找计算所需为了达到这些要求,王洪和他的小组正努力寻找计算所需样本容量的方法。样本容量的方法。23調查分析預測調查分析預測MRAFMRAF101 引言引言就是根据从样本中收集的信息对就是根据从样本中收集的信息对总体未知量进行推断的过程。总体未知量进行推断的过程。 抽样估计涉及的重要问题:抽样估计涉及的重要问题:
15、一个样本单元的一个样本单元的问题问题。,包括总体总量、均值和比例以及抽包括总体总量、均值和比例以及抽样误差的估计。样误差的估计。构成抽样设计程序的重要步骤和构成抽样设计程序的重要步骤和内容。同时,样本量的确定与样本估计值的精内容。同时,样本量的确定与样本估计值的精度密不可分。度密不可分。 24調查分析預測調查分析預測MRAFMRAF102 加权及权数调整加权及权数调整 设计权数是指每个样本单元所代表的调查总体的单元设计权数是指每个样本单元所代表的调查总体的单元数,它是由抽样设计所决定的,通常以数,它是由抽样设计所决定的,通常以wd表示。确定表示。确定设计权数是估计的第一步。设计权数是估计的第一
16、步。 设计权数其实就是样本单元的入样概率的倒数。假如设计权数其实就是样本单元的入样概率的倒数。假如入样概率是入样概率是1/10,那么每个入选样本代表总体中的,那么每个入选样本代表总体中的10个单元,此时设计权数即为个单元,此时设计权数即为10。 不同样本单元的设计权数可能不同,这取决于抽样设不同样本单元的设计权数可能不同,这取决于抽样设计。因此,加权估计应区分等概率抽样的加权和不等计。因此,加权估计应区分等概率抽样的加权和不等概率抽样的加权。概率抽样的加权。 25調查分析預測調查分析預測MRAFMRAF等概率抽样的加权等概率抽样的加权 当每个单元都有相同的入样概率时,所有样当每个单元都有相同的
17、入样概率时,所有样本单元的设计权数都相同,这种抽样就是本单元的设计权数都相同,这种抽样就是。 SRS抽样和抽样和SYS抽样都属于自加权设计,比例分抽样都属于自加权设计,比例分层抽样也是自加权设计。层抽样也是自加权设计。 另外,另外, PPS等也可以设计为一个自加权抽样。等也可以设计为一个自加权抽样。 对于自加权抽样设计,如果无需对权数调整,对于自加权抽样设计,如果无需对权数调整,则在计算比例、均值等估计量时可将其忽略,则在计算比例、均值等估计量时可将其忽略,对总值估计也仅需将样本总值乘上某个倍数。对总值估计也仅需将样本总值乘上某个倍数。(例例P215)26調查分析預測調查分析預測MRAFMRA
18、F不等概率抽样的加权不等概率抽样的加权 自加权设计并不总是可行的。如,在使用分层抽样进行自加权设计并不总是可行的。如,在使用分层抽样进行一个全国调查时,可能需要采用纽曼分层。一个全国调查时,可能需要采用纽曼分层。 当所采用的抽样设计不是等概率时,正确地使用设计权当所采用的抽样设计不是等概率时,正确地使用设计权数就显得尤为重要。数就显得尤为重要。 例例10102 2 有关各层总体数和样本数资料见表有关各层总体数和样本数资料见表10-110-1。对。对于这项调查,被调查者的设计权数是多少呢?于这项调查,被调查者的设计权数是多少呢?收入层次各层单位数样本数量设计权数高收入层200033.3wd,1N
19、1/n1=2000/33.3=60.1 中收入层12000133.3wd,2N2/n2=12000/133.3=90.0 低收入层600033.3wd,3N3/n3=6000/33.3=180.2 27調查分析預測調查分析預測MRAFMRAF设计权数的调整 上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。 权数估计常会遇到更真实和复杂的情况: 考虑无回答的情况,然后对权数做出调整; 考虑来自其他渠道的、更具权威性的某些辅助信息,将它们合并到权数中。 28調查分析預測調查分析預測MRAFMRAF对无回答的权数调整对无回答的权数调整 是指一个样本单元几乎所有的数据都缺失。简单的处理办法
20、是忽略它。然而,如果发现忽略单元无回答是不适当的,则应该对权数进行调整。即,设计权数无回答调整因子=无回答的调整权数是原样本单元的权数和与给出回答的单元的权数和的比值。对于自加权设计,该比值可用原样本的单元数与给出回答的单元数的比值来表示。 无回答权数调整应区分两种不同情况: 等概率抽样 不等概率抽样29調查分析預測調查分析預測MRAFMRAF对无回答的权数调整对无回答的权数调整(SRS) 例例101033 从一个N=100人的总体中抽取一个n25人的简单随机样本。记回答单元的数量为nr,结果显示只有20个人提供了所需的信息。那么,此时无回答的调整权数是多少? 步骤步骤1:计算设计权数。:计算
21、设计权数。 入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。步骤步骤2:计算无回答调整因子。:计算无回答调整因子。 由于在n25人中只有nr=20人提供了所需的信息,最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元,计算无回答调整因子为: n / nr = 25/20 = 1.25步骤步骤3:计算无回答的调整权数。:计算无回答的调整权数。 无回答的调整权数wnr等于设计权数与无回答调整因子的乘积: 525. 14nnwwrdnr30調查分析預測調查分析預測MRAFMRAF对无回答的权数调整对无回答的权数调整(STR) 例例10104 4 对于
22、一项公共交通系统调查,总体由1100人组成,并按城乡分为两个层。分层及样本数据如表10-2所示。那么,回答者的权数是多少?表10-2 公交系统调查的分层数据层总体大小样本量回答者数量城市N11000n1200nr,1150农村N2100n250nr,240步骤步骤1:各层的设计权数为:各层的设计权数为: 城市层城市层 wd,1N1/n1=5 农村层农村层 wd,2N2/n2=2步骤步骤2:调整以弥补无回答。各层的无回答调整因子计算如下:调整以弥补无回答。各层的无回答调整因子计算如下: 城市层城市层:n1 / nr,1=200/150=1.33 农村层农村层:n2 / nr,2=50/40=1.
23、25步骤步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:无回答的调整权数等于设计权数与无回答调整因子的乘积: 城市层城市层: 农村层农村层: 67. 633. 15nnwwr,11d,1nr,15 . 225. 12nnwwr,22d,2nr,231調查分析預測調查分析預測MRAFMRAF使用辅助信息调整权数使用辅助信息调整权数 为什么要使用辅助信息来调整权数呢? 首先,使调查的估计值与已知总体总值相匹配。例如,使用最新的人口普查数据来调整估计值,以确保这些估计值(如年龄、性别分布等)的一致性。 二是为了提高估计值的精度。将辅助信息与抽样设计相结合,将有助于提高估计的精度。 要想在
24、调查设计阶段使用辅助信息,抽样框中的所有单元都必须具备这个辅助信息。否则,就只能在数据收集上来后,在估计阶段利用辅助信息提高估计值的精度。 32調查分析預測調查分析預測MRAFMRAF使用辅助信息调整权数使用辅助信息调整权数 例例101055 为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。在收集有关吸烟习惯信息时,收集了每个回答者的年龄和性别情况,且100人都做出了回答,由此得到样本数据的分布如表10-3所示: 事后分层估计值 男性 女性 总计 吸烟人数 164 47 211 总人数 360 420 780 吸烟者比例 0.4
25、55 0.111 0.271回答者数量男性女性总计吸烟人数25530总人数5545100 (nr)调查的估计值男性女性总计吸烟人数19539234总人数429351780吸烟者的比例0.4550.1110.30表10-5 利用辅助信息对抽样调查估计值的调整 表10-3 某公司吸烟习惯抽样调查数据表10-4 根据某公司吸烟习惯抽样计算的估计值33調查分析預測調查分析預測MRAFMRAF103 抽样分布与抽样误差抽样分布与抽样误差 抽样调查的目的是要对总体做出推断。 了解统计推断的理论基础,首先注意区分三种不同性质的分布: 总体分布 样本分布 抽样分布 同时,特别注意总体分布与抽样分布的关系。34
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MRAF-C10抽样估计与样本量确定
限制150内