《统计数据的搜集与整理课件.ppt》由会员分享,可在线阅读,更多相关《统计数据的搜集与整理课件.ppt(28页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、统计数据的搜集与整理统计数据的搜集与整理2022/10/10第1页,此课件共28页哦 总体总体(Population)Population)指研究的全部对象,是指研究的全部对象,是由所研究具有某种共同性质的全部个体所组成由所研究具有某种共同性质的全部个体所组成的集合体。分为的集合体。分为有限总体有限总体(finite(finite population)population)和和无限总体无限总体(infinite(infinite population)population)。样本样本(Sample)(Sample)为总体的一部分,样本内包含为总体的一部分,样本内包含的个体数目称为的个体数目称
2、为样本含量样本含量。1.1.21.1.2总体与样本总体与样本2022/10/10第2页,此课件共28页哦 从总体获得样本的过程称从总体获得样本的过程称抽样抽样,抽样的,抽样的目的是希望通过对样本的研究推断其总目的是希望通过对样本的研究推断其总体。抽样方法有体。抽样方法有随机抽样随机抽样、分类抽样分类抽样等。等。生物统计学上要求抽样具有代表性,应生物统计学上要求抽样具有代表性,应是一个总体的缩影,因此要根据具体情是一个总体的缩影,因此要根据具体情况采用况采用不同抽样不同抽样方法。方法。1.1.3 1.1.3 抽样抽样2022/10/10第3页,此课件共28页哦要求总体中的任何个体都有要求总体中的
3、任何个体都有同等的机会同等的机会被抽被抽到;要求抽样时到;要求抽样时不受任何主观因素的影响不受任何主观因素的影响。如抽签,抓阄,用随机数字表等。随机表如抽签,抓阄,用随机数字表等。随机表的用法的用法(附表附表1 1,自习,自习)1.1.4 1.1.4 随机抽样随机抽样2022/10/10第4页,此课件共28页哦放回式抽样放回式抽样:从总体中抽出一个个体从总体中抽出一个个体,记下它的特征后记下它的特征后,放回总体中放回总体中,再做第二次抽样。再做第二次抽样。非放回式抽样非放回式抽样:从总体中抽出个体后从总体中抽出个体后,不再放回。不再放回。有限总体中的抽样:放回式的抽样可能会重复抽有限总体中的抽
4、样:放回式的抽样可能会重复抽中某一个体。尤其是总体量不大,或抽样范围小的中某一个体。尤其是总体量不大,或抽样范围小的时候。时候。无限总体在同等抽样条件下,放回式抽样和非放回式抽无限总体在同等抽样条件下,放回式抽样和非放回式抽样没有区别。样没有区别。一般情况样本的含量越大越有代表性。一般情况样本的含量越大越有代表性。1.1.5 1.1.5 放回式抽样和非放回式抽样放回式抽样和非放回式抽样2022/10/10第5页,此课件共28页哦1.2.1 1.2.1 连续型数据和离散型数据连续型数据和离散型数据统计学的最基本工作是收集数据,数据收集得越统计学的最基本工作是收集数据,数据收集得越多越有可能揭示客
5、观现象的特性和变化规律。多越有可能揭示客观现象的特性和变化规律。数据类型:数据类型:连续型数据连续型数据(度量数据):与某种标准做比较所得到(度量数据):与某种标准做比较所得到的数据的数据.例如例如:长度,时间,重量。对连续型数据进行长度,时间,重量。对连续型数据进行分析的方法,通常称为分析的方法,通常称为变量变量的方法。的方法。离散型数据离散型数据(记数数据):由记录不同类别个体的数(记数数据):由记录不同类别个体的数目所得到的数据目所得到的数据.例如例如:尾数,成活或死亡个数对离散尾数,成活或死亡个数对离散型数据进行分析的方法,通常称为型数据进行分析的方法,通常称为属性属性的方法。的方法。
6、1.2 1.2 数据类型及频率分布数据类型及频率分布2022/10/10第6页,此课件共28页哦1.2.2 1.2.2 频数(率)表和频数(率)图的编绘频数(率)表和频数(率)图的编绘离散型数据与连续型数据的频数(率)表和频数(率)离散型数据与连续型数据的频数(率)表和频数(率)图略有不同。图略有不同。离散型数据频数(率)表和频数(率)图。离散型数据频数(率)表和频数(率)图。例例:调查每天出生的:调查每天出生的1010名新生儿中,体重超过名新生儿中,体重超过3kg3kg的人数,共调查的人数,共调查120120天。每天的天。每天的1010名新生儿名新生儿中,体重超过中,体重超过3kg3kg的人
7、数,可能有的人数,可能有1111种情况:种情况:1 1名名也没有,有也没有,有1 1名,有名,有2 2名,名,1010名都是,如表名都是,如表1-11-1的第一列所示,这一组称为组值。的第一列所示,这一组称为组值。2022/10/10第7页,此课件共28页哦表表1-11-1每每1010名新生儿体重超过名新生儿体重超过3kg3kg的人数频数的人数频数(率率)表表2022/10/10第8页,此课件共28页哦图图1-1每每10名新生儿体重超过名新生儿体重超过3kg的人数频数图的人数频数图2022/10/10第9页,此课件共28页哦例例:表表1-21-2列出了某农场做高粱列出了某农场做高粱“三尺三三尺
8、三”提纯时所提纯时所调查的调查的100100个数据,试做其频数(率)表和频数个数据,试做其频数(率)表和频数(率)图。(率)图。连续型数据频数(率)表和频数(率)图。连续型数据频数(率)表和频数(率)图。表表12“三尺三三尺三”株高测量结果株高测量结果2022/10/10第10页,此课件共28页哦 1 1、从原始数据中找出最大值和最小值,并求出极、从原始数据中找出最大值和最小值,并求出极 差。差。R=mamR=mamx-min-minx (R=170-141=30)2 2、决定划分的组数,分组数是由数据的多少决定的,、决定划分的组数,分组数是由数据的多少决定的,美国统计学家斯特吉斯提出分组数公
9、式:美国统计学家斯特吉斯提出分组数公式:n=1+3.322lgNn=1+3.322lgN(式中为样本数)。(式中为样本数)。3 3、根据极差与决定划分的组数、确定组限。(、根据极差与决定划分的组数、确定组限。(30/1030/103 3)4 4、在频数表中列出全部、在频数表中列出全部组限组限、组界组界及及中值中值。5 5、将原始数据表中数据,填入频数表中,计算出每组、将原始数据表中数据,填入频数表中,计算出每组的的频数频数和和频率频率。编制连续型数据的频数(率)表的步骤:编制连续型数据的频数(率)表的步骤:2022/10/10第11页,此课件共28页哦表表1-3 1-3“三尺三三尺三”株高频数
10、(率)表株高频数(率)表2022/10/10第12页,此课件共28页哦直方图:又称直方图:又称组织图,横轴组织图,横轴表示组界,纵表示组界,纵轴表示频数轴表示频数(频数图)或(频数图)或频率(频率图)频率(频率图),两者图形完,两者图形完全一样。全一样。直方图直方图2022/10/10第13页,此课件共28页哦多边形图(折线图)多边形图(折线图):横轴表示各组中值,:横轴表示各组中值,纵轴表示频数(率),连接各点得到多边形图。纵轴表示频数(率),连接各点得到多边形图。累积频数图累积频数图:横轴表示各组中值,纵轴表示:横轴表示各组中值,纵轴表示累积频数(率),连接各点得到累积频数(率)累积频数(
11、率),连接各点得到累积频数(率)图(向上累积与向下累积)。图(向上累积与向下累积)。频数(率)图的编绘频数(率)图的编绘2022/10/10第14页,此课件共28页哦根据频数(率)表或频数(率)图,可以根据频数(率)表或频数(率)图,可以看出数据的三个重要特征。看出数据的三个重要特征。集中情况集中情况:平均数,中位数,众数。:平均数,中位数,众数。变异情况变异情况:集中在平均数两侧的程度,越集:集中在平均数两侧的程度,越集中在平均数附近说明数据越整齐。中在平均数附近说明数据越整齐。图形的形状图形的形状:对称与不对称,也可能显示异:对称与不对称,也可能显示异常分布,出现一些不规则的情况,需要寻找
12、原常分布,出现一些不规则的情况,需要寻找原因。因。1.2.3 1.2.3 研究频数(率)分布的意义研究频数(率)分布的意义2022/10/10第15页,此课件共28页哦同一总体中随机抽取的样本,其频数分同一总体中随机抽取的样本,其频数分布不完全相同,有时差距还很大。布不完全相同,有时差距还很大。由于样本分布的不恒定性,当用样本去由于样本分布的不恒定性,当用样本去推断总体时,推断的结果也会有不同,推断总体时,推断的结果也会有不同,因此,需要考察结果的可信度。为了回因此,需要考察结果的可信度。为了回答这一问题答这一问题,首先要对总体分布有所了解。首先要对总体分布有所了解。后面的第二、三章的内容就是
13、围绕总体后面的第二、三章的内容就是围绕总体展开的。展开的。1.2.4 1.2.4 频数分布的不恒定性频数分布的不恒定性2022/10/10第16页,此课件共28页哦样本特征数样本特征数:描述样本频率分布特征的数字描述样本频率分布特征的数字.1.3.1 1.3.1 平均数平均数:数据集中点的度量:数据集中点的度量,种类很多。种类很多。算术平均数算术平均数:通常简称平均数。通常简称平均数。常用简单算术平均数方法,实际应用中也常用加权常用简单算术平均数方法,实际应用中也常用加权平均的方法来计算。平均的方法来计算。几何平均数几何平均数:处于稳定消长过程中生物群体的数量变化呈几何级数,处于稳定消长过程中
14、生物群体的数量变化呈几何级数,如在细菌、藻类等培养,求平均消长率应采用几何平均数,如在细菌、藻类等培养,求平均消长率应采用几何平均数,若用算术平均数则偏高若用算术平均数则偏高(几何平均数小于算术平均数几何平均数小于算术平均数)。)。1.3 1.3 样本的几个特征数样本的几个特征数2022/10/10第17页,此课件共28页哦 中位数中位数:居于中间位置个体的数值。:居于中间位置个体的数值。众数众数:具有最高频数的组值或中值。有单众:具有最高频数的组值或中值。有单众数、双众数、三众数等。数、双众数、三众数等。生物统计学中一般都是用平均数生物统计学中一般都是用平均数,中位数和,中位数和众数很少使用
15、。众数很少使用。自习:自习:频数图、频数表、平均数的性质、平频数图、频数表、平均数的性质、平均数的简化计算公式。均数的简化计算公式。1.3.1 平均数平均数2022/10/10第18页,此课件共28页哦数据的变异程度数据的变异程度范围范围(或极差)(或极差)(R R)R Rmaxmaxx x-min-minx x平均离差平均离差(MDMD):离均差绝对值的和的平均数。离均差绝对值的和的平均数。1.3.2 1.3.2 标准差标准差2022/10/10第19页,此课件共28页哦 样本方差样本方差(S S2 2):):离均差平方的和(离差平离均差平方的和(离差平方和)除以方和)除以n n。标准差标准
16、差(SDSD)或()或(S S):):样本方差的开平方。样本方差的开平方。1.3.2 标准差(续)标准差(续)2022/10/10第20页,此课件共28页哦非频数资料非频数资料标准差标准差的简化计算公式:的简化计算公式:标准差的标准差的简化简化计算方法计算方法2022/10/10第21页,此课件共28页哦连续型数据连续型数据:用中值代:用中值代替,类似离散型数据替,类似离散型数据计算方法(数据较大计算方法(数据较大时可用编码时可用编码):频数资料标准差频数资料标准差的简化计算公式:的简化计算公式:离散型数据离散型数据:2022/10/10第22页,此课件共28页哦一般用三阶中心矩一般用三阶中心
17、矩m m3 3 :m m3 3=0=0 ,说明曲线对称于平均数,此时平均数等于中位,说明曲线对称于平均数,此时平均数等于中位数也等于众数。数也等于众数。m m3 3 0 0,说明曲线向左偏斜,称左偏或正偏,此时众数小于,说明曲线向左偏斜,称左偏或正偏,此时众数小于中位数,而中位数小于平均数。见图中位数,而中位数小于平均数。见图A A。m m3 3000,说明曲线过于陡峭;,说明曲线过于陡峭;g g 200 200、判断峭度、判断峭度g g时,样本含量至少要时,样本含量至少要 1000 1000。峭度峭度g g2 2:也是用来度量曲线形状,其值为四阶中心距也是用来度量曲线形状,其值为四阶中心距m4与二阶中与二阶中心距心距m2的平方的商再减去:的平方的商再减去:2022/10/10第26页,此课件共28页哦l考虑标准差和平均数两者关系考虑标准差和平均数两者关系l用来表明样本标准差对平均数的变异幅度。用来表明样本标准差对平均数的变异幅度。l可以用来判断数据整齐程度,变异系数比较小可以用来判断数据整齐程度,变异系数比较小的数据组比较整齐。的数据组比较整齐。1.3.4 变异系数变异系数CV2022/10/10第27页,此课件共28页哦一、名词解释一、名词解释总体总体 样本样本标准差标准差方差方差变异系数变异系数偏斜度偏斜度 峭度峭度习题习题2022/10/10第28页,此课件共28页哦
限制150内