集中趋势和离散趋势.pptx
《集中趋势和离散趋势.pptx》由会员分享,可在线阅读,更多相关《集中趋势和离散趋势.pptx(94页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、数据分布的特征集中趋势集中趋势 (位置位置)离散趋势离散趋势 (分散程度分散程度)偏态和峰度偏态和峰度(形状)(形状)第1页/共94页数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程度众众众 数数数中位数中位数中位数均均均 值值值离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差峰峰峰 度度度KurtosisKurtosisKurtosis四分位差四分位差四分位差极差极差极差偏偏偏 态态态SkewnessSkewnessSkewnessModeMedianMeanRangeQuartilesVariance and Standard Deviation第2页/共94页集中
2、趋势的测度集中趋势是对频数分布资料的集中状况和平均水平的综合测度。而离散趋势是对频数分布资料的差异程度和离散程度的测度,用来衡量集中趋势所测度的代表性,或者反映变量值的稳定性和均匀性。常用来表达数列集中趋势的测度有算术平均数、调和平均数、几何平均数、中位数和众数。这些测度在统计学中也称为平均指标或平均数,可以用来反映标志值的典型水平和标志值分布的中心位置或集中趋势。返回本章返回总目录第3页/共94页集中趋势(Central tendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据一般水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的集中趋势
3、测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据5.选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定第4页/共94页均值(概念要点)1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据第5页/共94页均值(计算公式)设一组数据为:设一组数据为:X X1 1,X X2 2,X XN N 简单均值简单均值的计算公式为的计算公式为设分组后的数据为:设分组后的数据为:X X1 1,X X2 2,X XK K 相应的频数为:相应的频数为:F F1 1,F F2 2
4、,F FK K加权均值加权均值的计算公式为的计算公式为第6页/共94页简单均值(算例)原始数据:10591368第7页/共94页加权均值(算例)表表表表4-1 4-1 某车间某车间某车间某车间5050名工人日加工零件均值计算表名工人日加工零件均值计算表名工人日加工零件均值计算表名工人日加工零件均值计算表按零件数分组按零件数分组按零件数分组按零件数分组组中值(组中值(组中值(组中值(X Xi i)频数(频数(频数(频数(F Fi i)X Xi iF Fi i105105 110110110110 115115115115 120120120120125125125125 130130130130
5、 135135135135 140140107.5107.5112.5112.5117.5117.5122.5122.5127.5127.5132.5132.5137.5137.53 35 58 8141410106 64 4322.5322.5562.5562.5940.0940.01715.01715.01275.01275.0795.0795.0550.0550.0合计合计合计合计50506160.06160.0计算计算50 50 名工人日加工零件数的均值名工人日加工零件数的均值第8页/共94页加权均值(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组:考试
6、成绩(X):0 20 100 人数分布(F):1 1 8 乙组:考试成绩(X):0 20 100 人数分布(F):8 1 1第9页/共94页均值(数学性质)1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小第10页/共94页2.调和平均数调和平均数又称“倒数平均数”,它是根据各标志值的倒数来计算的平均数,即各个标志值倒数的算术平均数的倒数。调和平均数也分简单调和平均数和加权调和平均数。简单调和平均数的计算公式为:即设m为权数,则加权调和平均数的计算公式为:则第11页/共94页调和平均数(概念要点)1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定
7、比数据5.不能用于定类数据和定序数据6.计算公式为原来只是计原来只是计算时使用了算时使用了不同的数据不同的数据!第12页/共94页调和平均数(算例)表表表表 某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜蔬菜蔬菜名称名称名称名称批发价格批发价格批发价格批发价格(元元元元)X Xi i成交额成交额成交额成交额(元元元元)X Xi iF Fi i成交量成交量成交量成交量(公斤公斤公斤公斤)F Fi i甲甲甲甲乙乙乙乙丙丙丙丙1.201.200.500.500.800.801800018000125001250064006400150
8、0015000250002500080008000合计合计合计合计36900369004800048000【例例】某某蔬蔬菜菜批批发发市市场场三三种种蔬蔬菜菜的的日日成成交交数数据据如如表表,计计算算三三种蔬菜该日的平均批发价格种蔬菜该日的平均批发价格第13页/共94页3.几何平均数几何平均数是计算平均比率和平均速度最适用的一种方法。几何平均数有简单几何平均数和加权几何平均数之分。简单几何平均数是次方根。个标志值连乘积的其计算公式为:在用几何平均数法计算平均数时,如果大于2,可采用对数法计算。计算公式为:第14页/共94页几何平均数(概念要点)1.集中趋势的测度值之一2.N 个变量值乘积的 N
9、 次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为6.6.可看作是均值的一种变形可看作是均值的一种变形第15页/共94页几何平均数(算例)一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率平均收益率103.84%-1=3.84%103.84%-1=3.84%第16页/共94页需要指出的是,当把几何平均数应用于经济现象时,必须注意经济现象本身的特点。只有当标志总量表现为各个标志值的连乘积时,才适合采用几何平均数方法来计算平均标志值。一般来说,计算社会经济现象在
10、各个时期的平均发展速度时,要采用几何平均数。例如,工农业总产值年平均发展速度、全国人口年平均发展速度等。第17页/共94页4.中位数中位数是一种按其在数列中的特殊位置而决定的平均数。把总体各单位标志值按大小顺序排列后,处在中点位次的标志值就是中位数,它将全部标志值分成两个部分,一半标志值比它大,一半标志值比它小,而且比它大的标志值个数和比它小的标志值个数相等。要求得中位数,首先要确定中位数的位次。未分组资料时,中位数位次 当总体位数 为奇数时,中位数就是中位数位次上的那个数据;当 为偶数时,中位数是中位数位次上2项数据的算术平均数。第18页/共94页分组资料时,中位数位次可以利用中位数所在组的
11、下限来测算中位数,即中位数的下限公式为:中位数中位数所在组的下限中位数所在组的次数总次数即各组次数总和小于中位数组的各组次数之和中位数所在组的组距式中:第19页/共94页也可以利用中位数所在组的上限来测算中位数,即中位数的上限公式为:式中:中位数所在组的上限大于中位数组的各组次数之和中位数最大的特点是:它是序列中间1项或2项的平均数,不受极端值的影响,所以在当一个变量数列中含有特大值与特小值的情况下,采用中位数较为适宜。正式由于中位数的这一特点,在统计研究中,当遇到掌握统计资料不多而且各标志值之间差异程度较大或频数分布有偏态时,为避免计算标志值所得的算术平均数偏大或偏小,就可利用中位数来表示现
12、象的一般水平。第20页/共94页中位数(概念要点)1.集中趋势的测度值之一2.排序后处于中间位置上的值MMe e50%50%3.3.不受极端值的影响不受极端值的影响4.4.主要用于定序数据,也可用数值型数据,但不能用于定主要用于定序数据,也可用数值型数据,但不能用于定类数据类数据5.5.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即第21页/共94页中位数(位置的确定)未分组数据:组距分组数据:第22页/共94页未分组数据的中位数(计算公式)第23页/共94页定序数据的中位数(算例)【例例】计计算算甲甲城城市市家家庭庭对对住住房房满满意意状况评价的中位数状况评
13、价的中位数解:解:中位数的位置为:中位数的位置为:300/2300/2150150从从累累计计频频数数看看,中中位位数数的的在在“一一般般”这这一一组组别别中。因此中。因此 MMe e一般一般表表表表 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意242
14、41081089393454530302424132132225225270270300300合计合计合计合计300300第24页/共94页数值型未分组数据的中位数(5个数据的算例)原始数据:24 22 21 26 20排 序:20 21 22 24 26位 置:1 2 3 4 5中位数 22第25页/共94页数值型未分组数据的中位数(6个数据的算例)原始数据:10 5 9 12 6 8排 序:5 6 8 9 10 12位 置:1 2 3 4 5 6位置N+126+123.5中位数 8+928.5第26页/共94页1.根据位置公式确定中位数所在的组2.采用下列近似公式计算:4.该公式假定中位数
15、组的频数在该组内均匀分布数值型分组数据的中位数(要点及计算公式)第27页/共94页数值型分组数据的中位数(算例)表表表表 某车间某车间某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组按零件数分组按零件数分组频数(人)频数(人)频数(人)频数(人)累积频数累积频数累积频数累积频数105105 110110110110 115115115115 120120120120 125125125125 130130130130 135135135135 1401403 35 58 8141410106 64 43
16、 38 816163030404046465050合计合计合计合计5050【例例】计计算算50 50 名名工工人人 日日 加加 工工零零 件件 数数 的的中位数中位数第28页/共94页5.众数众数是一种位置平均数。众数是总体单位中,标志值出现次数最多的那个数值。为了确定众数的具体数值,可以利用下限公式或上限公式加以计算。计算众数的下限公式为:式中:众数众数组的下限众数组次数与上一组次数之差众数组次数与下一组次数之差众数组的组距第29页/共94页计算众数的上限公式为:式中:众数组的上限众数的计算只适用于单位数较多,且存在明显的集中趋势的情况,否则,计算众数时没有意义的。第30页/共94页众数(概
17、念要点)1.集中趋势的测度值之一2.出现次数最多的变量值3.不受极端值的影响4.可能没有众数或有几个众数5.主要用于定类数据,也可用于定序数据和数值型数据第31页/共94页众数(众数的不唯一性)无众数原始数据:10 5 9 12 6 8一个众数原始数据:6 5 9 8 5 5多于一个众数原始数据:25 28 28 36 42 42第32页/共94页定类数据的众数(算例)表表表表 某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型广告类型广告类型人数人数人数人数(人人人人)比例比例比例比例频率频率频率
18、频率(%)(%)商品广告商品广告商品广告商品广告 服务广告服务广告服务广告服务广告 金融广告金融广告金融广告金融广告 房地产广告房地产广告房地产广告房地产广告 招生招聘广告招生招聘广告招生招聘广告招生招聘广告 其他广告其他广告其他广告其他广告11211251519 9161610102 20.5600.5600.2550.2550.0450.0450.0800.0800.0500.0500.0100.01056.056.025.525.54.54.58.08.05.05.01.01.0合计合计合计合计2002001 1100100【例例】根根据据第第三三章章表表3-13-1中中的的数数据据,计
19、算众数计算众数解解:这这里里的的变变量量为为“广广告告类类型型”,这这是是个个定定类类变变量量,不不同同类类型型的的广广告告就就是是变变量量值值。我我们们看看到到,在在所所调调查查的的200200人人当当中中,关关注注商商品品广广告告的的人人数数最最多多,为为112112人人,占占总总被被调调查查人人数数的的56%56%,因因此此众众数数为为“商商品品广广告告”这这一一类类别别,即即 MMo o商品广告商品广告第33页/共94页定序数据的众数(算例)【例例】根根据据第第三三章章表表3-23-2中中的的数数据据,计算众数计算众数解解:这这里里的的数数据据为为定定序序数数据据。变变量量为为“回回答
20、答类类别别”。甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不不满满意意”这一类别,即这一类别,即 MMo o不满意不满意表表表表3-2 3-2 甲城市家庭对住房状况评价的频数分甲城市家庭对住房状况评价的频数分甲城市家庭对住房状况评价的频数分甲城市家庭对住房状况评价的频数分布布布布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)百分比百分比百分比百分比 (%)(%)非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满
21、意非常满意24241081089393454530308 83636313115151010合计合计合计合计300300100.0100.0第34页/共94页数值型分组数据的众数(要点及计算公式)1.众数的值与相邻两组频数的分布有关4.4.该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布2.2.2.相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值即为众数即为众数即为众数M MMooo3.3.相邻两组的频数不相等时,众数采用下相邻两组的频数不相等时,众数采用下列近似公式计算列近似公式计算M MMoooM
22、MMooo第35页/共94页数值型分组数据的众数(算例)表表表表 某车间某车间某车间某车间5050名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组按零件数分组按零件数分组频数(人)频数(人)频数(人)频数(人)累积频数累积频数累积频数累积频数105105 110110110110 115115115115 120120120120 125125125125 130130130130 135135135135 1401403 35 58 8141410106 64 43 38 816163030404046465050合计合
23、计合计合计5050【例例】计计算算 5050名名 工工人人 日日 加加 工工零零 件件 数数 的的众数众数第36页/共94页四分位数(概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QQL LQQMMQQU U25%25%25%25%第37页/共94页四分位数(位置的确定)未分组数据:组距分组数据:下四分位数下四分位数(QQL L)位置位置 =N+N+1 14 4上四分位数上四分位数(QQU U)位置位置 =3(3(N+N+1)1)4 4下四分位数下四分位数(QQL L)位置位置 =N N4
24、 4上四分位数上四分位数(QQL L)位置位置 =3N3N4 4第38页/共94页定序数据的四分位数(算例)【例例】计算甲城市家庭对住房满意状况评价的四分位数计算甲城市家庭对住房满意状况评价的四分位数解:解:下四分位数下四分位数(Q QL L)的位置为:的位置为:Q QL L位置位置(300)/4(300)/47575 上四分位数上四分位数(Q QL L)的位置为:的位置为:Q QUU位置位置(3300)/4(3300)/4225225从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QUU在在“一一般般”这一组别中。因此这一组别中。因此 Q QL L 不满意
25、不满意 Q QUU 一般一般表表表表 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530302424132132225225270270300300合计合计合计合计300300第39页/共94页数值型未分组数据的四分位
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 集中 趋势 离散
限制150内