第四篇 数理统计模型.doc
《第四篇 数理统计模型.doc》由会员分享,可在线阅读,更多相关《第四篇 数理统计模型.doc(39页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、211第四篇 数理统计模型数理统计学的理论和方法与人类活动的各个领域在不同程度上都有关联,数理统计学是研究收集数据、分析数据并据以对所研究的问题作出一定的结论的科学和艺术,数理统计学所考察的数据都带有随机性(偶然性)的误差,一些随机现象的特征可以通过对统计数据的整理与加工得到体现,数理统计的应用基础是抽样分布,特别是正态总体的抽样分布是统计推断的理论基础。在数理统计的应用实例中,通过对应用问题建模主要培养统计数据的处理和分析以及根据统计数据进行统计推断的方法,根据统计数据进行相关分析和回归分析的方法。应用数理统计方法解决问题首先要对统计数据进行处理和加工,熟悉相关的抽样分布。与统计数据的处理和
2、抽样分布相关的应用实例有:统计数据的整理与加工,彩电色彩的质量分布,根据统计数据估计吉尼(Gini)系数,正态总体样本方差服从卡方分布并且与样本均值相互独立,正态总体样本标准差不是总体标准差的无偏估计量等。S数理统计的主要任务是统计推断,包括统计估计和统计检验,是根据统计数据对未知的随机现象进行统计推断,在质量管理与控制等方面有着重要的应用。与统计估计相关的应用实例有:参数估计方法在捕鱼问题中的应用,平均值的质量控制图,概率论在产品质量验收抽样方案确定中的应用。与统计推断相关的应用实例有:实际推断原理小概率事件原理,改变包装能使销售量增加吗?成对比较与成组比较,葡萄酒质量的评价,刀具寿命的“正
3、态拟合”,保险实务中损失分布的统计分析等。相关分析是用来分析变量间关系与方向程度的方法,回归分析是用来分析自变量与应变量之间的数量关系,二者既有联系又有区别,在研究变量之间的非确定性关系中有重要的作用。关于相关分析与回归分析的应用实例有:手掌“生命线”的长度并不反映人的寿命,一元线性回归在季节波动预测中的应用,输电线路有功潮流值与发电机组出力的多元线性回归等。2124.1 统计数据的整理与加工上海证券交易所将每天各种股票的交易价格概括为一个综合指数,称为“上证指数”,如果今天的上证指数为,而上一个交易日的上证指数为,则称为上证iy1iy1iiiyyx指数的涨跌值。下面的数据是上海证券交易所19
4、95年头50个交易日上证指数涨跌的观测值(摘自新民晚报):)50, 2 , 1(ixi13.93,-6.92,-6.13,-14.79,-15.70,-2.83,-11.01,-4.28,-9.03,-0.87,5.70,-21.92,-0.48,-17.80,-5.87,8.20,-2.67,-28.87,-1.23,1.26,19.61,-11.98,7.46,-0.73,-5.27,-4.47,-4.61,1.20,6.18,53.50,-5.51,2.84,-7 .3012.01,7.70,3.89,16.37,39.08,16.66,-12.15,-15.22,-0.06,2.01,
5、-30.1915.64,7.28,13.64,-8.07,6.50,21.75。经计算,样本均值,样本36.41501 iix44.113975012 iix 5018272. 0501iixx方差,样本标准差为。总起来看,这段时9026.23150491501222 iixxS2284.15S间,股市不太景气,平均每个交易日下跌0.8272点。应用EXCEL中数据分析,进行描述性统计,输出结果见表4.1.1。表4.1.1 50个交易日上证指数涨跌的观测值的描述性统计平均值-0.8272标准差15.2283区域84.2观测数50标准误差2.1536方差231.9026最小值-30.7最大(1)
6、53.5中位数-1.95峰度2.8306最大值53.5最小(1)-30.7众数无偏度1.0575求和-41.36置信度(95.0%)4.3278为了研究这段时间上海证券交易所股市的变化动态,要对统计数据进一步研究。由于上证指数的涨跌值是一个连续型随机变量,因而我们采用分组方法进行整理,见表X4.1.2。表4.1.2 分组整理数据区间频数in频率if累积频率iF41.4710.021.00 由整理的数据,我们可以作出频数(频率)直方图和累积频率直方图(见图 4.1.1) 。把频率直方图中各个小矩形顶边的中点连接起来,就得到频率分布曲线,它的极限就是随机变量的概率密度函数。由累积频率所描述的累积频
7、率曲线,它称为样X)(xf)(xFn本分布函数或经验分布函数,它的极限就是随机变量的分布函数。由此我们可以X)(xF研究随机变量的分布规律,为证券投资决策提供可靠的理论依据。X图 4.1.1 频率直方图与累积频率折线图评注评注1理论依据根据样本作描述性统计,作频率直方图观察密度函数的大致类型,作累积频率折线图,研究分布函数。2应用与推广样本的分布完全是由总体的分布来决定的。但在数理统计中,总体的分布往往是未知的,一般做法就是要通过样本找到一个分布来近似代替总体的分布;或者说根据样本对总体进行统计推断。因此,对样本数据进行必要的处理和分析,作描述性统计是一些基本做法。参考文献参考文献茆诗松等.概
8、率论与数理统计M.中国统计出版社.2000.7.4.2 彩电色彩的质量分布SONY 牌彩电有两个产地:日本与美国。两地的工厂是按同一设计方案和相同的生产线生产同一牌号 SONY 电视机,连使用说明书和检验合格的标准都是相同的。譬如彩电的彩色浓度 Y 的目标值为,公差m214(允许的波动)为 5,当 Y 在公差范围内该彩电的彩色浓度为合格,否则判5, 5mm为不合格。图 4.2.1 彩电质量分布图两地产的 SONY 牌彩电在美国市场上都能买到,到 70 年代后期,美国消费者购买日本产的 SONY 彩电的热情高于购买美国产的 SONY 彩电。这是什么原因呢?1979 年 4月 17 日日本朝日新闻
9、刊登了这一问题的调查报告,报告指出:日产的彩色浓度服1Y从正态分布,而美产的彩色浓度为均匀分布。这两个不同 235,mN2Y)5, 5(mmU的分布表示着两个不同的总体,如图 4.2.1。这两个总体的均值相同,都为,但方差不m同。,78. 235)(21 YVar67. 1)(1Y,33. 81210)(22YVar89. 2)(2Y可见,日产的彩色浓度方差小于美产的彩色浓度的方差。如果规定彩色浓度在内为等品,在内为等品,在),(mm2,2(mmmm内为等品,在内为等品,3,22,3(mmmm,33,(mm从而在级品数量上日产 SONY 是美产 SONY 的两倍,如表 4.2.1,这就是美国消
10、费者乐于购买日产 SONY 的主要原因。表 4.2.1 美产和日产各等级彩电的比率等级美产33.3%33.3%33.3%0日产68.3%27.1%4.3%0.3%为什么两个工厂按同一个设计方案、相同设备生产同一种电视机,其彩色浓度会有不同的分布呢?关键在于管理者,美国 SONY 生产厂的管理者按彩色浓度合格范围-6-4-2246日产 SONY-0.10.10.20.30.40美产 SONY215要求操作,在他看来,只要彩色浓度在此范围内,不论它在区间的什么位置5, 5mm 都认为合格,因而造成彩电浓度落在这个区间内任一相同长度小区间内的机会是相同的,从而形成均匀分布。但日产 SONY 的管理者
11、认为,彩色浓度的最佳位置在)5, 5(mmU上,他要求操作者把彩色浓度尽量向靠近,这样一来,彩色浓度在周围的机会就mmm多,而远离的机会就少,最后导致服从正态分布。m 235,mN评注评注1理论依据随机变量的方差反映了随机变量关于其数学期望的离散程度。方差越小,质量越稳定。2应用与推广随机变量的方差在质量控制方面有着重要的应用。尽管日产 SONY 牌彩有 0.3%的等品,但其等品率远远超过美产 SONY 牌彩电。在质量管理与质量控制过程中,往往根据产品质量指标的标准差为依据。参考文献参考文献茆诗松等.概率论与数理统计M.中国统计出版社.2000.7.4.3 根据统计数据估计吉尼(Gini)系数
12、收入的差异是反映社会收入分配是否公平的重要指标。一般说来,鼓励自由竞争会扩大收入差异,但是政府可以通过税收政策和对低收入者的补助来缩小收入的差异。下面介绍的洛伦兹(Lorenz)曲线是反映收入差异的一种图形描述,它可以用来对各国的收入差异程度进行比较或对政府的某项政策对收入分配带来的影响作出评价。现有30个工人家庭月收入(元)的数据,从低到高列表如表4.3.1。表4.3.1 30个工人家庭月收入的数据 单位:元编号收入编号收入编号收入编号收入编号收入1165071900132100192430252860217008192014215020250026292031800919401522002
13、12550273000418201019801622502226802832205183011202017230023280029358061880122080182350242820304010表4.3.2 每组家庭的户数和收入的累积值及百分比累积值组号户数累积百分比组内收入收入累积收入累积百分比2161(16户)20%106801068014.99% 2(712户)40%118402252031.61% 3(1318户)60%133503587050.35% 4(1924户)80%157805165072.50% 5(2530户)100%1959071240100%把这30个家庭按顺序分成
14、相等户数的5组,然后统计出每组家庭的收入总数以及户数和收入的累积值及百分比累积值如表4.3.2所示:若用横坐标表示户数累积百分比,纵坐标表示收入累积百分比,则最低收入组6户占总户数的20%,该组家庭的总收入占全部家庭总收入的14.99%,将坐标点(20%,14.99%)描在图上A点;最低收入户和偏低收入户共12户,占总户数的40%,它们的收入之和占30户家庭总收入的31.61%,将坐标点(40%,31.61%)描在图上B点,类似地得到C点(60%,50.35%) ,D点(80%,72.50%) ,E点(100%,100%) 。将这些点连成一条光滑的曲线,便得到洛伦兹曲线,它是一条向下凸的曲线,
15、如图4.3.1。 图4.3.1 绝对公平线与洛伦兹曲线图如果所有家庭的收入全部相等,则洛伦兹曲线为,这条线称为绝对平等线,所xy 以洛伦兹曲线描述了收入的不平等状况。由于收入是按从小到大的顺序排列的,所以洛伦兹曲线位于直线的下方,它越接近直线,收入就越平均;越向下方凸出,xy xy 则收入分配越不平均。记洛伦兹曲线为:,那么,与围成的弓形的面积越大的话,)(xLy xy )(xLy 则洛伦兹曲线越向下凸出,从而表明收入越不平均。为此,我们用该弓形面积与)(xLy ,和轴所围成的三角形面积(该三角形的面积等于)之比值xy 1xx21 1010)(2121)(21dxxLdxxL g作为一种度量收
16、入分配不平等的指标,称为吉尼(Gini)系数。可见,吉尼系数越接近于0,收入分配越公平,反之就越不公平。217吉尼(Gini)是意大利统计学家,他在1922年发表的有关收入集中指数的研究中指出了吉尼系数。由于吉尼系数与货币的选择无关,因此它特别适用于对不同国家不同时期的收入分配状况的比较。根据洛伦兹曲线,政府制定累进税收体系,使完税后的曲线与公平线接近一些,使吉尼系数更小一些,缩小收入的差距,使社会财富的分配更趋于公平。评注评注1理论依据根据人口和收入的样本进行统计分析,可以绘出洛伦兹曲线,进一步可以估计吉尼系数。2应用与推广根据经济统计数据,可以进行相关的统计分析。由此可以利用统计数据计算或
17、者估计诸如增长速度、吉尼系数、弹性系数等,为进一步分析奠定基础。参考文献参考文献缪柏其.管理统计学M.中国科学技术大学出版社.2002.9.4.4 正态总体样本方差服从卡方分布 并且与样本均值相互独立设是来自正态总体的一个样本,为样本均值,nXXX,.,21),(2N niiXnX11为样本方差。则: niiXXnS122)(11(1)) 1()(1) 1(212 222 nXXSnnii(2)与相互独立。22) 1( Sn X证明:考虑对样本作线性变换nXXX,.,21 XnXXXnZXnnnXXXnnZXXXXZXXXZXXZnnnnn).(11(1).() 1(1.433)(431322
18、)(32121 21211211432133212211 由于相互独立,且均服从正态分布,则可以证明nXXX,21),(2N), 0(21212 211NXXZ ), 0(322)(3212 3212NXXXZ ), 0(1(1).() 1(12 1211NXnnnXXXnnZnnn ),().(12 21nNXnXXXnZnn 218并且经过计算可知:,这说明相互独立。njijiZZCovji,.,2 , 1,0),( nZZZ,.,21 212 2212 2 12 22211)(1) 1( nniiniiniiZZXnXXXSn 211 niiZ 相互独立,且均服从正态分布,从而仍相互独1
19、21,., nZZZ), 0(2N121,., nZZZ立,均服从标准正态分布。所以,可以表示成个相互独立服从标准) 1 , 0(N22) 1( Sn 1 n正态分布的随机变量的平方和,因此。) 1() 1(2 22 nSn 又由于相互独立,及nnZZZZ,.,121 21122) 1( niiZSn nZnX1 故与相互独立22) 1( Sn X评注评注1理论依据正态总体样本的独立性,相互独立的正态随机变量的线性函数仍然服从正态分布,分布的构造。2 2应用与推广很多教科书上都有这个结论,但是都没有给出理论证明,而这个结论在正态总体的抽样分布中是极为重要的。同时,通过这个证明,充分表达了是个2
20、1122) 1(niiZSn 1n相互独立的标准正态分布随机变量的和,因此其自由度是。由于与相互独1n22) 1( SnX立,为进一步构造服从自由度为的 分布奠定基础,nXt1nt参考文献参考文献茆诗松等.概率论与数理统计M.中国统计出版社.2000.7.4.5 正态总体样本标准差S 不是总体标准差的无偏估计量设是来自正态总体nXXX,.,21219的一个样本,为样本均值,为样本方差。),(2N niiXnX11 niiXXnS122)(11众所周知,对任何总体来说样本方差是总体方差的无偏估计量,正态总体更不2S2 例外。但样本标准差却不是总体标准差的无偏估计量。S证明:由于,若令,则的概率密
21、度) 1() 1(2 22 nSn22) 1( SnY。 1(2nY函数为000 2121)(212121yyey n ypynn从而 dyey ndyypyYEynn 0212212121)(dyey nnn ynn 02122 2212122 2122nn另一方面,,所以有 SEnSnEYE11 nCnnnYEnSE1212 121所以,样本标准差却不是总体标准差的无偏估计量。S如果进行修正,则可以得到的无偏估计量,其中SCn22121 nn nCn评注评注1.理论依据正态总体样本的抽样分布,分布与分布的有关性质。2 被积函数是参数分别为和的伽玛分布的概率密度函数,积分等于 1。2n212
22、202.应用与推广无论总体服从什么分布,修正的样本方差是总体方差X niiXXnS122)(11的无偏估计量,但是样本标准差不是总体标准差的无偏估计量。只)(XDS)()(XDX 有在正态总体的情况下才有确定性的修正方法,使得是总体标准差的无偏估计量,SCn 对于非正态总体,情况极为复杂,一般不对其进行讨论。参考文献参考文献茆诗松等.概率论与数理统计M.中国统计出版社.2000.7.4.6 参数估计方法在捕鱼问题中的应用设湖中有鱼条,现捕出条,做上记号后放回湖中(假设记号不会消失),一段时间Nr后让湖中的鱼(做上记号的和没做记号的)混合均匀,再从湖中捕出 条,其中有s)(rs 条标有记号。试根
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 数理统计 模型
限制150内