概率统计学习补充案例.doc
《概率统计学习补充案例.doc》由会员分享,可在线阅读,更多相关《概率统计学习补充案例.doc(22页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、补充案例:补充案例: 概率部分:概率部分: 案例案例 1 1、“三人行必有我师焉三人行必有我师焉” 案例案例 2 2、抓阄问题、抓阄问题 案例案例 3 3、贝叶斯方法运用案例介绍、贝叶斯方法运用案例介绍 案例案例 4、化验呈阳性者是否患病化验呈阳性者是否患病 案例案例 5 5、敏感性问题的调查、敏感性问题的调查 案例案例 6 6、泊松分布在企业评先进中的应用、泊松分布在企业评先进中的应用 案例案例 7 7、碰运气能否通过英语四级考试、碰运气能否通过英语四级考试 案例案例 8 8、检验方案的确定问题、检验方案的确定问题 案例案例 9 9、风险型决策模型、风险型决策模型 案例案例 1010、一种很
2、迷惑游客的赌博游戏、一种很迷惑游客的赌博游戏 案例案例 1111、标准分及其应用、标准分及其应用 案例案例 1212、正态分布在人才招聘中的应用、正态分布在人才招聘中的应用 案例案例 1313、预测录取分数线和考生考试名、预测录取分数线和考生考试名统计部分:统计部分: 案例案例 1414、随机变量函数的均值和标准差的近似计算方法、随机变量函数的均值和标准差的近似计算方法 案例案例 1515、如何表示考试成绩比较合理、如何表示考试成绩比较合理 案例案例 1616、如何估计湖中黑、白鱼的比例如何估计湖中黑、白鱼的比例 案例案例 1717、预测水稻总产量、预测水稻总产量 案例案例 1818、工程师的
3、建议是否应采纳、工程师的建议是否应采纳 案例案例 1919、母亲嗜酒是否影响下、母亲嗜酒是否影响下代的健康代的健康 案例案例 2020、银行经理的方案是否有效、银行经理的方案是否有效 案例案例 2121、一元线性回归分析的、一元线性回归分析的 ExcelExcel 实现实现 案例案例 2222、方差分析的、方差分析的 ExcelExcel 实现实现 案例案例 2323、 预测高考分数预测高考分数 案例案例 2424、两次地震间的间隔时间服从指数分布、两次地震间的间隔时间服从指数分布案例案例 1 1、“三人行必有我师焉三人行必有我师焉” 我们可以运用概率知识解释孔子的名言“三人行必有我师焉”.
4、首先我们要明确一个 问题,即只要在某一方面领先就可以为师(韩愈说“术业有专攻”). 俗语说“三百六十行, 行行出状元”,我们不妨把一个人的才能分成 360 个方面。孔子是个大圣人,我们假设他 在一个方面超过某个人的概率为 99,那么孔子在这方面超过与他“同行”的两个人的概 率为 99 99 =98.0l,在 360 个方面孔子总比这两人强的概率为(98.01) 360=0.07 ,即这两个人在某一方面可以做孔子老师的概率为 99.93.从数学角度分析,孔子的话是很有道理的. 案例案例 2 2、抓阄问题、抓阄问题 一项耐力比赛胜出的 10 人中有 1 人可以获得一次旅游的机会,组织者决定以抓阄的
5、 方式分配这一名额. 采取一组 10 人抓阄,10 张阄中只有一张写“有”. 每个人都想争取 到这次机会,你希望自己是第几个抓阄者呢? 有人说要先抓,否则写有“有”的阄被别人 抓到,自己就没有机会了;有人说不急于先抓,如果前面的人没有抓到写有“有”的阄, 这时再抓抓到“有”的机会会大一些. 为了统一认识,用概率的方法构造一个摸球模型来 说明问题. 摸球模型:袋中装有 1 个红球和 9 个黄球除颜色不同外球的大小、形状、质量都相同. 现在 10 人依次摸球(不放回),求红球被第 个人摸到的概率( = 1, 2, , 10). kk解决问题 :设 = “ 第 个人摸到红球 , = 1, 2, ,
6、10. 显然,红球kAkk被第一个人摸到的概率为 . 因为 ,于是红球被第二个人摸到的概率101)(1AP 12AA 为 . 101 91 109)()()()(121212AAPAPAAPAP同样,由 知红球被第三个人摸到的概率为 213AAA . 101 81 98 109)()()()()(2131213213AAAPAAPAPAAAPAP如此继续,类似可得 = . )(4AP)(5AP101)(10AP由此可见,其结果与 无关,表明 10 个人无论摸球顺序如何,每个人摸到红球的机k 会相等. 这也说明 10 个人抓阄,只要每个人在抓之前不知道他前边那些已经抓完的结果, 无论先后, 抓到
7、的机会是均等的. 在现实生活中单位分房、学生分班、短缺物品的分配等,人们常常乐于用抓阄的办法来解 决,其合理性保证当然得归功于“概率”. 通过上面的摸球模型,我们总结出分配中的 “抓阄”问题,无论先抓后抓, 结果是一样的.学完概率之后再遇到抓阄问题时不必争先 恐后,我们要发扬风格让他人先抓. 案例案例 3 3、贝叶斯方法运用案例介绍、贝叶斯方法运用案例介绍 什么是贝叶斯过滤器?什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。 正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有“关键词法“和“校 验码法“等。前者的过滤依据是特定的词语;后者则是计算邮件文
8、本的校验码,再与已知的 垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。 2002 年,Paul Graham 提出使用“贝叶斯推断“过滤垃圾邮件。他说,这样做的效果,好得 不可思议。1000 封垃圾邮件可以过滤掉 995 封,且没有一个误判。 另外,这种过滤器还具有自我学习的功能,会根据新收到的邮件,不断调整。收到的垃圾 邮件越多,它的准确率就越高。 建立历史资料库建立历史资料库 贝叶斯过滤器是一种统计学过滤器,建立在已有的统计结果之上。所以,我们必须预先提 供两组已经识别好的邮件,一组是正常邮件,另一组是垃圾邮件。 我们用这两组邮件,对过滤器进行“训练“。这两组邮件的规模越大,训
9、练效果就越好。 Paul Graham 使用的邮件规模,是正常邮件和垃圾邮件各 4000 封。 “训练“过程很简单。首先,解析所有邮件,提取每一个词。然后,计算每个词语在正常邮 件和垃圾邮件中的出现频率。比如,我们假定“sex“这个词,在 4000 封垃圾邮件中,有 200 封包含这个词,那么它的出现频率就是 5%;而在 4000 封正常邮件中,只有 2 封包含这 个词,那么出现频率就是 0.05%。(【注释】如果某个词只出现在垃圾邮件中,Paul Graham 就假定,它在正常邮件的出现频率是 1%,反之亦然。随着邮件数量的增加,计算结 果会自动调整。) 有了这个初步的统计结果,过滤器就可以
10、投入使用了。 贝叶斯过滤器的使用过程贝叶斯过滤器的使用过程 现在,我们收到了一封新邮件。在未经统计分析之前,我们假定它是垃圾邮件的概率为 50%。(【注释】有研究表明,用户收到的电子邮件中,80%是垃圾邮件。但是,这里仍然 假定垃圾邮件的“先验概率“为 50%。) 我们用 S 表示垃圾邮件(spam),H 表示正常邮件(healthy)。因此,P(S)和 P(H)的先验 概率,都是 50%。 然后,对这封邮件进行解析,发现其中包含了 sex 这个词,请问这封邮件属于垃圾邮件的 概率有多高? 我们用 W 表示“sex“这个词,那么问题就变成了如何计算 P(S|W)的值,即在某个词语(W) 已经存
11、在的条件下,垃圾邮件(S)的概率有多大。 根据条件概率公式,马上可以写出 公式中,P(W|S)和 P(W|H)的含义是,这个词语在垃圾邮件和正常邮件中,分别出现的概率。 这两个值可以从历史资料库中得到,对 sex 这个词来说,上文假定它们分别等于 5%和 0.05%。 另外,P(S)和 P(H)的值,前面说过都等于 50%。所以,马上可以计算 P(S|W)的值: 因此,这封新邮件是垃圾邮件的概率等于 99%。这说明,sex 这个词的推断能力很强,将 50%的“先验概率“一下子提高到了 99%的“后验概率“。 联合概率的计算联合概率的计算 做完上面一步,请问我们能否得出结论,这封新邮件就是垃圾邮
12、件? 回答是不能。因为一封邮件包含很多词语,一些词语(比如 sex)说这是垃圾邮件,另一 些说这不是。你怎么知道以哪个词为准? Paul Graham 的做法是,选出这封信中 P(S|W)最高的 15 个词,计算它们的联合概率。 (【注释】如果有的词是第一次出现,无法计算 P(S|W),Paul Graham 就假定这个值等于 0.4。因为垃圾邮件用的往往都是某些固定的词语,所以如果你从来没见过某个词,它多半 是一个正常的词。) 所谓联合概率,就是指在多个事件发生的情况下,另一个事件发生概率有多大。比如,已 知 W1 和 W2 是两个不同的词语,它们都出现在某封电子邮件之中,那么这封邮件是垃圾
13、邮 件的概率,就是联合概率。 在已知 W1 和 W2 的情况下,无非就是两种结果:垃圾邮件(事件 E1)或正常邮件(事件 E2)。 其中,W1、W2 和垃圾邮件的概率分别如下: 如果假定所有事件都是独立事件(【注释】严格地说,这个假定不成立,但是这里可以忽 略),那么就可以计算 P(E1)和 P(E2): 又由于在 W1 和 W2 已经发生的情况下,垃圾邮件的概率等于下面的式子: 即将 P(S)等于 0.5 代入,得到 将 P(S|W1)记为 P1,P(S|W2)记为 P2,公式就变成 这就是联合概率的计算公式。 最终的计算公式最终的计算公式 将上面的公式扩展到 15 个词的情况,就得到了最终
14、的概率计算公式: 一封邮件是不是垃圾邮件,就用这个式子进行计算。这时我们还需要一个用于比较的门槛 值。Paul Graham 的门槛值是 0.9,概率大于 0.9,表示 15 个词联合认定,这封邮件有 90% 以上的可能属于垃圾邮件;概率小于 0.9,就表示是正常邮件。 有了这个公式以后,一封 正常的信件即使出现 sex 这个词,也不会被认定为垃圾邮件了。 案例案例 4、化验呈阳性者是否患病化验呈阳性者是否患病 在医疗中经常通过化验来诊断。当某人做癌症检查结果呈阳性时,他就患癌症了?其 实不然。假设某一地区患有癌症的人占 0.005,患者对一种试验反应是阳性的概率为 0.95,正常人对这种试验
15、反应是阳性的概率为 0.04,现抽查了一个人,试验反应是阳性, 问此人是癌症患者的概率有多大?设 C=抽查的人患有癌症,A=试验结果是阳性,则表示“抽查的人不患癌症”。C已知, , 。( )0.005P C ( )0.995P C ()0.95P A C ()0.04P A C 由贝叶斯公式,可得)()()()()()()(CAPCPCAPCPCAPCPACP代入数据计算得: P(CA)= 0.1066 。在以上假设下,做癌症检查结果呈阳性的人确 患癌症的概率为仅为 0.1066,平均来说,1000 个人中大约只有 107 人确患癌症。 这是不是意味着这种试验对于诊断一个人是否患有癌症没有意义
16、呢?不是!如果不做 试验,一人是患者的概率为0.005。若试验后得阳性反应,则此人是患者的概率为 0.1066, 从 0.005 增加到 0.1066,将近增加约 21 倍,说明这种试验对于诊断一个人是否患有癌症 有意义。 案例案例 5 5、敏感性问题的调查、敏感性问题的调查 学生阅读不健康书刊或录像会严重影响学生的身心健康. 但这些都是避着家长和教师 进行的,属个人隐私行为. 我们如何设计一种调查方案,能够估计出大学生中看过不健康 书刊或录像的人数的比率呢? 对这种敏感性问题的调查,被调查者会有一种顾虑,害怕调查者不能很好的保守秘密. 如果被调查者不愿意真实回答问题,将使调查数据失真,这样的
17、统计结果将没有意义. 因 此巧妙设计调查方案是获得真实数据的关键.经过多年的研究和实践,一些统计学家和心理学家发明了一种能消除人们抵触情绪的 “随机化应答”方法. 被调查者只需回答两个问题之一,而且只需回答“是”或“否”, 设计的问题如下:问题 A:你的生日是否在 7 月 1 日 之前?问题 B:你是否看过不健康书刊?被调查者在没有外人的情况下,从一个装有黑球和白球的箱子中随机抽取一个球,看过 颜色后又放回.若抽出白球则回答问题 A;若抽出黑球则回答问题 B. 箱中黑球所占比率 是已知的,即, .P任意抽取一个是黑球1P 任意抽取一个是白球被调查者无论回答 A 或 B,都只需在一张只有“是”、
18、“否”两个选项的答案上做出选 择,然后投入密封的投票箱内. 上述抽球和答卷都在无人的情况下进行,这样就可以消除 被调查者的顾虑,从而可以保证答卷的真实可靠性.打开投票箱进行统计,设共有 张有效答卷,其中 张选择“是”,那么可用频率 nk估计回答“是”的概率 为:nk ./Pk n答“ 是”回答“是”有两种情况:一种是摸到白球后对问题 A 回答“是”,也就是被调查者 “生日在 7 月 1 日之前”的概率,一般认为这个概率是 0.5,即 ;另一种是摸到黑球后对问题 B 回答“是”,这个条件概率就0.5P答“ 是” 抽白球是看不健康书刊的学生在参加调查的学生中的比率 ,即 .pPp答“ 是” 抽黑球
19、利用全概率公式得 PPPPP答“ 是”抽白球答“ 是” 抽白球抽黑球答“ 是” 抽黑球,即 .p)( 15 . 0 由此可获得./0.5(1)k np 假设在一次实际调查中,箱子中共有 50 个球,其中 30 个是黑球,20 个白球,则 . 调查结束时共收到 1583 张有效答卷,其中有 389 张回答“是”,据此可估算出6 . 0.0762. 06 . 04 . 021 1583389 p这表明 1583 名学生中,约 %的学生看过不健康书刊.62. 7案例案例 6 6、泊松分布在企业评先进中的应用、泊松分布在企业评先进中的应用 某工业系统在进行安全管理评选时,有两家企业在其它方面得分相等,
20、难分高下。只 剩下千人事故率这个指标,甲企业有 2000 人,发生事故率为 0.005,即发生事故 10 起。 乙企业有 1000 人,发生事故率也为 0.005,即发生事故 5 起。那么,应该评选谁为先进企 业呢? 显然,按事故数来评,则应评乙企业为先进。但甲企业不服。因为甲企业的事故数虽 然是乙企业的 2 倍。但甲企业的人数正好是乙企业的 2 倍。按事故率来评,两企业应榜上 有名。由于指标限制,只能评出一家企业,究竟评谁好呢? 可用泊松(Poisson)分布来解决这个问题。 统计资料表明:安全管理中的事故次数、负伤人数是服从泊松分布的。服从泊松分布的随机变量 取 值的概率为: Xk!k P
21、 Xkek其中 ( 为人数, 为平均事故概率) npnp事件发生了至少 次的概率为 x!kk xP Xxek 若 ,上式 成为必然事件。 0x 01P X 假设两厂均不发生事故得满分 10 分。两厂的均值分别为 10 与 5,则两厂发生事故的概率 为 105105(),()!kk PXkePXkekk乙甲两厂的得分为 查泊松分布表,得两厂的得分表 事故次数 0 1 2 3 4 5 6 7 8 9 10 得分 甲 厂 10 10 10 9.97 9.9 9.71 9.33 8.7 7.80 6.67 5.42 得分 乙 厂 10 9.93 9.60 8.75 7.34 5.60 3.84 2.3
22、7 1.33 0.68 0.32 由表可得,甲企业发生 10 起事故时得 5.42 分,乙企业发生 5 起事故得 5.60 分。故应 评选乙企业为先进。 案例案例 7 7、碰运气能否通过英语四级考试、碰运气能否通过英语四级考试 大学英语四级考试是全面检验大学生英语水平的一种综合考试,具有一定难度.这种考 试包括听力、语法结构、阅读理解、写作等.除写作占 15 分外,其余 85 道为单项选择题,每 道题附有 A、B、C、D 四个选项.这种考试方法使个别学生产生碰运气和侥幸心理. 那么,靠 运气能通过英语四级考试吗? 答案是否定的. 下面我们计算靠运气通过英语四级考试的概率有多大. 假定不考虑写
23、作所占的 15 分,若按及格为 60 分计算,则 85 道选择题必须要答对 51 道题以上才行,这可以 看成是 85 重伯努利试验.设随机变量表示答对的题数,则,其分布律为:X)25. 0,85( BX 85 85()(0.25)0.75,0,1,2,85kkkP XkCk若要及格,必须,其概率为51X858512 85 51(51)(0.25)0.758.74 10kkkkP XC此概率非常之小,故可认为靠运气通过英语四级考试几乎是不可能发生的事件,它相当于在 1000 亿个碰运气的考生中,只有 0.874 个人可以通过考试. 然而,我们地球上只有 60 多亿 人口. 案例案例 8 8、检验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率 统计 学习 补充 案例
限制150内