多元统计分析 (2).ppt
《多元统计分析 (2).ppt》由会员分享,可在线阅读,更多相关《多元统计分析 (2).ppt(113页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、多元统计分析现在学习的是第1页,共113页多元统计分析简介多元统计分析简介客观世界中的任何事物的形成,变化和发展都是受多种因素的影响。各种因素之间又存在着广泛而又错综复杂的联系.例如疾病的产生就受到多种因素的支配,各种病因之间也常存在着一定的内在联系和相互制约.需要分析哪些是主要的,本质的,哪些是次要的,片面的,它们之间的相互关系怎样等问题.多元统计分析正是为了解决这些问题而产生的。现在学习的是第2页,共113页统计学基础知识的回顾统计学是一门关于如何收集、分析、解释和表达数据的科学。-Websters International Dictionary统计学是研究随机现象规律性的方法学。什么是
2、统计学?温故而知新现在学习的是第3页,共113页三类现象自然界和人类社会活动中,普遍存在三类现象。现象。确定性现象:在相同的条件下出现相同的结果,称为确定性现象或必然现象。如地球的运动。随机性现象:在相同的条件下出现不同的结果,但结果是确定的,称为随机性现象。如掷硬币。模糊性现象:在相同的条件下出现不确定的结果,称为模糊性现象。如美人与丑人。现在学习的是第4页,共113页不同现象与研究方法研究方法现象研究方法现象研究方法确定性现象经典数学随机性现象概率统计学模糊性现象模糊数学现在学习的是第5页,共113页统计学两个方面的作用一.是培养统计思维方法二.学以至用,解决实际问题统计学的知识已渗透到自
3、然科学、社会科学以及人类生活的各个领域。现在学习的是第6页,共113页统计学应用的普适性自由落体运动规律:公式:h=1/2 g*t2重力加速度常数重力加速度常数 g=9.80665米米/秒秒2公式是怎样产生的公式是怎样产生的?h经典应用1:牛顿的自由落体运动现在学习的是第7页,共113页牛顿的自由落体运动实验多次重复实验,测量计录每次下落的高度与时间数据:采用什么方法找规律呢?运用了统计学思想运用了统计学思想回归分析回归分析直线回归方程:y=a+b*x h 1/2 g th牛顿发现定律方法的探究时间t高度 h14.9239.1388.3.现在学习的是第8页,共113页 h 。0 1 2 3 4
4、 t 散 点 图现在学习的是第9页,共113页牛顿的自由落体定律的产生回归方程的构造回归方程的构造:回归方程:y=a+b*x h 0 1/2 g t2h自由落体定律的探究影响定律公式的因素影响定律公式的因素:灵感测量误差测量误差模型的选择模型的选择现在学习的是第10页,共113页肾脏体积的经验公式肾脏为不规则体肾脏为不规则体,怎样测量怎样测量?立方体体积规律:公式:V=长*宽*高=abca 经典应用2:肾脏体积的测量bc肾脏体积计算公式:经验公式:V=/4*长*宽*高公式怎样产生的公式怎样产生的?现在学习的是第11页,共113页肾脏体积测量实验用20个肾脏标本,测量计录每个体积及其长,宽,高的
5、数据:采用什么方法找规律呢?回归方程的构造回归方程的构造:y=a+b*x V=/4*长*宽*高实验的回顾1 10010 52.52 11010 62.63 10511 52.1.影响公式的因素影响公式的因素:测量误差测量误差 模型的选择模型的选择现在学习的是第12页,共113页历史上很多非统计专业人员,通过对统计学的学习和研究,在专业和统计学取得有很深的造诣。物理学家爱因斯坦学习和研究统计,将统计学思想应用于他的物理学和哲学研究中。生物学家达尔文学习和研究统计,进化论方面的工作在本质而言是属于生物统计学。护理学的奠基人 Nightingale学习和研究统计,出版世界上第一部医院统计的专著医院统
6、计与医院规划。不同科学间相互协作的重要性现在学习的是第13页,共113页统计学是“对令人困惑费解的问题做出数字设想的艺术。”-美国美国DavidFreedman统计学是一门处理数据中变异性的科学和艺术。-JohnM.LastA Dictionary of EpidemiologyA Dictionary of Epidemiology 科学与艺术的不同在于不同的人处理相同的问题可能得到不同的结果现在学习的是第14页,共113页现代统计学的基本内容现代统计学的基本内容一、一、试验设计试验设计二、二、数据管理数据管理三、三、统计分析统计分析实验设计临床试验设计调查研究设计数据管理质量控制统计描述统
7、计推断现在学习的是第15页,共113页一、一、试验设计试验设计进行一项科研如同建造一座大厦,其设计、进行一项科研如同建造一座大厦,其设计、质量控制、分析、验收等都十分重要。如果质量控制、分析、验收等都十分重要。如果大厦没有良好的设计和质量控制,就会出现大厦没有良好的设计和质量控制,就会出现问题,甚至倒塌,负责人会受到国家法律惩问题,甚至倒塌,负责人会受到国家法律惩治。科研工作若没有良好的设计和质量控制治。科研工作若没有良好的设计和质量控制,就会失败,得出错误的结果,对后来的科,就会失败,得出错误的结果,对后来的科研产生误导作用。研产生误导作用。科研设计如同建筑设计一样举足轻重。科研设计如同建筑
8、设计一样举足轻重。现在学习的是第16页,共113页1 试验设计的三要素1)、试验因素2)、试验对象3)、试验效应现在学习的是第17页,共113页2 实验设计的三原则 随机随机对照对照重复重复(均衡均衡)现在学习的是第18页,共113页二、二、数据管理数据管理数据管理数据管理质量控制质量控制现在学习的是第19页,共113页三、三、数据分析数据分析统计描述统计描述统计推断统计推断现在学习的是第20页,共113页 通过统计描述不仅可以对数据的概貌,分通过统计描述不仅可以对数据的概貌,分布,变量间的关系等有大致的了解,而且可发布,变量间的关系等有大致的了解,而且可发现数据中的异常现象。因此,统计描述现
9、数据中的异常现象。因此,统计描述 在统在统计分析中占有相当重要的地位。计分析中占有相当重要的地位。1 统计描述统计描述现在学习的是第21页,共113页 率、构成比率、构成比 统计量统计量 均数、中位数均数、中位数 相关回归系数相关回归系数统计表统计表统计图统计图 条图、直方图、线图等条图、直方图、线图等现在学习的是第22页,共113页 用样本的信息来推断总体的特征叫统用样本的信息来推断总体的特征叫统计推断计推断.统计分析的目的是由样本推断总体,故统计分析的目的是由样本推断总体,故统计学的主体是统计推断统计学的主体是统计推断2统计推断统计推断现在学习的是第23页,共113页 实验设计的模型1 试
10、验因素 试验效应(自变量)(因变量)XY试验对象 F y=f(x)+e 1 因果关系:现在学习的是第24页,共113页 实验设计的模型2 A因素 B因素(X1变量)(X2变量)X1X2试验对象 F X2=f(x1)+e 2 相互关联:现在学习的是第25页,共113页参数参数点估计点估计估计估计区间估计区间估计统统u检验检验计计参数参数t检验检验推推F检验检验断断假设假设相关与回归相关与回归检验检验卡方检验卡方检验非参非参秩和检验秩和检验秩相关检验秩相关检验现在学习的是第26页,共113页统计软件的重要作用“计算机软件给统计学带来革命性变化”发表论文或进行科研课题时,注明统计软件和采用的统计分析
11、方法.统计分析工具的选择:CHISSSAS,SPSS,STATA现在学习的是第27页,共113页 实例解析实例解析3 携带火柴和发生肺癌间的关系的研究。人们观察发现那些携带火柴的人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌?这中间存在混杂因素-吸烟 客观事实,携带火柴不可能引起肺癌。现在学习的是第28页,共113页 混杂因素的影响混杂因素的影响 图1.1 危险因素、混杂因素和结果的关系携带火柴 肺癌 吸烟现在学习的是第29页,共113页 实例解析实例解析4 喝咖啡与心肌梗塞喝咖啡与心肌梗塞MI关系的研究。关系的研究。有人观察发现喝咖啡的人,很多人患有人观察发现喝咖啡的人,很多人患MI,这
12、种现象是表象还是内在因果关系的?这种现象是表象还是内在因果关系的?数据来自数据来自2000年,小儿科邀请一位美国医学及生物统计学教年,小儿科邀请一位美国医学及生物统计学教授来院讲学的例子。授来院讲学的例子。现在学习的是第30页,共113页 研究者调查研究者调查MI及非及非MI病人各病人各150例,得到如例,得到如下数据。表下数据。表1.1 MI NoMI%Coffee 90 60 60No coffee 60 90 40 优势比优势比:OR=90*90/(60*60)=2.25 Pearson chi2(1)=12.0,P=0.001。说明喝咖啡人MI发生的危险性是不喝的2.25倍。两组MI发
13、生率差异有显著意义。结论:喝咖啡与心肌梗塞MI有关!对否?现在学习的是第31页,共113页 研究者怀虑结论,考虑到其中可能混杂其它因研究者怀虑结论,考虑到其中可能混杂其它因素,如吸烟对喝咖啡与心肌梗塞素,如吸烟对喝咖啡与心肌梗塞MI间关系的影响,间关系的影响,进一步分层分析得到。进一步分层分析得到。表表 控制吸烟因素的干扰后结果控制吸烟因素的干扰后结果 Smoker Nosmoker MI NoMI%MI NoMI%Coffee 80 40 67 10 20 33 Noffee 20 10 67 40 80 33 优势比优势比 OR=1,OR=1 P=1.00,P=1.00现在学习的是第32页
14、,共113页 表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的MI发生的相对危险度相同的。喝咖啡与心肌梗塞喝咖啡与心肌梗塞MI关系关系说明当存在混杂因素时说明当存在混杂因素时,单因素分析单因素分析结论并不科学。结论并不科学。现在学习的是第33页,共113页案例案例:研究生招生与性别的关系研究研究生招生与性别的关系研究现在学习的是第34页,共113页案例讨论研究生招生与案例讨论研究生招生与性别的关系研究性别的关系研究 美国加州贝克莱分校1973年研究生的录取情况如上表.结果显示,男生报考人数据2691人,录取1197人,录取比例44.5%,女生报考人数据1835人,录取556人,录取比例30.3%
15、。有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。现在学习的是第35页,共113页混杂因素的定义混杂因素的定义 当某一危险因素和结果的相关性受第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。l上两例中,混杂因素是吸烟现在学习的是第36页,共113页排除混杂因素的两种方法 1、分层分析、分层分析2、多元统计分析、多元统计分析现在学习的是第37页,共113页 分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。例如,上面我们可以分别在吸烟者和非吸烟者之中,比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下,分析喝啡咖对MI的影响。1 分
16、层分析方法-控制混杂因素对结果的影响现在学习的是第38页,共113页分层分析的优缺点优点:直观简洁。缺点:当考虑因素较多时分组数量倍增,需要例数较多,有时无法实现。现在学习的是第39页,共113页 生命在于运动。运动有利于长寿 流水不腐。这是人类长期经验的总结,但事实果真如此吗?是科学的结论,还是事物的假象呢?实例解析实例解析5运动与寿命关系的研究现在学习的是第40页,共113页 许多研究表明长期运动人的寿命比久坐型生活方式人的寿命长。但是,如果运动者寿命长的真正原因是他不吸烟,没有家族病史,好的生活环境等,那么运动将不能改变一个人的寿命。运动与人的寿命的关系现在学习的是第41页,共113页
17、美国美国Aerobics中心的追踪研究中心的追踪研究 在19701989年间,它们追踪观察25,341男性和7084女性,研究运动和死亡率的关系。男性参加者被追踪观察平均8.4年,女性平均7.5年。所有参加者接受了基线检查,这些检查包括体检、实验室检测及踏车试验评价身体适宜运动量。结果如表1.1。Blair,S.N.,Kampert,J.B.,Kohl,H.W.,et al.”Influences of cardiorespiratory fitness and other precursors on cardiovascular disease and all-cause mortality
18、 in men and women.”JAMA 1996;276:205-10现在学习的是第42页,共113页表1.3 Aerobics 中心追踪研究过程中生存与死亡者基线特征(男性组)指标 生存 死亡 (n=24,740)(n=601)年龄(SD)42.7(9.7)52.1(11.4)*体重指数 26.0(3.6)26.3(3.5)收缩压 121.1(13.5)130.4(19.1)*总胆固醇 213.1(40.6)228.9(45.4)空腹血糖 100.4(16.3)108.1(32.0)现在学习的是第43页,共113页 l运动量(%)l 低 20.1 41.6l 中 42.0 39.1l
19、 高 37.9 19.3*l 冠心病家族史 25.4 33.8*l 吸烟 26.3 36.9*l 异常心电图 6.9 26.3*l 慢性病 18.4 40.3*现在学习的是第44页,共113页 分析发现,存活者和死亡者之间是有明显区别的。特点是存活者较年轻,血压较低,低胆固醇,很少吸烟并且高运动量(基于他们踏车试验时间长短及程度)。但表1.1并没有回答我们的基本问题:运动是否独立地延长寿命?它并没有回答这个问题是由于虽然高运动量组很少在研究期间死亡,但他们或者较很少吸烟,或年轻,或有较低的血压。我们应排除排除混杂因素 的影响。现在学习的是第45页,共113页 分层分析法 表1.4 Aerobi
20、cs 中心追踪研究中全因死亡患者吸烟和体质的分层分析 每万人年 分层相对危险度 死亡数 (CI)吸烟 低运动量 48.0 1.63(1.26-2.13)*中/高运动量 29.4 1.0(参照组)不吸烟 低运动量 44.0 2.19(1.77-2.70)*中/高运动量 20.1 1.0(参照组)可见低运动量组死亡率高于中/高运动量组的死亡率,这一分层分析表明运动的作用不依赖于吸烟状态。现在学习的是第46页,共113页 但是,有可能影响运动和长寿之间关系的其它变量是怎样的?你可以层层分析每一原因,来证明运动对长寿的影响不但不依赖于吸烟状态,也不依赖于年龄、性别、高血脂、高血压等等。如果分层分析3个
21、变量吸烟状态、年龄、体重(正常/异常),你将需要在8个组中分析运动和死亡率的关系。如果分层分析6个变量吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态(是不是),你将需要在64个组中分析运动和死亡率的关系。现在学习的是第47页,共113页 多因素分析法 为判断运动是否独立地与死亡有关,研究者们运用了COX比例风险分析(proportional hazards analysis)的多元分析方法,结果如表1.2。准许引自:Blair,S.N.,et al.”Influences of cardiorespiratory fitness and other precursors on cardio
22、vascular disease and all-cause mortality in women.”JAMA 1996;276:205-10.Copyright 1996,American Medical Association.Additional data provided by authors.现在学习的是第48页,共113页 表1.5 Aerobics 中心追踪研究全死亡率危险因素的多元分析自变量 死亡率 调整相对危险度RR (百万分数)(95%CI)运动量 低 38.1 1.52(1.28-1.82)*中/高 25.0 1.0(参照组)吸烟状况 吸烟 39.4 1.65(1.39-
23、1.97)*不吸烟 23.9 1.0(参照组)现在学习的是第49页,共113页 收缩压 140 mmHg 35.6 1.30(1.08-1.58)*140mmHg 26.1 1.0(参照组)胆固醇 240 mg/dl 35.1 1.34(1.13-1.59)*240 mg/dl 26.1 1.0(参照组)冠心病家族史 有 29.9 1.07(0.90-1.29)无 27.8 1.0(参照组)体重指数 27 Kg/m2 28.8 1.02(0.86-1.22)27 Kg/m2 28.2 1.0(参照组)现在学习的是第50页,共113页 空腹血糖 120 mg/dl 34.4 1.24(0.98-
24、1.56)120 mg/dl 27.9 1.0(参照组)异常心电图 有 44.4 1.64(1.34-2.01)*无 27.1 1.0(参照组)慢性疾病 有 41.2 1.63(1.37-1.95)*无 25.3 1.0(参照组)现在学习的是第51页,共113页 表明,如果你比较男性中每千人年死亡数,你可以看出在低运动组(38.1)比中/高运动量组(25.0)有较高的死亡数。其相对危险度为38.1/25.0=1.52。说明低运动量的人死亡的危险性是高运动人的1.52倍。这显示运动与生存率有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。运动与人的寿命的关系现在学习的是第52页,共113页 实例
25、解析6 吸烟和冠状血管疾病再通术后的预后间的关系 Aerobics中心的追踪研究,他们追踪了5437例冠状血管疾病并接受再通手术(用线和球打开阻塞的冠状血管)的病人,将病人分为不吸烟、以前吸烟(至少在手术前6个月戒掉)、刚戒烟(因手术后刚戒掉)、及持续吸烟4个组。结果见表1.4.5 Hasdai,D.,Garratt,K.N.,Grill,D.E.,Lerman,A.,Homes,D.R.“Effect of samoking status on the long-term outcome after successful percutaneous coronary revasculariza
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元统计分析 2 多元 统计分析
限制150内