书签分享收藏举报版权申诉 / 45

立即下载

当前位置：首页 > 应用文书 > 工作报告 > 统计学贾俊平考研知识点总结34319.pdf

统计学贾俊平考研知识点总结34319.pdf

上传人：得****3

文档编号：83945675

上传时间：2023-03-31

格式：PDF

页数：45

大小：5.15MB

( 4.5 )

《统计学贾俊平考研知识点总结34319.pdf》由会员分享，可在线阅读，更多相关《统计学贾俊平考研知识点总结34319.pdf（45页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、统计学重点笔记第一章导论一、比较描述统计和推断统计：数据分析是通过统计方法研究数据，其所用的方法可分为描述统计和推断统计。（1）描述性统计：研究一组数据的组织、整理和描述的统计学分支，是社会科学实证研究中最常用的方法，也是统计分析中必不可少的一步。内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示，进而通过综合、概括与分析，得出反映所研究现象的一般性特征。（2）推断统计学：是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。研究者所关心的是总体的某些特征，但许多总体太大，无法对每个个体进行测量，有时我们得到的数据往往需要破坏性试验，这就需要抽取部分个体即样本进行测量，

2、然后根据样本数据对所研究的总体特征进行推断，这就是推断统计所要解决的问题。其内容包括抽样分布理论，参数估计，假设检验，方差分析，回归分析，时间序列分析等等。（3）两者的关系：描述统计是基础，推断统计是主体二、比较分类数据、顺序数据和数值型数据：根据所采用的计量尺度不同，可以将统计数据分为分类数据、顺序数据和数值型数据。（1）分类数据是只能归于某一类别的非数字型数据。它是对事物进行分类的结果，数据表现为类别，是用文字来表达的，它是由分类尺度计量形成的。（2）顺序数量是只能归于某一有序类别的非数字型数据。也是对事物进行分类的结果，但这些类别是有顺序的，它是由顺序尺度计量形成的。（3）数值型数据是

3、按数字尺度测量的观察值。其结果表现为具体的数值，现实中我们所处理的大多数都是数值型数据。总之，分类数据和顺序数据说明的是事物的本质特征，通常是用文字来表达的，其结果均表现为类别，因而也统称为定型数据或品质数据；数值型数据说明的是现象的数量特征，通常是用数值来表现的，因此可称为定量数据或数量数据。三、比较总体、样本、参数、统计量和变量：（1）总体是包含所研究的全部个体的集合。通常是我们所关心的一些个体组成，如由多个企业所构成的集合，多个居民户所构成的集合。总体根据其所包含的单位数目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定，而且元素的数目是有限可数的，需要注意的是，统

4、计意义上的总体，通常不是一群人或一些物品的集合，而是一组观测数据。（2）样本是从总体中抽取的一部分元素的集合，构成样本的元素的数目称为样本容量。例如我们从一批灯泡中随机抽取 100 个，这 100 个灯泡就构成了一个样本。（3）参数是用来描述总体特征的概括性数字度量。有总体平均数、标准差、总体比例。由于总体参数通常是不知道的，所以参数是一个未知的常数。所以才需要进行抽样，根据样本来估计总体参数（4）样本量是用来描述样本特征的概括性数字度量。统计量是根据样本数据计算出来的一个量，通常包括：样本平均数、样本标准差、样本比例等，由于样本是我们已经抽出来的，所以统计量总是知道的，抽样的目的就是要根据样

5、本统计量推断总体参数。（5）变量是说明现象某种特征的概念。变量的特点是从一次观察到下一次观察会呈现出差别或变化，分为分类变量、顺序变量、数值型变量、离散型变量和连续型变量。第二章数据收集一、调查方案的主要内容：（1）调查目的：是调查所要达到的具体目标，他所回答的是“为什么调查”“要解决什么样的问题”等（2）调查对象和调查单位：调查对象是根据调查目的的确定的调查研究的总体或调查范围。调查单位是构成调查队选中的每一个单位，它是调查项目和调查内容的承担着或载体。所要解决的是“向谁调查”由谁来提供所需数据（3）调查项目和调查表：调查项目要解决的问题是“调查什么”，也就是调查的具体内容，大多数统计调

6、查中，调查项目通常以表格的形式来表现，称为调查表二、数据的误差：统计数据的误差通常是指统计数据与客观现实之间的差距，误差的类型主要有抽样误差和非抽样误差两类。（1）抽样误差：主要是指在用样本数据进行推断时所产生的随机误差。只存在于概率抽样中。这类误差通常是无法消除的，但事先可以进行控制和计算。影响抽样误差大小的因素：（a）抽样单位的数目。在其他条件不变的情况下，抽样单位的数目越多，抽样误差越小；反之，越大。这是因为随着样本数目的增多，样本结构越接近总体，抽样调查也就越接近全面调查，当样本扩大到总体时，则为全面调查，也就不存在抽样误差了。（b）总体背研究标志的变异程度。在其他条件不变的情况下，

7、总体标志的变异程度越小，抽样误差越小，反之，越大。抽样误差和总体标志的变异程度呈正比变化。这是因为总体的变异程度小，表示总体各单位标志值之间的差异小。则样本指标与总体指标之间的差异也可能小；如果总体各单位标志值相等，则标志变动度为零，样本指标等于总体指标，此时不存在抽样误差（c）抽样方法的选择。重复抽样和非重复抽样的抽样误差大小不同。采用不重复抽样比采用重复抽样的抽样误差小（d）抽样组织方式不同。采用不同的组织方式，会有不同的抽样误差，这是因为不同的抽样组织所抽中的样本，对于总体的代表性也不同，通常，常利用不同的抽样误差，作出判断各种抽样组织方式的比较标准。（2）非抽样误差：主要包括：抽样框误

8、差，回答误差、无回答误差、调查员误差；是调查过程中由于调查者或被调查者的人为因素所造成的误差。调查者所造成的误差主要有：调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等；被调查者所造成的误差主要有：因人为因素干扰形成的有意虚报或瞒报调查数据。非抽样误差理论上是可以消除的。三、简单随机抽样：（1）概念：从总体N个单位中随机地抽取n个单位作为样本，每个单位入抽样本的概率是相等的；（2）特点：a、简单、直观，在抽样框完整时，可直接从中抽取样本 b、用样本统计量对目标量进行估计比较方便（3）局限性当N很大时，不易构造抽样框抽出的单位很分散，给实施调查增加了困难没有利用其它辅助

9、信息以提高估计的效率 lg(lg()2lg()lg(1nK 第三章数据的整理与展示一、数据排序的目的：（1）数据排序是按一定顺序将数据排列，以发现一些明显的特征或趋势，找到解决问题的线索（2）排序还有助于对数据检查纠错，以及为重新归类或分组等提供方便。（3）在某些场合，排序本身就是分析的目的之一。二、数据分组：是根据统计研究的需要，将原始数据按照某种标准化分成不同的组别，分组后的数据成为分组数据。数据经分组后再计算出各组中数据出现的频数，就形成了一张频数分布表，分组方法有单变量值分组和组距分组两种，单变量分组通常只适合于离散变量，且在变量值较少的情况下使用，在连续变量或变量值较多情况下，通

10、常采用组距分组。三、组距分组的步骤和原则：（1）步骤：a、确定组数：组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时，可以按 Sturges 提出的经验公式来确定组数K b、确定组距：组距(Class Width)是一个组的上限与下限之差，可根据全部数据的最大值和最小值及所分的组数来确定，即组距(最大值-最小值)组数 c、统计出各组的频数并整理成频数分布表（2）原则：采用组距分组时，需遵循“不重不漏”的原则，“不重”是指一项数据只能分在其中的某一组，不能在其他组中重复出现；“不漏”是指组别能够穷尽，即在所分的全部组别中每项数据都能分在其中的某一组，不能遗漏。为解决不重的问题，

11、统计分组时习惯上规定“上组限不在内”，即当相邻两组的上下限重叠时，恰好等于某一组上限的变量值不算在本组内，而计算在下一组内。当然，对于离散变量，我们可以采用相邻两组组限间断的办法解决“不重”的问题。也可以对一个组的上限值采用小数点的形式，小数点的位数根据所要求的精度具体确定。缺点：组距分组掩盖了各组内的数据分布状况四、直方图和条形图的区别：首先，条形图是用条形的长度（横置时）表示各类别频数的多少，其宽度则是固定的；直方图是用面积表示各组频数的多少，频数的高度表示每一组的频数或频率，宽度则表示各组的组距，因此高度与宽度均有意义。其次，由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形

12、图则是分开排列。最后，条形图主要用于展示各类数据，而直方图则主要用于展示数据型数据。五、绘制线图应注意的问题：（）时间一般绘在横轴，观测数据绘在纵轴（）图形的长宽比例要适当，一般应绘成横轴略大于纵轴的长方形，其长宽比例大致是:.（）一般情况下，纵轴数据下端应从开始，以便于比较，数据与之间的间距过大，可以采取折断的符号将纵轴折断六、设计统计表注意的问题：首先，要合理安排统计表的结构，例如表号、行标题、列标题、数字资料的位置应安排合理。其次，表头一般应包括表号、总标题和表中数据的单位等内容，总标题应简明确切地概括出统计表的内容。再次，表中的上下两条线一般用粗线，中间的其他线用细线，表的左右两边不

13、封口，列标题之间可以用竖线分开，而行标题之间通常不必用横线隔开。最后，在使用统计表时，必要时可在表下方加上注释，特别注意标明数据来源。七、数据的审核：（1）原始数据：a、完整性审核：检查应调查的单位或个体是否有遗漏；所有的调查项目或指标是否填写齐全 b、准确性审核：检查数据是否真实反映客观实际情况，内容是否符合实际；检查数据是否有错误，计算是否正确等（2）二手数据：a、适用性审核：弄清楚数据的来源、数据的口径以及有关的背景材料；确定数据是否符合自己分析研究的需要 b、时效性审核：尽可能使用最新的数据八、数据的整理与显示(基本问题)（1）要弄清所面对的数据类型，因为不同类型的数据，所采取的处理

14、方式和方法是不同的（2）对分类数据和顺序数据主要是做分类整理（3）对数值型数据则主要是做分组整理（4）适合于低层次数据的整理和显示方法也适合于高层次的数据；但适合于高层次数据的整理和显示方法并不适合于低层次的数据第四章数据的概括性度量一、集中趋势和离散趋势的度量：（1）集中趋势是指一组数据向某一中心值靠拢的倾向，它反映了一组数据中心点的位置所在。描述集中趋势所采用的测度值分为：众数、中位数和分位数、平均数。（2）离散趋势是数据分布的另一个重要特征，它所反映的各变量值远离其中心值得程度，因此也称为离中趋势，数据的离散程度越大，集中趋势的测度值对该组数据的代表性越差，反之，代表性越好。描述数

15、据离散程度所采用的测度值，根据所依据的数据类型的不同主要有异种比率、四分位差、方差和标准差。此外还有极差、平均差以及测度相对离散程度的离散系数。二、众数、中位数和平均数：（1）三者的关系：从分布的角度看，众数始终是一组数据分布的最高峰值，中位数的处于一组数据中间位置上的值，而平均数则是全部数据的算数平均。因此，对于具有单峰分布的大多数数据而言，众数、中位数和平均数之间具有以下关系：（a）如果数据的分布是对称的，众数、中位数、平均数必定相等（b）如果数据是左偏分布，说明数据存在极小值，必然拉动平均数向极小值一方靠近，而众数和中位数由于是位置代表值，不受极值的影响，因此三者的关系为众数中位数平均数

16、（c）如果数据是右偏分布，说明数据存在极大值，必然拉动平均数向极大值的一方靠近，则众数中位数0 时为尖峰分布，当 K=30）,不论原来的总体是否服从正态分布，样本值的抽样分布都趋于正态分布，其分布的数学期望为总体均值，方差为总体方差的 1/n，这就是中心极限定理，表述为：设从均值为，方差为 2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为、方差为2/n的正态分布四、重复抽样和不重复抽样相比，抽样均值分布的标准差有何不同样本均值的方差与抽样方法有关，在重复抽样条件下，样本均值的方差为总体方差的 1/n，即在不重复抽样条件下，样本均值的方差则需要用修正系数

17、去修正重复抽样时样本均值的方差，即不重复抽样的样本均值的方差小于重复抽样时的样本均值的方差对于无限总体进行不重复抽样时，可以按照重复抽样来处理，对于有限总体，当 N 很大，而抽样比 n/N 很小时，其修正系数趋于 1，这时样本均值的方差也可以按照重复抽样的样本均值的方差公式来计算五、2 分布的性质和特点（1）分布的变量值始终为正（2）分布的形状取决于其自由度n的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称（3）期望为：E(2)=n，方差为：D(2)=2n(n为自由度)（4）可加性：若U和V为两个独立的2分布随机变量，U2(n1)，V2(n2),则U+V这一随机变量服从

18、自由度为n1+n2的2分布第七章参数估计一、评价估计量的标准实际上，用于估计的的估计量有很多，如我们可以用样本均值作为总体均值的估计量，也可以用样本中位数作为总体均值的估计量，什么样的估计量才算是一个好的估计量呢？这需要一定的评价标准：1、无偏性：估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为，被选择的估计量为，如果 E()=，称为的无偏估计量。X22nX2222X122NnNnX2、有效性：对同一总体参数的两个无偏估计量，方差较小的是更有效的估计量。3、一致性：随着样本容量的增大，点估计量的值越来越接近被估的总体的参数。换言之，一个大样本给出的估计量要比一个小样本给出的估

19、计量更接近总体的参数二、怎样理解置信区间置信区间：由样本统计量所构造的总体参数的估计区间，其中区间的最小值称为置信下限，区间最大值称为置信上限。是一个随机区间，的置信区间意味着，置信区间包含未知参数的概率为，这个区间会随着样本观察值的不同而不同。但 100 次运用这个区间，约有 100（）个区间能包含参数，也就是说大约还有 100 a个区间不包含总体参数判断置信区间优势的标准（好的置信区间的特性）：置信度越高越好；置信区间宽度越小越好。三、影响区间宽度的因素 1.总体数据的离散程度，用 s 来测度 2.样本容量：当置信水平固定时，置信区间的宽度随着样本容量的增大而减小，换言之，较大的样本

20、所提供的有关总体的信息要比小样本多。3.置信水平(1-a)，影响 z 的大小：置信水平越大，z 越大四、简述样本容量与置信水平、总体方差、估计误差的关系=（）（1）样本量与置信水平呈正比，在其他条件不变的情况下，置信水平越大，所需的样本容量也就越大（2）样本量与总体方差呈正比，总体的差异越大，所需的样本容量就越大（3）样本量与边际误差的平方成反比，即可以接受的估计误差的平方越大，所需的样本量就越小五、的含义是什么？Z2 是标准正态分布上侧面积为2时的 z 值。Z2 n是估计总体均值时的边际误差，也称为估计误差或误差范围六、对两个总体均值之差的小样本估计中，对两个总体和样本都有哪些假定

21、（1）两个总体都服从正态分布（2）两个随机样本独立地分别抽自两个总体七、解释 95%的置信区间抽取 100 个样本，根据每个样本构造一个置信区间，这样由 100 个样本构造的总体参数的 100 个置信区间中，95%的区间包含了总体参数的真值，而 5%没包含八、对于总体比例的估计，确定样本容量是否“足够大“的一般经验规则是：区间p 2p（1 p）2 中不包含 0 或 1.或要求 np5 和 n（1-p）5 八、独立样本和匹配样本如果两个样本是从两个总体中独立抽取的，即一个样本中的元素与另一个样本中的元素相互独立，则称为独立样本。匹配样本是指一个样本中的数据与另一个样本中的数据相对应

22、九、估计量和估计值（1）估计量：用于估计总体参数的随机变量如样本均值，样本比例、样本方差等例如:样本均值就是总体均值m 的一个估计量参数用表示，估计量用表示（2）估计值：估计参数时计算出来的统计量的具体值如果样本均值 x=80，则 80 就是 m 的估计值第八章假设检验一、参数估计和假设检验的区别和联系（1）主要联系：a.都是根据样本信息推断总体参数；b.都以抽样分布为理论依据，建立在概率论基础之上的推断，推断结果都有风险；c.对同一问题的参数进行推断，使用同一样本，同一统计量，同一分布，二者可相互转换（2）主要区别：a.参数估计是以样本信息估计总体参数的可能范围，假设检验是

23、先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立;b.区间估计求得的是求以样本估计值为中心的双侧置信区间，假设检验既有双侧检验，也有单侧检验；c.区间估计立足于大概率，通常以较大的可信度（1-a）去估计总体参数的置信区间。假设检验立足于小概率。通常是给定很小的显著性水平 a 去检验总体参数的先验假设是否正确二、什么是假设检验中的显著性水平？统计显著是什么意思？（1）显著性水平是当原假设正确时却被拒绝的概率或风险，即假设检验中犯弃真错误的概率，通常用表示，它是人们根据经验的要求确定的，通常取=0.05 或 0.01。显著性水平是人们事先指定的犯第类错误概率的最大允许值，确定了显

24、著性水平，就等于控制了第类错误的概率。但犯第类错误的概率却是不确定的（2）统计显著值在原假设为真的条件下，用于检验的样本统计量的值落在了拒绝域内，作出了拒绝原假设的决定三、什么是假设检验的两类错误及其数理关系怎样（1）假设检验中所犯的错误有两种：一类错误是原假设为真却别拒绝了，犯这类错误的概率用表示，也称第类错误。另一类错误是原假设为假却没有拒绝，犯这种错误的概率用表示，也称第类错误（2）当增加时减小，当增大时减小，要使和同时减小的唯一办法是增加样本容量四、假设检验的步骤（1）陈述原假设H0和备择假设H1。(2）从所研究的总体中抽出一个随机样本(3)确定一个适当的检验统计量

25、，并利用样本数据算出其具体数值(4)确定一个适当的显著性水平，并计算出其临界值，指定拒绝域(5)将统计量的值与临界值进行比较，作出决策。统计量的值落在拒绝域，拒绝H0，否则不拒绝H0，或者也可以直接利用 P 值作出决策五、建立原假设和备择假设的原则（建立假设的几点认识）（1）原假设和备择假设是一个完备事件组，且相互独立（2）在建立假设时，通常是先确定备择假设，然后再确定原假设（3）在假设检验中，等号“=”总是放在原假设上。这是因为我们想涵盖备择假设H1不出现的所有情况（4）这样的假设本质上带有一定的主观色彩，在面对某一实际问题，由于不同研究者有不同的研究目的，即使对同一问题也可能提出截然相反

26、的原假设和备择假设，这并不违背假设的最初定义，只要符合研究的最终目的就是合理的六、单双侧检验的区别备择假设具有特定的方向性，并含有“”的假设检验，称为单侧检验或单尾检验。备择假设没有特定的方向性，并含有符号“”的假设检验，称为双侧检验或双尾检验在单侧检验中，由于研究者感兴趣的方向不同，又可分为左侧检验和右侧检验七、检验统计量的特征和用途检验统计量是指根据样本观测结果计算得到的，并据以对原假设和备择假设做出决策的某个样本统计量。检验统计量实际上是总体参数的点估计量，只有将其标准化后，才能用以度量它与原假设的参数值之间的差异程度。而对点估计量标准化的依据则是：a、原假设H0为真；b、点估

27、计量的抽样分布。实际上，假设检验中所用的检验统计量都是标准化检验统计量，它反映了点估计量与假设的总体参数相比相差多少个标准差。八、拒绝域面积与大小的关系当样本容量固定时，拒绝域的面积随着的减小而减小。越小，拒绝原假设所需要的检验统计量的临界值与原假设的参数值就越远。拒绝域的位置取决于检验是单侧检验还是双侧检验，双侧检验的拒绝域在抽样分布的两侧，而单侧检验中，如果备择假设具有符号“”，拒绝域位于抽样分布的右侧，故称为右侧检验。九、显著性水平的局限性显著性水平实在检验之前确定的，这也就意味这我们事先确定了拒绝域。这样，不论检验统计量的值是大还是小，只要他的值落入拒绝域就拒绝原假设，否则不拒绝原

28、假。这种固定的显著性水平对检验结果的可靠性起一种度量作用。但不足的是，是犯第类错误的上限控制值，它只能提供检验结论可靠性的一个大致范围，而对于一个特定的假设检验问题，却无法给出观测数据与原假设之间不一致程度的精确度量，也就是说，仅从显著性水平比较，若选择的值相同，所有的检验结果的可靠性都一样。十、P 值较小时为什么要拒绝原假设 P 值是指在原假设为真的条件下，检验统计量的观察值大于或等于其计算值的概率。P 值是反映实际观测到的数据与原假设H0之间不一致程度的一个概率值。P值越小，说明实际观测到的数据与H0之间不一致的程度就越大，检验的结果也就越显著十一、显著性水平与 P 值得区别（1）的

29、含义是当原假设正确时却被拒绝的概率或风险，即假设检验中犯弃真错误的概率，是有人们根据检验的要求确定的，通常=0.05 或 0.01 而 P 值是原假设为真时所得到的样本观察结果或更极端结果出现的概率，它是通过计算得到的，P 值得大小取决于三个因素：样本数据与原假设之间的差异、样本量、被假设数据的总体分布（2）只能提供检验结论的可靠性地一个大致范围，而对于一个特定的假设检验为题，却无法给出观测数据与原假设之间不一致程度的精确度量。即仅从显著性水平来比较，如果选择的值相同，所有检查结果的可靠性都一样。而 P 值可以测量出样本观察数据与原假设中假设的值的偏离程度。十二、总体均值的检验在对总体均值进

30、行假设检验时，采用什么检验步骤和检验统计量取决于我们所抽取的样本是大样本（n 30）还是小样本（n 30），此外还需要区分总体是否服从正态分布、总体方差2是否已知等几种情况。（1）大样本的检验方法：样本均值经过标准化后服从正态分布，设假设的总体均值为0，当总体方差2已知时，总体均值检验的统计量为：当总体方差未知时，可以用样本方差s2来近似代替总体方差，此时总体均值检验的统计量为（2）小样本的检验方法：总体方差2已知时，即使在小样本下，检验统计量仍然服从正太分布，因此仍然按照来计算。0)1,0(0NnXZ0)1,0(0NnSXZ0)1,0(0NnXZ 总体方差2未知时，需要用样本方差s2代替

31、总统方差2，此时检验统计量服从自由度为 n-1 的 t 分布。因此需要采用 t 分布来检验总体均值，通常称为“t 检验”。检验的统计量为：第九章方差分析与实验设计一、方差分析的概念及理解方差分析是指检验多个总体均值是否相等的统计方法。所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它研究的是多哥总统均值是否相等的统计方法，但本质是研究分类型自变量对数值型因变量的影响。二、方差分析和回归分析的区别和联系区别：（1）方差分析中沿水平轴的自变量是分类变量；而回归分析沿水平轴的自变量是数值型变量。（2）方差分析中，既然自变量是分类变量，就可以把它放在

32、水平轴的任意位置上；而回归分析的自变量是数值型变量，它在水平轴上的位置是从按小到大的数值排列的，因此只有一种方式来放这些数值，并且可以画出一条穿过这些点的直线。（3）方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响；而回归分析是根据一组样本数据确定出变量之间的数学关系式，然后对关系式的可信程度进行各种统计检验，并找出哪些变量的影响是显著的，哪些不显著等三、方差分析中的基本原理（1）方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等，进而分析自变量对因变量是否有影响（2）数据的误差是用平方差来表示的，包括组内误差和组间误差（3）组内误差只包含随机

33、误差，而组间误差既包括随机误差，又包括系统误差 nSXt0（4）如果组间误差只包括随机误差，而没有系统误差，这时，组间误差与组内误差经过平均后的数值就应该很接近，他们的比值就会接近 1；（5）反之，如果组间误差既包括随机误差又包括系统误差，这时，组间误差与组内误差经过平均后的数值，他们的比值就会大于 1；（6）当这个比值大到某种程度时，我们就可以说因素的不同水平之间存在着显著的差异，也就是自变量对因变量有影响。四、方差分析中的基本假定（1）每个总体都应服从正态分布。也就是说，对于因素的每一个水平，其观察值是来自服从正态分布总体的简单随机样本（2）各个总体的方差必须相同。也就是说，各组观察数据是

34、从具有相同方差的总体中抽取的（3）观察值是独立的在上述假定成立的前提下，要分析自变量对因变量是否有影响，实际上也就是要检验自变量的各个水平（总体）的均值是否相等。五、方差分析和总体均值的 t 检验或 z 检验有何不同？优势是什么（1）不同：总体均值的 t 检验或 z 检验，只能研究两个样本，若要检验多个总体均值是否相等。那么作这样的两两比较将十分繁琐，共需进行Cn2次不同的检验，如果=0.05，那么每次检验犯第类错误的概率都是 0.05，做多次检验会使第类错误的概率相应增加。而方差分析方法则同时考虑所有的样本，因此除了错误累计的概率，从而避免了拒绝一个真是的原假设。（2）优势：方差分析不仅

35、可以提高检验的概率，同时由于他是将所有的样本信息结合在一起，也增加了分析的可靠性。六、要检验多个总体均值是否相等时，为什么不做两两比较，而用方差分析方法？方差分析不仅可以提高检验的概率，同时由于他是将所有的样本信息结合在一起，也增加了分析的可靠性。检验多个总体均值是否相等时，如果做两两比较，需要进行多次的 t 检验。随着增加个体显著性检验的次数，偶然因素导致的差别的可能性会增加（并非均值真的存在差别），而方差分析则是同时考虑所有的样本，因此排除了错误累积的概率，从而避免拒绝一个真实的原假设。七、方差分析的步骤（1）提出假设，按要求检验的 k 个水平的均值是否相等，提出原假设和备择假设。（2）构

36、造检验的统计量，计算各样本均值xi，样本总均值x，误差平方和 SST、SSA、SSE F=SSA k1SSE nk=MSAMSE（3）统计决策，比较统计量 F 和F(k-1,n-k)的值，若 FF,则拒绝原假设，反之不拒绝原假设八、解释水平项误差平方和与误差平方和（1）水平项误差平方和，简称 SSA，是各组平均值与总平均值的误差平方和，反映各总体的样本均值之间的差异程度，因此又称为组间平方和，其计算公式为（2）误差项平方和，简称为 SSE,它是每个水平或组的各样本数据与其组平均值误差的平方和，反映了每个样本个观测值的离散状况，因此又称为组内平方和或残差平方和，该平方和实际上反映的是随机误差

37、的大小，其计算公式为九、解释组内方差和组间方差的含义 SSA 的均方（组间均方）记为 MSA，也称组间方差，其计算公式为 MSE 的均方（组内均方）记为 MSE,也称组内方差，其计算公式为十、方差分析中效应的意义 SSA是对随机误差和系统误差的大小的度量，它反映了自变量对因变量的影响，也称自变量效应或因子效应。SSE 是对随机误差的大小的度量，它反映了除自变量对因变量的影响之外，其他因素对因变量的总影响，因此 SSE 也称为残差变量，它所引起的误差也称为残差效应。kiikinjii1112kiiikinjixxnxxSSAi12112kinjiiji112kinjiijixxSSE1121

38、kSSAMSAknSSEknSSEMSEkiiikinjii12112kiiikinjixxnxxSSAi12112kinjiiji112kinjiijixxSSE112 SST 是全部数据总误差程度的度量，它反映了自变量和残差变量的共同影响，因此他等于自变量效应加残差效应。SST=SSA+SSE 十一、多重比较方法的作用：它是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。十二、交互作用：是一因素对另一因素的不同水平有不同的效果，如对于双因素方差分析，有交互作用就是两个因素搭配在一起，对应变量产生的一种新的效应。十三、解释无交互作用和有交互作用的双因素方差分析在双因素方差

39、分析中，由于有两个影响因素，若这两个因素是相互独立的，我们分别判断这两个因素对因变量的影响，这时的双因素方差分析称为无交互作用的双因素方差分析，或称为无重复因素分析。如果出了两个因素的单独影响外，两因素的搭配还会对因变量产生一种新的效应，这时的双因素方差分析就是有交互作用的双因素方差分析。十四、R2 的含义和作用（1）单因素方差分析中，R2 表示自变量平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小，其平方根R就可以用来测量两个变量之间的关系强度（2）无交互作用的双因素方差分析中，行自变量平方（SSR）和和列自变量的平方和(SSC)加在一起则度量了两个自变量对因变量的联合

40、效应，联合效应与总平方和的比值定义为R2，其平方根 R 反映了这两个自变量合起来与因变量之间的关系强度（3）有交互作用的方差分析：R2 =SSR+SSC+SSRCSST 十四、为什么双因素方差分析中，误差平方和与 P 值明显小于单因素方差分析中的任何一个平方和？是因为在双因素方差分析中，误差平方和不包括两个自变量中的任何一个，因而减少了残差效应。而在分别作单因素方差分析时，将行因素作为自变量时，列变量被kinjiji112kinjijixxSST112)2总平方和组间平方和)()(2总平方和组间平方和SSTSSAR 总效应联合效应2SSTSSCSSRR总效应联合效应2包含在残差中，同样，将列

41、因素作为自变量是，行变量被包含在残差中。因此，对于两个自变量而言，进行双因素方差分析要优于分别对两个因素进行单因素方差分析十五、完全随机化设计、随机化区组设计、因子设计（1）完全随机化设计指“处理”被随机地指派给试验单元的一种设计、对完全随机化设计的数据采用单因素方差分析（2）随机化区组设计是指先按一定规则将试验单元划分为若干同质组，称为“区组。分组后再将每个品种（处理）随机地指派给每一个区组的设计就是随机化区组设计。试验数据采用无重复双因素方差分析（3）因子设计指考虑两个因素(可推广到多个因素)的搭配试验设计称为因子设计。该设计主要用于分析两个因素及其交互作用对试验结果的影响。试验数据

42、采用可重复双因素方差分析第十章一元线性回归一、简述相关系数的性质相关系数是指根据数据计算的对两个变量之间线性关系强度的度量值。若相关系数是根据总体全部数据计算的，称为总体相关系数，记为；若是根据样本数据计算的，则称为样本相关系数，记为 r，样本相关系数的计算公式：性质：（1）r 的取值范围是-1,1；|r|=1，为完全相关，r=1，表明 x 与 y 之间为完全正线性相关关系，r=-1，表明 x 与 y 之间为完全负线性相关关系；r=0，表明 x 与y 之间不存在线性相关关系相关，-1r 0，表明 x 与 y 之间为负线性相关，0r 1，表明 x 与 y 之间为正线性相关，|r|越趋于

43、1 表示关系越密切；|r|越趋于 0 表示关系越不密切（2）r 具有对称性，x 与 y 之间的相关系数rxy和 y 和 x 之间的相关系数ryx相等，即rxy=ryx（3）r 的大小与 x 和 y 的原点及尺度无关。改变 x 和 y 的数据原点和计量尺度，并不改变 r 的大小（4）r 仅仅是 x 和 y 之间的线性关系的度量，不用于描述非线性关系，这意味着，r=0 指标是两个变量之间不存在线性相关关系，但并说明变量之间没有任何关系，如2222y2222 yynxxnyxxynr可能存在非线性相关关系。变量之间的非线性相关程度较大时，就可能会导致 r=0.因此当 r=0 或很小时，不能轻易得出两

44、个变量之间不存在相关关系的结论，而应结合散点图作出合理的解释。（5）r 虽是两变量之间线性关系的度量，却并不意味着 x 和 y 之间一定有因果关系。二、利用相关关系如何判断变量之间相关的方向和相关的密切程度？（1）r 的取值范围是-1,1；|r|=1，为完全相关，r=1，表明 x 与 y 之间为完全正线性相关关系，r=-1，表明 x 与 y 之间为完全负线性相关关系；r=0，表明 x 与y 之间不存在线性相关关系相关，-1r 0，表明 x 与 y 之间为负线性相关，0r 1，表明 x 与 y 之间为正线性相关。（2）根据实际数据计算出的 r，|r|越趋于 1 表示关系越密切；|r|越趋于 0

45、表示关系越不密切。相关程度分为以下几种情况：当|r|0.8 时，可视为高度相关；0.5|r|0.8 时，可视为中度相关；当 0.3|r|0.5 时，视为低度相关；|r|t，拒绝H0，表明总体的两个变量之间存在显著的线性关系；若tF,拒绝H0；若Ft，拒绝H0；tt，不拒绝H0 十七、置信区间和预测区间的含义？二者的区别（1）置信区间指利用估计的回归方程，对于自变量 x 的一个给定值 x0，求出因变量 y 的平均值的估计区间(confidence interval)E(y0)在 1-置信水平下的置信区间为（2）预测区间指利用估计的回归方程，对于自变量 x 的一个给定值x0，求出因变量 y 的一

46、个个别值的估计区间(prediction interval)y0在 1-置信水平下的预测区间为（3）二者的区别：置信区间估计是求 y 的平均值的估计区间，而预测区间的估计是求 y 的一个个别值的区间估计；对同一个x0，这两个区间的宽度也是不一样的。预测区间要比置信区间宽一些。)2,1(21nFMSEMSRnSSESSRF11)2(11ntst十八、残差分析的作用：（1）用于判断有关模型的假定是否成立（如误差项的假定是否成立）（2）用于分析回归中的异常值和对模型有影响的观测值十九、影响区间宽度的因素（1）置信水平（1-），区间宽度随置信水平的增大而增大。（2）数据的离散程度（s），区间宽度

47、随 s 的增大而增大（3）样本容量，区间宽度随样本容量的增大而减小（4）用于预测的x0与x 的差异程度，区间宽度随x0与x 的差异程度的增大而增大第十一章多元线性回归一、解释多元线性回归模型、回归方程、和估计的多元回归方程的含义（1）多元线性回归模型：描述因变量 y 如何依赖于自变量 x1，x2，xp 和误差项的方程，称为多元回归模型。涉及 p 个自变量的多元回归模型可表示为 y=0+1 x1+2x2 +pxp+其中，0、1、2、p是参数，是误差项（2）回归方程：描述因变量 y 的平均值或期望值如何依赖于自变量x1、x2、xp的方程;多元线性回归方程的形式为 E(y)=0+1x1+2

48、x2+pxp（3）估计的多元回归方程：由于回归方程中的0、1、2。p是不知道的，需要利用样本数据去估计它们，当我们用用样本统计量0、1 、2 。p 估计回归方程中的参数 0、1、2。p 时就得到了估计的多元线性回归方程，其一般形式为：y =0+1 x1+2x2 +pxp 0、1 、2 。p被称为偏回归系数二、多元线性回归模型中，对误差项有三个基本假定：（1）误差项是一个期望值为 0 的随机变量，即E()=0。对于一个给定的x1、x2、xp的值，y 的期望值为 E(y)=0+1x1+2x2+pxp（2）对于所有的x1、x2、xp值，的方差2 都相同（3）误差项是一个服从正态分布的随机变量，且

49、相互独立。即N(0,2)独立性意味着对于自变量x1、x2、xp的值，它所对应的与其他x1、x2、xp的任意一组其他值所对应的不相关。正态性意味着对于给定的x1、x2、xp的值，因变量 y 也是一个服从正态分布的随机变量三、多元线性回归模型中的基本假定（1）误差项是一个期望值为 0 的随机变量，即E()=0。对于一个给定的x1、x2、xp的值，y 的期望值为 E(y)=0+1x1+2x2+pxp（2）对于所有的x1、x2、xp值，的方差2 都相同（3）误差项是一个服从正态分布的随机变量，且相互独立。即N(0,2)独立性意味着对于自变量x1、x2、xp的值，它所对应的与其他x1、x2、xp的任意

50、一组其他值所对应的不相关。正态性意味着对于给定的x1、x2、xp的值，因变量 y 也是一个服从正态分布的随机变量（4）自变量x1、x2、xp是非随机的，固定的且相互之间互不相关（无多重共线性）四、若这些假定不成立的应对方法？（1）若模型中存在多重共线性，解决的方法是：第一、将一个或多个相关的自变量从模型中剔除，使保留的自变量尽可能不相关；第二、如果要在模型中保留所有的自变量，则应避免根据 t 统计量对单个参数进行检验；对因变量值的推断(估计或预测)的限定在自变量样本值的范围内（2）若模型中存在序列相关时，解决的方法有：如果误差项不是相互独立的，则说明回归模型存在序列相关性，这时首先要查明

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 统计学贾俊平考研知识点总结 34319

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：统计学贾俊平考研知识点总结34319.pdf
链接地址：https://www.deliwenku.com/p-83945675.html