统计学贾俊平考研知识点总结34319.pdf
《统计学贾俊平考研知识点总结34319.pdf》由会员分享,可在线阅读,更多相关《统计学贾俊平考研知识点总结34319.pdf(45页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、统计学重点笔记 第一章导论 一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,
2、然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。(3)两者的关系:描述统计是基础,推断统计是主体 二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。(1)分类数据是只能归于某一类别的非数字型数据。它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。(2)顺序数量是只能归于某一有序类别的非数字型数据。也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。(3)数值型数据是
3、按数字尺度测量的观察值。其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。总体根据其所包含的单位数目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的,需要注意的是,统
4、计意义上的总体,通常不是一群人或一些物品的集合,而是一组观测数据。(2)样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。例如我们从一批灯泡中随机抽取 100 个,这 100 个灯泡就构成了一个样本。(3)参数是用来描述总体特征的概括性数字度量。有总体平均数、标准差、总体比例。由于总体参数通常是不知道的,所以参数是一个未知的常数。所以才需要进行抽样,根据样本来估计总体参数(4)样本量是用来描述样本特征的概括性数字度量。统计量是根据样本数据计算出来的一个量,通常包括:样本平均数、样本标准差、样本比例等,由于样本是我们已经抽出来的,所以统计量总是知道的,抽样的目的就是要根据样
5、本统计量推断总体参数。(5)变量是说明现象某种特征的概念。变量的特点是从一次观察到下一次观察会呈现出差别或变化,分为分类变量、顺序变量、数值型变量、离散型变量和连续型变量。第二章 数据收集 一、调查方案的主要内容:(1)调查目的:是调查所要达到的具体目标,他所回答的是“为什么调查”“要解决什么样的问题”等(2)调查对象和调查单位:调查对象是根据调查目的的确定的调查研究的总体或调查范围。调查单位是构成调查队选中的每一个单位,它是调查项目和调查内容的承担着或载体。所要解决的是“向谁调查”由谁来提供所需数据(3)调查项目和调查表:调查项目要解决的问题是“调查什么”,也就是调查的具体内容,大多数统计调
6、查中,调查项目通常以表格的形式来表现,称为调查表 二、数据的误差:统计数据的误差通常是指统计数据与客观现实之间的差距,误差的类型主要有抽样误差和非抽样误差两类。(1)抽样误差:主要是指在用样本数据进行推断时所产生的随机误差。只存在于概率抽样中。这类误差通常是无法消除的,但事先可以进行控制和计算。影响抽样误差大小的因素:(a)抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;反之,越大。这是因为随着样本数目的增多,样本结构越接近总体,抽样调查也就越接近全面调查,当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。(b)总体背研究标志的变异程度。在其他条件不变的情况下,
7、总体标志的变异程度越小,抽样误差越小,反之,越大。抽样误差和总体标志的变异程度呈正比变化。这是因为总体的变异程度小,表示总体各单位标志值之间的差异小。则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差(c)抽样方法的选择。重复抽样和非重复抽样的抽样误差大小不同。采用不重复抽样比采用重复抽样的抽样误差小(d)抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同,通常,常利用不同的抽样误差,作出判断各种抽样组织方式的比较标准。(2)非抽样误差:主要包括:抽样框误
8、差,回答误差、无回答误差、调查员误差;是调查过程中由于调查者或被调查者的人为因素所造成的误差。调查者所造成的误差主要有:调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等;被调查者所造成的误差主要有:因人为因素干扰形成的有意虚报或瞒报调查数据。非抽样误差理论上是可以消除的。三、简单随机抽样:(1)概念:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的;(2)特点:a、简单、直观,在抽样框完整时,可直接从中抽取样本 b、用样本统计量对目标量进行估计比较方便(3)局限性 当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其它辅助
9、信息以提高估计的效率 lg(lg()2lg()lg(1nK 第三章 数据的整理与展示 一、数据排序的目的:(1)数据排序是按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索(2)排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。(3)在某些场合,排序本身就是分析的目的之一。二、数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据成为分组数据。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表,分组方法有单变量值分组和组距分组两种,单变量分组通常只适合于离散变量,且在变量值较少的情况下使用,在连续变量或变量值较多情况下,通
10、常采用组距分组。三、组距分组的步骤和原则:(1)步骤:a、确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K b、确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距(最大值-最小值)组数 c、统计出各组的频数并整理成频数分布表 (2)原则:采用组距分组时,需遵循“不重不漏”的原则,“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。为解决不重的问题,
11、统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。当然,对于离散变量,我们可以采用相邻两组组限间断的办法解决“不重”的问题。也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。缺点:组距分组掩盖了各组内的数据分布状况 四、直方图和条形图的区别:首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,频数的高度表示每一组的频数或频率,宽度则表示各组的组距,因此高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形
12、图则是分开排列。最后,条形图主要用于展示各类数据,而直方图则主要用于展示数据型数据。五、绘制线图应注意的问题:()时间一般绘在横轴,观测数据绘在纵轴()图形的长宽比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比例大致是:.()一般情况下,纵轴数据下端应从开始,以便于比较,数据与之间的间距过大,可以采取折断的符号将纵轴折断 六、设计统计表注意的问题:首先,要合理安排统计表的结构,例如表号、行标题、列标题、数字资料的位置应安排合理。其次,表头一般应包括表号、总标题和表中数据的单位等内容,总标题应简明确切地概括出统计表的内容。再次,表中的上下两条线一般用粗线,中间的其他线用细线,表的左右两边不
13、封口,列标题之间可以用竖线分开,而行标题之间通常不必用横线隔开。最后,在使用统计表时,必要时可在表下方加上注释,特别注意标明数据来源。七、数据的审核:(1)原始数据:a、完整性审核:检查应调查的单位或个体是否有遗漏;所有的调查项目或指标是否填写齐全 b、准确性审核:检查数据是否真实反映客观实际情况,内容是否符合实际;检查数据是否有错误,计算是否正确等(2)二手数据:a、适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料;确定数据是否符合自己分析研究的需要 b、时效性审核:尽可能使用最新的数据 八、数据的整理与显示(基本问题)(1)要弄清所面对的数据类型,因为不同类型的数据,所采取的处理
14、方式和方法是不同的(2)对分类数据和顺序数据主要是做分类整理(3)对数值型数据则主要是做分组整理(4)适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据 第四章 数据的概括性度量 一、集中趋势和离散趋势的度量:(1)集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。描述集中趋势所采用的测度值分为:众数、中位数和分位数、平均数。(2)离散趋势是数据分布的另一个重要特征,它所反映的各变量值远离其中心值得程度,因此也称为离中趋势,数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差,反之,代表性越好。描述数
15、据离散程度所采用的测度值,根据所依据的数据类型的不同主要有异种比率、四分位差、方差和标准差。此外还有极差、平均差以及测度相对离散程度的离散系数。二、众数、中位数和平均数:(1)三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数的处于一组数据中间位置上的值,而平均数则是全部数据的算数平均。因此,对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:(a)如果数据的分布是对称的,众数、中位数、平均数必定相等(b)如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠近,而众数和中位数由于是位置代表值,不受极值的影响,因此三者的关系为众数中位数平均数
16、(c)如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数中位数0 时为尖峰分布,当 K=30),不论原来的总体是否服从正态分布,样本值的抽样分布都趋于正态分布,其分布的数学期望为总体均值,方差为总体方差的 1/n,这就是中心极限定理,表述为:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布 四、重复抽样和不重复抽样相比,抽样均值分布的标准差有何不同 样本均值的方差与抽样方法有关,在重复抽样条件下,样本均值的方差为总体方差的 1/n,即 在不重复抽样条件下,样本均值的方差则需要用修正系数
17、去修正重复抽样时样本均值的方差,即 不重复抽样的样本均值的方差小于重复抽样时的样本均值的方差 对于无限总体进行不重复抽样时,可以按照重复抽样来处理,对于有限总体,当 N 很大,而抽样比 n/N 很小时,其修正系数趋于 1,这时样本均值的方差也可以按照重复抽样的样本均值的方差公式来计算 五、2 分布的性质和特点(1)分布的变量值始终为正 (2)分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 (3)期望为:E(2)=n,方差为:D(2)=2n(n为自由度)(4)可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从
18、自由度为n1+n2的2分布 第七章 参数估计 一、评价估计量的标准 实际上,用于估计的的估计量有很多,如我们可以用样本均值作为总体均值的估计量,也可以用样本中位数作为总体均值的估计量,什么样的估计量才算是一个好的估计量呢?这需要一定的评价标准:1、无偏性:估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为,被选择的估计量为,如果 E()=,称为的无偏估计量。X22nX2222X122NnNnX2、有效性:对同一总体参数的两个无偏估计量,方差较小的是更有效的估计量。3、一致性:随着样本容量的增大,点估计量的值越来越接近被估的总体的参数。换言之,一个大样本给出的估计量要比一个小样本给出的估
19、计量更接近总体的参数 二、怎样理解置信区间 置信区间:由样本统计量所构造的总体参数的估计区间,其中区间的最小值称为置信下限,区间最大值称为置信上限。是一个随机区间,的置信区间意味着,置信区间包含未知参数的概率为,这个区间会随着样本观察值的不同而不同。但 100 次运用这个区间,约有 100()个区间能包含参数,也就是说大约还有 100 a个区间不包含总体参数 判断置信区间优势的标准(好的置信区间的特性):置信度越高越好;置信区间宽度越小越好。三、影响区间宽度的因素 1.总体数据的离散程度,用 s 来测度 2.样本容量:当置信水平固定时,置信区间的宽度随着样本容量的增大而减小,换言之,较大的样本
20、所提供的有关总体的信息要比小样本多。3.置信水平(1-a),影响 z 的大小:置信水平越大,z 越大 四、简述样本容量与置信水平、总体方差、估计误差的关系=()(1)样本量与置信水平呈正比,在其他条件不变的情况下,置信水平越大,所需的样本容量也就越大 (2)样本量与总体方差呈正比,总体的差异越大,所需的样本容量就越大 (3)样本量与边际误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量就越小 五、的含义是什么?Z2 是标准正态分布上侧面积为2时的 z 值。Z2 n是估计总体均值时的边际误差,也称为估计误差或误差范围 六、对两个总体均值之差的小样本估计中,对两个总体和样本都有哪些假定
21、 (1)两个总体都服从正态分布 (2)两个随机样本独立地分别抽自两个总体 七、解释 95%的置信区间 抽取 100 个样本,根据每个样本构造一个置信区间,这样由 100 个样本构造的总体参数的 100 个置信区间中,95%的区间包含了总体参数的真值,而 5%没包含 八、对于总体比例的估计,确定样本容量是否“足够大“的一般经验规则是:区间p 2p(1 p)2 中不包含 0 或 1.或要求 np5 和 n(1-p)5 八、独立样本和匹配样本 如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称为独立样本。匹配样本是指一个样本中的数据与另一个样本中的数据相对应
22、九、估计量和估计值(1)估计量:用于估计总体参数的随机变量 如样本均值,样本比例、样本方差等 例如:样本均值就是总体均值m 的一个估计量 参数用 表示,估计量用 表示(2)估计值:估计参数时计算出来的统计量的具体值 如果样本均值 x=80,则 80 就是 m 的估计值 第八章 假设检验 一、参数估计和假设检验的区别和联系(1)主要联系:a.都是根据样本信息推断总体参数;b.都以抽样分布为理论依据,建立在概率论基础之上的推断,推断结果都有风险;c.对同一问题的参数进行推断,使用同一样本,同一统计量,同一分布,二者可相互转换(2)主要区别:a.参数估计是以样本信息估计总体参数的可能范围,假设检验是
23、先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立;b.区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;c.区间估计立足于大概率,通常以较大的可信度(1-a)去估计总体参数的置信区间。假设检验立足于小概率。通常是给定很小的显著性水平 a 去检验总体参数的先验假设是否正确 二、什么是假设检验中的显著性水平?统计显著是什么意思?(1)显著性水平是当原假设正确时却被拒绝的概率或风险,即假设检验中犯弃真错误的概率,通常用表示,它是人们根据经验的要求确定的,通常取=0.05 或 0.01。显著性水平是人们事先指定的犯第类错误概率的最大允许值,确定了显
24、著性水平,就等于控制了第类错误的概率。但犯第类错误 的概率却是不确定的(2)统计显著值在原假设为真的条件下,用于检验的样本统计量的值落在了拒绝域内,作出了拒绝原假设的决定 三、什么是假设检验的两类错误及其数理关系怎样 (1)假设检验中所犯的错误有两种:一类错误是原假设为真却别拒绝了,犯这类错误的概率用表示,也称第类错误。另一类错误是原假设为假却没有拒绝,犯这种错误的概率用 表示,也称第类错误 (2)当 增加时 减小,当 增大时 减小,要使和同时减小的唯一办法是增加样本容量 四、假设检验的步骤(1)陈述原假设H0和备择假设H1。(2)从所研究的总体中抽出一个随机样本(3)确定一个适当的检验统计量
25、,并利用样本数据算出其具体数值(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域(5)将统计量的值与临界值进行比较,作出决策。统计量的值落在拒绝域,拒绝H0,否则不拒绝H0,或者也可以直接利用 P 值作出决策 五、建立原假设和备择假设的原则(建立假设的几点认识)(1)原假设和备择假设是一个完备事件组,且相互独立(2)在建立假设时,通常是先确定备择假设,然后再确定原假设(3)在假设检验中,等号“=”总是放在原假设上。这是因为我们想涵盖备择假设H1不出现的所有情况(4)这样的假设本质上带有一定的主观色彩,在面对某一实际问题,由于不同研究者有不同的研究目的,即使对同一问题也可能提出截然相反
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 贾俊平 考研 知识点 总结 34319
限制150内