2021年度统计学贾俊平考研知识点总结.pdf
《2021年度统计学贾俊平考研知识点总结.pdf》由会员分享,可在线阅读,更多相关《2021年度统计学贾俊平考研知识点总结.pdf(67页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、记录学重点笔记第一章导论一、比较描述记录和推断记录:数据分析是通过记录办法研究数据,其所用办法可分为描述记录和推断记录。(1)描述性记录:研究一组数据组织、整顿和描述记录学分支,是社会科学实证研究中最惯用办法,也是记录分析中必不可少一步。内容涉及获得研究所需要数据、用图表形式对数据进行加工解决和显示,进而通过综合、概括与分析,得出反映所研究现象普通性特性。(2)推断记录学:是研究如何运用样本数据对总体数量特性进行推断记录学分支。研究者所关怀是总体某些特性,但许多总体太大,无法对每个个体进行测量,有时咱们得到数据往往需要破坏性实验,这就需要抽取某些个体即样本进行测量,然后依照样本数据对所研究总体
2、特性进行推断,这就是推断记录所要解决问题。其内容涉及抽样分布理论,参数预计,假设检查,方差分析,回归分析,时间序列分析等等。(3)两者关系:描述记录是基本,推断记录是主体二、比较分类数据、顺序数据和数值型数据:依照所采用计量尺度不同,可以将记录数据分为分类数据、顺序数据和数值型数据。(1)分类数据是只能归于某一类别非数字型数据。它是对事物进行分类成果,数据体现为类别,是用文字来表达,它是由分类尺度计量形成。(2)顺序数量是只能归于某一有序类别非数字型数据。也是对事物进行分类成果,但这些类别是有顺序,它是由顺序尺度计量形成。(3)数值型数据是按数字尺度测量观测值。其成果体现为详细数值,现实中咱们
3、所解决大多数都是数值型数据。总之,分类数据和顺序数据阐明是事物本质特性,普通是用文字来表达,其成果均体现为类别,因而也统称为定型数据或品质数据;数值型数据阐明是现象数量特性,普通是用数值来体现,因而可称为定量数据或数量数据。三、比较总体、样本、参数、记录量和变量:(1)总体是包括所研究所有个体集合。普通是咱们所关怀某些个体构成,如由各种公司所构成集合,各种居民户所构成集合。总体依照其所包括单位数目与否可数可以分为有限总体和无限总体。有限总体是指总体范畴可以明确拟定,并且元素数目是有限可数,需要注意是,记录意义上总体,普通不是一群人或某些物品集合,而是一组观测数据。(2)样本是从总体中抽取一某些
4、元素集合,构成样本元素数目称为样本容量。例如咱们从一批灯泡中随机抽取100个,这 100个灯泡就构成了一种样本。(3)参数是用来描述总体特性概括性数字度量。有总体平均数、原则差、总体比例。由于总体参数普通是不懂得,因此参数是一种未知常数。因此才需要进行抽样,依照样本来预计总体参数(4)样本量是用来描述样本特性概括性数字度量。记录量是依照样本数据计算出来 一 种 量,普 通 涉 及:样本平均数、样本原则差、样本比例等,由于样本是咱们已经抽 出 来,因此记录量总是懂得,抽样目就是要依照样本记录量推断总体参数。(5)变量是阐明现象某种特性概念。变量特点是从一次观测到下一次观测会呈现出差别或变化,分为
5、分类变量、顺序变量、数值型变量、离散型变量和持续型变量。第二章数据收集一、调查方案重要内容:(1)调 查 目:是调查所要达到详细目的,她 所 回 答 是“为什么调查 要解决什么样问题”等(2)调核对象和调查单位:调核对象是依照调查目拟定调查研究总体或调查范畴。调查单位是构成调查队选中每一种单位,它是调查项目和调查内容承担着或载体。所要解决是 向谁调查 由谁来提供所需数据(3)调查项目和调查表:调 查 项 目 要 解 决 问 题 是 调 查 什 么 ,也就是调查详细内容,大多数记录调查中,调查项目普通以表格形式来体现,称为调查表二、数据误差:记录数据误差普通是指记录数据与客观现实之间差距,误差类
6、型重要有抽样误差和非抽样误差两类。(1)抽样误差:重要是指在用样本数据进行推断时所产生随机误差。只存在于概率抽样中。此类误差普通是无法消除,但事先可以进行控制和计算。影响抽样误差大小因素:(a)抽样单位数目。在其她条件不变状况下,抽样单位数目越多,抽样误差越小;反之,越大。这是由于随着样本数目增多,样本构造越接近总体,抽样调查也就越接近全面调查,当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。(b)总体背研究标志变异限度。在其她条件不变状况下,总体标志变异限度越小,抽样误差越小,反之,越大。抽样误差和总体标志变异限度呈正比变化。这是由于总体变异限度小,表达总体各单位标志值之间差别小。则
7、样本指标与总体指标之间差别也也许小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差(c)抽样办法选取。重复抽样和非重复抽样抽样误差大小不同。采用不重复抽样比采用重复抽样抽样误差小(d)抽样组织方式不同。采用不同组织方式,会有不同抽样误差,这是由于不同抽样组织所抽中样本,对于总体代表性也不同,普通,常运用不同抽样误差,作出判断各种抽样组织方式比较原则。(2)非抽样误差:重要涉及:抽样框误差,回答误差、无回答误差、调查员误差;是调查过程中由于调查者或被调查者人为因素所导致误差。调查者所导致误差重要有:调查方案中关于规定或解释不明确导致填报错误、抄录错误、汇总错
8、误等;被调查者所导致误差重要有:因人为因素干扰形成故意虚报或瞒报调查数据。非抽样误差理论上是可以消除。三、简朴随机抽样:(1)概 念:从总体/V个单位中随机地抽取/7个单位作为样本,每个单位入抽样本概率是相等;(2)特 点:a、简朴、直观,在抽样框完整时,可直接从中抽取样本b、用样本记录量对目的量进行预计比较以便(3)局限性 当/V很大时,不易构造抽样框 抽出单位很分散,给实行调查增长了困难 没有运用其他辅助信息以提高预计效率第三章数据整顿与展示一、数据排序目:(1)数据排序是按一定顺序将数据排列,以发现某些明显特性或趋势,找到解决问题线索(2)排序尚有助于对数据检查纠错,以及为重新归类或分组
9、等提供以便。(3)在某些场合,排序自身就是分析目之一。二、数 据 分 组:是依照记录研究需要,将原始数据按照某种原则化提成不同组别,分组后数据成为分组数据。数据经分组后再计算出各组中数据浮现频数,就形成了一张频数分布表,分组办法有单变量值分组和组距分组两种,单变量分组普通只适合于离散变量,且在变量值较少状况下使用,在持续变量或变量值较多状况下,普通采用组距分组。三、组距分组环节和原则:(1)环节:a、拟定组数:组数拟定应以可以显示数据分布特性和规律为目。在实际分组时,可以按Sturges提出经验公式来拟定组数K 蹴 2)b、拟定组距:组距(Class Width)是一种组上限与下限之差,可依照
10、所有数据最大值和最小值及所分组数来拟定,即组距=(最大值-最小值)小组数c、记录出各组频数并整顿成频数分布表(2)原则:采用组距分组时,需 遵 循 不重不漏 原则,不重 是指一项数据只能分在其中某一组,不能在其她组中重复浮现;不漏 是指组别可以穷尽,即在所分所有组别中每项数据都能分在其中某一组,不能漏掉。为解决不重问题,记录分组时习惯上规定 上组限不在内,即当相邻两组上下限重叠时,正好等于某一组上限变量值不算在本组内,而计算在下一组内。固然,对于离散变量,咱们可以采用相邻两组组限间断办法解决 不重 问题。也可以对一种组上限值采用小数点形式,小数点位数依照所规定精度详细拟定。缺陷:组距分组掩盖了
11、各组内数据分布状况四、直方图和条形图区别:一方面,条形图是用条形长度(横置时)表达各类别频数多少,其宽度则是固定;直方图是用面积表达各组频数多少,频数高度表达每一组频数或频率,宽度则表达各组组距,因而高度与宽度均故意义。另一方面,由于分组数据具备持续性,直方图各矩形普通是持续排列,而条形图则是分开排列。最后,条形图重要用于展示各类数据,而直方图则重要用于展示数据型数据。五、绘制线图应注意问题:(1)时间普通绘在横轴,观测数据绘在纵轴(2)图形长宽比例要恰当,普通应绘成横轴略不不大于纵轴长方形,其长宽比例大体是1 0:7.(3)普通状况下,纵轴数据下端应从0开始,以便于比较,数据与0之间间距过大
12、,可以采用折断符号将纵轴折断六、设计登记表注意问题:一方面,要合理安排登记表构造,例如表号、行标题、列标题、数字资料位置应安排合理。另一方面,表头普通应涉及表号、总标题和表中数据单位等内容,总标题应简要确切地概括出登记表内容。再次,表中上下两条线普通用粗线,中间其她线用细线,表左右两边不封口,列标题之间可以用竖线分开,而行标题之间普通不必用横线隔开。最后,在使用登记表时,必要时可在表下方加上注释,特别注意标明数据来源。七、数据审核:(1)原始数据:a、完整性审核:检查应调查单位或个体与否有漏掉;所有调查项目或指标与否填写齐全b、精确性审核:检查数据与否真实反映客观实际状况,内容与否符合实际;检
13、查数据与否有错误,计算与否对的等(2)二手数据:a、合用性审核:弄清晰数据来源、数据口径以及关于背景材料;拟定数据与否符合自己分析研究需要b、时效性审核:尽量使用最新数据八、数据整顿与显示(基本问题)(1)要弄清所面对数据类型,由于不同类型数据,所采用解决方式和办法是不同(2 )对分类数据和顺序数据重要是做分类整顿(3 )对数值型数据则重要是做分组整顿(4)适合于低层次数据整顿和显示办法也适合于高层次数据;但适合于高层次数据整顿和显示办法并不适合于低层次数据第四章数据概括性度量一、集 中 趋 势 和 离 散 趋 势 度 量:(1 )集中趋势是指一组数据向某一中心值靠拢倾向,它反映了一组数据中心
14、点位置所在。描述集中趋势所采用测度值分为:众数、中位数和分位数、平均数。(2)离散趋势是数据分布另一种重要特性,它所反映各变量值远离其中心值得限度,因而也称为离中趋势,数据离散限度越大,集中趋势测度值对该组数据代表性越差,反之,代表性越好。描述数据离散限度所采用测度值,依照所根据数据类型不同重要有异种比率、四分位差、方差和原则差。此外尚有极差、平均差以及测度相对离散限度离散系数。二、众 数、中 位 数 和 平 均 数:(1)三者关系:从分布角度看,众数始终是一组数据分布最高峰值,中位数处在一组数据中间位置上值,而平均数则是所有数据算数平均。因而,对于具备单峰分布大多数数据而言,众数、中位数和平
15、均数之间具备如下关系:(a)如果数据分布是对称,众数、中位数、平均数必然相等(b)如果数据是左偏分布,阐明数据存在极小值,必然拉动平均数向极小值一方接近,而众数和中位数由于是位置代表值,不受极值影响,因而三者关系为众数 中位数 平均数(c)如果数据是右偏分布,阐明数据存在极大值,必然拉动平均数向极大值一方接近,则众数 中位数 平均数。(2)特点及应用场合(a)众数是一组数据峰值,是一种位置代表词,不受极端值影响,具备不唯一性,对于一组数据也许有一种众数,也也许有两个或各种众数,也也许没有众数。虽然对于4 质序数据以及数值型数据也可以计算众数,但众数重要适合于作为分类数据集中趋势测度值。(b)中
16、位数是一组数据中间位置上代表值,重要适合于作为顺序数据集中趋势测度值,虽然对于顺序数据可以使用众数,但以中位数为宜。(c)平均数是就数值型数据计算,并且运用了所有数据信息,它是实际中应用最广泛集中趋势测度值。平均数重要适合于作为数值型数据集中趋势测度值。当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这是咱们应当选取平均数作为集中趋势代表值。但平均数重要缺陷是易受数据极端值得影响,对于偏态分布数据,平均数代表性较差。因而,当数据为偏态分布,特别是当偏斜限度较大时,咱们可以考虑选取众数或中位数等位置代表词。三、异种比率:是非众数组频数占总频数比率。重要用于衡量众数对一组数据代表限度。
17、异众比率越大,阐明非众数组频数占总频数比重越大,众数代表性越差。反之,越小,众数代表性越好。异种比率重要适合测度分类数据离散限度。固然,对于顺序数据以及数值型数据也可以计算异种比率。四、四分位差:是上四分位数与下四分位数之差。反映了中间50%数据离散限度,其数值越小,阐明中间数据越集中,数值越大,阐明中间数据越分散。四分位差不受极值影响。重要用于测度)1质序数据离散限度,固然,对于数值型数据也可以计算四分位差,但不适合于分类数据。五、方差和原则差:极差是一组数据最大值与最小值之差,也称为全距。它容易受极端值影响,由于极差只是运用了一组数据两端信息,不能反映出中间数据分散状况,因而不能精确描述出
18、数据分散限度。平均差是各变量值与其平均数离差绝对值平均数,平均差以平均数为中心,反映了每个数据与平均数平均差别限度,它能全面精确反映一组数据离散状况。平均差越大阐明数据离散限度就越大,反之,越小。为了避免离差之和等于0 而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差绝对值来表达总离差。方差(或原则差)是实际中应用最广泛离散限度测度值,因而它能精确反映出数据离散限度。方差是各变量值与其平均数离差平方平均数。原则差是方差平方根,与方差不同是,原则差是具备量纲,它与变量值计量单位相似,其实际意义要比喻差清晰,因而,在对实际问题进行分析时,咱们更多使用原则差。六、原则分数:原则分数是
19、指变量值与其平均数离差除以原则差后差。可以测度每个数据在该组数据中相对位置,并可以用它来判断一组数据与否有离群数据,也给出了一组数据中各数值相对位置,例如,如果某个数值原则分数为-1.5,咱们就懂得该数值低于平均数 1.5倍原则差。在对各种具备不同量纲变量进行解决时,经常需要对各变量数值进行原则化解决。原则分数具备平均数为0、原则差为1特性。事实上,原则分数只是将原始数据进行了线性变换,它并没有变化一种数据在该组数据中位置,也没有变化改组数据分布形状,而只是使该组数据平均数为0、原则差为10七、经验法则:经验法则表白:当一组数据对称分布时(1)约有68%数据在平均数加减1 个原则差范畴之内(2
20、)约有95%数据在平均数加减2 个原则差范畴之内(3)约有99%数据在平均数加减3 个原则差范畴之内八、切比雪夫不等式:如果一组数据不是对称分布,经验法则就不再合用,这时就要使用切比雪夫不等式,它对任何分布形状数据都合用,对于任意分布形态数据,依照切比雪夫不等式,至少有(1-1八2)数据落在k个原则差之内。其中k是不不大于1任意值,但不一定是整数。对于k=2、3、4,该不等式含义是:(1)至少有75%数据在平均数加减2个原则差范畴之内(2)至少有89%数据在平均数加减3个原则差范畴之内(3)至少有94%数据在平均数加减4 个原则差范畴之内九、相对离散限度:离散系数作用:极差、平均差、方差和原则
21、差等都是反映数据分散限度绝对值,其数值大小一方面取决于原变量值自身水平高低影响,也就是与变量平均数大小关于,变量值绝对水平高,离散限度测度值自然也就大。绝对水平小离散限度测度值自然也就小;另一方面,它们与原变量值计量单位相似,采用不同计量单位计量变量值,其离散限度测度值也就不同。因而对于平均水平不同或者计量单位不同不同组别变量值,是不能用上述离散限度测度值直接比较其离散限度。为消除变量值水平高低和计量单位不同对离散限度测度值影响,需要计算离散系数o 离散系数是指一组数据原则差与其相应平均数之比。离散系数是测度数据离散限度相对记录量,普通是就原则差来计算,因而也称为原则差系数,离散系数作用重要是
22、用于比较对不同样本数据离散限度。离散系数大阐明数据离散限度大,离散系数小阐明数据离散限度小。十、测度数据分布形状记录量:(1)偏态:如果一组数据分布对称,则 SK=O,如果SK明显不等于零,表白分布是非对称。当 SK为正值时,表达正偏离差值较大,可以判断为正偏或右偏;反之,为负偏或左偏,SK值越大,表达倾斜限度就越大(2)峰态:如果一组数据服从原则正态分布,则峰态系数值等于0,若峰态系数值明显不同于0,表白分布比正太分布更平或更尖,普通称为平峰分布或尖峰分布。当 K0时为尖峰分布,当 K=30),无论本来总体与否服从正态分布,样本值抽样分布都趋于正态分布,其分布数学盼望为总体均值日,方差为总体
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2021 年度 统计学 贾俊平 考研 知识点 总结
限制150内