《山大陈波学习教案.pptx》由会员分享,可在线阅读,更多相关《山大陈波学习教案.pptx(43页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、山大陈波山大陈波第一页,共43页。Logit 模型(mxng)Logit模型假定(jidng)模型的误差项服从Logistic分布 利用极大似然估计方法拟合,Yhat=0 负的产出Yhat0(通常yhat=1)正的产出第1页/共42页第二页,共43页。例如:sysuse auto,clear logit foreign weight mpg相当于计算(j sun)如下概率:Pr(foreign=1)=F(B0+B1weight+B2mpg)第2页/共42页第三页,共43页。1。获得个体取值为1的概率。predict p1,pr list p1 foreign 对比一下结果,判断有正有误 2。对
2、预测(yc)准确率的判断 estat class 结果解读第3页/共42页第四页,共43页。敏感性(Sensitivity)指 即真实值取1而预测准确(zhnqu)的概率;特异性(Specificity)是指 即真实值取0而预测准确(zhnqu)的概率。默认的门限值为0.5。第4页/共42页第五页,共43页。3 3。受试者操控曲线(。受试者操控曲线(Receiver operating characteristicReceiver operating characteristic,简称为,简称为ROCROC曲线)是指敏感性与(曲线)是指敏感性与(1-1-特异性)的散点图特异性)的散点图,即预测
3、值等于即预测值等于1 1的准确率与错误率的散点图。的准确率与错误率的散点图。lroc lroc 4 4。goodness-of-fit goodness-of-fit 拟合优度检验拟合优度检验 estat gof estat gof 5 5。变量。变量(binling)(binling)的边际影响的边际影响回归结果中,估计量回归结果中,估计量 并非并非“边际效应边际效应”(marginal effectsmarginal effects),因),因此要用命令:此要用命令:mfx mfx第5页/共42页第六页,共43页。Probit模型(mxng)Probit模型假定误差项的分布形式(xngsh
4、)为标准正态分布:回归方法和检验方法与Logit模型类似。probit foreign weight mpg第6页/共42页第七页,共43页。注意:由于Probit 与Logit 所使用的分布函数(hnsh)不同,其参数估计值并不直接可比。雨宫(Amemiya)提出:同一个模型的logit和probit模型大概具有如下关系:Blogit 约等于 1.6*BProbit但利用mfx计算的两者的边际效应应该大致相同。第7页/共42页第八页,共43页。一个(y)综合例子使用美国妇女就业数据集“womenwork.dta”,估计决定就业的Probit与Logit模型。被解释变量为work=1,就业;w
5、ork=0,不就业。解释变量为age(年龄),married(婚否),children(子女数),education(教育(jioy)年限)。第8页/共42页第九页,共43页。use womenwork,clear use womenwork,clear logit work age married children education logit work age married children education mfx mfx estat class estat class predict p1,pr predict p1,pr list work p1 list work p1 lr
6、oc lroc estat gof estat gof 注意:注意:marriedmarried是离散变量是离散变量(binling)(binling),因此执行,因此执行mfxmfx后的结果的含义不后的结果的含义不同。同。第9页/共42页第十页,共43页。probit work age married children education probit work age married children education mfx mfx estat class estat class predict p2,pr predict p2,pr list work p2 list work p2
7、 lroc lroc estat gof estat gof tab work tab work tab work if p20.5 tab work if p20.5第10页/共42页第十一页,共43页。2。多项选择模型。多项选择模型(mxng)多多项项Logit模模型型(mxng):由由于于可可选选项项目目有有多多项项,因因此此输输出出结结果果时时stata将将自自动动指指定定一一个个为为基基础础类类别别(Base Output),显显示示各各个个变变量量对对另另外外几几个类别的影响系数个类别的影响系数。第11页/共42页第十二页,共43页。use brand,clear use bran
8、d,clear tab brand tab brand mlogit brand age female mlogit brand age female 结果结果(ji gu)(ji gu)分析分析 可以利用可以利用predictpredict提取个体选择概率提取个体选择概率 predict p1 p2 p3 predict p1 p2 p3 list list 可以根据研究需要,自由地指定用来比较的可以根据研究需要,自由地指定用来比较的base outcomebase outcome(参照点)。(参照点)。mlogit brand age female,base(3)mlogit brand
9、age female,base(3)第12页/共42页第十三页,共43页。排序(pi x)选择模型 根据GSS的调查数据,不同的家庭母亲与子女之间的关系也不同。根据调查显示(xinsh),有的家庭母子(女)关系比较紧张,有的比较融洽。变量包括:warm=关系融洽度(0、1、2、3);educ=子女接受教育的程度;age=子女年龄;male=儿子;prst=职业威望;white=白人;y89=89年调查结果。分析不同因素对母子(女)关系的融洽程度有何影响。第13页/共42页第十四页,共43页。use ordwarm,clear tab warm 建立(jinl)如下方程:第14页/共42页第十五
10、页,共43页。ologit warm ed age male prst white yr89 oprobit warm ed age male prst white yr89 结果(ji gu)解读 predict p1 p2 p3 p4 list p1 p2 p3 p4第15页/共42页第十六页,共43页。第16页/共42页第十七页,共43页。计数(j sh)模型1。泊松回归(hugu)2。负二项回归(hugu)第17页/共42页第十八页,共43页。泊松回归(hugu)模型有些被解释变量只能(zh nn)取非负整数,即0,1,2,.,对于这一类“计数数据”,常使用“泊松回归”(Poisson
11、 regression)。yi=1,2,。我们知道,泊松分布的最大特点是条件期望和方差相等。即 第18页/共42页第十九页,共43页。利用数据集利用数据集poissonreg.dtapoissonreg.dta估计决定初中生旷课天数估计决定初中生旷课天数(tinsh)(tinsh)(daysabsdaysabs)的计数模型。解释变量为的计数模型。解释变量为langartslangarts(语言艺术课成绩)与(语言艺术课成绩)与malemale(是否男性)。(是否男性)。use poissonreg,clear use poissonreg,clear poisson daysabs langa
12、rts male poisson daysabs langarts male predict p1,n predict p1,n list list mfx mfx estat gof estat gof第19页/共42页第二十页,共43页。泊松MLE分析常常受到很多限制,如泊松分布的所有概率以及更高阶矩完全由其均值决定,特别是方差等于均值这一点有明显的局限性。事实表明(biomng),大多数应用都难以满足这一条件。如果被解释变量的方差明显大于期望,即存在“过度分散”(overdispersion)因此,如果出现“过度分散”,可以考虑使用“负二项回归”。第20页/共42页第二十一页,共43页。
13、负二项回归负二项回归(hugu)模型模型所谓负二项分布是指,在独立的实验中,成功n次的时候,失败次数x的概率分布。当成功n次时,实验停止,此时(c sh)失败次数为x,那么总的实验次数为(n+x),而且最后一次(即第(n+x)次)是成功的。那么,前(n+x-1)次试验中成功次数为(n-1)、失败次数为x。负二项分布适用于当试验成功的次数(n)确定下来后,试验失败的次数(x)的分布。第21页/共42页第二十二页,共43页。nbreg daysabs langarts male 命令结果中将提供一个LR 检验(jinyn),原假设:不存在过度分散,应该使用泊松回归。此时alpha=0。备则假设:a
14、lpha0,不能使用泊松回归。第22页/共42页第二十三页,共43页。受限因变量模型受限因变量模型(mxng)1。断尾回归(hugu)2。截取回归(hugu)第23页/共42页第二十四页,共43页。断尾回归(hugu)对于线性模型yi=xB+i,假设由于某种原因,只有满足yi c(c为常数)的数据才能观测(gunc)到。因此,当yi=10000 reg price weight length gear_ratio if price=10000第25页/共42页第二十六页,共43页。截取(jiq)回归对于线性模型yi=xB+i,如果满足yi c或者(yi c)(c为常数),使得yi=c。截取回归
15、与断尾回归不同(b tn)的是,我们虽然有全部的观测数据,但对于某些观测数据,被 解释变量yi被压缩在一个点上了。此时,yi的概率分布就变成由一个离散点与一个连续分布所组成的“混合分布”。第26页/共42页第二十七页,共43页。tobit y x1 x2 x3,ll(#)(变量#的被右截断)tobit y x1 x2 x3,ll(#)ul(#)(l同时(tngsh)定义下限和上限)第27页/共42页第二十八页,共43页。利用womenwork.dta的数据进行普通(ptng)OLS回归和截取回归。被解释变量为lwf(log of wage if working and 0 if not wor
16、king)。解释变量为age(年龄),married(婚否),children(子女数),education(教育年限)。use womenwork,clear reg lwf age married children education tobit lwf age married children education,ll(0)第28页/共42页第二十九页,共43页。随机数的产生和常用(chn yn)分布例1:产生(chnshng)10000个服从0,1均匀分布的随机数和10000个服从正态分布的随机数。clear set obs 10000 gen x=uniform()histogram
17、 x gen y =invnormal(uniform()histogram y,normal第29页/共42页第三十页,共43页。伪随机数例二:clear set obs 10000 gen x1=uniform()gen x2=uniform()list x1 x2 in 1/50 但是(dnsh)如果加上一句话:set seed 123,情况会发生变化。第30页/共42页第三十一页,共43页。set seed 12345 gen x3=uniform()set seed 12345 gen x4=uniform()list x3 x4 in 1/50 第31页/共42页第三十二页,共43
18、页。原因:计算机产生的随机数是伪随机数,它是通过一个或者多个复杂的公式原因:计算机产生的随机数是伪随机数,它是通过一个或者多个复杂的公式计算出来的,是有迹可寻的。计算出来的,是有迹可寻的。例如:公式可以为:例如:公式可以为:X_j=(a*X_(j-1)+c)mod m (j=1,2,.)X_j=(a*X_(j-1)+c)mod m (j=1,2,.)其中其中(qzhng)(qzhng):mm是一个很大的数;是一个很大的数;a*X_(j-1)a*X_(j-1)为种子。为种子。蒙特卡罗模拟和自抽样一般都要提供种子,已被检验和分析。蒙特卡罗模拟和自抽样一般都要提供种子,已被检验和分析。第32页/共4
19、2页第三十三页,共43页。常用分布(fnb)随机数的产生 findit rnd findit rnd1 1。自由度为。自由度为k k的的chi2 chi2 分布分布(fnb)Chi2(k)(fnb)Chi2(k)clear clear rndchi 10000 5 rndchi 10000 5 histogram xc,normal histogram xc,normal特点:向右拖尾。特点:向右拖尾。2 2。自由度为。自由度为k k的的t t分布分布(fnb)t(k)(fnb)t(k)clear clear rndt 10000 5 rndt 10000 5 histogram xt,nor
20、mal histogram xt,normal特点:尖峰厚尾特点:尖峰厚尾第33页/共42页第三十四页,共43页。3 3。自由度为。自由度为k1k1,k2k2的的F F分布分布 clear clear rndf 1000 3 20 rndf 1000 3 20 histogram xf histogram xf 4 4。参数为。参数为 的指数分布:的指数分布:clear clear rndexp 10000 3 rndexp 10000 3 histogram xe histogram xe 更多的统计更多的统计(tngj)(tngj)分布量察看分布量察看 help rnd help rnd第
21、34页/共42页第三十五页,共43页。自抽样(chu yn)(Bootstrap)实质:可重复抽样实质:可重复抽样通过通过(tnggu)(tnggu)一个简单例子说明基本原理:一个简单例子说明基本原理:1-91-9九个数求均值。九个数求均值。clear clear input x input x 输入输入1-91-9九个数九个数 保存为保存为sample.dtasample.dta use sample,clear use sample,clear bsample 9 bsample 9 list list 反复执行:可以发现每次不同的重复抽样。反复执行:可以发现每次不同的重复抽样。第35页/
22、共42页第三十六页,共43页。利用利用BootstrapBootstrap命令实现命令实现(shxin)(shxin)模拟:模拟:use sample,clear use sample,clear bootstrap x_m=r(mean),reps(500)saving(sample1,replace):sum bootstrap x_m=r(mean),reps(500)saving(sample1,replace):sum x x 或者简写为:或者简写为:bs x_m=r(mean),reps(500)saving(sample1,replace):sum x bs x_m=r(mean
23、),reps(500)saving(sample1,replace):sum x use sample1,clear use sample1,clear sum x_m sum x_m第36页/共42页第三十七页,共43页。使用(shyng)BS得到标准误 sysuse auto,clear 普通回归:reg price weight length foreign 利用BS方法(fngf):reg price weight length foreign,vce(bs,reps(500)或者使用下列方法(fngf):bootstrap,reps(500):reg price weight len
24、gth foreign第37页/共42页第三十八页,共43页。蒙特卡罗模拟(mn)基本思想:向这个正方形随机地射箭,并假设其落点在该正方形上服从二维均匀分布。重复实验n 次(n 很大),其中有m 次落在1/4圆内。根据(gnj)大数定律,m/n/4,故 4m/n。第38页/共42页第三十九页,共43页。模拟中心极限(jxin)定理根据中心极限定理(CLT),当样本容量n 时,样本均值收敛于正态分布。假设x 服从在(0,1)上的均匀分布,样本容量为30,我们用蒙特卡罗法得到样本均值的分布,并将其与正态分布相比较(bjio)。为此,抽取10,000 个样本容量为30 的随机样本,得到30个样本均值
25、的10,000 个观测值,然后画其直方图。第39页/共42页第四十页,共43页。建立建立(jinl)(jinl)程序:程序:lnsim.adolnsim.ado cap program drop lnsim cap program drop lnsim program define lnsim,rclass program define lnsim,rclass version 10 version 10 drop _all drop _all set obs 30 set obs 30 tempvar z tempvar z gen z=uniform()gen z=uniform()summarize z summarize z return scalar mean=r(mean)return scalar mean=r(mean)end end第40页/共42页第四十一页,共43页。simulate mean=r(mean),reps(10000):lnsim hist mean,normal edit 显示的每一个(y)数是30个0,1之间随机数的均值,一共10000个,其分布为正态分布。第41页/共42页第四十二页,共43页。感谢您的观看感谢您的观看(gunkn)。第42页/共42页第四十三页,共43页。
限制150内