倾向值匹配.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《倾向值匹配.ppt》由会员分享,可在线阅读,更多相关《倾向值匹配.ppt(38页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、倾向值匹配研究(Propensity Matched Study)对于个体i,其未来收入yi可能有两种状态,取决于是否参加此项目,即:yi=y1iy0i若Di=1若Di=0其中,y0i表示个体i未参加项目的未来收入,而y1i表示个体i参加项目的未来收入,(y1i-y0i)即个体i参加该项目的因果效应由于无法同时观测到y0i和y1i,产生了一种“数据缺失”的问题处理效应:处理效应:在经济学中,我们常常希望评估某项目或政策实施后的效应,如政策推出的各种项目,此类研究被称之为项目效应评估,也被称之为处理效应,项目参与者的全体构成控制组或对照组,而未参加项目者则构成控制组或对照组。即y1i-y0i选择
2、难题:选择难题:由于个体通常会根据其参加项目的预期收益E(y1i-y0i)而自我选择是否参加项目,导致对平均处理效应的估计带来困难平均处理效应(ATE)E(y1i-y0i):表示从总体中随机抽取某个体的期望处理效应,无论该个体是否参与项目参与者平均处理效应(ATT)E(y1i-y0i|Di=1)非参与者平均处理效应(ATU)E(y1i-y0i|Di=0)E(y1i|Di=1)-E(y0i|Di=0)E(y1i|Di=1)-E(y0i|Di=1)+E(y0i|Di=1)-E(y0i|Di=0)参与者与未参与者的平均差异ATT选择偏差=依可测变量选择:依可测变量选择:如果个体i对Di的选择完全取决
3、于可观测的xi两大假定:两大假定:可忽略性:给定xi,则(y0i,y1i)独立于Di 均值可忽略性:在给定xi的情况下,y0i和y1i都均值独立于Di匹配估匹配估计量的基本思路:量的基本思路:找到属于控制组的某个体j使得其与属于处理组的个体i的可测变量取值尽可能相似,即xi xj基于可忽略性假设,则个体i与个体j进入处理组的概率相近,具有可比性,故可将yj作为y0i的估计量倾向值是在倾向值是在 1983 年由学者年由学者 Rubin 和和 Rosenbaum 首次给出了明确的首次给出了明确的定义:定义:指在一系列可观察到的协变量条件下,任意一个研究对象被指在一系列可观察到的协变量条件下,任意一
4、个研究对象被分配到试验组或者对照组的概率。分配到试验组或者对照组的概率。在一般的实证研究中,由于存在很多其他变量混淆自变量和因变量在一般的实证研究中,由于存在很多其他变量混淆自变量和因变量之间的关系,研究者很难直接探索二者之间的净效果之间的关系,研究者很难直接探索二者之间的净效果(net effects)。这些混淆变量的影响通常被称为选择性误差这些混淆变量的影响通常被称为选择性误差(selectionbias),而通而通过过倾向值匹配倾向值匹配的方式来控制和消除选择性误差的方式来控制和消除选择性误差定义:定义:目标:目标:马氏距离:马氏距离:考虑xi与xj之间的相似度或距离(均为k维向量)其中
5、二次型矩阵 为x的样本协方差矩阵的逆矩阵,它的作用相当于权重矩阵,使用马氏距离进行匹配被称之为马氏匹配。倾向得分倾向得分(p-score):个体i的倾向得分为,在给定的情况下,个体i进入处理组的条件概率,即p(xi)P(Di=1|x=xi),或者间记p(x)使用倾向得分作为距离函数进行匹配被称之为倾向得分匹配。马氏匹配的缺点在于个体i与j的马氏距离最近,但绝对距离可能依然很远使用倾向得分来度量个体之间的距离好处在于,它不仅是一维变量,而且取值介于0,1之间,即使两者距离很远仍有可能使p(xi)=p(xj)理论依据:理论依据:如果可忽略性假定成立,则只需给定p(x)的情况下,(y0i,y1i)独
6、立于Di(由于D为虚拟变量,故只需证明PD=1|y0,y1,p(x)与y0,y1无关即可)倾向得分定理向得分定理重叠假定:重叠假定:对于x的任何可能取值,都有0p(x)1倾向值匹配(Propensity Matching)步骤(1)首先要对数据进行数据质量核查,鉴别数据类型,考察数据的完整性和逻辑性,然后根据数据类型和样本量大小来选择相应的倾向得分的分析方法。(2)选择纳入模型的协变量。针对试验目的,根据研究者的临床经验筛选混杂因素,并结合倾向得分变量选择的要求,选择合适合理的混杂因素。然后以处理因素为应变量,混杂因素为自变量来构建模型。根据模型获得倾向得分的估计值。估计倾向得分可选的模型包括
7、 logistic 回归、Probit 回归、判别分析等,其中最常用的是 logistic 回归模型。(3)根据数据结构类型和选定的模型来计算每一个试验对象的倾向得分,倾向得分在 01 之间,表示试验对象被分配到试验组或者对照组的概率。(4)选择合适的倾向得分应用方法。PS 分层法、PS 匹配法和 PS 协变量校正法等。以倾向得分匹配法为例,在估计出试验对象倾向得分之后,需要选择合适的算法计算出组间倾向得分之间的距离,也就是近似程度。(5)根据每个试验对象的倾向得分值,通过选择好的匹配算法进行组间匹配,匹配结束后得出匹配数据集。6)在匹配前后,进行组间均衡性检验。组间基线的均衡性优劣是评价倾向
8、得分方法在实际应用中控制选择性偏倚及混杂效应的较好的指标。传统上常用的均衡性检验方法是假设检验,但假设检验法存在先天不足,针对此问题 1986 年由 Flury 和 Reidwyl 提出了标准化差异法,给出了明确的定义和计算方法。匹配后的处理组均值与控制组均值较接近,这个过程称之为数据均衡,但这两者的差距与计量单位有关,故一般针对x的每一个分量x考虑如下标准距离或者说是标准偏差:一般要求次标准化差距不超过10%,如果超过则应回到第二步和第三步第二步和第三步重新估重新估计倾向得分,或者改向得分,或者改变具体的匹配方法具体的匹配方法。(7)对匹配后的数据集,选择合适的统计学分析方法来估计处理效应。
9、由于匹配后试验组和对照组之间的协变量均已均衡,数据可以看作是近似随机化的,如果选择了合适的统计学方法则可以得出真实可信的处理效应。经过匹配,每一个试验组个体都能在对照组找到一个或多个与之匹配的对照个体,所以我们在统计学处理时,也可以考虑类似配对设计的统计方法来进行分析。一般来说有六种方法:k近邻匹配 限制倾向得分的绝对距离|pi-pj|,一般建议 0.25 卡尺内最近邻匹配 核匹配 局部线性回归匹配 样条匹配近邻匹配法整体匹配法也叫卡尺匹配或者半径匹配(贪婪匹配)K近邻匹配近邻匹配即寻找倾向得分最近的k个不同组个体说明:卡尺内最近邻匹配卡尺内最近邻匹配即给定卡尺范围内寻找最近匹配核匹配核匹配下
10、其权重为其中h为指定带宽,K(.)为核函数近邻匹配法匹配的结果为最近的部分个体,然后进行简单算术平均两者的区别:整体匹配法下每位个体的匹配结果为不同组的全部个体(通常是去电共同取值范围之外的个体),只是根据个体距离不同给予不同的权重(近者大,远者小,超出一定范围权重为0)(8)对数据进行敏感性分析。在一次试验中,好的匹配方法产生不完整的匹配集是不可避免的,哪怕采用最大化匹配也不能消除匹配的不精确。因此,如何在匹配的精度和完整度之间进行选择,值得探讨。由于匹配数据的不完整导致严重的偏倚要远远高于由于精度不够导致的偏倚。所以选择一种合适的匹配算法是十分重要的,因为它影响到处理效应的估计。比较数据集
11、在匹配前后的精确度和完整度,以此来评价不同的匹配算法的优劣是至关重要的。PSM的局限性局限性:PSM通常要求比较大的样本容量以得到高质量的匹配PSM要求处理组与控制组的倾向得分有较大的共同取值范围;否则,将丢失较多观测值,导致剩下的样本不具有代表性PSM只控制了可测变量的影响,如果存在依不可测变量选择,仍会带来隐性偏差倾向得分匹配举例倾向得分匹配举例培训对工资的效应培训对工资的效应 政策背景:国家支持工作示范项目(National Supported Work,NSW)研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响 基本思想:分析接受培训组(处理组,treatment gr
12、oup)接受培训行为与不接受培训行为在工资表现上的差异。但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事反事实倾向得分匹配举例倾向得分匹配举例培训对工资的效应培训对工资的效应在倾向得分匹配方法(Propensity Score Matching)中,根据处理指示变量将样本分为两个组,一是处理理组,在本例中就是在NSW实施后接受培训的组;二是对照照组(comparison group),在本例中就是在NSW实施后不接受培训的组。在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 倾向 匹配
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内