您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
Logit模型(logit模型案例分析)
妇女,马里,袭击Logit模型(logit模型案例分析)
发布时间:2020-12-06加入收藏来源:互联网点击:
-
其中是因变量,T是一个哑变量,如果受访者是在武装袭击之后完成问卷(即实验组),则取值为1;反之取值为0(控制组)——意味着他们在袭击之前就已经完成了问卷。就是本文感兴趣的武装袭击对因变量的因果影响。Z是一组控制变量,是残差项。根据自然实验对于“干预”的分配机制接近随机的要求,需要假定上述模型中,T与残差项是相互独立的,即cov(T, )=0,以确保对于是否进入控制组和实验组不存在偏差,而是接近随机分配的。在现实中,这一条件几乎难以完全满足,因此研究者将假定是“接近随机”,即将武装袭击的发生视为有条件地独立(conditional independence)于受访者的一些特征——这些特征可能会系统地影响估计偏差。然后,通过观察和调整随机分配与实验组对象特征的不平衡(imbalances),以避免其对武装袭击效果的估计产生干扰。 通过平衡测试,我们可以检验“有条件独立”这一假定是否满足;如果满足,那么意味着武装袭击是外生于(exogenous)那些可能影响随机分配干预的因素的。(三)平衡检验实证分析的第一部分是检查干预(武装袭击)随机分配的有效程度。为此,我们比较了控制组与实验组成员的一些关键可观察特征的平均值是否存在显著的不同。本文采取了两种平衡检验方法。第一种T-检验(T-test)基本表明两组的平均值是否相等:分配给实验组和对照组的受访者没有系统差别。在确认了基本方法论假设的可靠之后,转向Logit模型检验。该过程背后的逻辑非常简单:我们将因变量回归到自变量上,从而比较受访者进入实验组与控制组的概率是否存在系统的差别;若没有变量显著地影响进入实验组与控制组的概率,我们则可以基本断定两组的平衡条件满足。由于我们的分析单位是个体,而问卷则在不同行政区域内进行了随机分配,因此我们采用稳健的聚类标准误差(robust clustered standard errors),根据行政区域对标准差进行聚类。建立在既有研究的分析策略基础上, 本文从非洲晴雨表第四轮和第五轮问卷中挑出了一系列可能对随机分配造成影响的因素。这些变量涉及受访者自身的社会经济和家庭特征。它们有可能会影响受访者是否接近随机地暴露于武装袭击的冲击下。例如,有学者认为,非洲晴雨表可能无意中抽取了更多城市居民而非农村居民,而鉴于填报问卷本身获得的物质奖励,农村或贫困的居民在袭击发生之后更有可能接受问卷调查,也更有可能将自身的弱势地位产生的怨恨归咎于,从而更不太可能支持现任的对别平等的政策。鉴于此,可以建立一个哑变量——“城市受访者”来测量是否存在这种潜在影响实验组分配的干扰因素。如果受访者居住在城市赋值为1,否则为0。我们检验了受访者的教育水平和受访者的年龄是否存在平衡的问题。根据调查问卷,重新设计哑变量,将受访者完成小学或小学以上教育视为有接受正式教育,并赋值为1,否则为0。受访者的年龄采取其在问卷中的自报年龄。同样,别也有可能影响受访者是否被非随机地选入实验组。根据问卷问题,建立“女受访者”这一哑变量,如果是女,赋值为1;否则为0(男)。受访者的收入水平也会影响随机。在问卷中一般很难直接询问受访者的收入具体数额,因此研究者使用间接办法,根据一些相似的问题进行代理测量。我们根据问卷问题中关于在过去一年中受访者或者其任何家庭成员是否有足够的食物这一变量,表示“受访者贫困状态”。同样,根据问卷中对于受访者拥有的物质物品测量受访者财产所有状况。利用问卷中的相关问题包括询问受访者是否拥有收音机、电视机、汽车(或摩托车)这三个问题,建立“受访者财产所有”这一哑变量,即当受访者拥有收音机、电视机、汽车(或摩托车)中任何一件物品时,赋值为1,否则为0。我们根据受访者是否“收听收音机新闻”来测量受访者获取新闻信息的主要渠道,这也是一个哑变量。民族问题在非洲是一个显著影响指标,因此,根据受访者自报的民族归属来测量其是否与总统属于相同民族,即“受访者与总统相同民族”这一哑变量。尼日利亚总统古德勒克·埃伯勒·乔纳森(Dr Goodluck Jonathan)来自于尼日尔河三角洲一个少数民族伊贾(Ijaw)族。 与尼日利亚总统不同,马里总统阿马杜·图马尼·图埃是颇尔/福福德文族群(Peulh/Fulfulde),该族大约占据15%的全国人口。另一个主要指标为是否是国内的主导民族(dominant group)。在尼日利亚,如果来自于伊博(Igbo South-East)或者豪萨(Hausa)则赋值为1,否则为0。对于马里共和国,这一个哑变量主要测量受访者是否为班巴拉(Bambara)族,因为这一民族占总人口的33.3%。图1 样本平衡检测结果注:三角形代表马里样本;正方形代表尼日利亚样本。左图平均值差异T检验;右图Logit回归模型检验。线条代表95%的置信区间。关于平衡的测试,首先报告T-检验比较实验组和控制组不同变量的平均值差异。图1(左)展示了基于尼日利亚和马里共和国样本的T-检验结果。图中的点估计表示T-检验的估计值和95%的置信区间。结果显示,对于大部分的变量,实验组和控制组之间并没有显著不同。在尼日利亚样本中,教育水平存在显著的不平衡,从未完成小学教育与完成小学教育以上的受访者人数分别为504人和1 860人。这意味着在袭击之后参与问卷的受访者教育水平明显更高,可能会影响后面观察到的对于妇女赋权支持的变化。与此相反的是,在马里共和国的样本中,教育水平在实验组和控制组之间并不存在显著差别。另一组存在显著差别的变量是尼日利亚样本中通过收音机获取新闻以及马里共和国样本中的年龄。T检验的方式具有局限,尤其是无法控制其他变量。另一种方式是选择回归模型来更系统地揭示这些特征是否导致受访者系统地、更有可能(不可能)进入实验组和控制组。 因此,利用Logit模型,根据地区/省份来将回归系数的标准差聚类,以处理区域内的受访者可能存在的不相互独立问题。在Logit模型中,我们将武装袭击作为因变量,其余变量作为自变量。图1(右)显示尼日利亚和马里共和国样本的平衡测验。统计结果表明,在T-检验中发现的存在均值显著不同的大部分变量,都不再继续显著地影响是否进入实验组。图2中,只有尼日利亚样本中的教育水平在95%水平上存在显著,而其余变量在95%的置信水平上都不显著。平衡检查总体上告诉我们,绝大多数的变量都不显著影响是否接近随机分配这一原则,并提醒我们对于尼日利亚样本中的教育水平在回归分析时可能需要注意并调整潜在的影响,即是否存在“条件效应”(conditioning effect),因此在随后的模型估计中需要加以控制。本文用来测量微观层次上社会民众对妇女赋权支持的变量,来自于问卷中关于处理妇女赋权议题的赞同程度。具体而言,在问卷中受访者被问到,“你认为现任在处理妇女赋权议题上的表现如何”。本文将答案进行处理,包括四个层次“非常差”“比较差”“比较好”以及“非常好”。因此,该因变量是一个有序分类变量(ordinal categorical variable),测量了受访者对现任妇女赋权政策的支持程度。本文的核心自变量就是是否暴露于武装袭击的冲击(0或1)。鉴于因变量Y的实际取值为有序分类变量,因此本文的主要统计模型为定序Logit模型(ordered Logit model)。定序Logit模型是对非线模型Logit的延伸,可以估计自变量对于因变量处于不同层次的概率,特别适合本文所关注的有序分类变量。有序Logit回归模型基于k-1(k为变量的总类别数量,在本文k=4)系数,对k个不同结果的相对可能进行建模。模型中的k-1系数捕获了落入扩展的有序类别集。例如,在四种可能的结果类别下,模型的三个截距(每个截距将至少与前一个截距一样高)相对于基准(baseline)观测几率的对数(log odds)。为了厘清“实验干预”效果,本文也控制了上文进行平衡检查的几个其他变量。 四 实证结果与讨论 通过以上自然研究设计思路,本文得出了以下统计结果,并对其稳健和机制展开进一步讨论。(一)主要发现首先,分别以尼日利亚和马里共和国为样本进行回归分析。为更好地展示回归效果,本文的结果以回归系数图(coefficient plot)展示。图2分别展示了以尼日利亚为样本和以马里共和国为样本进行的回归分析结果。图2主要采用了两个模型,其中第一个模型没有考虑各地区(region)的差异(用三角形表示),而第二个模型使用固定效应(用正方形表示),考虑了模型在地区层次的差异。图2 有序Logistics回归模型结果注:区间代表95%置信区间。左图为尼日利亚样本;右图为马里共和国样本。图2(左)的结果显示,武装袭击这一变量在两个模型中均在95%的置信区间内是统计显著的,回归系数为负数表明,在武装袭击之后的受访者更不太可能支持和认可现任处理妇女赋权问题的政策。这说明,当国内武装袭击发生后,民众对于现任如何处理妇女赋权政策的支持会立马下降。民众对于改变现行政策的期望则会增加,从而可能对产生一种社会压力。这种短期内的压力就有可能促成去回应和改革现有的妇女赋权政策,从而在武装袭击之后为妇女赋权带来新的希望。这一发现,在个人层次上更加明确了武装冲突是如何为妇女赋权提供可能和机会的,弥补了既有研究仅仅关注国家层次结果的不足,从而提供了一条从微观到宏观的因果机制。同样地,图2(右)展示了以马里共和国为样本进行的回归分析结果,我们发现了相同的效果,即武装袭击这一变量在95%的置信水平上是显著的,且在两个模型中的回归系数均为负。因此,尼日利亚和马里的发现都得出了相同的结论。另外,图2中的控制变量也展示了一些有趣的发现。首先,在尼日利亚样本中通过收音机接收新闻的人明显更容易支持的妇女赋权政策——可能是他们拥有更好的信息接受能力,因而在袭击发生之后更能够接受的宣传。其次,与总统民族相同的选民更倾向于支持。与此相反,这两个发现在马里共和国的样本中均不显著,取而代之的是受访者的别和年龄。另外,女更不太可能支持的政策,而年长者更支持现任。图3 武装袭击对妇女赋权支持的边际效应影响注:垂直虚线X=0。概率密度变化分布在X=0两侧代表统计显著。密度分布由1 000次模拟计算得出。为更好地解释武装袭击的实质影响(substantive impacts),本文计算了这一变量的边际效应(预测概率的变化)。运用一种新颖的模拟方法, 计算受访者在袭击前后对于认可政策“比较好”和“非常好”的概率变化,用公式表示为:Pr(好|袭击T=1, Z)-Pr(好|袭击T=0, Z),其中Z为其他控制变量,T为干预变量。在这一种模拟过程中,我们将除干预变量(武装袭击)之外的所有其他变量取其在样本中的真实值,每一次模拟分别计算干预变量对于“比较好”和“非常好”的概率变化。经过1 000次模拟,我们得到了这一变量的边际效应的密度分布。这一方法的优势是可以明显克服非线模型的错误设置。传统计算边际效应的办法是让其他变量取中位数或均值,建立一个“平均案例”,实际上只是一次随机抽样,并且这样的平均案例往往也不存在。但是本文的方法却是根据模型估计后的参数,进行1 000次随机抽样,因此可以更好地捕捉模型估计的不确定。估计出的边际效应分布也可以作为总体中“干预效果”的平均分布。图3展示了针对尼日利亚和马里两个样本、以固定效应模型为基础的边际效应变化分布。图3表明,在1 000次模型中,绝大部分的平均边际效应的分布都在X=0这条直线的左边,表明实验组的概率变化比控制组的概率变化更低。例如,图3左图表明,相比于袭击之前填写问卷的受访者而言,在袭击之后的受访者认可现行妇女政策属于“比较好”和“非常好”的概率都下降了。这进一步说明,武装袭击对于降低民众支持妇女赋权政策,确实具有统计上的因果效应。图3(右)展示以马里共和国为样本、固定效应模型为基础的边际效应变化。图3(右)表明,相比于袭击之前填写问卷的受访者而言,在袭击之后的受访者认可处理妇女赋权问题是“比较好”和“非常好”的概率都下降了。(二)稳健检验与机制讨论上述定序Logit回归模型的结果表明了武装冲突对于社会支持妇女赋权影响的显著因果效应。本文对统计结果进行了一系列的稳健检验,以确保所发现结果具有稳健。第一,本文使用了混合效应多层Logistic回归模型作为替代模型。我们首先分别估计尼日利亚和马里共和国的样本,然后将二者合并进行分析。图4(左)展示了基于多层Logistic回归模型(multilevel ordered logistic models)的结果(即混合效应多层Logistic回归模型)。 图4(左)中,圆点代表的模型是尼日利亚样本,三角形代表的模型是马里共和国样本,而正方形代表的模型则是合并两者的样本。在前两个模型中采取了两层(two-level)混合效应,而第三个模型则加入了三层(受访者、区域和国家)。武装袭击这一变量在所有的模型都在95%的置信区间是显著的,且回归系数均为负数,这与上文的统计结果一致。
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |