【python因果推断库2】使用 PyMC 模型进行差分-in-差分(Difference in Differences, DID)分析

本文主要是介绍【python因果推断库2】使用 PyMC 模型进行差分-in-差分(Difference in Differences, DID)分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

 使用 PyMC 模型进行差分-in-差分(Difference in Differences, DID)分析

导入数据

分析

使用 PyMC 模型建模银行业数据集

导入数据

 分析 1 - 经典 2×2 差分-in-差分 (DiD)

分析 2 - 具有多个干预前后观测值的差分-in-差分 (DiD) 分析 


 使用 PyMC 模型进行差分-in-差分(Difference in Differences, DID)分析

import arviz as azimport causalpy as cp
%load_ext autoreload
%autoreload 2
%config InlineBackend.figure_format = 'retina'
seed = 42

导入数据

df = cp.load_data("did")
df.head()

分析

`random_seed` 这个关键词参数对于 PyMC 采样器来说并不是必需的。我们在这里使用它是为了确保结果是可以重现的。

result = cp.pymc_experiments.DifferenceInDifferences(df,formula="y ~ 1 + group*post_treatment",time_variable_name="t",group_variable_name="group",model=cp.pymc_models.LinearRegression(sample_kwargs={"random_seed": seed}),
)
fig, ax = result.plot()

result.summary()
===========================Difference in Differences============================
Formula: y ~ 1 + group*post_treatmentResults:
Causal impact = 0.5, $CI_{94\%}$[0.4, 0.6]
Model coefficients:Intercept                   	1.1, 94% HDI [1, 1.1]post_treatment[T.True]      	0.99, 94% HDI [0.92, 1.1]group                       	0.16, 94% HDI [0.094, 0.23]group:post_treatment[T.True]	0.5, 94% HDI [0.4, 0.6]sigma                       	0.082, 94% HDI [0.066, 0.1]
ax = az.plot_posterior(result.causal_impact, ref_val=0)
ax.set(title="Posterior estimate of causal impact");

使用 PyMC 模型建模银行业数据集

本笔记本分析了来自 Richardson (2009) 的历史银行业关闭数据,并将其作为差分-in-差分分析的一个案例研究,该案例研究来源于优秀的书籍《Mastering Metrics》(Angrist 和 Pischke, 2014)。在这里,我们复制了这项分析,但是使用了贝叶斯推断的方法。

import arviz as az
import pandas as pdimport causalpy as cp
%load_ext autoreload
%autoreload 2
%config InlineBackend.figure_format = 'retina'
seed = 42

导入数据

原始数据集包含一个日期列,这个列中的数字无法直接解读——对于我们分析而言只需要年份列。数据集中还有 `bib6`, `bio6`, `bib8`, `bio8` 这几列。我们知道数字 6 和 8 分别代表第 6 和第 8 联邦储备区。我假设 `bib` 表示“营业中的银行”,所以我们保留这些列。数据是以天为单位的,但我们将把它转换成年为单位。从 Angrist 和 Pischke (2014) 一书中的图 5.2 来看,他们似乎展示了每年营业银行数量的中位数。现在让我们加载数据并执行这些步骤。

df = (cp.load_data("banks")# just keep columns we want.filter(items=["bib6", "bib8", "year"])# rename to meaningful variables.rename(columns={"bib6": "Sixth District", "bib8": "Eighth District"})# reduce from daily resolution to examine median banks open by year.groupby("year").median()
)treatment_time = 1930.5# set treatment time to zero
df.index = df.index - treatment_time
treatment_time = 0
ax = df[["Sixth District", "Eighth District"]].plot(style="o-")
ax.set(ylabel="Number of banks in business")
ax.axvline(x=treatment_time, c="r", lw=3, label="intervention")
ax.legend();

让我们可视化我们现在得到的数据。这与 Angrist 和 Pischke (2014) 一书中的图 5.2 完全匹配。 

只需几个最后的数据处理步骤,就可以使数据适合于分析。我们将把数据从宽格式转换为长格式。然后我们将添加一个新的列 `treated`,用来指示已经实施处理的观测值。 

df.reset_index(level=0, inplace=True)
df_long = pd.melt(df,id_vars=["year"],value_vars=["Sixth District", "Eighth District"],var_name="district",value_name="bib",
).sort_values("year")# We also need to create a column called `unit` which labels each distinct
# unit. In our case we just have two treatment units (each district). So
# we can build a `unit` column from `district`.
df_long["unit"] = df_long["district"]# We also need to create a `post_treatment` column to define times after
# the intervention.
df_long["post_treatment"] = df_long.year >= treatment_time
df_long# Dummy coding for district
df_long = df_long.replace({"district": {"Sixth District": 1, "Eighth District": 0}})
df_long

 分析 1 - 经典 2×2 差分-in-差分 (DiD)

首先,我们只分析 1930 年和 1931 年的数据。这样我们就只有一个干预前的测量和一个干预后的测量。

我们将使用公式:`bib ~ 1 + district * post_treatment`,这等价于以下的期望值模型:\begin{aligned}\mu_{i}&=\beta_0\\&+\beta_d\cdot district_i\\&+\beta_p\cdot post\textit{ treatment}_i\\&+\beta_\Delta\cdot district_i\cdot\textit{post treatment}_i\end{aligned}

让我们逐一理解这些内容:

- \mu_{i} 是第 i个观测值的结果(营业中的银行数量)的期望值。
- \beta_{0} 是一个截距项,用来捕捉对照组在干预前营业中银行的基础数量。
- `district` 是一个虚拟变量,所以 \beta_{d} 将代表地区的主要效应,即相对于对照组,处理组的任何偏移量。
- `post_treatment` 也是一个虚拟变量,用来捕捉无论是否接受处理,在处理时间之后结果的任何变化。
- 两个虚拟变量的交互作用 `district:post_treatment` 只会在干预后处理组中取值为 1。因此,\beta_{\Delta} 将代表我们估计的因果效应。

result1 = cp.pymc_experiments.DifferenceInDifferences(df_long[df_long.year.isin([-0.5, 0.5])],formula="bib ~ 1 + district * post_treatment",time_variable_name="post_treatment",group_variable_name="district",model=cp.pymc_models.LinearRegression(sample_kwargs={"target_accept": 0.98, "random_seed": seed}),
)

这里我们遇到了一些发散的情况,这是不好的迹象。这很可能与我们只有4个数据点却有5个参数有关。这对于贝叶斯分析来说并不总是致命的(因为我们有先验分布),不过当我们遇到发散的样本时,这确实是一个警告信号。

使用下面的代码,我们可以看到我们遇到了经典的“漏斗问题”,因为当采样器探索测量误差(即 σ 参数)接近零的值时出现了发散。

az.plot_pair(result1.idata, var_names="~mu", divergences=True);

为了进行“正规”的工作,我们需要解决这些问题以避免出现发散情况,例如,可以尝试探索不同的 σ 参数的先验分布。

fig, ax = result1.plot(round_to=3)

result1.summary()
===========================Difference in Differences============================
Formula: bib ~ 1 + district * post_treatmentResults:
Causal impact = 19, $CI_{94\%}$[15, 22]
Model coefficients:Intercept                      	165, 94% HDI [163, 167]post_treatment[T.True]         	-33, 94% HDI [-36, -30]district                       	-30, 94% HDI [-32, -27]district:post_treatment[T.True]	19, 94% HDI [15, 22]sigma                          	0.84, 94% HDI [0.085, 2.2]
ax = az.plot_posterior(result1.causal_impact, ref_val=0, round_to=3)
ax.set(title="Posterior estimate of causal impact");

分析 2 - 具有多个干预前后观测值的差分-in-差分 (DiD) 分析 

现在我们将对整个数据集进行差分-in-差分分析。这种方法与{术语}CITS(比较性中断时间序列)具有相似之处,其中涉及单个对照组随时间的变化。虽然这种区分稍微有些武断,但我们根据是否有足够的时间序列数据让CITS能够捕捉时间序列模式来区别这两种技术。

我们将使用公式:`bib ~ 1 + year + district*post_treatment`,这等价于以下的期望值模型:

\begin{aligned} \mu_{i}=& =\beta_{0} \\ &+\beta_y\cdot year_i \\ &+\beta_d\cdot district_i \\ &+\beta_p\cdot post treatment_i \\ &+\beta_\Delta\cdot district_i\cdot post treatment_i \end{aligned}

与上面的经典 2×2 差分-in-差分模型相比,这里唯一的改变是增加了年份的主要效应。因为年份是数值编码的(而不是分类编码),它可以捕捉结果变量随时间发生的任何线性变化。

result2 = cp.pymc_experiments.DifferenceInDifferences(df_long,formula="bib ~ 1 + year + district*post_treatment",time_variable_name="year",group_variable_name="district",model=cp.pymc_models.LinearRegression(sample_kwargs={"target_accept": 0.95, "random_seed": seed}),
)
fig, ax = result2.plot(round_to=3)

result2.summary()
===========================Difference in Differences============================
Formula: bib ~ 1 + year + district*post_treatmentResults:
Causal impact = 20, $CI_{94\%}$[15, 26]
Model coefficients:Intercept                      	160, 94% HDI [157, 164]post_treatment[T.True]         	-28, 94% HDI [-33, -22]year                           	-7.1, 94% HDI [-8.5, -5.7]district                       	-29, 94% HDI [-34, -24]district:post_treatment[T.True]	20, 94% HDI [15, 26]sigma                          	2.4, 94% HDI [1.7, 3.2]

通过观察交互项,它可以捕捉干预措施的因果影响,我们可以看出干预似乎挽救了大约20家银行。尽管对此存在一定的不确定性,但我们可以在下方看到这一影响的完整后验估计。

ax = az.plot_posterior(result2.causal_impact, ref_val=0, round_to=3)
ax.set(title="Posterior estimate of causal impact");

这篇关于【python因果推断库2】使用 PyMC 模型进行差分-in-差分(Difference in Differences, DID)分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1131524

相关文章

关于MyISAM和InnoDB对比分析

《关于MyISAM和InnoDB对比分析》:本文主要介绍关于MyISAM和InnoDB对比分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录开篇:从交通规则看存储引擎选择理解存储引擎的基本概念技术原理对比1. 事务支持:ACID的守护者2. 锁机制:并发控制的艺

SpringBoot中使用Flux实现流式返回的方法小结

《SpringBoot中使用Flux实现流式返回的方法小结》文章介绍流式返回(StreamingResponse)在SpringBoot中通过Flux实现,优势包括提升用户体验、降低内存消耗、支持长连... 目录背景流式返回的核心概念与优势1. 提升用户体验2. 降低内存消耗3. 支持长连接与实时通信在Sp

基于Python开发Windows屏幕控制工具

《基于Python开发Windows屏幕控制工具》在数字化办公时代,屏幕管理已成为提升工作效率和保护眼睛健康的重要环节,本文将分享一个基于Python和PySide6开发的Windows屏幕控制工具,... 目录概述功能亮点界面展示实现步骤详解1. 环境准备2. 亮度控制模块3. 息屏功能实现4. 息屏时间

Python如何去除图片干扰代码示例

《Python如何去除图片干扰代码示例》图片降噪是一个广泛应用于图像处理的技术,可以提高图像质量和相关应用的效果,:本文主要介绍Python如何去除图片干扰的相关资料,文中通过代码介绍的非常详细,... 目录一、噪声去除1. 高斯噪声(像素值正态分布扰动)2. 椒盐噪声(随机黑白像素点)3. 复杂噪声(如伪

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

基于Linux的ffmpeg python的关键帧抽取

《基于Linux的ffmpegpython的关键帧抽取》本文主要介绍了基于Linux的ffmpegpython的关键帧抽取,实现以按帧或时间间隔抽取关键帧,文中通过示例代码介绍的非常详细,对大家的学... 目录1.FFmpeg的环境配置1) 创建一个虚拟环境envjavascript2) ffmpeg-py

python使用库爬取m3u8文件的示例

《python使用库爬取m3u8文件的示例》本文主要介绍了python使用库爬取m3u8文件的示例,可以使用requests、m3u8、ffmpeg等库,实现获取、解析、下载视频片段并合并等步骤,具有... 目录一、准备工作二、获取m3u8文件内容三、解析m3u8文件四、下载视频片段五、合并视频片段六、错误

Python中提取文件名扩展名的多种方法实现

《Python中提取文件名扩展名的多种方法实现》在Python编程中,经常会遇到需要从文件名中提取扩展名的场景,Python提供了多种方法来实现这一功能,不同方法适用于不同的场景和需求,包括os.pa... 目录技术背景实现步骤方法一:使用os.path.splitext方法二:使用pathlib模块方法三

Python打印对象所有属性和值的方法小结

《Python打印对象所有属性和值的方法小结》在Python开发过程中,调试代码时经常需要查看对象的当前状态,也就是对象的所有属性和对应的值,然而,Python并没有像PHP的print_r那样直接提... 目录python中打印对象所有属性和值的方法实现步骤1. 使用vars()和pprint()2. 使

gitlab安装及邮箱配置和常用使用方式

《gitlab安装及邮箱配置和常用使用方式》:本文主要介绍gitlab安装及邮箱配置和常用使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装GitLab2.配置GitLab邮件服务3.GitLab的账号注册邮箱验证及其分组4.gitlab分支和标签的