【论文解读 WWW2019】|基于开放数据的因果推断:社区环境特征如何影响居民健康?

本文主要是介绍【论文解读 WWW2019】|基于开放数据的因果推断:社区环境特征如何影响居民健康?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        本篇文章是解读顶会论文的第一篇,为了追求阅读效率,省略了本人认为不影响理解的内容,并非论文的全部中文翻译,主要包括文章的核心内容和方法,想要看包含文献综述等完整论文内容的小伙伴可以自己阅读英文原文哦~

文章标题《Understanding the Effects of the Neighbourhood Built Environment on Public Health with Open Data》

       本文发表于2019年CCF-A类顶会WWW,由剑桥大学的学者提出,是关于因果推断社会科学计量经济学的论文,属于交叉学科研究方向。关于CV,NLP,RecSys等方向的顶会论文解读已有不少大佬总结,关注计量经济学和社会科学方面的顶会论文相对较少。这篇论文比较有意思,因此简要介绍帮助大家快速了解文章核心。

废话不多说,我们开始吧≡ω≡

1. 文章背景

        在公共政策以及社会科学的领域中,研究社区环境对居民健康的影响是一个较为典型的、有价值的方向。传统的研究方法以社会调研为主,其时间和空间跨度是有限的,这会导致时间和空间上的粗粒度数据(如面板数据),且大规模的社会调研会导致较高的人力物力成本,通常来说是效率很低的做法。基于此,本文利用开放数据(如OSM等项目提供的数据),在较细的时空粒度以及因果关系框架的基础上,提出了一种将邻里社区特征对居民健康的影响联系起来的方法。具体而言,作者使用因果推断等方法,研究了三年内伦敦600多个区域的运动场所对抗抑郁药处方流行率的影响,将其作为一个典型案例来证明社区环境对居民健康的影响。这种方法有很多好处,看到后面你就知道了╰( ̄▽ ̄)╭。

2. 研究方法 

        先介绍总体方法:文章关注的是社区环境的具体特征,如某些特定服务的存在(体育设施)对人口健康的outcome(如抗抑郁药处方)的影响。这里的社区环境特征被称为treatment。这里采取了因果推理的观点(假设你已经了解因果推理相关概念),文章想找到对于社区环境施加体育设施这种treatment会给人口健康结果带来的因果效应,简单来说就是,我们需要评估,当体育设施这个具体特征改变的时候,它对于人口健康结果(如抗抑郁药处方)有什么样的影响。

2.1 研究单位

       在因果推理中,实验对象叫做unit,可以是一个或者多个,在本文中可以看作是施加了treatment的研究单位,即不同的neighbourhoods,具体就是伦敦的625个行政选区(ward)。在一年开始时,每个区域都被视为施加了特定单位量的treatment。

2.2 Matching

      在介绍matching方法之前,我们要了解一个基础的因果推理方法叫做随机对照实验(RCT,randomized controlled trials),如果应用这种方法,本文的做法理论上应该是随机选择一半的区域(ward),将没有施加treatment的区域集合作为对照组(control group),剩下的作为实验组(treatment group)。但是显而易见这种方法是非常拉垮的,毕竟我们不能随心所欲地控制在哪个区域去施加treatment。

        虽然RCT的方法是不可取的,但它背后的思想非常有价值。它确保了除treatment变量的所有影响outcome的变量都是平衡的,这意味着两组对象的实验结果在treatment status上是可比的,因为treatment是唯一的区别所在。

        那么问题来了——怎样找到一个alternative method来实现RCT的思想呢?

       本文采用的是因果推理中的匹配算法(Matching Procedure)。这里要介绍一个概念叫混杂变量(confounder),它是影响treatment或outcome(包括同时影响)的变量(类似于计量经济学中的协变量&#x

这篇关于【论文解读 WWW2019】|基于开放数据的因果推断:社区环境特征如何影响居民健康?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/519808

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础(单文件 YAML 版)(一)配置原理与优势(二)实操示例二、多环境开发多文件版

使用docker搭建嵌入式Linux开发环境

《使用docker搭建嵌入式Linux开发环境》本文主要介绍了使用docker搭建嵌入式Linux开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录1、前言2、安装docker3、编写容器管理脚本4、创建容器1、前言在日常开发全志、rk等不同

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

sysmain服务可以禁用吗? 电脑sysmain服务关闭后的影响与操作指南

《sysmain服务可以禁用吗?电脑sysmain服务关闭后的影响与操作指南》在Windows系统中,SysMain服务(原名Superfetch)作为一个旨在提升系统性能的关键组件,一直备受用户关... 在使用 Windows 系统时,有时候真有点像在「开盲盒」。全新安装系统后的「默认设置」,往往并不尽编

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则