TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据

2023-11-05 21:30

本文主要是介绍TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


0?wx_fmt=jpeg

生活中,我们随处可见各种各样的数据——广告、新闻、公司会议、工作汇报中比比皆是,甚至算命和星座,也开始用数据来证明自己的真实性。

越来越多的数据引用,一方面证明更多的行业与个人开始关注并运用统计,另一方面,也可能会让人迷失在错综纷杂的数据中。

那么,对于众多对数据有兴趣,但非专业出身、不需要太深度复杂学习相关知识的小伙伴来说,到底如何分辨数据真假?今天我们推送的视频《TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据》,或许可以给大家带来一些启发。

开篇,Mona谈到,对待统计,我们要保持客观而开放的态度,不盲目接受或者排斥。随后,她展示了3个基础的问题,以便大家可以由此识别面前统计数据的优劣——

1.你是否能发现不确定因素?

2.我能在数据中看到自己吗?

3.这些数据是如何收集到的?

在阐述每一个问题时,Mona不仅介绍了许多相关概念,还援引了许多来自生活中的实例,使得枯燥的课本知识变的通俗易懂起来。

今天我要和大家聊聊统计,如果让你感到一丝警惕的话,没事,这很正常,它不会让你变成那种疯狂的阴谋论者,它会让你变得多疑。

当谈论数字的时候,尤其是现在,你确实应该变得多疑一点,但你应该也有能力告诉人们哪些数字是可靠的,哪些是不可靠的。今天我就是要给大家介绍下可以干这些事的一些工具。

我们生活中有太多数据分析,我们应当抛弃盲目的接受,或盲目的拒绝。并且,我们得学些技巧去发现那些坏的统计。

当我在统计部门工作的时候,我们的工作就是统计有多少伊拉克人在战争中,是被迫离乡的、以及他们需要什么?这真的是一项非常重要的工作,但也极其困难。每一天,我们做的决定都会影响到数据的精度。比如我们应该去伊拉克的哪些地区、应该与哪些人进行沟通、应该问哪些问题。

我开始对我们的工作感到失望,因为起初我认为我们做的工作非常有意义,但是能告诉我们真实情况的是伊拉克人,他们却几乎没有机会看到我们的分析,更别提质疑了,使数据更加精确的方式之一——就是让尽可能多的人来质疑。

所以我成为了一名数据记者,我的工作是找到这些数据集,并且将它们分享给公众。

我这儿给你们准备了三个问题,这些问题能够帮助你们把劣质的统计数据识别出来——

第一个问题是:你能发现不确定因素吗?

真正改变了人们和数据的关系的因素之一,甚至包括对于媒体的信任,是政治民意调查的使用。我个人对于政治民意调查有许多不同意见,因为我认为记者的真正作用是报道事实、而不是去预测,尤其是当这些预测能够破坏民主的时候。通过向人们发出这样的信号:“不用费心给那个人投票了、他没有机会的!”

我们先不讨论这个,来看看这样做到底效果如何?

根据英国,意大利,以色列的大选情况,当然,还有最近的美国总统大选,用民调结果来预测选举结果,和用月亮预测医院住院率一样不靠谱!没错,讲真,我是根据一项学术研究的真实数据来画这幅图的。

导致民意调查严重失真的原因有很多,我们社会的多样性非常突出,因此民调专家很难找到真正具有代表性的良好样本,来代表他们进行民调的人群,人们特别不愿意接听民意调查电话,而且,特别令人震惊的是,人们可能会撒谎!但是你在从媒体上获取信息时,可能未必知道这些事情。

我们来看那些图表,看,许多的可视化数据会夸大可信度,事实也确实如此——这些图表能够麻痹我们的大脑,导致我们无法进行批评。当你听到一个统计数据时,你可能会有所怀疑,当数据以图表形式呈现出来时,它看上去就像是某种客观的科学。然而事实并非如此。所以我试图找到一些方式,把这些和大家说明白,向人们展示数据中的不确定性。我的做法就是把真实的数据集——用手绘图的形式展现出来,这样人们就能看到数据是多么的不精确,人们就能够意识到,做这些事情的是人。

有人找到了这些数据并且将它可视化,比如,与其找到在某个月得流感的概率,也许还不如看看这个流感季节大致的分布情况。二月得流感的概率非常高,但是这种数据可视化的形式更加可靠,因为如果你想要显示确切的概率,这可能会导致人们在错误的时间里,接种流感疫苗。这些弯弯曲曲的线旨在让人们记住数据是不准确的,同时,他们也不是非得知道精确的数字,不过他们会记住那些重要的事项。

我们还应该注意一些非常重要的统计学概念,比如平均数。假设 你听到这么一种说法——“美国平均每个游泳池都会有6.32个人在里面便便”。这并不是说 美国的每个游泳池都不多不少有6.23份便便。

所以为了说明这一点,我找到了疾控中心的原始数据,调查范围为47个游泳设施,我花了一整晚来重新分布这些便便。这样一来 你从某种意义上就能看到平均数误导性之大。

你们应该问自己的第二个问题是——我能在数据中看到自己吗?

从某种意义上说 ,这个问题同样也是关于平均数的,人们饱受国家统计数据困扰的部分原因在于他们并没有把赢家和输家的故事原原本本地展示出来。在国家政策的层面上,很容易理解为什么人们对全球平均水平失落不已,因为这些数据不符合他们的个人经历。

并不是每种数据都必须和你扯上点关系,看看你自己对应其中哪种情况。这样做的目的是尽可能多的了解背景。所以我们要从某个数据点上抽身出来。比如失业率是5%,然后看看数据是如何随着时间推移而变化的,或者如何随受教育程度而改变——这就是父母一门心思让你上大学的原因。

或者看看性别对失业率的影响,如今男性失业率高于女性失业率。直到80年代初 它是完全相反的,这是发生在美国社会中具有最大变化之一的故事。一旦你考虑平均值,所有的都在那张图表中了。轴线就是一切。一旦你改变了刻度 你就可以改变这个故事。

好的,所以,我想让你们在看统计数据时考虑的第三个也是最后一个问题是——如何收集数据?

到目前为止我只谈到了数据交流的方式,但收集的方式也同样重要。我知道这很困难,因为方法可能是晦涩难懂的,实际上还会有点无聊,但是有一些简单的步骤 你可以用它们检查一下。

在这里,我将使用最后一个例子,一项调查显示,这个国家中有41%的穆斯林支持圣战,这显然是相当可怕的,并且这在2015年到处都有报道。当我想检查这样的数据时,我会先找到原始问卷。事实证明 那些报道统计数据的记者,忽略了调查中的一个问题——就是问调查对象他们是如何定义“圣战”的?

大多数的穆斯林把它定义为——“穆斯林为了更宗教化而进行个人的、和平的斗争”,只有16%的人把它定义为“对异教徒的暴力圣战”。这是非常重要的一点!根据这些数字,调查中支持圣战的人没有将其定义为暴力圣战是完全可能的!这两个群体可能根本没有重叠!

同样值得一问的是,调查是如何进行的?

这被称为选择性调查,也就是任何人都可以在互联网上找到该调查 并完成它。没有办法知道这些人是否是真正的穆斯林。最后 在该项调查中有600名受访者,根据皮尤研究中心 大约有三百万穆斯林在这个国家。这意味着 在这个国家每5000个穆斯林大概只有1个参与了调查,接受了这项调查。

这是zf统计数据,往往比私人统计数据更好的原因之一,一项民意调查可能面向几百人 也许是一千人。

但是你如何质疑统计数据呢?

你只要继续检查一切,了解他们是如何收集数据的,知道你是否在图表上看到了你需要查看的所有内容,但是不要完全放弃数据 因为如果你放弃了,我们将会在未知中做出公共决策,只有私人利益指导着我们。

原文发布时间为:2017-04-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

这篇关于TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/352631

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

Python异常处理之避免try-except滥用的3个核心原则

《Python异常处理之避免try-except滥用的3个核心原则》在Python开发中,异常处理是保证程序健壮性的关键机制,本文结合真实案例与Python核心机制,提炼出避免异常滥用的三大原则,有需... 目录一、精准打击:只捕获可预见的异常类型1.1 通用异常捕获的陷阱1.2 精准捕获的实践方案1.3

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很