数据说希拉里会赢,它错在哪里?

2023-10-17 09:40
文章标签 数据 希拉里

本文主要是介绍数据说希拉里会赢,它错在哪里?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


0?wx_fmt=jpeg

对搞数字工作的人来说这是一个难熬的夜晚。同时,对商业、政治、体育、学术界等各个领域中越来越重视数据力量的人们来说也是一样。


唐纳德·特朗普的胜利几乎和每一个主要的预测背道而驰,这让分析大量数据便能准确预测事件的信念遭到了质疑。选民们向人们展现了预测性分析尤其是选举预测依旧是很年轻的学科:一些人被误导认为希拉里·克林顿必胜,就是因为一些预测没有考虑到可解释潜在较大误差的背景。


“这是对于精确性的过度吹嘘,”耶鲁大学医药信息学中心的研究者Pradeep Mutalik说道。他计算得出一些投票模型可能和实际结果偏差15到20个百分点。


几乎所有的主要大选预测机构,包括Nate Silver的538网站,纽约时报Upshot,和普林斯顿选举联盟(Princeton Election Consortium),都认为希拉里的获胜概率在百分之70到99之间。


大选预测只是一场正在各行业中发生深远变化的一个小方面,这些行业越来越“着迷”于数据、数据的价值和通过挖掘数据获得节约成本及增加利润的潜力。这是一个幕后的技术,无声的驱动着一切,从人们看到的在线广告,到数十亿美元的并购交易。


从硅谷到工业腹地,例子到处都有。比如微软付给领英260亿美元,很大程度是想要它4亿多人的个人档案和商务交际网数据库。作为美国最大的制造商,通用电气打大赌称产生数据的传感器和软件能够提高它的喷气发动机和其他机械的效率和收益率。


但是数据科学是个需要权衡的科技进步。它能够看到从未有过的东西,但是也可能成为一个缺乏对大环境和细节足够考量的粗钝工具。很多公司和机构悄悄地在幕后应用数据来预测人们的行为,但只是偶尔,就像周二的选举结果一样,消费者很少能够理解这些公式是起什么作用的,以及会出到什么程度的错误。


比如“谷歌流感趋势”项目看似是大数据预测的成功。它根据跟“流感”有关的搜索词来跟踪流感爆发。但是在2012-2013流感季,它的预测夸大了病例数量。


今年,Facebook的程序算法下架了一张挪威人拍的照片,照片上是一个裸体的9岁女孩逃离凝固汽油炸弹的场景。软件代码算下来认为这张照片违反了社交网络上禁止孩童色情作品的规定,而不是展现越南战争和人们苦难的标志性照片。


还有一个微软聊天机器人,本来意图是让它挖掘在线文本来学习“对话理解能力”,但是今年这个机器人很快就被撤回了,因为它的机器学习算法开始生成一些种族歧视的话。

利用数据分析进行善意的尝试,即使其出发点是好的,但不能排除事与愿违的情况。两年前,英国的一个预防自杀群体(the Samaritans),开发了一款免费的App,当自己关注的Twitter用户发布了一些可能表露自杀倾向的短语,比如“憎恨自己”或者“厌倦了孤独”时,可以提醒人们。但是有些人抱怨说这个软件可以在他们最脆弱的时候被滥用来骚扰他们,这个团体很快移走了这个App。


这周选举预测的失败表明,急于利用数据让我们失去了意识到它们局限性的能力。


“民调出现了以前选举从未出现过的偏差。”普林斯顿大学神经科学教授兼普林斯顿选举团创始人萨姆·王(Sam Wang)说。他推测民调可能没有囊括到共和党坚定分子,这些人一开始宣称不投特朗普,但是在投票站改变了他们的想法。


除了选举之夜的教训,还有更多的教训引起了人们对急于在经济和社会中采用数据驱动方式做决策的疑问。


对大数据的狂热来源于硅谷巨人在互联网里的成功故事,比如谷歌,亚马逊和脸书。这些数据大亨利用智能的搜索引擎、社交网络和在线商务,收集了大量的用户数据。数据是燃料,人工智能工具箱里的算法(特别是机器学习)是发动机。


该技术的早期商业用途是通过有针对性的广告,个性化营销和产品推荐来增加销售机会。但是基于大数据的决策分析已经越来越被各个行业所欢迎,也被广泛用于深切影响人们生活的高风险决策,比如帮助人们做医疗诊断,招聘选择和贷款批准。


数据专家说,这种危险在于过度信任数据分析,但是忽视了它的局限性和构建预测模型的人们可能存在的有缺陷的假设。


数据分析这项技术可以是,而且是极其有用的。“但是我们要理解的关键是,数据科学是一个不一定能给你答案,而只能给出概率的工具。”麻省理工商学院的Erick Brynjolfsson教授说道。


Brynjolfsson先生说人们常常不能意识到如果某件事情发生的可能性是70%,这表明还有30%的概率不发生。他说,选举的结果“对数据科学和统计学来说并不是什么令人惊讶之事。它就是这样运作的。”


那么,选举数据和算法发生了什么?看上去答案是:在数字如何呈现和如何让公众理解的两个角度上,投票、分析和解读上缺陷的结合。


538的创始人Silver先生没有立即回复寻求意见的邮件。The Upshot的编辑Amanda Cox和普林斯顿选举联盟的王先生说,州级民调误差很大程度上归因于低估了川普的获胜可能性。


除了民调误差,数据科学家还说选举模型的固有弱点可能导致一些预测错误。在选举之前,预测者把历史民调和最近的民调数据结合在一起,来预测竞选者的获胜几率。一些人还可能考虑了其他变量,比如给在职的竞选人更多的权重。


但是就算有了几十年的民调数据去分析,也难以提前几个月甚至几周,精准地预测一个竞选者成为总统的可能性。耶鲁的Mutalik博士把选举模型预测类比为天气预测。


“就算有最好的模型,依旧很难提前10天预测天气,因为有很多小变化会导致大变化,”Mutalik博士说。“在数学里,这叫做混沌。”


但是不同于天气预测,目前的选举模型一般只考虑到几十年的数据。并且对这个数据集的参数进行微调也能极大地影响计算。


比如说538网站的模型是基于从1972年开始的选举来校准的,这一年是州级民调开始增长的一年。Silver先生在他的博客里写道:在10月24日,这个模型认为希拉里的获胜率为85%,但是当这个网站实验性地以最近的民调数据(追溯到2000年)作校准时,希拉里的获胜率涨到了95%。


分析员说在这次总统大选中另一个大问题是一些州的民调是错误的。比如最近的威斯康星州的民调认为希拉里遥遥领先于川普,而大选的预测用了这个信息来做预测。英国同样遇到了类似的差错,就是民调错误地以为百姓会在6月份的投票里选择留在欧盟。


“如果我们能回到把对竞选人和政党的报告安排在最后的紧要关头的时代,而不是对这些东西的风吹草动进行无止境地播报,我们都会更好。”Brookings研究院的选举专家Thomas E. Mann说道。“它们让人上瘾,而且会让人不再关注更重要的事情。”

原文发布时间为:2016-11-19

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号


这篇关于数据说希拉里会赢,它错在哪里?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/224525

相关文章

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》:本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后,在安装目录下会有一个data目录,我们创建的数据库、创建的表、插入的

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

《Navicat数据表的数据添加,删除及使用sql完成数据的添加过程》:本文主要介绍Navicat数据表的数据添加,删除及使用sql完成数据的添加过程,具有很好的参考价值,希望对大家有所帮助,如有... 目录Navicat数据表数据添加,删除及使用sql完成数据添加选中操作的表则出现如下界面,查看左下角从左

SpringBoot中4种数据水平分片策略

《SpringBoot中4种数据水平分片策略》数据水平分片作为一种水平扩展策略,通过将数据分散到多个物理节点上,有效解决了存储容量和性能瓶颈问题,下面小编就来和大家分享4种数据分片策略吧... 目录一、前言二、哈希分片2.1 原理2.2 SpringBoot实现2.3 优缺点分析2.4 适用场景三、范围分片

Redis分片集群、数据读写规则问题小结

《Redis分片集群、数据读写规则问题小结》本文介绍了Redis分片集群的原理,通过数据分片和哈希槽机制解决单机内存限制与写瓶颈问题,实现分布式存储和高并发处理,但存在通信开销大、维护复杂及对事务支持... 目录一、分片集群解android决的问题二、分片集群图解 分片集群特征如何解决的上述问题?(与哨兵模

浅析如何保证MySQL与Redis数据一致性

《浅析如何保证MySQL与Redis数据一致性》在互联网应用中,MySQL作为持久化存储引擎,Redis作为高性能缓存层,两者的组合能有效提升系统性能,下面我们来看看如何保证两者的数据一致性吧... 目录一、数据不一致性的根源1.1 典型不一致场景1.2 关键矛盾点二、一致性保障策略2.1 基础策略:更新数