《数据科学实战》作者Cathy O'Neil:大数据并不神奇

2023-11-03 01:40

本文主要是介绍《数据科学实战》作者Cathy O'Neil:大数据并不神奇,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

非商业转载请注明作译者、出处,并保留本文的原始链接:http://www.ituring.com.cn/article/195524

Cathy O'Neil是约翰逊实验室高级数据科学家、哈佛大学数学博士、麻省理工学院数学系博士后、巴纳德学院教授,曾发表过大量算术代数几何方面的论文。他曾在著名的全球投资管理公司D.E. Shaw担任对冲基金金融师,后加入专门评估银行和对冲基金风险的软件公司RiskMetrics。Cathy是一位数学家,后来转型为数据科学家,她的个人博客http://mathbabe.org/广受欢迎。她和哥伦比亚大学统计系兼职教授Rachel Schutt根据一门名为“数据科学导论”的课程撰写了《数据科学实战》一书。

图片描述

问:当一个数据科学家最吸引你的是什么?你的博客上有一句话:非理论派的数学家能做些什么,让这个世界变得更加美好。你是否找到了这个问题的答案?

我爱数据!我喜欢看到通过测量数据,就能知道很多事物的工作原理。我特别享受为我们并不熟知的事物做量化的过程,我也喜欢对比两个事物的影响,直到这些影响变得无法比较。

对于那个问题,我最大的线索就是:作为数据科学家,我需要花更多的时间和精力来确保做到三思而后行。数据科学是一种强大而具有影响力的工具,既可以作恶也可以行善。我们需要铭记这一点。

问:在你看来,具有什么样性格和学习背景的人最适合担任数据科学方面的工作?

这要视情况而定。我的书《数据科学实战》是以数学背景为前提写的,但是说实话,一个数据科学团队也需要有既了解科学方法,又有哲学与伦理学背景的人。要更好地解决问题,想法的多样性是必不可少的。

问:很多读者都受到了你的博客Mathbabe.org的启发,通过互动,你是否也被你的读者所启发?

当然!在智力上,我的读者带我经历了很多奇异的刺激之旅。我每天都会为此心存感激。

问:很多人相信基于大数据的应用会助长人们对于原有习惯的依赖,这将限制人们对于多样化体验的尝试,你同意吗?

这可能是真的。比如说,简历或应用分类算法如果只是从历史数据中学习,而且只会再次产生老式的决策方式,那么这种方法也只是编撰整理了系统原有的偏见,无论是性别歧视,还是对某些大学学位的偏好。我建议,人们应该弄明白他们真正寻找的是什么,而且在落实这些技能的时候尽可能少的存有偏见。我们至少应该做出这样的尝试。

问:很多公司都从大数据得益不少,但是也有不少公司虽然根据数据制定政策和战略,却收益极少或亏损,你觉得他们在哪里犯了错误?

他们通常认为大数据是很神奇的。当然,大数据并不神奇,你需要好的问题,而且,你需要的不仅是大数据,你还需要正确的数据,很多时候人们都疏于做到这点。

问:从很大程度来说,大数据是用来做预测的。你认为偶然的事件是否可以由确定的数据预测出来?

如果这个问题是,一个本质上无法预测的事件是否可以被预测出来,那么我的回答是否定的!但是,这也可能是真的,毕竟连随机系统都有一些根本的特征。比如你有一个等待时间的进程,在你侃侃而谈因为某个事件没有发生而让你倍感“惊奇”的时候,你需要先定义出让你惊奇的事件。

问:为了更好更快地存取web数据,诞生了NoSQL。而传统的数据库也提出了数据空间(Data Space)这种先有数据,后有模式的概念。这些概念的应用情况如何?在这个领域还有哪些不为人知的课题?

总体来说,大数据使用的是无结构的乱糟糟的数据,至少在建立模型的时候是这样。当模型成为成品之后,使用的有时候就是标准数据库,到了产出结果和每日报告的时候,用的肯定就是标准数据库了。

我一般会忽略这样的关于数据储存方面的问题,并不是因为无趣,而是因为这些技术的变化太快。当我需要忙活新项目的时候,我就会去弄清楚时下最好的技术是什么。

问:在机器学习中,训练数据通常都是给定的。从工程角度上来说,从数据库提取训练数据时最重要的是什么?数据特征,数据量,还是数据提取方式?

很难从总体上概括!当然,有时候你只是需要海量的训练数据来训练模型,但是其他时候你并不需要这么多,你该小心的是你的样本是否具有代表性。

对于我来说,如果可能的话,我总是根据时间戳来训练模型。我提早开始训练数据,然后我会用后面的数据做测试。

问:为了提取模型的关键因子,数据分析师通常需要对具体业务有较好的了解。是否有完成这项工作的捷径?或者说这是数据工作无法避免的一部分?

这确实是无法避免的;只有领域专家才能指导建模,至少在最开始的时候必须如此,此时仍有容易达到的目标。随后,当所有的专业知识都已被包括在内之后,模型可能就会变得不那么具有领域特殊性了。

问:数据科学如今发展越来越快,《数据科学实战》中是否有哪些内容是你想要更新的?还有哪些内容会在很长时间内保持不变?

当然有!这是一个飞速发展的领域,这一点我都想在简介里好好强调一下了。如果今天我要重写这本书,每一章都会不同。但是话说回来,不变的是对于目标知识的总体学习方法,以及在专注于技术的同时仍不忽视人为影响的意识。随着科技发展,技术会变得越来越好,在数学上越来越复杂,所以从某种角度来说,现在是成为数据科学家的最好时机。


更多精彩,加入图灵访谈微信!

图片描述

这篇关于《数据科学实战》作者Cathy O'Neil:大数据并不神奇的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/334679

相关文章

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类