想成为一名数据科学家?你得先读读这篇文章

2024-04-12 20:38

本文主要是介绍想成为一名数据科学家?你得先读读这篇文章,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转自:数据派THU

ID:DatapiTHU

原文题目:Want to Becomea Data Scientist? Read This Interview First

作者:Kevin Gray

翻译:韩海畴

校对:闵黎


本文长度为3800字,建议阅读8分钟

本文为你解答数据科学究竟是什么及一个好数据科学家应具备的品质。


市场营销学者Kevin Gray对肯纳索州立大学研究生院副院长、统计学及数据科学教授Jennifer Priestley做了一个采访,请教数据科学究竟是什么、一个好数据科学家应具备哪些品质以及如何成为一个好的数据科学家,访谈全文如下。


Q:您能否用简单、外行人也能听得懂的话向我们解释数据科学?


A:我认为Slack的数据工程总监Josh Wills给出的定义非常恰当——“(数据科学家是)擅长统计学的软件工程师与擅长软件工程的统计学家的混合体。”,我还想在这里加上我本人的“Priestly推论”:“(数据科学家是)擅长对数据分析结果进行商业解释的科学家与擅长数据分析的MBA的混合体”

 

Q:统计学家和数据科学家之间的区别是什么?


A:这是个好问题。我也经常被问到计算机科学家和数据科学家之间的区别是什么。事实上这两个学科也都在探索隐藏在数据中的新内涵。虽然二者都对数据科学这一新生领域作出了令人瞩目的贡献,他们并非完全独立的。


数据的增长不仅体现在其规模上,还体现在我们对数据这个词定义的延伸上。举个例子,文本和图像已成为日益常见的数据形式并被纳入分类及风险建模等分析范畴中。对数据定义的延伸迫使统计学和计算机科学从各自的传统核心领域进入边缘领域——在这样的边缘领域里,新的思路开始萌发——两个学科在边缘领域的融合成为了数据科学的基础。


统计学的多数传统核心内容还未做好处理以十亿为单位的记录及非结构化数据的准备。同样,计算机科学的核心领域虽然擅长高效获取并存储大量结构化和非结构化数据,但在通过建模、分类和可视化等形式将数据转换成信息的能力上存在短板。


我同意统计学家在数据科学界容易处于弱势的说法。我认为这很不幸。几年前,“简单统计学”(SimplyStatistics)博客发布了一篇名为《为什么大数据陷入了麻烦:他们忘了运用统计学》的文章。这篇文章指出了人们兴冲冲地倒腾机器学习、文本挖掘、神经网络却忽视与数据行为(behavior of date)密切相关的变量、置信度、分布等基本统计学概念,导致了糟糕的决定。虽然数据科学不是统计学,但统计学为这门学科贡献了基础方法。

 

Q:我们中绝大多数人直到最近几年才听说过数据科学。您能否向我们简要介绍它的历史?


A:这个词最早是计算机科学家Peter Naur在1960年提出的观点,但“数据科学”在统计学中也留下了进化的种子。1962年,John W. Tukey(我们那个年代最为人所熟知和尊敬的统计学家之一)写到:“在很长一段时间里,我认为我是一个统计学家,致力于通过特定样本推断总体的面貌。但自从我看到了数理统计的进化,我发现我真正感兴趣的领域是数据分析……数据分析本质上是一门经验科学。”


1996年,国际分类学联合会(IFCS)在第五次大会中首次使用了“数据科学”一词。大会标题为“数据科学,分类及相关方法”。 1997年,吴建福教授(目前在佐治亚理工学院)在密歇根大学统计系就任H. C. Carver讲席教授的公开演讲中呼吁将统计学更名为数据科学,统计学家更名为数据科学家。


2002年发生了一件数据科学的关键里程碑事件,第一本学术同行评论期刊《数据科学学报》(Data ScienceJournal)正式创刊。此后又出现了其他几个期刊,专门促进和传播这一领域的学术研究成果。


专门的学术期刊的出现对于学术界来说尤为重要——这些期刊促成了新的博士课程(比如我们的)和学术部门,为相关研究、奖学金和发表提供了平台。现在数据科学教师和博士生可以在自己的圈子里——而不是计算机科学、数学、商学的圈子里——开展研究和分享。

 

Q:2011年麦肯锡作出了一项广为人知的研究预测,在2018年“仅美国一国就会面临14万到19万具备深度分析能力人才的缺口,与此同时存在至少150万名懂得如何运用大数据做出有效决定的管理人员和分析师的缺口。”这个预测有多准确?我们现在有其他替代方案吗?


A:我被问到这个问题很多次了——具体来说,许多公司高管问过我诸如“数据科学这事是否只是一时的风潮?”的问题。我想我们应该重新给这个议题划个框架。


我的观点是,我们不需要具有深刻的分析能力的“19万人”或“150万管理者”。我认为每个人都需要有一定程度的分析技能。我认为基础分析素养应该像阅读、数学一样成为我们的教育体系的基础部分。如今看到越来越多小学里也开始教授基础的编程技巧让我备受鼓舞。在大学的层面,我认为数据科学应成为基础课的一部分。(我现在可以听到我们的教务办公室的人在大喘气了)。


所以,虽然目前的人才缺口是实实在在的,但这是与市场需求不符的教育制度的造成的。各级教育正在转向,并很可能在可预见的将来继续下去。我预计在一代人中,对这些技能的需求不会减少,但供给方面会与之匹配得更密切。


Priestley推论:“数据科学家擅长对数据分析结果进行商业解释的科学家与擅长数据分析的MBA的混合体”。

 

Q:许多人,包括那些考虑到职业生涯中期转型的人,已经把目光投向了数据科学。但恐怕并非所有人都适合走这条路。请问数据科学工作中需要哪些能力和技能?成为数据科学家的最佳途径有哪些?


A:这是个绝佳的问题。我们需要做些什么来让我们的下一代准备好,但实际情况是,从20多岁到40多岁的人里很多人正在寻找机会转行进入数据科学领域工作。


我在办公室看到很多这样的人。我已经有不止一次遇上“我刚刚为了拿一张数据科学的文凭向XX大学付了一万美元......而我还是找不到工作”之类的对话。虽说这些“文凭”中的一些很有含金量,但悲剧的是,大部分都是垃圾。


首先,你不能指望通过参加一个5天结业拿文凭的课程就从诗人变成数据科学家。指望线上的远程课程就更不靠谱了。


第二点,我认为人们需要对他们完成自己的职业目标要付出的努力抱有正确的期望。这些技能之所以被如此热切的需要并能给你带来高薪是因为它们很难——你最最起码也得主动学习和精进。


第三点,我认为人们需要清楚他们目前的技能有哪些,他们的目标是什么。这个问题的答案将决定你如何实现目标。那些受到了简单的在线证书课程诱惑并深陷其中的人应该想想爱丽丝梦游仙境里的那只Cheshire猫 - “如果你不知道要去哪里,走哪条路都没用”。


我对向询问这一领域相关问题的人给出以下建议:


  • 如果你是个想转行做数据科学的诗人——我是说正儿八经地的投入它并以一种深刻而有意义的方法将它作为你的事业——你需要放下你的羽毛笔,拿出你的牛仔裤和背包,上全日制的学校课程。大多数数据科学研究生课程时间不超过两年,其中多数会提供各种形式的研究生助学金。你应该争取参与包括编程,统计,建模的项目。而且还有充足的机会与当地公司,非营利组织,地方政府等等一起进行真正接地气的项目。


我觉得怎么强调实际操作、自己动手,实际经验对一切数据科学项目的重要性都不为过。这就是为什么在线/短期证书课程对于想在这一领域从头开始的人来说不起作用。直接上手做项目会帮助你们了解数据科学的更多潜在方面 - 如讲故事的作用,创造力(很遗憾地被忽视了)和项目管理。


  • 如果你是个计算机科学家/程序员,就去找找带有分析课程或者经常使用统计学的商学院课程。你的编程和数学技能多半是他们需要的——你则可能需要上些统计/建模/分析的课程——以及(又一次被)培训如何讲述故事,并学习如何在和你有不同想法的人组成的团队中工作。


  • 我会鼓励所有人去学习Tableau之类的基本的数据可视化工具。我同时鼓励所有人定期参加线上/异步编程课程。这些课程都很便宜(有的还不要钱)并能让你保持犀利的技术。


我的观点是,并不是每个人都想成为一名计算机程序员——我就不是特别喜欢编程。我是为了获得我的研究问题的答案而不得不去学编程。如果我能用我信赖的HP-12C计算器和自动铅笔就找到答案的话那我早那么做了。在21世纪里,你必须对基础数学有所了解,你必须能够阅读、写作并胜任基本编程的工作。

 

Q:数据科学家常谈到在许多组织里,管理层并不真正知道如何将分析手段运用于决策制定。决策制定仍然多数取决于直觉并且很大程度上受到公司政治的影响。您是否有相同经历?


A:我经常对公司事务发表评论,只要问题发生,不管它多不引人注意我都会发表意见。我划分了谈话框架——组织可以大致分为原生数据组织非原生数据组织两类。


 “原生数据公司”是那些现在占据头条以及股票市场的公司,如亚马逊、谷歌、脸书。这些公司在30年前不可能存在。不仅仅因为作为他们存在和运营模式基础的数据在当时并不存在,还因为即使他们做了,当时也不能获取足够的计算能力或执行与人工智能、机器学习、深度学习等方式相关的深度分析方法让这些公司从事他们现在正在做的业务。


然而,这些公司的另一个维度往往被忽视:由于它们是原生于数据本身,也因此在企业文化上受到了巨大的影响。它们是从组织图的顶部到底部都由数据驱动的公司。数据贯穿于他们整个公司的DNA。大多数进入这些公司的人都有以数据为中心的方向——并且可能会研究一个计算学科——越来越侧重于数据科学。脸书、谷歌的员工年龄中位数是29岁,亚马逊则为30岁(不包括仓库员工)。


 “非原生数据公司”是在我们听到诸如“数据科学”和“大数据”这样的术语很久以前就取得成功的公司。例子包括沃尔玛和Arby’s。它们都是非常成功的公司,成立之初并没有数据贯穿于其DNA。


虽然这些公司现在已经大力侧重将数据用于公司决策及提供产品和服务,但与建立在计算文化上的组织架构有巨大的不同。这些公司的管理层非常有前瞻性,他们把自己的公司转变为以事实为基础、用数据做驱动的组织,从而在市场上获得了领先者地位。他们各自市场上的对手们(希尔斯百货,梅西百货 ... 麦当劳,温蒂快餐)则没有。


Q:最后一个问题,您认为人工智能和自动化在未来10-15年里对数据科学造成怎样的影响?


A:我并非这一领域的专家,但我认为做出任何预测统计学、计算机科学或数据科学会因自动化而消亡的预言都为时过早。计算器只是让数学计算“自动化”……但是如今的数学比以前的计算要更广阔也更复杂。我期待在数据科学的领域中也是一样。

 

原文链接:

https://www.kdnuggets.com/2017/10/become-data-scientist-read-interview-first.html

 

 译者简介

韩海畴,中国人民大学2014届市场营销系本科毕业生,目前在海南工作。对大数据在市场营销及金融方面的运用感兴趣。希望能在数据派THU这个平台上与志同道合的朋友们一起学习和交流。

目前有10000+人已关注加入我们,欢迎您关注

       

       

点击下方“阅读原文”了解大数据实验平台

↓↓↓

这篇关于想成为一名数据科学家?你得先读读这篇文章的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/898179

相关文章

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类