想成为一名数据科学家?你得先读读这篇文章

2024-04-12 20:38

本文主要是介绍想成为一名数据科学家?你得先读读这篇文章,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转自:数据派THU

ID:DatapiTHU

原文题目:Want to Becomea Data Scientist? Read This Interview First

作者:Kevin Gray

翻译:韩海畴

校对:闵黎


本文长度为3800字,建议阅读8分钟

本文为你解答数据科学究竟是什么及一个好数据科学家应具备的品质。


市场营销学者Kevin Gray对肯纳索州立大学研究生院副院长、统计学及数据科学教授Jennifer Priestley做了一个采访,请教数据科学究竟是什么、一个好数据科学家应具备哪些品质以及如何成为一个好的数据科学家,访谈全文如下。


Q:您能否用简单、外行人也能听得懂的话向我们解释数据科学?


A:我认为Slack的数据工程总监Josh Wills给出的定义非常恰当——“(数据科学家是)擅长统计学的软件工程师与擅长软件工程的统计学家的混合体。”,我还想在这里加上我本人的“Priestly推论”:“(数据科学家是)擅长对数据分析结果进行商业解释的科学家与擅长数据分析的MBA的混合体”

 

Q:统计学家和数据科学家之间的区别是什么?


A:这是个好问题。我也经常被问到计算机科学家和数据科学家之间的区别是什么。事实上这两个学科也都在探索隐藏在数据中的新内涵。虽然二者都对数据科学这一新生领域作出了令人瞩目的贡献,他们并非完全独立的。


数据的增长不仅体现在其规模上,还体现在我们对数据这个词定义的延伸上。举个例子,文本和图像已成为日益常见的数据形式并被纳入分类及风险建模等分析范畴中。对数据定义的延伸迫使统计学和计算机科学从各自的传统核心领域进入边缘领域——在这样的边缘领域里,新的思路开始萌发——两个学科在边缘领域的融合成为了数据科学的基础。


统计学的多数传统核心内容还未做好处理以十亿为单位的记录及非结构化数据的准备。同样,计算机科学的核心领域虽然擅长高效获取并存储大量结构化和非结构化数据,但在通过建模、分类和可视化等形式将数据转换成信息的能力上存在短板。


我同意统计学家在数据科学界容易处于弱势的说法。我认为这很不幸。几年前,“简单统计学”(SimplyStatistics)博客发布了一篇名为《为什么大数据陷入了麻烦:他们忘了运用统计学》的文章。这篇文章指出了人们兴冲冲地倒腾机器学习、文本挖掘、神经网络却忽视与数据行为(behavior of date)密切相关的变量、置信度、分布等基本统计学概念,导致了糟糕的决定。虽然数据科学不是统计学,但统计学为这门学科贡献了基础方法。

 

Q:我们中绝大多数人直到最近几年才听说过数据科学。您能否向我们简要介绍它的历史?


A:这个词最早是计算机科学家Peter Naur在1960年提出的观点,但“数据科学”在统计学中也留下了进化的种子。1962年,John W. Tukey(我们那个年代最为人所熟知和尊敬的统计学家之一)写到:“在很长一段时间里,我认为我是一个统计学家,致力于通过特定样本推断总体的面貌。但自从我看到了数理统计的进化,我发现我真正感兴趣的领域是数据分析……数据分析本质上是一门经验科学。”


1996年,国际分类学联合会(IFCS)在第五次大会中首次使用了“数据科学”一词。大会标题为“数据科学,分类及相关方法”。 1997年,吴建福教授(目前在佐治亚理工学院)在密歇根大学统计系就任H. C. Carver讲席教授的公开演讲中呼吁将统计学更名为数据科学,统计学家更名为数据科学家。


2002年发生了一件数据科学的关键里程碑事件,第一本学术同行评论期刊《数据科学学报》(Data ScienceJournal)正式创刊。此后又出现了其他几个期刊,专门促进和传播这一领域的学术研究成果。


专门的学术期刊的出现对于学术界来说尤为重要——这些期刊促成了新的博士课程(比如我们的)和学术部门,为相关研究、奖学金和发表提供了平台。现在数据科学教师和博士生可以在自己的圈子里——而不是计算机科学、数学、商学的圈子里——开展研究和分享。

 

Q:2011年麦肯锡作出了一项广为人知的研究预测,在2018年“仅美国一国就会面临14万到19万具备深度分析能力人才的缺口,与此同时存在至少150万名懂得如何运用大数据做出有效决定的管理人员和分析师的缺口。”这个预测有多准确?我们现在有其他替代方案吗?


A:我被问到这个问题很多次了——具体来说,许多公司高管问过我诸如“数据科学这事是否只是一时的风潮?”的问题。我想我们应该重新给这个议题划个框架。


我的观点是,我们不需要具有深刻的分析能力的“19万人”或“150万管理者”。我认为每个人都需要有一定程度的分析技能。我认为基础分析素养应该像阅读、数学一样成为我们的教育体系的基础部分。如今看到越来越多小学里也开始教授基础的编程技巧让我备受鼓舞。在大学的层面,我认为数据科学应成为基础课的一部分。(我现在可以听到我们的教务办公室的人在大喘气了)。


所以,虽然目前的人才缺口是实实在在的,但这是与市场需求不符的教育制度的造成的。各级教育正在转向,并很可能在可预见的将来继续下去。我预计在一代人中,对这些技能的需求不会减少,但供给方面会与之匹配得更密切。


Priestley推论:“数据科学家擅长对数据分析结果进行商业解释的科学家与擅长数据分析的MBA的混合体”。

 

Q:许多人,包括那些考虑到职业生涯中期转型的人,已经把目光投向了数据科学。但恐怕并非所有人都适合走这条路。请问数据科学工作中需要哪些能力和技能?成为数据科学家的最佳途径有哪些?


A:这是个绝佳的问题。我们需要做些什么来让我们的下一代准备好,但实际情况是,从20多岁到40多岁的人里很多人正在寻找机会转行进入数据科学领域工作。


我在办公室看到很多这样的人。我已经有不止一次遇上“我刚刚为了拿一张数据科学的文凭向XX大学付了一万美元......而我还是找不到工作”之类的对话。虽说这些“文凭”中的一些很有含金量,但悲剧的是,大部分都是垃圾。


首先,你不能指望通过参加一个5天结业拿文凭的课程就从诗人变成数据科学家。指望线上的远程课程就更不靠谱了。


第二点,我认为人们需要对他们完成自己的职业目标要付出的努力抱有正确的期望。这些技能之所以被如此热切的需要并能给你带来高薪是因为它们很难——你最最起码也得主动学习和精进。


第三点,我认为人们需要清楚他们目前的技能有哪些,他们的目标是什么。这个问题的答案将决定你如何实现目标。那些受到了简单的在线证书课程诱惑并深陷其中的人应该想想爱丽丝梦游仙境里的那只Cheshire猫 - “如果你不知道要去哪里,走哪条路都没用”。


我对向询问这一领域相关问题的人给出以下建议:


  • 如果你是个想转行做数据科学的诗人——我是说正儿八经地的投入它并以一种深刻而有意义的方法将它作为你的事业——你需要放下你的羽毛笔,拿出你的牛仔裤和背包,上全日制的学校课程。大多数数据科学研究生课程时间不超过两年,其中多数会提供各种形式的研究生助学金。你应该争取参与包括编程,统计,建模的项目。而且还有充足的机会与当地公司,非营利组织,地方政府等等一起进行真正接地气的项目。


我觉得怎么强调实际操作、自己动手,实际经验对一切数据科学项目的重要性都不为过。这就是为什么在线/短期证书课程对于想在这一领域从头开始的人来说不起作用。直接上手做项目会帮助你们了解数据科学的更多潜在方面 - 如讲故事的作用,创造力(很遗憾地被忽视了)和项目管理。


  • 如果你是个计算机科学家/程序员,就去找找带有分析课程或者经常使用统计学的商学院课程。你的编程和数学技能多半是他们需要的——你则可能需要上些统计/建模/分析的课程——以及(又一次被)培训如何讲述故事,并学习如何在和你有不同想法的人组成的团队中工作。


  • 我会鼓励所有人去学习Tableau之类的基本的数据可视化工具。我同时鼓励所有人定期参加线上/异步编程课程。这些课程都很便宜(有的还不要钱)并能让你保持犀利的技术。


我的观点是,并不是每个人都想成为一名计算机程序员——我就不是特别喜欢编程。我是为了获得我的研究问题的答案而不得不去学编程。如果我能用我信赖的HP-12C计算器和自动铅笔就找到答案的话那我早那么做了。在21世纪里,你必须对基础数学有所了解,你必须能够阅读、写作并胜任基本编程的工作。

 

Q:数据科学家常谈到在许多组织里,管理层并不真正知道如何将分析手段运用于决策制定。决策制定仍然多数取决于直觉并且很大程度上受到公司政治的影响。您是否有相同经历?


A:我经常对公司事务发表评论,只要问题发生,不管它多不引人注意我都会发表意见。我划分了谈话框架——组织可以大致分为原生数据组织非原生数据组织两类。


 “原生数据公司”是那些现在占据头条以及股票市场的公司,如亚马逊、谷歌、脸书。这些公司在30年前不可能存在。不仅仅因为作为他们存在和运营模式基础的数据在当时并不存在,还因为即使他们做了,当时也不能获取足够的计算能力或执行与人工智能、机器学习、深度学习等方式相关的深度分析方法让这些公司从事他们现在正在做的业务。


然而,这些公司的另一个维度往往被忽视:由于它们是原生于数据本身,也因此在企业文化上受到了巨大的影响。它们是从组织图的顶部到底部都由数据驱动的公司。数据贯穿于他们整个公司的DNA。大多数进入这些公司的人都有以数据为中心的方向——并且可能会研究一个计算学科——越来越侧重于数据科学。脸书、谷歌的员工年龄中位数是29岁,亚马逊则为30岁(不包括仓库员工)。


 “非原生数据公司”是在我们听到诸如“数据科学”和“大数据”这样的术语很久以前就取得成功的公司。例子包括沃尔玛和Arby’s。它们都是非常成功的公司,成立之初并没有数据贯穿于其DNA。


虽然这些公司现在已经大力侧重将数据用于公司决策及提供产品和服务,但与建立在计算文化上的组织架构有巨大的不同。这些公司的管理层非常有前瞻性,他们把自己的公司转变为以事实为基础、用数据做驱动的组织,从而在市场上获得了领先者地位。他们各自市场上的对手们(希尔斯百货,梅西百货 ... 麦当劳,温蒂快餐)则没有。


Q:最后一个问题,您认为人工智能和自动化在未来10-15年里对数据科学造成怎样的影响?


A:我并非这一领域的专家,但我认为做出任何预测统计学、计算机科学或数据科学会因自动化而消亡的预言都为时过早。计算器只是让数学计算“自动化”……但是如今的数学比以前的计算要更广阔也更复杂。我期待在数据科学的领域中也是一样。

 

原文链接:

https://www.kdnuggets.com/2017/10/become-data-scientist-read-interview-first.html

 

 译者简介

韩海畴,中国人民大学2014届市场营销系本科毕业生,目前在海南工作。对大数据在市场营销及金融方面的运用感兴趣。希望能在数据派THU这个平台上与志同道合的朋友们一起学习和交流。

目前有10000+人已关注加入我们,欢迎您关注

       

       

点击下方“阅读原文”了解大数据实验平台

↓↓↓

这篇关于想成为一名数据科学家?你得先读读这篇文章的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/898179

相关文章

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I

Java整合Protocol Buffers实现高效数据序列化实践

《Java整合ProtocolBuffers实现高效数据序列化实践》ProtocolBuffers是Google开发的一种语言中立、平台中立、可扩展的结构化数据序列化机制,类似于XML但更小、更快... 目录一、Protocol Buffers简介1.1 什么是Protocol Buffers1.2 Pro

Python实现数据可视化图表生成(适合新手入门)

《Python实现数据可视化图表生成(适合新手入门)》在数据科学和数据分析的新时代,高效、直观的数据可视化工具显得尤为重要,下面:本文主要介绍Python实现数据可视化图表生成的相关资料,文中通过... 目录前言为什么需要数据可视化准备工作基本图表绘制折线图柱状图散点图使用Seaborn创建高级图表箱线图热

MySQL数据脱敏的实现方法

《MySQL数据脱敏的实现方法》本文主要介绍了MySQL数据脱敏的实现方法,包括字符替换、加密等方法,通过工具类和数据库服务整合,确保敏感信息在查询结果中被掩码处理,感兴趣的可以了解一下... 目录一. 数据脱敏的方法二. 字符替换脱敏1. 创建数据脱敏工具类三. 整合到数据库操作1. 创建服务类进行数据库

MySQL中处理数据的并发一致性的实现示例

《MySQL中处理数据的并发一致性的实现示例》在MySQL中处理数据的并发一致性是确保多个用户或应用程序同时访问和修改数据库时,不会导致数据冲突、数据丢失或数据不一致,MySQL通过事务和锁机制来管理... 目录一、事务(Transactions)1. 事务控制语句二、锁(Locks)1. 锁类型2. 锁粒