2020年里5个必须具备的数据科学技能

2024-06-21 09:08

本文主要是介绍2020年里5个必须具备的数据科学技能,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Joos Korstanje

编译:ronghuaiyang

导读

长期以来,“R, Python, SQL和机器学习”一直是数据科学家的标准工作描述。但随着该领域的发展,这已不足以在就业市场上保持竞争力。

更新你的技能,为2020年数据就业市场准备!

数据科学是一个竞争激烈的领域,人们正在迅速积累越来越多的技能和经验。这导致了机器学习工程师的工作描述越来越丰富,因此我对2020年的建议是,所有的数据科学家也需要成为开发人员。

为了保持竞争力,你一定要为新工具带来的新工作方式做好准备。

1. 敏捷

敏捷是一种组织工作的方法,已经被开发团队大量使用。数据科学的角色越来越多地由那些最初的技能是纯软件开发的人来扮演,这就产生了机器学习工程师的角色。

越来越多的数据科学家/机器学习工程师被管理为开发人员:不断地改进现有代码库中的机器学习元素。

对于这种类型的角色,数据科学家必须了解基于Scrum方法的敏捷工作方式。它为不同的人定义了几个角色,这个角色定义确保了持续的改进和顺利地实现。

2. Github

Git和Github是为开发人员提供的软件,在管理不同版本的软件时非常有用。它们跟踪对代码库所做的所有更改,此外,当多个开发人员在同一时间对同一项目进行更改时,它们还为协助提供了真正的便利。

随着数据科学家的角色变得越来越偏重于开发,使用这些开发工具就成为了关键。Git正在成为一种重要的工作需求,要适应使用Git的最佳实践需要一定的时间。当你独自一人或与他人合作时,很容易开始使用Git,但是当你加入一个有Git专家的团队,而你仍然是一个新手时,你可能会比想象的更加困难。

3. 工业化

数据科学也在改变的是我们思考项目的方式。数据科学家仍然是用机器学习回答业务问题的人,一如既往。但是,越来越多的数据科学项目是为生产系统开发的,例如作为大型软件中的微服务。

与此同时,高级模型的CPU和RAM消耗越来越大,特别是在处理神经网络和深度学习时。

对于数据科学家的工作描述,不仅要考虑模型的准确性,还要考虑项目的执行时间或其他工业化方面,这一点变得越来越重要。

4. 云和大数据

虽然机器学习的工业化正成为数据科学家的一个严重的约束,但它也成为数据工程师和IT的一个严重约束。

当数据科学家可以致力于减少模型所需的时间时,IT人员可以通过改变速度更快的计算服务来做出贡献,这些计算服务通常可以通过以下一种或两种方式获得:

  • 云:将计算资源转移到外部供应商,如AWS、Microsoft Azure或谷歌云,使得建立一个可以从远处访问的非常快速的机器学习环境变得非常容易。这要求数据科学家对云功能有基本的了解,例如:使用远程服务器而不是自己的计算机,或者使用Linux而不是Windows / Mac。

PySpark可以在并行(大数据)系统上编写Python
  • 大数据:更快的第二个方面是使用Hadoop和Spark,这两个工具允许同时在多台计算机(工作节点)上并行处理任务。这要求使用不同的方法来实现数据科学家的模型,因为你的代码必须允许并行执行。

5. 自然语言处理, 神经网络和深度学习

最近,数据科学家仍然认为NLP和图像识别仅仅是数据科学的专门化,并不是所有人都必须掌握。

你需要理解深度学习: 基于人脑思想的机器学习

但是,即使在“常规”业务中,图像分类和NLP的用例也越来越频繁。在当今时代,至少对这些模型没有基本的了解是不可接受的。

即使你在工作中没有此类模型的直接应用,也可以很容易地找到实际操作的项目,并使你能够理解图像和文本项目中所需的步骤。

祝你好运,同时提高你的技能,不要犹豫,保持关注

—END—

英文原文:https://towardsdatascience.com/top-5-must-have-data-science-skills-for-2020-a5a53226b168

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

这篇关于2020年里5个必须具备的数据科学技能的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080794

相关文章

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient