学习data mining的7个步骤

2024-06-01 05:58
文章标签 学习 步骤 data mining

本文主要是介绍学习data mining的7个步骤,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

学习data mining的7个步骤(可以并行进行,或按不同次序进行)

1.语言:学习R, Python, SQL, 提交到 KDnuggets
2.工具:学习使用data mining和visualization工具
3.教材:阅读introductory textbook to understand the fundation.
4.教育:参加在线研讨会(webinars),加入课程,拿到data scicence方面的degree或certificate
5.数据:检查可用数据资源,可参考此处:http://www.kdnuggets.com/news/subscribe.html
6.比赛:参加双周期email的data mining竞赛
7.与其他数据科学加交流,可通过社交网络,群组,会议的方式。

下面详细对以上7个步骤做以说明:
1.学习语言
KDnuggets对最受流行的data mining语言做了个调查,见
http://www.kdnuggets.com/2013/08/languages-for-analytics-data-mining-data-science.html
发现最流行的语言是R,Python和SQL。
以下是这些语言的学习资源:
Data Science with R(e-book): www.kdnuggets.com/2013/02/free-e-book-on-data-science-with-r.html

Getting Start with Python for Data Science:
https://www.kaggle.com/wiki/GettingStartedWithPythonForDataScience

Python for Data Analysis: Agile Tools for Real World Data
http://shop.oreilly.com/product/0636920023784.do

An Indispensable Python: Data sourcing to Data science
http://www.datasciencecentral.com/profiles/blogs/an-indispensable-python-data-sourcing-to-data-science

W3 Schools Learning SQL
http://www.w3schools.com/sql/

2.Data mining需要的工具。
针对Data mining不同的任务,需要使用不同的工具。所以要想能完整地完成数据分析工作需要掌握一系列工具,使之形成一个工具集。

起步工具:可以使用开源的免费工具,如:
KNIME: www.knime.org
RapidMiner: http://rapidminer.com/products/rapidminer-studio/
Weka: www.cs.waikato.ac.nz/ml/weka/

在分析工作中常用到的一个工具:
SAS:http://www.sas.com/en_us/home.html
这是一个商业化工作,使用广泛

其他流行的工具包括:
MATLAB,
StatSoft STATISTICA,
Microsoft SQL Server
Tableau
IBM SPSS Moderler
Rattle
详见:http://www.kdnuggets.com/polls/2013/analytics-big-data-mining-data-science-software.html

可视化工具:
Microsoft Excel
R graphics: http://cran.r-project.org/web/views/Graphics.html(特别是其中的ggplot2: http://cran.r-project.org/web/packages/ggplot2/index.html)
Tableau: http://www.tableau.com/(非常出色)
TIBCO Spotfire
Miner3D

3.教材
有大量与data mining和data science相关的教材,详见
http://www.kdnuggets.com/publications/books.html
以下是几本推荐的:
n 《Data Mining and Analysis: Fundamental Concepts and Algorithms》,by Mohammed Zaki and Wagner Meira Jr.见
http://www.kdnuggets.com/2013/09/data-mining-analysis-fundamental-concepts-algorithms-download-pdf-draft.html

n 《Data Mining: Practical Machine Learning Tools and Techniques》by Ian Witten, Eibe Frank, and Mark Hall, from the authors of Weka, and using Weka extensively in examples.
见:http://www.cs.waikato.ac.nz/ml/weka/book.html

n 《The Elements of Statistical Learning, Data Mining,Inference, and Predictionm》by Trevor Hastie, Robert Tibshirani, Jerome Friedman这是一本从数学角度出发的不错的概述性书籍
见:http://statweb.stanford.edu/~tibs/ElemStatLearn/

n 《LIONbook: Learning and Intelligent Optimization》, by Roberto Battiti and Mauro Brunato, 本书网上有免费版。
见:http://www.lionsolver.com/LIONbook/

n 《Mining of Massive Datasets Book》 by A. Rajaraman, J. Ullman.
见:http://www.kdnuggets.com/2012/08/mining-massive-datasets-book-revised.html

n 《StatSoft Electronic Statistics Textbook™ (free)》, 本书包含了许多data mining有关的话题
见:http://www.statsoft.com/Textbook

4.教育:在线研讨会(Webinars),课程,Certificates和学位
在线研讨会资源:http://info.hortonworks.com/Retail-Insights-Big-Data-Hadoop.html

在线课程:http://www.kdnuggets.com/education/index.html

特别要提到的几个课程:
Coursera上的Machine Learning,Andrew Ng任课
edX上的Learning from data,Caltech Professsor Yaser Abu-Mostafa任课:http://www.kdnuggets.com/2013/09/edx-learning-from-data-free-online-course.html
Syracuse iSchool的Open Online Course in Applied Data Science:
http://ischool.syr.edu/future/cas/datascience.aspx
在线幻灯片:http://www.kdnuggets.com/data_mining_course/index.html
此外,最好能拿到Certificates in Data Mining, and Data Science(见
http://www.kdnuggets.com/education/analytics-data-mining-certificates.html
)或取得Data Science方面的高级学位,如MS。参考
http://www.kdnuggets.com/education/index.html

5.数据
学习数据分析,需要分析数据,参考
http://www.kdnuggets.com/datasets/index.html
这里包括:
l Government, Federal, State, City, Local and public data sites and portals:http://www.kdnuggets.com/datasets/government-local-public.html
l Data APIs, Hubs, Marketplaces, Platforms, Portals, and Search Engines:http://www.kdnuggets.com/datasets/api-hub-marketplace-platform.html
l Free Public Datasets:http://www.kdnuggets.com/2011/02/free-public-datasets.html

6.竞赛
可以参加一些竞赛,如
http://www.kaggle.com/
中的,参赛者可以从初学者竞赛开始进行,如
http://www.kdnuggets.com/2012/10/beginner-competition-titanic-survival-via-machine-learning.html

7.交流:会议,群组和社交网络
可以加入许多组织,参考Top 30 LinkedIn Groups for Analytics, Big Data, Data Mining, and Data Science:
http://www.kdnuggets.com/2013/04/top-30-linkedin-groups-analytics-big-data-data-mining-data-science.html

AnalyticBridge是关于数据和分析科学的一个活跃组织。
http://www.analyticbridge.com/

也可以加入许多关于数据分析,大数据,数据挖掘,数据科学和知识发现方面的会议:http://www.kdnuggets.com/meetings/index.html

最后,应该考虑加入ACM SKGKDD组织,它组织了年度KDD会议,这是该领域领军的研究性会议:http://www.sigkdd.org/

这篇关于学习data mining的7个步骤的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1020163

相关文章

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q

在macOS上安装jenv管理JDK版本的详细步骤

《在macOS上安装jenv管理JDK版本的详细步骤》jEnv是一个命令行工具,正如它的官网所宣称的那样,它是来让你忘记怎么配置JAVA_HOME环境变量的神队友,:本文主要介绍在macOS上安装... 目录前言安装 jenv添加 JDK 版本到 jenv切换 JDK 版本总结前言China编程在开发 Java

Spring Boot Actuator应用监控与管理的详细步骤

《SpringBootActuator应用监控与管理的详细步骤》SpringBootActuator是SpringBoot的监控工具,提供健康检查、性能指标、日志管理等核心功能,支持自定义和扩展端... 目录一、 Spring Boot Actuator 概述二、 集成 Spring Boot Actuat

Spring Boot配置和使用两个数据源的实现步骤

《SpringBoot配置和使用两个数据源的实现步骤》本文详解SpringBoot配置双数据源方法,包含配置文件设置、Bean创建、事务管理器配置及@Qualifier注解使用,强调主数据源标记、代... 目录Spring Boot配置和使用两个数据源技术背景实现步骤1. 配置数据源信息2. 创建数据源Be

在IntelliJ IDEA中高效运行与调试Spring Boot项目的实战步骤

《在IntelliJIDEA中高效运行与调试SpringBoot项目的实战步骤》本章详解SpringBoot项目导入IntelliJIDEA的流程,教授运行与调试技巧,包括断点设置与变量查看,奠定... 目录引言:为良驹配上好鞍一、为何选择IntelliJ IDEA?二、实战:导入并运行你的第一个项目步骤1

MySQL进行数据库审计的详细步骤和示例代码

《MySQL进行数据库审计的详细步骤和示例代码》数据库审计通过触发器、内置功能及第三方工具记录和监控数据库活动,确保安全、完整与合规,Java代码实现自动化日志记录,整合分析系统提升监控效率,本文给大... 目录一、数据库审计的基本概念二、使用触发器进行数据库审计1. 创建审计表2. 创建触发器三、Java

IntelliJ IDEA2025创建SpringBoot项目的实现步骤

《IntelliJIDEA2025创建SpringBoot项目的实现步骤》本文主要介绍了IntelliJIDEA2025创建SpringBoot项目的实现步骤,文中通过示例代码介绍的非常详细,对大家... 目录一、创建 Spring Boot 项目1. 新建项目2. 基础配置3. 选择依赖4. 生成项目5.

C#连接SQL server数据库命令的基本步骤

《C#连接SQLserver数据库命令的基本步骤》文章讲解了连接SQLServer数据库的步骤,包括引入命名空间、构建连接字符串、使用SqlConnection和SqlCommand执行SQL操作,... 目录建议配合使用:如何下载和安装SQL server数据库-CSDN博客1. 引入必要的命名空间2.

Spring Boot集成Druid实现数据源管理与监控的详细步骤

《SpringBoot集成Druid实现数据源管理与监控的详细步骤》本文介绍如何在SpringBoot项目中集成Druid数据库连接池,包括环境搭建、Maven依赖配置、SpringBoot配置文件... 目录1. 引言1.1 环境准备1.2 Druid介绍2. 配置Druid连接池3. 查看Druid监控

创建Java keystore文件的完整指南及详细步骤

《创建Javakeystore文件的完整指南及详细步骤》本文详解Java中keystore的创建与配置,涵盖私钥管理、自签名与CA证书生成、SSL/TLS应用,强调安全存储及验证机制,确保通信加密和... 目录1. 秘密键(私钥)的理解与管理私钥的定义与重要性私钥的管理策略私钥的生成与存储2. 证书的创建与