Sagemaker基础操作指南

2023-11-11 12:04
文章标签 基础 操作 指南 sagemaker

本文主要是介绍Sagemaker基础操作指南,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

Amazon SageMaker是亚马逊AWS提供的一项托管式机器学习服务,旨在简化和加速机器学习开发的整个生命周期。它为机器学习工程师和数据科学家提供了一套完整的工具和功能,用于构建、训练、调优和部署机器学习模型。本文将会通过一个简单的例子,来介绍Sagemaker的使用,并且完成一个简单的深度学习任务

创建Jupyter Notebook实例

官方例子中的代码由于调用了一些SageMaker专用的SDK,因此需要在SageMaker的JupyterNotebook实例下进行。创建的操作如下:

进入亚马逊控制台后选择Amazon SageMaker

之后选择左侧边栏的笔记本->笔记本实例

点击创建笔记本实例。

一开始新创建的笔记本实例,状态为pending,等待一段时间后,状态会变为InService。

之后选择打开Jupyter就可以进入Jupyter Notebook实例内

参考连接

亚马逊创建Jupyter notebook实例相关内容 视频链接

训练和部署

下面是亚马逊官方关于sagemaker例子的github地址

https://github.com/aws/amazon-sagemaker-examples

这里选择一个sagemake预测用户流失的例子,进行训练和部署的操作。

将git上的例子下载到本地后,对应的文件在以下目录

amazon-sagemaker-examples\introduction_to_applying_machine_learning\xgboost_customer_churn

进入JupyterNotebook实例中,点击Upload,将xgboost_customer_chun.ipynb上传到实例中。

点击这个ipynb文件,进入到实例中按步骤执行即可。

关键代码解析

例子所有的代码都在xgboost_customer_chun.ipynb文件中,例子的前半部分都是对数据进行分析和清理,就不详细讲解。直接从清理之后的部分开始

将数据分成了训练集,验证集,测试集。并且将训练集和验证集保存成train.csv,validation.csv文件

train_data, validation_data, test_data = np.split(model_data.sample(frac=1, random_state=1729),[int(0.7 * len(model_data)), int(0.9 * len(model_data))],
)
train_data.to_csv("train.csv", header=False, index=False)
validation_data.to_csv("validation.csv", header=False, index=False)

之后将这两个数据上传到s3服务器中

boto3.Session().resource("s3").Bucket(bucket).Object(os.path.join(prefix, "train/train.csv")
).upload_file("train.csv")
boto3.Session().resource("s3").Bucket(bucket).Object(os.path.join(prefix, "validation/validation.csv")
).upload_file("validation.csv")

然后创建xgboost的容器

container = sagemaker.image_uris.retrieve("xgboost", sess.boto_region_name, "1.7-1")
display(container)

然后读取之前上传的两个csv文件作为训练的输入

s3_input_train = TrainingInput(s3_data="s3://{}/{}/train".format(bucket, prefix), content_type="csv"
)
s3_input_validation = TrainingInput(s3_data="s3://{}/{}/validation/".format(bucket, prefix), content_type="csv"
)

然后设置完超参数进行训练

sess = sagemaker.Session()xgb = sagemaker.estimator.Estimator(container,role,instance_count=1,instance_type="ml.m4.xlarge",output_path="s3://{}/{}/output".format(bucket, prefix),sagemaker_session=sess,
)
xgb.set_hyperparameters(max_depth=5,eta=0.2,gamma=4,min_child_weight=6,subsample=0.8,verbosity=0,objective="binary:logistic",num_round=100,
)xgb.fit({"train": s3_input_train, "validation": s3_input_validation})

等待训练完成之后,就可以把这个预测器进行部署

xgb_predictor = xgb.deploy(initial_instance_count=1, instance_type="ml.m4.xlarge", serializer=CSVSerializer()
)

部署完成后就可以调用predict接口将一开始分出来的测试集进行预测

def predict(data, rows=500):split_array = np.array_split(data, int(data.shape[0] / float(rows) + 1))predictions = ""for array in split_array:predictions = "".join([predictions, xgb_predictor.predict(array).decode("utf-8")])return predictions.split("\n")[:-1]predictions = predict(test_data.to_numpy()[:, 1:])

最后就是对预测的结果正确性进行对比。

pd.crosstab(index=test_data.iloc[:, 0],columns=np.round(predictions),rownames=["actual"],colnames=["predictions"],)

下面是预测后的结果,绿色方框均为预测正确结果,红色方案内为预测错误的结果。正确率为94.6%

附上官方教程,教程内显示执行后的整个输出。(里面部分代码在真实环境中可能会报错,实际还是要用放在github上的代码)

https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_applying_machine_learning/xgboost_customer_churn/xgboost_customer_churn_outputs.html

创作不易,如果觉得这篇文章对你有所帮助,可以动动小手,点个赞哈,ღ( ´・ᴗ・` )比心

这篇关于Sagemaker基础操作指南的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/389933

相关文章

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句

Python位移操作和位运算的实现示例

《Python位移操作和位运算的实现示例》本文主要介绍了Python位移操作和位运算的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 位移操作1.1 左移操作 (<<)1.2 右移操作 (>>)注意事项:2. 位运算2.1

SpringBoot整合OpenFeign的完整指南

《SpringBoot整合OpenFeign的完整指南》OpenFeign是由Netflix开发的一个声明式Web服务客户端,它使得编写HTTP客户端变得更加简单,本文为大家介绍了SpringBoot... 目录什么是OpenFeign环境准备创建 Spring Boot 项目添加依赖启用 OpenFeig

SpringBoot请求参数接收控制指南分享

《SpringBoot请求参数接收控制指南分享》:本文主要介绍SpringBoot请求参数接收控制指南,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring Boot 请求参数接收控制指南1. 概述2. 有注解时参数接收方式对比3. 无注解时接收参数默认位置

Python ZIP文件操作技巧详解

《PythonZIP文件操作技巧详解》在数据处理和系统开发中,ZIP文件操作是开发者必须掌握的核心技能,Python标准库提供的zipfile模块以简洁的API和跨平台特性,成为处理ZIP文件的首选... 目录一、ZIP文件操作基础三板斧1.1 创建压缩包1.2 解压操作1.3 文件遍历与信息获取二、进阶技

Java中字符串转时间与时间转字符串的操作详解

《Java中字符串转时间与时间转字符串的操作详解》Java的java.time包提供了强大的日期和时间处理功能,通过DateTimeFormatter可以轻松地在日期时间对象和字符串之间进行转换,下面... 目录一、字符串转时间(一)使用预定义格式(二)自定义格式二、时间转字符串(一)使用预定义格式(二)自

CentOS7更改默认SSH端口与配置指南

《CentOS7更改默认SSH端口与配置指南》SSH是Linux服务器远程管理的核心工具,其默认监听端口为22,由于端口22众所周知,这也使得服务器容易受到自动化扫描和暴力破解攻击,本文将系统性地介绍... 目录引言为什么要更改 SSH 默认端口?步骤详解:如何更改 Centos 7 的 SSH 默认端口1

SpringBoot多数据源配置完整指南

《SpringBoot多数据源配置完整指南》在复杂的企业应用中,经常需要连接多个数据库,SpringBoot提供了灵活的多数据源配置方式,以下是详细的实现方案,需要的朋友可以参考下... 目录一、基础多数据源配置1. 添加依赖2. 配置多个数据源3. 配置数据源Bean二、JPA多数据源配置1. 配置主数据

python中各种常见文件的读写操作与类型转换详细指南

《python中各种常见文件的读写操作与类型转换详细指南》这篇文章主要为大家详细介绍了python中各种常见文件(txt,xls,csv,sql,二进制文件)的读写操作与类型转换,感兴趣的小伙伴可以跟... 目录1.文件txt读写标准用法1.1写入文件1.2读取文件2. 二进制文件读取3. 大文件读取3.1