机器学习笔记：如何用MLflow管理模型生命周期

本文主要是介绍机器学习笔记：如何用MLflow管理模型生命周期，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

MLflow介绍

MLflow是一个解决机器学习生命周期管理的平台，在上面对模型进行跟踪、重现、管理和部署。

MLFlow解决了如下几个问题：

1、算法训练实验难于追踪，所以我们需要有一个实验管理工具Tracking。这个工具能够记录算法，算法参数，模型结果，效果等数据。

2、算法脚本难于重复运行，原因很多，比如代码版本，模型参数，还有运行环境。解决办法就是所有的算法项目应该都有一套标准的Projects概念,记录下来这些东西，并且这个Projects是可以拟合所有算法框架的。

3、部署模型是一个艰难的过程，ML界目前还没有一个标准的打包和部署模型的机制。解决的办法是Models概念，Models提供了工具和标准帮助你部署各种算法框架的模型。

MLflow提供了三个主要组件：

MLflow 跟踪模块 ，用于记录实验数据的API和UI，其中的数据包括参数、代码版本、评价指标和使用过的输出文件。
MLflow 项目模块 ，用于可重现性运行的一种代码封装格式，将代码封装在MLflow项目中，可以指定其中的依赖关系，并允许任何其他用户稍后再次运行它，并可靠地对结果进行重现。
MLflow 模型模块 ，一种简单的模型封装格式，允许将模型部署到许多工具。例如，如果将模型封装为一个Python函数，MLflow模型就可以将其部署到Docker或Azure ML进行线上服务，部署到Apache Spark进行批量打分。

数据集介绍

这里使用的是Kaggle竞赛题中预测信用卡风险客户的数据集，数据链接：

https://www.kaggle.com/c/home-credit-default-risk/data。

其中有一张表中是HomeCredit_columns.csv，记录了每个栏位的含义。数据集任务是需要判断每单申请信贷资金的风险等级，这是一个比较明确的二分类任务。这里我们主要使用：

application_train.csv
application_test.csv

特征工程

train文件相较于test文件多了一栏目标变量TARGET，Kaggle上有一句非常经典的话，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。通过总结和归纳，特征工程的步骤主要包括：

from sklearn.preprocessing import LabelEncoder
import pickle
import pandas as pdtrain_data = pd.read.csv("./application_train.csv")
print(application_train.select_dtypes(include=['object']).head())le = LabelEncoder() 
train_data['ORGANIZATION_TYPE'] = le.fit_transform(train_data['ORGANIZATION_TYPE'].values.tolist()+["UNKNOWN"])
output = open('ORGANIZATION_TYPE.pkl', 'wb')
pickle.dump(le, output)
output.close()# test文件转换
test_data = pd.read.csv("./application_test.csv")
pkl_file = open('ORGANIZATION_TYPE.pkl', 'rb')
le_origanization = pickle.load(pkl_file) 
pkl_file.close()
# 查看transformer中类别
print(le_origanization.classes_)
# 替换test中ORGANIZATION_TYPE未出现在train文件中为"UNKNOWN"
ORGANIZATION_TYPE_diff = set(test_data["ORGANIZATION_TYPE"])-set(train_data["ORGANIZATION_TYPE"])
if len(ORGANIZATION_TYPE_diff)>0:replace_dict = dict(zip(list(ORGANIZATION_TYPE_diff),len(list(ORGANIZATION_TYPE_diff))*["UNKNOWN"]))test_data["ORGANIZATION_TYPE"].replace(replace_dict,inplace=True)test_data['ORGANIZATION_TYPE'] = le_departure.transform(test_data['ORGANIZATION_TYPE'])

实际工程实施中，离线跑批模型是将特征工程加工过程提交到spark、Hadoop等大数据平台上进行的，产出变量宽表后再进行预测。上面的LabelEncoder与StandardScaler步骤是需要在sql文件中加工完成的。

模型训练

当特征工程完成后，可以使用MLflow Tracking API记录模型运行参数，

import argparse
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, log_loss, roc_auc_score
import xgboost as xgb
import mlflow
import mlflow.xgboostdef parse_args():parser = argparse.ArgumentParser(description='XGBoost example')parser.add_argument('--max-depth', type=int, default=3,help='Maximum depth of a tree. Increasing this value will make the model more complex and more likely to overfit (default: 3)')parser.add_argument('--colsample-bytree', type=float, default=1.0,help='subsample ratio of columns when constructing each tree (default: 1.0)')parser.add_argument('--subsample', type=float, default=1.0,help='subsample ratio of the training instances (default: 1.0)')return parser.parse_args()def main():# parse command-line argumentsargs = parse_args()app_train_domain = pd.read_pickle("./app_train_domain.pkl")features_ids = app_train_domain['SK_ID_CURR']labels = app_train_domain['TARGET']features = app_train_domain.drop(columns = ['SK_ID_CURR', 'TARGET'])train_x, test_x, train_y, test_y = train_test_split(features, labels, random_state=11)dtrain = xgb.DMatrix(train_x, label = train_y)dtest = xgb.DMatrix(test_x, label = test_y)# enable auto loggingmlflow.xgboost.autolog()with mlflow.start_run():params={'booster':'gbtree','objective': 'binary:logistic','eval_metric': 'auc','max_depth':args.max_depth,'lambda':10,'subsample':args.subsample,'colsample_bytree':args.colsample_bytree,'min_child_weight':2,'eta': 0.025,'seed':0,'nthread':8,'silent':1}model=xgb.train(params,dtrain,num_boost_round=100,evals=[(dtrain, 'train'),(dtest, 'test')])y_proba = model.predict(dtest)auc = roc_auc_score(test_y, y_proba)# log metricsmlflow.log_metrics({'auc': auc})if __name__ == '__main__':main()

保存后运行代码，

python train.py --colsample-bytree 0.8 --subsample 0.9

或者以工程的方式运行，

mlflow run . -P colsample-bytree=0.8 -P subsample=0.85

输入

mlflow ui

即可在 http://127.0.0.1:5000 中看到模型运行结果，并进行多次结果的对比。

mlflow与众多机器学习框架都有相应的接口，例如通过：

mlflow.xgboost.save_model(model, "my_model")

将刚刚运行得到的模型进行保存，保存后得到的目录中包含：

conda.yaml
MLmodel
model.xgb

最后利用model register功能将模型保存后，可以管理上线模型的版本：

from pprint import pprintclient = MlflowClient()
for rm in client.list_registered_models():pprint(dict(rm), indent=4)

这样就可以查看到所有Registered模型。

各位小伙伴如有兴趣交流，欢迎关注公众号留言勾搭

代码猴

在看点这里

这篇关于机器学习笔记：如何用MLflow管理模型生命周期的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

机器学习笔记：如何用MLflow管理模型生命周期

相关文章

Java领域模型示例详解

深入理解Redis线程模型的原理及使用

Elasticsearch 的索引管理与映射配置实战指南

Linux创建服务使用systemctl管理详解

在Node.js中使用.env文件管理环境变量的全过程

Linux五种IO模型的使用解读

python库pydantic数据验证和设置管理库的用途

SpringBoot 多环境开发实战(从配置、管理与控制)

Redis实现高效内存管理的示例代码

Maven中生命周期深度解析与实战指南