用进化算法来优化SVM的参数C和Gamma——利用SCOOP库进行分布式加速计算

本文主要是介绍用进化算法来优化SVM的参数C和Gamma——利用SCOOP库进行分布式加速计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

该案例展示了如何利用SCOOP库进行分布式加速计算Geatpy进化算法程序,
本案例和soea_demo6类似,同样是用进化算法来优化SVM的参数C和Gamma,
不同的是,本案例选用更庞大的数据集,使得每次训练SVM模型时耗时更高,从而更适合采用分布式加速计算。
该数据集存放在同目录下的Data_User_Modeling_Dataset_Hamdi Tolga KAHRAMAN.xls中,
有关该数据集的详细描述详见http://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling。
在执行本案例前,需要确保正确安装sklearn以及SCOOP,以保证SVM和SCOOP部分的代码能够正常执行。
SCOOP安装方法:控制台执行命令pip install scoop
分布式加速计算注意事项:
1.当aimFunc()函数十分耗时,比如无法矩阵化计算、或者是计算单个个体的目标函数值就需要很长时间时,适合采用分布式计算,否则贸然采用分布式计算反而会大大降低性能。
2.分布式执行方法:python -m scoop -n 10 main.py 其中10表示把计算任务分发给10个workers。非分布式执行方法:python main.py
# -*- coding: utf-8 -*-
import numpy as np
import xlrd
import geatpy as ea
from sklearn import svm
from sklearn import preprocessing
from sklearn.model_selection import cross_val_score
from scoop import futures"""
该案例展示了如何利用SCOOP库进行分布式加速计算Geatpy进化算法程序,
本案例和soea_demo6类似,同样是用进化算法来优化SVM的参数C和Gamma,
不同的是,本案例选用更庞大的数据集,使得每次训练SVM模型时耗时更高,从而更适合采用分布式加速计算。
该数据集存放在同目录下的Data_User_Modeling_Dataset_Hamdi Tolga KAHRAMAN.xls中,
有关该数据集的详细描述详见http://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling。
在执行本案例前,需要确保正确安装sklearn以及SCOOP,以保证SVM和SCOOP部分的代码能够正常执行。
SCOOP安装方法:控制台执行命令pip install scoop
分布式加速计算注意事项:
1.当aimFunc()函数十分耗时,比如无法矩阵化计算、或者是计算单个个体的目标函数值就需要很长时间时,适合采用分布式计算,否则贸然采用分布式计算反而会大大降低性能。
2.分布式执行方法:python -m scoop -n 10 main.py 其中10表示把计算任务分发给10个workers。非分布式执行方法:python main.py
"""class MyProblem(ea.Problem): # 继承Problem父类def __init__(self):name = 'MyProblem' # 初始化name(函数名称,可以随意设置)M = 1 # 初始化M(目标维数)maxormins = [-1] # 初始化maxormins(目标最小最大化标记列表,1:最小化该目标;-1:最大化该目标)Dim = 2 # 初始化Dim(决策变量维数)varTypes = [0, 0] # 初始化varTypes(决策变量的类型,元素为0表示对应的变量是连续的;1表示是离散的)lb = [2**(-8), 2**(-8)] # 决策变量下界ub = [2**8, 1] # 决策变量上界lbin = [1] * Dim # 决策变量下边界(0表示不包含该变量的下边界,1表示包含)ubin = [1] * Dim # 决策变量上边界(0表示不包含该变量的上边界,1表示包含)# 调用父类构造方法完成实例化ea.Problem.__init__(self, name, M, maxormins, Dim, varTypes, lb, ub, lbin, ubin)# 目标函数计算中用到的一些数据workbook=xlrd.open_workbook("Data_User_Modeling_Dataset_Hamdi Tolga KAHRAMAN.xls") # 打开文件,获取excel文件的workbook(工作簿)对象worksheet=workbook.sheet_by_name("Training_Data") # 通过sheet名获得sheet对象self.data = np.vstack([worksheet.col_values(0)[1:],worksheet.col_values(1)[1:],worksheet.col_values(2)[1:],worksheet.col_values(3)[1:],worksheet.col_values(4)[1:]]).T # 获取特征数据self.data = preprocessing.scale(self.data) # 归一化特征数据self.dataTarget = worksheet.col_values(5)[1:] # 获取标签数据def aimFunc(self, pop): # 目标函数Vars = pop.Phen # 得到决策变量矩阵args = list(zip(list(range(pop.sizes)), [Vars] * pop.sizes, [self.data] * pop.sizes, [self.dataTarget] * pop.sizes))pop.ObjV = np.array(list(futures.map(subAimFunc, args))) # 调用SCOOP的map函数进行分布式计算,并构造种群所有个体的目标函数值矩阵ObjVdef test(self, C, G): # 代入优化后的C、Gamma对测试集进行检验# 读取测试集数据workbook=xlrd.open_workbook("Data_User_Modeling_Dataset_Hamdi Tolga KAHRAMAN.xls") # 打开文件,获取excel文件的workbook(工作簿)对象worksheet=workbook.sheet_by_name("Test_Data") # 通过sheet名获得sheet对象data_test = np.vstack([worksheet.col_values(0)[1:],worksheet.col_values(1)[1:],worksheet.col_values(2)[1:],worksheet.col_values(3)[1:],worksheet.col_values(4)[1:]]).T # 获取特征数据data_test = preprocessing.scale(data_test) # 归一化特征数据dataTarget_test = worksheet.col_values(5)[1:] # 获取标签数据svc = svm.SVC(C=C, kernel='rbf', gamma=G).fit(self.data, self.dataTarget) # 创建分类器对象并用训练集的数据拟合分类器模型dataTarget_predict = svc.predict(data_test) # 采用训练好的分类器对象对测试集数据进行预测print("测试集数据分类正确率 = %s%%"%(len(np.where(dataTarget_predict == dataTarget_test)[0]) / len(dataTarget_test) * 100))def subAimFunc(args): # 单独计算单个个体的目标函数值i = args[0]Vars = args[1]data = args[2]dataTarget = args[3]C = Vars[i, 0]G = Vars[i, 1]svc = svm.SVC(C=C, kernel='rbf', gamma=G).fit(data, dataTarget) # 创建分类器对象并用训练集的数据拟合分类器模型scores = cross_val_score(svc, data, dataTarget, cv=20) # 计算交叉验证的得分ObjV_i = [scores.mean()] # 把交叉验证的平均得分作为目标函数值return ObjV_i

源代码

这篇关于用进化算法来优化SVM的参数C和Gamma——利用SCOOP库进行分布式加速计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/515013

相关文章

利用python实现对excel文件进行加密

《利用python实现对excel文件进行加密》由于文件内容的私密性,需要对Excel文件进行加密,保护文件以免给第三方看到,本文将以Python语言为例,和大家讲讲如何对Excel文件进行加密,感兴... 目录前言方法一:使用pywin32库(仅限Windows)方法二:使用msoffcrypto-too

C#使用StackExchange.Redis实现分布式锁的两种方式介绍

《C#使用StackExchange.Redis实现分布式锁的两种方式介绍》分布式锁在集群的架构中发挥着重要的作用,:本文主要介绍C#使用StackExchange.Redis实现分布式锁的... 目录自定义分布式锁获取锁释放锁自动续期StackExchange.Redis分布式锁获取锁释放锁自动续期分布式

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型

使用Pandas进行均值填充的实现

《使用Pandas进行均值填充的实现》缺失数据(NaN值)是一个常见的问题,我们可以通过多种方法来处理缺失数据,其中一种常用的方法是均值填充,本文主要介绍了使用Pandas进行均值填充的实现,感兴趣的... 目录什么是均值填充?为什么选择均值填充?均值填充的步骤实际代码示例总结在数据分析和处理过程中,缺失数

SpringBoot请求参数接收控制指南分享

《SpringBoot请求参数接收控制指南分享》:本文主要介绍SpringBoot请求参数接收控制指南,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring Boot 请求参数接收控制指南1. 概述2. 有注解时参数接收方式对比3. 无注解时接收参数默认位置

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

MySQL索引的优化之LIKE模糊查询功能实现

《MySQL索引的优化之LIKE模糊查询功能实现》:本文主要介绍MySQL索引的优化之LIKE模糊查询功能实现,本文通过示例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前缀匹配优化二、后缀匹配优化三、中间匹配优化四、覆盖索引优化五、减少查询范围六、避免通配符开头七、使用外部搜索引擎八、分

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数(sysctl)的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置(重启失效)3.2 永久设置(重启仍生效

QT进行CSV文件初始化与读写操作

《QT进行CSV文件初始化与读写操作》这篇文章主要为大家详细介绍了在QT环境中如何进行CSV文件的初始化、写入和读取操作,本文为大家整理了相关的操作的多种方法,希望对大家有所帮助... 目录前言一、CSV文件初始化二、CSV写入三、CSV读取四、QT 逐行读取csv文件五、Qt如何将数据保存成CSV文件前言

SpringMVC获取请求参数的方法

《SpringMVC获取请求参数的方法》:本文主要介绍SpringMVC获取请求参数的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下... 目录1、通过ServletAPI获取2、通过控制器方法的形参获取请求参数3、@RequestParam4、@