TrustGeo代码理解(七)preprocess.py

2023-12-16 19:52

本文主要是介绍TrustGeo代码理解(七)preprocess.py,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

代码链接:https://github.com/ICDM-UESTC/TrustGeo

一、导入各种模块和数据库

# Load data and IP clusteringimport math
import random
import pandas as pd
import numpy as np
import argparse
from sklearn import preprocessing
from lib.utils import MaxMinScaler

加载数据和IP聚类,这些导入语句是为了引入在后续代码中可能会使用到的数学、随机数、数据处理等工具和库。

1、import math:导入 Python 的 math 模块,该模块提供了数学运算的函数。

2、import random:导入 Python 的 random 模块,该模块提供了生成伪随机数的函数。

3、import pandas as pd:导入 pandas 库,并将其简写为 pd,用于处理和分析数据。

4、import numpy as np:导入 numpy 库,并将其简写为 np,用于支持大量的维度数组和矩阵运算。

5、import argparse:导入 argparse 模块,用于解析命令行参数。

6、from sklearn import preprocessingsklearn 库导入数据预处理模块 preprocessing,用于数据预处理。

7、from lib.utils import MaxMinScaler:从自定义的 lib.utils 模块中导入 MaxMinScaler 类。这可能是一个用于最大-最小归一化的工具类。

二、使用argparse库创建了一个命令行解析器

parser = argparse.ArgumentParser()parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],help='which dataset to use')
parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio')
parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio')
parser.add_argument('--seed', type=int, default=1234)opt = parser.parse_args()

这部分代码的功能是通过命令行输入来配置脚本的行为。用户可以在运行脚本时通过命令行参数指定数据集名称、训练集测试集比例、地标比例以及随机数生成的种子等参数。解析后,这些参数将在脚本中被引用,从而影响程序的行为。

1、parser = argparse.ArgumentParser():创建一个ArgumentParser对象,用于解析命令行参数。

2、parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],help='which dataset to use'): 添加命令行参数。

3、parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio'):用于指定训练集和测试集的比例,默认值是 0.8

4、parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio'):用于指定地标的比例,默认值是 0.7

5、parser.add_argument('--seed', type=int, default=1234): 用于指定随机数生成的种子,默认值是 1234

6、opt = parser.parse_args():解析命令行参数,并将解析结果存储在 opt 对象中。opt 对象将包含命令行传入的各个参数的值。

三、get_XY()

def get_XY(dataset):data_path = "./datasets/{}/data.csv".format(dataset)ip_path = './datasets/{}/ip.csv'.format(dataset)trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)data.fillna({"isp": '0'}, inplace=True)# labelsY = data[['longitude', 'latitude']]Y = np.array(Y)# featuresif dataset == "Shanghai":  # Shanghai# classification featuresX_class = data[['orgname', 'asname', 'address', 'isp']]scaler = preprocessing.OneHotEncoder(sparse=False)X_class = scaler.fit_transform(X_class)X_class1 = data['isp']X_class1 = preprocessing.LabelEncoder().fit_transform(X_class1)X_class1 = preprocessing.MinMaxScaler().fit_transform(np.array(X_class1).reshape((-1, 1)))X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))X_3 = data[['aiwen_ping_delay_time', 'vp806_ping_delay_time', 'vp808_ping_delay_time', 'vp813_ping_delay_time']]delay_scaler = MaxMinScaler()delay_scaler.fit(X_3)X_3 = delay_scaler.transform(X_3)X_4 = data[['aiwen_tr_steps', 'vp806_tr_steps', 'vp808_tr_steps', 'vp813_tr_steps']]step_scaler = MaxMinScaler()step_scaler.fit(X_4)X_4 = step_scaler.transform(X_4)X_5 = data['asnumber']X_5 = preprocessing.LabelEncoder().fit_transform(X_5)X_5 = preprocessing.MinMaxScaler().fit_transform(np.array(X_5).reshape(-1, 1))X_6 = data[['aiwen_last1_delay', 'aiwen_last2_delay_total', 'aiwen_last3_delay_total', 'aiwen_last4_delay_total','vp806_last1_delay', 'vp806_last2_delay_total', 'vp806_last3_delay_total', 'vp806_last4_delay_total','vp808_last1_delay', 'vp808_last2_delay_total', 'vp808_last3_delay_total', 'vp808_last4_delay_total','vp813_last1_delay', 'vp813_last2_delay_total', 'vp813_last3_delay_total', 'vp813_last4_delay_total']]X_6 = np.array(X_6)X_6[X_6 <= 0] = 0X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)X = np.concatenate([X_class1, X_class, X_2, X_3, X_4, X_5, X_6], axis=1) # dimension =51elif dataset == "New_York" or "Los_Angeles":  # New_York or Los_AngelesX_class = data['isp']X_class = preprocessing.LabelEncoder().fit_transform(X_class)X_class = preprocessing.MinMaxScaler().fit_transform(np.array(X_class).reshape((-1, 1)))X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))X_3 = data['as_mult_info']X_3 = preprocessing.LabelEncoder().fit_transform(X_3)X_3 = preprocessing.MinMaxScaler().fit_transform(np.array(X_3).reshape(-1, 1))X_4 = data[['vp900_ping_delay_time', 'vp901_ping_delay_time', 'vp902_ping_delay_time', 'vp903_ping_delay_time']]delay_scaler = MaxMinScaler()delay_scaler.fit(X_4)X_4 = delay_scaler.transform(X_4)X_5 = data[['vp900_tr_steps', 'vp901_tr_steps', 'vp902_tr_steps', 'vp903_tr_steps']]step_scaler = MaxMinScaler()step_scaler.fit(X_5)X_5 = step_scaler.transform(X_5)X_6 = data[['vp900_last1_delay', 'vp900_last2_delay_total', 'vp900_last3_delay_total', 'vp900_last4_delay_total','vp901_last1_delay', 'vp901_last2_delay_total', 'vp901_last3_delay_total', 'vp901_last4_delay_total','vp902_last1_delay', 'vp902_last2_delay_total', 'vp902_last3_delay_total', 'vp902_last4_delay_total','vp903_last1_delay', 'vp903_last2_delay_total', 'vp903_last3_delay_total', 'vp903_last4_delay_total']]X_6 = np.array(X_6)X_6[X_6 <= 0] = 0X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)X = np.concatenate([X_2, X_class, X_3, X_4, X_5, X_6], axis=1) # dimension =30return X, Y, np.array(trace_origin)

这个函数用于从指定数据集加载并预处理数据,返回用于训练的特征 (X)、标签 (Y) 以及原始的跟踪数据 (trace_origin)。

分为几个部分展开描述:

(一)加载数据并处理

data_path = "./datasets/{}/data.csv".format(dataset)
ip_path = './datasets/{}/ip.csv'.format(dataset)
trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)
ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)
trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)
data.fillna({"isp": '0'}, inplace=True)

这部分代码主要是从三个文件(data.csvip.csvlast_traceroute.csv)中加载数据,进行合并和预处理。

1、data_path = "./datasets/{}/data.csv".format(dataset):构建包含数据文件路径的字符串,其中 {} 是一个占位符,将被 format(dataset) 中的 dataset 变量替代。

2、ip_path = './datasets/{}/ip.csv'.format(dataset):构建包含 IP 地址文件路径的字符串。

3、trace_path = './datasets/{}/last_traceroute.csv'.format(dataset):构建包含最后一次路由跟踪文件路径的字符串。

4、data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False):使用 Pandas 库的 read_csv 函数从 data.csv 文件中读取数据。参数 encoding='gbk' 表示使用 gbk 编码读取文件,low_memory=False 表示禁用内存优化,以确保能够处理大型文件。

5、ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False):从 ip.csv 文件中读取 IP 地址相关的数据。

6、trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False):从 last_traceroute.csv 文件中读取最后一次路由跟踪的数据。

7、data = pd.concat([data_origin, ip_origin, trace_origin], axis=1):将三个数据框按列(axis=1)进行拼接,形成一个包含所有信息的新数据框 data

8、data.fillna({"isp": '0'}, inplace=True):使用字符串 '0' 填充数据框中的缺失值,特别是 isp 列的缺失值。inplace=True 表示在原地修改数据框而不返回新的数据框。这个步骤主要是为了处理缺失值,将缺失的 isp 列中的值替换为 '0'。

(二)处理数据中的标签(labels)

# labels
Y = data[['longitude', 'latitude']]
Y = np.array(Y)

这部分代码的整体功能是从数据中提取经度和纬度两列,将它们存储在 NumPy 数组 Y 中,

这篇关于TrustGeo代码理解(七)preprocess.py的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/501691

相关文章

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

Visual Studio 2022 编译C++20代码的图文步骤

《VisualStudio2022编译C++20代码的图文步骤》在VisualStudio中启用C++20import功能,需设置语言标准为ISOC++20,开启扫描源查找模块依赖及实验性标... 默认创建Visual Studio桌面控制台项目代码包含C++20的import方法。右键项目的属性:

MySQL数据库的内嵌函数和联合查询实例代码

《MySQL数据库的内嵌函数和联合查询实例代码》联合查询是一种将多个查询结果组合在一起的方法,通常使用UNION、UNIONALL、INTERSECT和EXCEPT关键字,下面:本文主要介绍MyS... 目录一.数据库的内嵌函数1.1聚合函数COUNT([DISTINCT] expr)SUM([DISTIN

Java实现自定义table宽高的示例代码

《Java实现自定义table宽高的示例代码》在桌面应用、管理系统乃至报表工具中,表格(JTable)作为最常用的数据展示组件,不仅承载对数据的增删改查,还需要配合布局与视觉需求,而JavaSwing... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码

Go语言代码格式化的技巧分享

《Go语言代码格式化的技巧分享》在Go语言的开发过程中,代码格式化是一个看似细微却至关重要的环节,良好的代码格式化不仅能提升代码的可读性,还能促进团队协作,减少因代码风格差异引发的问题,Go在代码格式... 目录一、Go 语言代码格式化的重要性二、Go 语言代码格式化工具:gofmt 与 go fmt(一)

HTML5实现的移动端购物车自动结算功能示例代码

《HTML5实现的移动端购物车自动结算功能示例代码》本文介绍HTML5实现移动端购物车自动结算,通过WebStorage、事件监听、DOM操作等技术,确保实时更新与数据同步,优化性能及无障碍性,提升用... 目录1. 移动端购物车自动结算概述2. 数据存储与状态保存机制2.1 浏览器端的数据存储方式2.1.

基于 HTML5 Canvas 实现图片旋转与下载功能(完整代码展示)

《基于HTML5Canvas实现图片旋转与下载功能(完整代码展示)》本文将深入剖析一段基于HTML5Canvas的代码,该代码实现了图片的旋转(90度和180度)以及旋转后图片的下载... 目录一、引言二、html 结构分析三、css 样式分析四、JavaScript 功能实现一、引言在 Web 开发中,

Python如何去除图片干扰代码示例

《Python如何去除图片干扰代码示例》图片降噪是一个广泛应用于图像处理的技术,可以提高图像质量和相关应用的效果,:本文主要介绍Python如何去除图片干扰的相关资料,文中通过代码介绍的非常详细,... 目录一、噪声去除1. 高斯噪声(像素值正态分布扰动)2. 椒盐噪声(随机黑白像素点)3. 复杂噪声(如伪

Java Spring ApplicationEvent 代码示例解析

《JavaSpringApplicationEvent代码示例解析》本文解析了Spring事件机制,涵盖核心概念(发布-订阅/观察者模式)、代码实现(事件定义、发布、监听)及高级应用(异步处理、... 目录一、Spring 事件机制核心概念1. 事件驱动架构模型2. 核心组件二、代码示例解析1. 事件定义