TrustGeo代码理解（七）preprocess.py

本文主要是介绍TrustGeo代码理解（七）preprocess.py，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

代码链接：https://github.com/ICDM-UESTC/TrustGeo

一、导入各种模块和数据库

# Load data and IP clusteringimport math
import random
import pandas as pd
import numpy as np
import argparse
from sklearn import preprocessing
from lib.utils import MaxMinScaler

加载数据和IP聚类，这些导入语句是为了引入在后续代码中可能会使用到的数学、随机数、数据处理等工具和库。

1、import math：导入 Python 的 math 模块，该模块提供了数学运算的函数。

2、import random：导入 Python 的 random 模块，该模块提供了生成伪随机数的函数。

3、import pandas as pd：导入 pandas 库，并将其简写为 pd，用于处理和分析数据。

4、import numpy as np：导入 numpy 库，并将其简写为 np，用于支持大量的维度数组和矩阵运算。

5、import argparse：导入 argparse 模块，用于解析命令行参数。

6、from sklearn import preprocessing：从 sklearn 库导入数据预处理模块 preprocessing，用于数据预处理。

7、from lib.utils import MaxMinScaler：从自定义的 lib.utils 模块中导入 MaxMinScaler 类。这可能是一个用于最大-最小归一化的工具类。

二、使用`argparse`库创建了一个命令行解析器

parser = argparse.ArgumentParser()parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],help='which dataset to use')
parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio')
parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio')
parser.add_argument('--seed', type=int, default=1234)opt = parser.parse_args()

这部分代码的功能是通过命令行输入来配置脚本的行为。用户可以在运行脚本时通过命令行参数指定数据集名称、训练集测试集比例、地标比例以及随机数生成的种子等参数。解析后，这些参数将在脚本中被引用，从而影响程序的行为。

1、parser = argparse.ArgumentParser()：创建一个ArgumentParser对象，用于解析命令行参数。

2、parser.add_argument('--dataset', type=str, default='New_York', choices=["Shanghai", "New_York", "Los_Angeles"],help='which dataset to use')：添加命令行参数。

3、parser.add_argument('--train_test_ratio', type=float, default=0.8, help='landmark ratio')：用于指定训练集和测试集的比例，默认值是 0.8。

4、parser.add_argument('--lm_ratio', type=float, default=0.7, help='landmark ratio')：用于指定地标的比例，默认值是 0.7。

5、parser.add_argument('--seed', type=int, default=1234)：用于指定随机数生成的种子，默认值是 1234。

6、opt = parser.parse_args()：解析命令行参数，并将解析结果存储在 opt 对象中。opt 对象将包含命令行传入的各个参数的值。

三、get_XY()

def get_XY(dataset):data_path = "./datasets/{}/data.csv".format(dataset)ip_path = './datasets/{}/ip.csv'.format(dataset)trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)data.fillna({"isp": '0'}, inplace=True)# labelsY = data[['longitude', 'latitude']]Y = np.array(Y)# featuresif dataset == "Shanghai":  # Shanghai# classification featuresX_class = data[['orgname', 'asname', 'address', 'isp']]scaler = preprocessing.OneHotEncoder(sparse=False)X_class = scaler.fit_transform(X_class)X_class1 = data['isp']X_class1 = preprocessing.LabelEncoder().fit_transform(X_class1)X_class1 = preprocessing.MinMaxScaler().fit_transform(np.array(X_class1).reshape((-1, 1)))X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))X_3 = data[['aiwen_ping_delay_time', 'vp806_ping_delay_time', 'vp808_ping_delay_time', 'vp813_ping_delay_time']]delay_scaler = MaxMinScaler()delay_scaler.fit(X_3)X_3 = delay_scaler.transform(X_3)X_4 = data[['aiwen_tr_steps', 'vp806_tr_steps', 'vp808_tr_steps', 'vp813_tr_steps']]step_scaler = MaxMinScaler()step_scaler.fit(X_4)X_4 = step_scaler.transform(X_4)X_5 = data['asnumber']X_5 = preprocessing.LabelEncoder().fit_transform(X_5)X_5 = preprocessing.MinMaxScaler().fit_transform(np.array(X_5).reshape(-1, 1))X_6 = data[['aiwen_last1_delay', 'aiwen_last2_delay_total', 'aiwen_last3_delay_total', 'aiwen_last4_delay_total','vp806_last1_delay', 'vp806_last2_delay_total', 'vp806_last3_delay_total', 'vp806_last4_delay_total','vp808_last1_delay', 'vp808_last2_delay_total', 'vp808_last3_delay_total', 'vp808_last4_delay_total','vp813_last1_delay', 'vp813_last2_delay_total', 'vp813_last3_delay_total', 'vp813_last4_delay_total']]X_6 = np.array(X_6)X_6[X_6 <= 0] = 0X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)X = np.concatenate([X_class1, X_class, X_2, X_3, X_4, X_5, X_6], axis=1) # dimension =51elif dataset == "New_York" or "Los_Angeles":  # New_York or Los_AngelesX_class = data['isp']X_class = preprocessing.LabelEncoder().fit_transform(X_class)X_class = preprocessing.MinMaxScaler().fit_transform(np.array(X_class).reshape((-1, 1)))X_2 = data[['ip_split1', 'ip_split2', 'ip_split3', 'ip_split4']]X_2 = preprocessing.MinMaxScaler().fit_transform(np.array(X_2))X_3 = data['as_mult_info']X_3 = preprocessing.LabelEncoder().fit_transform(X_3)X_3 = preprocessing.MinMaxScaler().fit_transform(np.array(X_3).reshape(-1, 1))X_4 = data[['vp900_ping_delay_time', 'vp901_ping_delay_time', 'vp902_ping_delay_time', 'vp903_ping_delay_time']]delay_scaler = MaxMinScaler()delay_scaler.fit(X_4)X_4 = delay_scaler.transform(X_4)X_5 = data[['vp900_tr_steps', 'vp901_tr_steps', 'vp902_tr_steps', 'vp903_tr_steps']]step_scaler = MaxMinScaler()step_scaler.fit(X_5)X_5 = step_scaler.transform(X_5)X_6 = data[['vp900_last1_delay', 'vp900_last2_delay_total', 'vp900_last3_delay_total', 'vp900_last4_delay_total','vp901_last1_delay', 'vp901_last2_delay_total', 'vp901_last3_delay_total', 'vp901_last4_delay_total','vp902_last1_delay', 'vp902_last2_delay_total', 'vp902_last3_delay_total', 'vp902_last4_delay_total','vp903_last1_delay', 'vp903_last2_delay_total', 'vp903_last3_delay_total', 'vp903_last4_delay_total']]X_6 = np.array(X_6)X_6[X_6 <= 0] = 0X_6 = preprocessing.MinMaxScaler().fit_transform(X_6)X = np.concatenate([X_2, X_class, X_3, X_4, X_5, X_6], axis=1) # dimension =30return X, Y, np.array(trace_origin)

这个函数用于从指定数据集加载并预处理数据，返回用于训练的特征 (X)、标签 (Y) 以及原始的跟踪数据 (trace_origin)。

分为几个部分展开描述：

（一）加载数据并处理

data_path = "./datasets/{}/data.csv".format(dataset)
ip_path = './datasets/{}/ip.csv'.format(dataset)
trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)
ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)
trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)
data.fillna({"isp": '0'}, inplace=True)

这部分代码主要是从三个文件（data.csv、ip.csv、last_traceroute.csv）中加载数据，进行合并和预处理。

1、data_path = "./datasets/{}/data.csv".format(dataset)：构建包含数据文件路径的字符串，其中 {} 是一个占位符，将被 format(dataset) 中的 dataset 变量替代。

2、ip_path = './datasets/{}/ip.csv'.format(dataset)：构建包含 IP 地址文件路径的字符串。

3、trace_path = './datasets/{}/last_traceroute.csv'.format(dataset)：构建包含最后一次路由跟踪文件路径的字符串。

4、data_origin = pd.read_csv(data_path, encoding='gbk', low_memory=False)：使用 Pandas 库的 read_csv 函数从 data.csv 文件中读取数据。参数 encoding='gbk' 表示使用 gbk 编码读取文件，low_memory=False 表示禁用内存优化，以确保能够处理大型文件。

5、ip_origin = pd.read_csv(ip_path, encoding='gbk', low_memory=False)：从 ip.csv 文件中读取 IP 地址相关的数据。

6、trace_origin = pd.read_csv(trace_path, encoding='gbk', low_memory=False)：从 last_traceroute.csv 文件中读取最后一次路由跟踪的数据。

7、data = pd.concat([data_origin, ip_origin, trace_origin], axis=1)：将三个数据框按列（axis=1）进行拼接，形成一个包含所有信息的新数据框 data。

8、data.fillna({"isp": '0'}, inplace=True)：使用字符串 '0' 填充数据框中的缺失值，特别是 isp 列的缺失值。inplace=True 表示在原地修改数据框而不返回新的数据框。这个步骤主要是为了处理缺失值，将缺失的 isp 列中的值替换为 '0'。

（二）处理数据中的标签（labels）

# labels
Y = data[['longitude', 'latitude']]
Y = np.array(Y)

这部分代码的整体功能是从数据中提取经度和纬度两列，将它们存储在 NumPy 数组 Y 中，

这篇关于TrustGeo代码理解（七）preprocess.py的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

TrustGeo代码理解（七）preprocess.py

一、导入各种模块和数据库

二、使用`argparse`库创建了一个命令行解析器

三、get_XY()

（一）加载数据并处理

（二）处理数据中的标签（labels）

相关文章

C#实现千万数据秒级导入的代码

SpringBoot+RustFS 实现文件切片极速上传的实例代码

Python实现Excel批量样式修改器(附完整代码)

Redis实现高效内存管理的示例代码

Python 基于http.server模块实现简单http服务的代码举例

Python从Word文档中提取图片并生成PPT的操作代码

使用Spring Cache本地缓存示例代码

MySQL的配置文件详解及实例代码

Python多线程实现大文件快速下载的代码实现

IDEA与MyEclipse代码量统计方式

TrustGeo代码理解（七）preprocess.py

一、导入各种模块和数据库

二、使用argparse库创建了一个命令行解析器

三、get_XY()

（一）加载数据并处理

（二）处理数据中的标签（labels）

相关文章

二、使用`argparse`库创建了一个命令行解析器