XGB-14:DMatrix的文本输入格式

2024-02-29 16:28
文章标签 输入 格式 14 文本 xgb dmatrix

本文主要是介绍XGB-14:DMatrix的文本输入格式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简要描述XGBoost的文本输入格式。然而,对于具有支持的语言环境(如Python或R)的用户,建议使用该生态系统中的数据解析器。例如,可以使用sklearn.datasets.load_svmlight_file()

基本输入格式

XGBoost目前支持两种文本格式的数据导入:LIBSVMCSV。本文档的其余部分将描述LIBSVM格式(有关CSV格式的描述,请参见此Wikipedia文章)。请注意,XGBoost不理解文件扩展名,也不尝试猜测文件格式,因为关于LIBSVM或CSV文件扩展名的普遍协议不存在。相反,它使用URI格式来指定精确的输入文件类型。例如,如果提供一个csv文件./data.train.csv作为输入,XGBoost将盲目地使用默认的LIBSVM解析器对其进行解析并生成解析器错误。相反,用户需要提供一个形如train.csv?format=csvtrain.csv?format=libsvm的URI。对于外部内存输入,URI的形式应该类似于train.csv?format=csv#dtrain.cache

对于训练或预测,XGBoost接受以下格式的实例文件train.txt

1 101:1.2 102:0.03
0 1:2.1 10001:300 10002:400
0 0:1.3 1:0.3
1 0:0.01 1:0.3
0 0:0.2 1:0.3

每一行表示一个单独的实例,在第一行中,‘1’是实例标签,‘101’和‘102’是特征索引,‘1.2’和‘0.03’是特征值。在二分类情况下,‘1’用于表示正样本,‘0’用于表示负样本。还支持在 [0,1] 范围内的概率值作为标签,以表示该实例为正样本的概率。

附加信息的辅助文件

群组输入格式:

对于排序任务,XGBoost支持群组输入格式。在排序任务中,实例在实际场景中被分类到查询群组中。例如,在学习对网页进行排序的情况下,网页实例按其查询进行分组。XGBoost需要一个文件来指示群组信息。例如,如果实例文件是上面显示的train.txt,则群组文件应命名为train.txt.group,并具有以下格式:

2
3

这意味着数据集包含5个实例,前两个实例属于一组,另外三个实例属于另一组。群组文件中的数字实际上表示实例文件中每组中实例的数量,按照它们在实例文件中的顺序。在配置时,无需指定群组文件的路径。如果实例文件名为xxx,XGBoost将检查同一目录中是否存在名为xxx.group的文件。

实例权重文件

训练数据中的实例可以被赋予权重,以区分它们之间的相对重要性。例如,如果为示例中的train.txt文件提供一个实例权重文件train.txt.weight,如下所示:

1
0.5
0.5
1
0.5

这意味着XGBoost在训练时将更加强调第一个和第四个实例(即正实例)。配置与配置组信息类似。如果实例文件名为xxx,XGBoost将在同一目录中查找名为xxx.weight的文件。如果文件存在,将在训练时提取并使用实例权重。

注意:

如果选择将训练数据保存为二进制缓冲区(使用save_binary()),请注意生成的二进制缓冲区文件将包括实例权重。要更新权重,请使用set_weight()函数。

初始边界文件

XGBoost支持为每个实例提供初始边际预测。例如,如果使用逻辑回归对train.txt文件进行了初始预测,可以创建以下文件train.txt.base_margin

-0.4
1.0
3.4

XGBoost将使用这些值作为初始边际预测并从中提升。关于base_margin的一个重要说明是,它应该是转换之前的边际预测,因此如果使用的是对数损失,需要使用对数变换之前的值。如果正在使用XGBoost预测器,请使用pred_margin=1来输出边际值。

嵌入附加信息到 LIBSVM 文件中

此部分适用于单节点和多节点设置。

查询 ID 列

这对于排名任务非常有用,其中实例被分组成查询组。可以通过在每一行中添加形如 qid:xx 的标记,将每个实例的查询组 ID 嵌入到 LIBSVM 文件中train.txt

1 qid:1 101:1.2 102:0.03
0 qid:1 1:2.1 10001:300 10002:400
0 qid:2 0:1.3 1:0.3
1 qid:2 0:0.01 1:0.3
0 qid:3 0:0.2 1:0.3
1 qid:3 3:-0.1 10:-0.3
0 qid:3 6:0.2 10:0.15

注意以下限制:

  • 不允许仅为某些实例指定查询 ID,而对其他实例不指定。要么每一行都分配查询 ID,要么完全不分配。
  • 行必须按查询 ID 升序排序。例如,不能使一行的查询 ID 比以下任何一行都大。

实例权重

可以通过在 LIBSVM 文件中将每个实例标签与相应的权重一起附加来指定实例权重[label]:[weight],如下例所示train.txt

1:1.0 101:1.2 102:0.03
0:0.5 1:2.1 10001:300 10002:400
0:0.5 0:1.3 1:0.3
1:1.0 0:0.01 1:0.3
0:0.5 0:0.2 1:0.3

其中负实例的权重是正实例权重的一半。

这篇关于XGB-14:DMatrix的文本输入格式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/759365

相关文章

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五

C#实现将Office文档(Word/Excel/PDF/PPT)转为Markdown格式

《C#实现将Office文档(Word/Excel/PDF/PPT)转为Markdown格式》Markdown凭借简洁的语法、优良的可读性,以及对版本控制系统的高度兼容性,逐渐成为最受欢迎的文档格式... 目录为什么要将文档转换为 Markdown 格式使用工具将 Word 文档转换为 Markdown(.

Java中JSON格式反序列化为Map且保证存取顺序一致的问题

《Java中JSON格式反序列化为Map且保证存取顺序一致的问题》:本文主要介绍Java中JSON格式反序列化为Map且保证存取顺序一致的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未... 目录背景问题解决方法总结背景做项目涉及两个微服务之间传数据时,需要提供方将Map类型的数据序列化为co

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

Python使用pynput模拟实现键盘自动输入工具

《Python使用pynput模拟实现键盘自动输入工具》在日常办公和软件开发中,我们经常需要处理大量重复的文本输入工作,所以本文就来和大家介绍一款使用Python的PyQt5库结合pynput键盘控制... 目录概述:当自动化遇上可视化功能全景图核心功能矩阵技术栈深度效果展示使用教程四步操作指南核心代码解析

Ubuntu上手动安装Go环境并解决“可执行文件格式错误”问题

《Ubuntu上手动安装Go环境并解决“可执行文件格式错误”问题》:本文主要介绍Ubuntu上手动安装Go环境并解决“可执行文件格式错误”问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未... 目录一、前言二、系统架构检测三、卸载旧版 Go四、下载并安装正确版本五、配置环境变量六、验证安装七、常见

使用Python开发Markdown兼容公式格式转换工具

《使用Python开发Markdown兼容公式格式转换工具》在技术写作中我们经常遇到公式格式问题,例如MathML无法显示,LaTeX格式错乱等,所以本文我们将使用Python开发Markdown兼容... 目录一、工具背景二、环境配置(Windows 10/11)1. 创建conda环境2. 获取XSLT

HTML5表格语法格式详解

《HTML5表格语法格式详解》在HTML语法中,表格主要通过table、tr和td3个标签构成,本文通过实例代码讲解HTML5表格语法格式,感兴趣的朋友一起看看吧... 目录一、表格1.表格语法格式2.表格属性 3.例子二、不规则表格1.跨行2.跨列3.例子一、表格在html语法中,表格主要通过< tab