今日arXiv最热大模型论文：谷歌最新研究，将LLM用于回归分析任务，显著超越传统模型

本文主要是介绍今日arXiv最热大模型论文：谷歌最新研究，将LLM用于回归分析任务，显著超越传统模型，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

回归分析是一个强大的工具，能够准确预测系统或模型的结果指标，给定一组参数。然而，传统上这些方法仅适用于特定任务。本文研究者提出了OMNIPRED框架，这是一个训练语言模型作为通用端到端回归器的框架，它可以处理来自多种真实世界实验的（x, y）评估数据。通过使用来自Google Vizier的数据，这是世界上最大的黑盒优化数据库之一。广泛实验表明，通过仅使用数学参数和值的文本表示，语言模型能够进行非常精确的数值回归。如果给予在多个任务上训练的机会，它们可以显著超越传统的回归模型。

论文标题:
OmniPred: Language Models as Universal Regressors

论文链接:
https://arxiv.org/pdf/2402.14547.pdf

OMNIPRED框架简介：通用回归预测的新范式

OMNIPRED的创新之处：

OMNIPRED是第一个基于约束无关的文本表示的可扩展且简单的度量预测框架，适用于一般输入空间。
通过在不同输入空间和目标上进行多任务学习，OMNIPRED在许多情况下可以胜过传统的回归模型。
这些迁移学习的好处甚至在局部微调OMNIPRED后，对于未见过的任务仍然存在。

传统回归分析方法及局限性

传统的回归方法广泛使用统计技术，如高斯过程（GPs）、基于树的方法和多层感知器（MLPs），来预测给定固定长度特征向量的标量目标，这在表格数据设置中很常见。已经提出了多任务（Bonilla et al., 2007）和上下文（Krause & Ong, 2011）变体，用于迁移学习目的，但仍然需要固定长度的张量表示x，并且只能使用来自相同输入空间的先前x。

张量表示的问题：

张量表示本质上是约束依赖的，因为每个张量元素必须在合理的数值范围内（例如在[-1, 1]内）作为模型的输入。因此，为了表示x，每个标量特征必须根据用户提供的界限进行归一化，每个分类特征必须根据用户提供的选择进行独热编码。

动态但微小的输入空间变化，如新的界限或额外的类别，与这种静态表示不兼容。为了表示y，原始目标在R中也必须被归一化，这在测试时遇到异常y值时可能会出现问题。处理这个问题需要实施复杂的非线性变换（Daimon, 2011; Yeo & Johnson, 2000），其中许多也是数据依赖的（例如，需要存储训练数据中的最小/最大值）。

理想情况下，一个理想的回归器应该能够处理x并输出y，这两者都是绝对的，独立于变化的外部统计数据或搜索约束。

例如，如果目标是f(x) = exp(x)，那么回归器对f(2)的预测应该是不变的，无论约束是x ∈ [1, 5]还是x ∈ [0, 100]。

一种实现这一目标的方法是通过基于令牌的数据表示，这是通过令牌或符号离散地解析的（Zhou et al., 2023）。这立即在处理可变长度输入和额外的上下文元数据时解锁了大量的可转移性。

这种基于令牌的范式在人类反馈的强化学习中取得了巨大成功，其中通过文本响应（“x”）的回归，也称为奖励建模，对于最近交互式LLMs（如ChatGPT和Bard）的成功至关重要。在这里，LLMs能够模仿人类评级，以成对排名（“y”）或概率分数y ∈ [0, 1]的形式。

OMNIPRED的工作原理：多任务学习与文本表示

多任务学习（MTL）是一种机器学习范式，它通过同时训练相关任务来提高模型的泛化能力。OMNIPRED通过在不同输入空间和目标上进行多任务学习，展示了在许多情况下可以超越传统回归模型的能力。这种转移学习的好处甚至在未见过的任务上通过本地微调OMNIPRED后仍然存在。

实验设置：数据来源与模型训练

1. Google Vizier数据库的使用

在本研究中，数据源自Google Vizier，这是世界上最大的黑盒优化数据库之一。Google Vizier提供了一个丰富的实验设计和参数优化的数据集合，其中包含了多样化的实际世界实验的评估数据。这些数据的多样性为研究者们的研究提供了一个独特的机会，即使用文本表示的数学参数和值来训练语言模型进行精确的数值回归。

2. 模型训练与参数设置

研究者们的目标是训练一个通用的端到端回归器，它能够处理各种不同的输入空间和目标。为了实现这一目标，我们采用了一个基于文本表示的框架，该框架能够独立于特定的输入空间约束。

在训练过程中，研究者使用了一个标准的200M参数的T5编码器-解码器语言模型，并从头开始训练。研究者们的模型旨在学习一组权重θ，这些权重可以用于形成任意任务T的预测器sθ(·)。

此外还使用了交叉熵损失，并通过正则温度解码来重复采样预测值，以近似于定义在实数域R上的潜在分布。为了适应未见过的任务，研究者还可以通过局部微调模型来调整预测器。

实验结果：OMNIPRED与传统模型的比较

1. 多任务回归的性能

研究者们的实验结果显示，OMNIPRED在多任务回归方面的性能优于传统的回归模型。通过在不同的输入空间和目标尺度上同时进行回归，OMNIPRED能够捕捉到各种分析函数的整体形状，并以高精度进行预测。此外，OMNIPRED还能够通过独立同分布的预测样本表达不确定性估计。

（图为多任务LM与单任务比较基准）

2. 跨任务迁移学习的效果

OMNIPRED展示了出色的跨任务迁移学习能力。通过在训练中观察到的其他类似但非等价任务的知识，OMNIPRED能够提高对特定任务的预测准确性。在对匿名化数据进行训练的情况下，研究者们发现模型无法从常见的文本线索中观察到有用的相关性，这验证了模型通过阅读文本线索进行迁移学习的能力。

（图为选定4D频移BBOB函数的模型预测样本）

3. 模型微调与未见任务的适应性

研究者们进一步研究了微调对于提高预测准确性的作用。实验结果表明，对于AutoML领域的特定任务，预训练模型经过微调后能够达到与专门针对AutoML预训练的模型相同的准确性水平，而BBOB预训练的模型则表现出明显较差的结果。

此外，研究者们还发现，预训练的知识可以显著地转移到新任务上，并帮助对新任务进行预测，尽管在某些情况下也存在负迁移的现象。

讨论：OMNIPRED的优势与挑战

1. 高精度预测的能力

OMNIPRED展现了在实验设计领域中的显著优势，特别是在高精度预测方面。通过利用文本表示的数学参数和值，OMNIPRED能够在多个不同任务上进行训练，并且在多任务学习环境中显著超越传统的回归模型，如多层感知器（MLPs）和提升树。

这种能力源于其对于大量异构数据集的处理，以及对于输入特征和输出标签之间复杂关系的建模。例如，使用谷歌Vizier的数据，OMNIPRED能够在不同的实验中进行精确的数值回归。

OMNIPRED的高精度预测能力在多个实验中得到了验证。

在BBOB基准测试中，即使在随机域偏移的情况下，OMNIPRED也能够准确捕捉到不同目标尺度的分析函数的整体形状。此外，它还能够通过独立同分布的预测样本表达不确定性估计。
在真实世界数据上的训练中，OMNIPRED展示了在不同输入空间的手选研究中对地面真实目标的预测，这些研究代表了谷歌内部调整的目标，包括标准机器学习、生产系统以及科学研究。

2. 面临的技术挑战与未来方向

尽管OMNIPRED在多任务学习和高精度预测方面表现出色，但它仍然面临着一些技术挑战。