图片速览 PoseGPT：基于量化的 3D 人体运动生成和预测(VQVAE)

本文主要是介绍图片速览 PoseGPT：基于量化的 3D 人体运动生成和预测(VQVAE)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

paper	code
https://arxiv.org/pdf/2210.10542.pdf	https://europe.naverlabs.com/research/computer-vision/posegpt/

方法 1.将动作压缩到离散空间。2.使用GPT类的模型预测未来动作的离散索引。3.使用解码器解码动作得到输出。
效果提出的方法在HumanAct12（一个标准但小规模的数据集）以及BABEL（最近的大规模MoCap数据集）和GRAB（人-物体交互数据集）上取得了最先进的结果。

方法总览

PoseGPT 生成一个人体运动序列，以动作标签、持续时间 $T$ 为条件(观察到的过去人类运动为可选条件）。类似GPT[54]的模型G按顺序预测离散的潜在指数，这些指数使用解码器D解码为生成的人体运动。当也对过去的人体运动进行调节时，输入的人体运动用 E 编码，并使用 $q(\cdot)$ 量化到离散潜在空间中。

在这里插入图片描述

实现细节

VQVAE

潜在空间的离散性和压缩性使类似 GPT 的模型能够专注于长距离信号，因为它消除了输入信号中的低级冗余。编码器 E 将人体运动 p 映射到潜在表示 $\hat z$ ，然后使用码本 $\mathcal Z$ 对其进行量化。解码器 D 从量化的潜在序列 $z_q$ 重建人体运动 $\hat p$ 。
在这里插入图片描述