详细解读论文 CPC:Representation Learning with Contrastive Predictive Coding

本文主要是介绍详细解读论文 CPC:Representation Learning with Contrastive Predictive Coding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Abstract:

​该篇论文提出了一种完全的无监督的方法,旨在从高维的特征空间中提取有效特征同时舍弃掉一些更加局部的特征。简单来说目的就是更加有效的提取特征,提取更加global的"slow features"。该方法较为通用,在很多任务中都可以得到应用,文中列举了:语音,图像,文本,3D领域强化学习等方向的应用。

Method:

​无监督学习并没有label来引导网络学习,就像一个野外长大的孩子,没有大人教他何为对错,只能从不断接触到的新的环境中寻找规律。为了提取到前面描述的“良好的“特征,该篇论文的方法是:增大当前状态特征c与未来输入特征x的互信息。为什么要这么做呢?如果我能用当前的输入在一定程度上去”预测“后面的输入,那么我就已经找到了输入的某些规律,也就是提取到的特征能够很好的描述输入数据的一些共同之处。

​那么如何衡量特征间的互信息呢?用x指代输入,用c指代上下文,文中指出假如仅仅用p(x|c)来代表互信息不是最优的。因为使用这种条件概率衡量互信息有一个弊端:例如对于图像,这里的高维特征c所含的信息是要远少于输入图像的信息量的,这样来衡量当前状态特征c与未来输入x的互信息并不是最优的。我的理解是:由于c自身所携带的信息较小,所以当以优化条件概率p(x|c)为目的的模型在训练时可能导致用c预测的x会忽略一些信息。取而代之文中使用下式来衡量x和c的互信息大小:

这个式子可以说是本文的核心。至于为何使用log函数中类似概率密度的形式,后面会有解释。

如图所示,zt为encoder的输出,ct为自回归模型当前时刻的输出。

​有了这个式子,关键就在于如何表示 这个概率密度,这里就有了一个很难理解的函数:

这里的Wk为一个转换矩阵使得Wkct 与encoder编码x后得到的特征z形状相同,对预测的每一个步长k都有一个对应的Wk。

这个函数满足

文中提到,其实任意正实函数都可作为这个fk函数使用,如何理解这个正实呢,我的直观的理解是当encoder已经能够很好的提取特征时,对xt+k提取的特征zt+k和Wkct更相似时这个函数就越大即可。那么为什么这样的一个正实函数就能正比于前面提出的概率密度呢?

首先论文提出了一个基于NCE的损失函数,把它称作InfoNCE:

在这里插入图片描述

​其中X={x1,…,xN}为包含一个从分布p(x|c)采样得到的正样本以及N-1个从分布p(x)中采样得到的负样本。对于这里正负样本的含义我的理解是,从前者条件概率分布中采样得到的正样本代表以我现在及过去输入信息的特征ct为条件距现在k个步长的真实输入,而负样本则是我想让网络学习提取特征的这一堆输入之外的其他的输入,这个输入可以是任意的。

​文中说只要优化这个损失函数就能使最终优化好的模型满足 这个式子,证明如下:

在这里插入图片描述

​这里等式左边代表在N个输入中xi是来自分布p(x|c)的正样本概率,这个概率即为InfoNCE的最优概率,可以简单理解为优化InfoNCE就是要让这个概率尽量大。这里第一个等号较难理解,等式右边分子代表N个样本中,xi为来自分布p(x|c)的正样本,其余N-1个样本为来自分布p(x)的负样本的概率;分母代表x1,x2,…,xN是来自分布p(x|c)的正样本概率之和。打个比方,这个概率的意义类似于,已知我们之间有一个叛徒,这个叛徒是第i个人的概率。第二个等号就是分子分母约分的结果。

​对比化简后的式子和InfoNCE可以发现优化后的f满足正比于之前的概率密度,即得证。

我们可以估计出,xt+k和ct之间的互信息满足:

可以看出当样本数N增大时,该互信息的下界增大,又因为每个batch中正样本只有一个,所以负样本越多,这个互信息的下界越大。

Experiments:

文中列举了cpc在4个领域的应用,在这里只简单介绍下audio的实验结果,具体实验设置文中有详细描述。

​由左表中可以看出,在语音识别的两项任务中,特别是speaker classification任务中,cpc这种无监督的方法的准确率已经十分接近监督学习的方法。右表展示了预测步长以及负样本采样对结果的影响。

Summary:

​CPC是一种完全无监督的训练特征提取的方法,它的可移植性很强,能适用于多种任务,效果上在很多任务中能够媲美甚至超越现有的监督方法。

这篇关于详细解读论文 CPC:Representation Learning with Contrastive Predictive Coding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/415405

相关文章

SQL Server中行转列方法详细讲解

《SQLServer中行转列方法详细讲解》SQL行转列、列转行可以帮助我们更方便地处理数据,生成需要的报表和结果集,:本文主要介绍SQLServer中行转列方法的相关资料,需要的朋友可以参考下... 目录前言一、为什么需要行转列二、行转列的基本概念三、使用PIVOT运算符进行行转列1.创建示例数据表并插入数

Python + Streamlit项目部署方案超详细教程(非Docker版)

《Python+Streamlit项目部署方案超详细教程(非Docker版)》Streamlit是一款强大的Python框架,专为机器学习及数据可视化打造,:本文主要介绍Python+St... 目录一、针对 Alibaba Cloud linux/Centos 系统的完整部署方案1. 服务器基础配置(阿里

JAVA SpringBoot集成Jasypt进行加密、解密的详细过程

《JAVASpringBoot集成Jasypt进行加密、解密的详细过程》文章详细介绍了如何在SpringBoot项目中集成Jasypt进行加密和解密,包括Jasypt简介、如何添加依赖、配置加密密钥... 目录Java (SpringBoot) 集成 Jasypt 进行加密、解密 - 详细教程一、Jasyp

Java 操作 MinIO详细步骤

《Java操作MinIO详细步骤》本文详细介绍了如何使用Java操作MinIO,涵盖了从环境准备、核心API详解到实战场景的全过程,文章从基础的桶和对象操作开始,到大文件分片上传、预签名URL生成... 目录Java 操作 MinIO 全指南:从 API 详解到实战场景引言:为什么选择 MinIO?一、环境

Java序列化之serialVersionUID的用法解读

《Java序列化之serialVersionUID的用法解读》Java序列化之serialVersionUID:本文介绍了Java对象的序列化和反序列化过程,强调了serialVersionUID的作... 目录JavChina编程a序列化之serialVersionUID什么是序列化为什么要序列化serialV

Redis的安全机制详细介绍及配置方法

《Redis的安全机制详细介绍及配置方法》本文介绍Redis安全机制的配置方法,包括绑定IP地址、设置密码、保护模式、禁用危险命令、防火墙限制、TLS加密、客户端连接限制、最大内存使用和日志审计等,通... 目录1. 绑定 IP 地址2. 设置密码3. 保护模式4. 禁用危险命令5. 通过防火墙限制访问6.

Python操作Excel的实用工具与库openpyxl/pandas的详细指南

《Python操作Excel的实用工具与库openpyxl/pandas的详细指南》在日常数据处理工作中,Excel是最常见的数据文件格式之一,本文将带你了解openpyxl和pandas的核心用法,... 目录一、openpyxl:原生 Excel 文件操作库1. 安装 openpyxl2. 创建 Exc

Linux jq命令的使用解读

《Linuxjq命令的使用解读》jq是一个强大的命令行工具,用于处理JSON数据,它可以用来查看、过滤、修改、格式化JSON数据,通过使用各种选项和过滤器,可以实现复杂的JSON处理任务... 目录一. 简介二. 选项2.1.2.2-c2.3-r2.4-R三. 字段提取3.1 普通字段3.2 数组字段四.

MySQL之搜索引擎使用解读

《MySQL之搜索引擎使用解读》MySQL存储引擎是数据存储和管理的核心组件,不同引擎(如InnoDB、MyISAM)采用不同机制,InnoDB支持事务与行锁,适合高并发场景;MyISAM不支持事务,... 目录mysql的存储引擎是什么MySQL存储引擎的功能MySQL的存储引擎的分类查看存储引擎1.命令

Python中isinstance()函数原理解释及详细用法示例

《Python中isinstance()函数原理解释及详细用法示例》isinstance()是Python内置的一个非常有用的函数,用于检查一个对象是否属于指定的类型或类型元组中的某一个类型,它是Py... 目录python中isinstance()函数原理解释及详细用法指南一、isinstance()函数