分类器对未见过类别(unseen category)的识别问题

2024-05-08 02:48

本文主要是介绍分类器对未见过类别(unseen category)的识别问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这篇文章比较旧了,其实是讨论开集识别问题的(Open-Set Problem),可以参考本人的新文章:真实世界中的开集识别问题(Open-Set Recognition Problem)

未见过类别

    未见过类别(unseen category)或者叫不知道类别(unknown category)。简单来说,如我们定义类别{苹果,香蕉} 且其数据集为D,那么定义一个二分类器C,将D分割为训练集和测试集,那么训练出的分类器只能区分两个类别。假设我们拥有数据Dx,其中拥有的分类为{小狗,小猫},这个时候将Dx混入D的测试集,二分类器C如何分类Dx中的数据?这时我们将Dx包含的数据类别叫未见过类别。也就是分类器从未见过的类别,即该类别未在训练集中定义,区别于未见过的数据。

    更形式化的定义为:对于学习算法F,其只在训练集中训练,且训练集包含的定义类别数为K,测试集定义类别数为N,且测试集中至少有一个类别是训练集中未定义的类别,我们把训练集与测试集定义类别的差集定义为未见过类别。

    一个简单的例子是:我们训练一个mnist分类器,有10个类别分别是{0,1,2,... ,9},如果我们给这个mnist分类器猫的图片,它会分类为什么?这个猫的图片对于mnist分类器就是未见过类别。

 

测试域分类完全性

 

    即:存在学习算法F,使任意的概念C在训练域(空间)中是PAC可学习的,且测试域的任意概念X也属于训练域,那么对于测试域,算法F在其域内是分类完全的。

    对分类器算法而言,测试域分类完全性指分类器的分类数大于或等于测试域中类别数量和测试域中类别包含于分类器类别,且分类器的所有类别概念需要满足训练域中PAC可学习。以下如不特别说明分类器的所有类别概念都满足训练域的PAC可学习。

    如:分类器类别{苹果,香蕉,西瓜},测试域中类别{苹果,香蕉,西瓜},分类完全

          分类器类别{苹果,香蕉,西瓜},测试域中类别{苹果,西瓜},分类完全

          分类器类别{苹果,香蕉,西瓜},测试域中类别{苹果,西瓜,李子},分类不完全

          分类器类别{苹果,香蕉},测试域中类别{苹果,西瓜,李子},分类不完全

    真实应用中的例子:

       实际上,在真实世界中类别数量是非常大的,如在图像分类中,分类可以成千上万,从大分类(水果,蔬菜等)到具体分类(苹果,香蕉),因为从属关系,具体的分类搞定了,大分类就搞定了,所以我们一般直接考虑具体分类问题,如在ImageNet图像识别竞赛中分类数大约为1000,如果我们将测试域设置为仅仅在ImageNet竞赛数据这个域中,训练分类器的类别为1000(类别一一对应)那么分类是完全的,如果将测试域设定为真实世界,那么实际上1000个分类相对于真实世界非常小,也就是分类不完全的。

    在这里我们可以得出一个结论:如果分类器在测试域中不是分类完全的,那么分类器在测试域中未定义的类别,如果被强制分类那么一定会被错分。

    我们知道人对于任意概念如果知道其类别那么将其分类,如果不知道其类别那么分类为"未见过类别"。所以我们引申出一个问题,对于算法F,任意的概念C在训练域中是PAC可学习的,且测试域的某些概念X不属于训练域,也就是训练域中没有关于概念X的数据,在训练域中训练出的算法F如何将概念X分类为"未见过类别"?

分类与域描述

   

    如上图所示,我们可以明显看到分类(判别)算法比数据域描述(data domain description)有更松弛的界(boundary),即分类只需要划类间的界限,只要分类算法达到小的分类误差就可以了,而没有具体的描述类别的边界,所以在未见过类别需要区别的时候,分类算法只能决策到已知类别(在低概率拒绝分类的决策分类算法仍然有较大的问题),所以很容易被愚弄[8],而域描述恰恰因为描述了类别的边界,所以能在界之内的数据点分类为已知类别标记,界之外的数据被分类为未见过类别。(不正式的说,在标记类别趋向于无穷大的时候分类算法的界收敛到域描述的界)。

显式优化类间与类内距离

    对于分类任务即是优化一个函数F(x)使得代价函数最小,如下Cross Entropy 代价函数

   

     这样得到的决策面就如上图1,2。

     为了得到类似于上图域描述的效果,我们可以显式优化内间距离和类内距离,如Contrast Loss[9-11]

    

    或者Triple Loss[12]

   

    这是人脸识别面对开集问题(Open-Set)所提出的算法,在人脸识别领域广泛使用,而人脸识别更类似人类大脑识别,其更像是一个特征搜索问题而非决策问题,所以很多人脸识别算法能够解决未见过类别的问题,不管是1:1的对比还1:N的搜索。

判别模型与生成模型

    判别模型(discriminative model),判别模型是直接学习p(y|x),即输入输出映射,我们通常的分类算法就是判别模型,如SVM,LR,NN...;

    生成模型(generative model)是对p(x,y)进行学习,即学习p(y|x)p(x),最后p(x,y)=p(y|x)p(x),可以认为p(y|x)为判别模型给出的后验概率,而p(x)为先验概率(也可以叫上下文或者熟悉度,比如是否是熟悉的输入,不熟悉[即不属于训练数据分布的数据] 有较小的p(x)值),而p(x,y)可以理解为给定 x y 的综合置信度,所以生成模型更不容易像判别模型那样将未见过类别分类为错误类别[8]。

 

参考:

    1. 周志华,机器学习

    2. Data domain description using support vectors

    3.Support vector domain description

    4.One Class SVM, SVDD(Support Vector Domain Description)

    5.Domain described support vector classifier for multi-classification problems

    6.Combining one-class classifiers

    7. Novelty and Outlier Detection 

    8. Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images 

    9. Deep learning face representation by joint identification-verification

    10. Deeply learned face representations are sparse, selective, and robust

    11. Deepid3: Face recognition with very deep neural networks

    12. Facenet: A unified embedding for face recognition and clustering

这篇关于分类器对未见过类别(unseen category)的识别问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/969094

相关文章

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

Idea插件MybatisX失效的问题解决

《Idea插件MybatisX失效的问题解决》:本文主要介绍Idea插件MybatisX失效的问题解决,详细的介绍了4种问题的解决方法,具有一定的参考价值,感兴趣的可以了解一下... 目录一、重启idea或者卸载重装MyBATis插件(无需多言)二、检查.XML文件与.Java(该文件后缀Idea可能会隐藏

Nginx 访问 /root/下 403 Forbidden问题解决

《Nginx访问/root/下403Forbidden问题解决》在使用Nginx作为Web服务器时,可能会遇到403Forbidden错误,文中通过示例代码介绍的非常详细,对大家的学习或者工作... 目录解决 Nginx 访问 /root/test/1.html 403 Forbidden 问题问题复现Ng

Python的pip在命令行无法使用问题的解决方法

《Python的pip在命令行无法使用问题的解决方法》PIP是通用的Python包管理工具,提供了对Python包的查找、下载、安装、卸载、更新等功能,安装诸如Pygame、Pymysql等Pyt... 目录前言一. pip是什么?二. 为什么无法使用?1. 当我们在命令行输入指令并回车时,一般主要是出现以

Nginx部署React项目时重定向循环问题的解决方案

《Nginx部署React项目时重定向循环问题的解决方案》Nginx在处理React项目请求时出现重定向循环,通常是由于`try_files`配置错误或`root`路径配置不当导致的,本文给大家详细介... 目录问题原因1. try_files 配置错误2. root 路径错误解决方法1. 检查 try_f

Python解决雅努斯问题实例方案详解

《Python解决雅努斯问题实例方案详解》:本文主要介绍Python解决雅努斯问题实例方案,雅努斯问题是指AI生成的3D对象在不同视角下出现不一致性的问题,即从不同角度看物体时,物体的形状会出现不... 目录一、雅努斯简介二、雅努斯问题三、示例代码四、解决方案五、完整解决方案一、雅努斯简介雅努斯(Janu

MySQL索引失效问题及解决方案

《MySQL索引失效问题及解决方案》:本文主要介绍MySQL索引失效问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql索引失效一、概要二、常见的导致MpythonySQL索引失效的原因三、如何诊断MySQL索引失效四、如何解决MySQL索引失

一文教你如何解决Python开发总是import出错的问题

《一文教你如何解决Python开发总是import出错的问题》经常朋友碰到Python开发的过程中import包报错的问题,所以本文将和大家介绍一下可编辑安装(EditableInstall)模式,可... 目录摘要1. 可编辑安装(Editable Install)模式到底在解决什么问题?2. 原理3.

Redis中的数据一致性问题以及解决方案

《Redis中的数据一致性问题以及解决方案》:本文主要介绍Redis中的数据一致性问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Redis 数据一致性问题的产生1. 单节点环境的一致性问题2. 网络分区和宕机3. 并发写入导致的脏数据4. 持

vscode不能打开终端问题的解决办法

《vscode不能打开终端问题的解决办法》:本文主要介绍vscode不能打开终端问题的解决办法,问题的根源是Windows的安全软件限制了PowerShell的运行,而VSCode默认使用Powe... 遇到vscode不能打开终端问题,一直以为是安全软件限制问题,也没搜到解决方案,因为影响也不大,就没有管