深度学习tracking学习笔记(2):图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention)

本文主要是介绍深度学习tracking学习笔记(2):图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

reference:
http://blog.csdn.net/anshan1984/article/details/8657176
http://blog.csdn.net/huangbo10/article/details/19788547?utm_source=tuicool&utm_medium=referral

关于显著度的研究是从生物研究发展而来,早期比较重要的工作是C.Koch与S.Ullman做的,时间可以追溯到1985年。
显著度的获取方式主要有两种:自上而下,从高层语义入手,其实目标检测等等也可以归入这一类中;更普遍的是自下而上,从底层特征入手。直到现在,第二种自下而上的方法仍是主流
从CV角度研究显著度问题从1998年开始,开创者是Itti。其最出名的文章是A model of saliency based visual attention for rapid scene analysis,发表在1998年的PAMI上。

这篇文章基本奠定了显著度研究的基本思路,即: 特征提取—>归一化—>特征综合/显著度计算—>显著性区域划分/兴趣点标定
在最初的文章中主要采取启发式的方法提取特征,依据生物学研究,主要提取亮度、色彩、旋转一致性三种特征,得到三种feature map。随后这些feature map被归一化以便综合,综合方法是简单的相加。从综合后的saliency map上提取前N个峰值即为寻求的interest point。
随后的很多研究都采取了这样的框架,针对特征提取/特征综合等等不同的阶段分别进行优化。
例如这篇:J. Harel, C. Koch, &P. Perona. Graph-based visual saliency. Advances in Neural Information Processing Systems, 19:545-552, 2006.
假定仍采用原先的特征提取方式,但是 综合阶段使用的不是线性组合而是马尔科夫随机场 ,获得了比Itti更好的效果。
另两篇Xiaodi Hou, Jonathan Harel and Christof Koch: Image Signature: Highlighting Sparse Salient Regions (PAMI 2012)
和R. Achanta, S. Hemami ,F. Estrada,& S. Süsstrunk, Frequency-tuned salient region detection. IEEE International Conference on Computer Vision and Pattern Recognition, 2009, pp.1597-1604.
则是定义了一种新的底层特征提取方法,计算saliency的过程仍采用马尔科夫随机场


采用条件随机场的比较著名的一篇文章应该是Tie Liu, Jian Sun, Nan-Ning Zheng, Xiaoou Tang and Heung-Yeung Shum. Learning to Detect A Salient Object. In Proc. IEEE Cont. on Computer Vision and pattern Recognition (CVPR), 2007.
引用665次!作者建立了一个10k级别的数据库(手工标注方框),并提出了系统的评估方法。


2007年,侯晓迪另辟蹊径,提出了一种完全不同的思路,称为频域残差法。这种方法 不考察前景的特点,反而去研究背景都具有那些特点 ,从图片中提取跟这些特点不符的就是interest point。
其考察背景特征的方法是计算图片的log频谱,发现对于自然图片,其曲线应该与1/f成正比。因此只需从待考察频谱中减去基准频谱,剩下的就是需要关注的部分。
R. Achanta, S. Hemami ,F. Estrada,& S. Süsstrunk, Frequency-tuned salient region detection. IEEE International Conference on Computer Vision and Pattern Recognition, 2009, pp.1597-1604.


在频域残差法的基础上,复旦大学有人提出了利用 相位谱 的方法。相位谱就是仅仅保留频谱分量的符号而不保存其值,这样可以获得更高的计算效率
在获得每个点的相位谱之后,两点之间的距离简单地用hamming距离表示,随后采用条件随机场进行优化。其文章发表于2008年CVPR。
Chenlei Guo, Qi Ma, Liming Zhang: Spatio-temporal Saliency detection using phase spectrum of quaternion fourier transform. CVPR 2008
同样采用相位谱的还有M. Holtzman-Gazit, L. Zelnik-Manor and I.Yavne, " Salient Edges: A MultiScale Approach", ECCV 2010 Workshop on Vision for Cognitive Tasks.
不同点是,他们还对图片提取了多种分辨率。其思想是, 无用的背景在多种分辨率下应该是相似的,而有用信息则只出现在某几层中。


同一拨人还做了大量细致的工作。S. Goferman, L. Zelnik-Manor, and A. Tal. Context-Aware Saliency Detection. CVPR 2010.
这篇文章中,他们提出应当同时考虑局部信息和全局信息,例如 注意力应该集中在某些特定区域而不是分散,距离视觉焦点更近的点容易被观察到 等等,效果拔群。


采用底层特征和高层(全局)特征结合方法的还有Tilke Judd, Krista Ehinger, Frédo Durand, Antonio Torralba.Learning to predict where people look,International Conference on Computer Vision, ICCV 2009.
这篇文章中,他们提取了三个层次的特征:一般的底层特征,自然场景中的地平线,人脸检测(采用V-J算法)。


以上是比较主流的做法。其余还有一些人,例如Xiaohui Shen and Ying Wu, "A Unified Approach to Salient Object Detection via Low Rank Matrix Recovery", in IEEE Conference on Computer Vision and Pattern Recognition (CVPR)(Oral), 2012.希望通过寻找图像在特征空间中的有效表示(可以将图片信息简洁的分为无用部分+有用部分)来解决问题。
Chuan Yang, Lihe Zhang, Huchuan Lu, Minghsuan Yang, Saliency Detection via Graph-Based Manifold Ranking, CVPR 2013.则希望通过流形嵌入解决问题,用到了大量的数学推导.


总结:从近几年的趋势来看,纯数学的 频域方法似乎没什么潜力 。人们更多的还是 关注有效的特征提取以及高层特征和底层特征的结合
saliency的问题具有特殊性,因为我们容易给出的ground truth是0或1,而不是0-1之间的连续值。这就让神经网络在这里难以训练,相反有的借助SVM的方法(Tilke Judd, Krista Ehinger, Frédo Durand, Antonio Torralba.Learning to predict where people look,International Conference on Computer Vision, ICCV 2009.)效果不错。


学习算法在这里发挥的作用似乎不是很大,可以从高层起到一些辅助作用(例如特定的类别和目标检测),但不本质。

当前更新日期:2013.08.04


1. 早期C. Koch与S. Ullman的研究工作.

他们提出了非常有影响力的生物启发模型。

C. Koch and S. Ullman . Shifts in selective visual attention: Towards the underlying neural circuitry. Human Neurobiology, 4(4):219-227, 1985.

C. Koch and T. Poggio. Predicting the Visual World: Silence is Golden. Nature Neuroscience, 2(1):9–10, 1999.

C.Koch是加州理工大学Koch Lab的教授,后文的侯晓迪师从C. Koch进行博士研究。


2. 南加州大学iLab实验室Itti教授及其学生Siagian等的研究工作.

见http://ilab.usc.edu/publications/. 主页提供iLab Neuromorphic Vision C++ Toolkit。Christian Siagian博士期间的主要工作是生物学启发的机器人视觉定位研究(Biologically Inspired Mobile Robot Vision Localization).

L. Itti, C. Koch, & E. Niebur .A model of saliency based visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):1254-1259, 1998.

L. Itti and C. Koch. Computational Modelling of Visual Attention. Nature Reviews Neuroscience, 2(3):194–203, 2001.

L. Itti, & P. Baldi . Bayesian surprise attracts human attention. Advances in Neural Information Processing Systems, 19:547-554, 2005.

C. Siagian, L. Itti, Comparison of gist models in rapid scene categorization tasks, In: Proc. Vision Science Society Annual Meeting (VSS08), May 2008.


3. Caltech 的J. Harel研究工作.

Koch Lab的J. Harel在2006年提出基于图的视觉显著性检测. 有Matlab实现。http://www.klab.caltech.edu/~harel/share/gbvs/

J. Harel, C. Koch, &P. Perona. Graph-based visual saliency. Advances in Neural Information Processing Systems, 19:545-552, 2006.


4. Caltech 侯晓迪博士的研究工作.

他是上交硕士,后去加州理工大学读博。他提出的频域残差法(Spectral Residual)让人认识到数学的美。

X,Hou &L,Zhang. Saliency Detection: A spectral residual approach. IEEE Conference on Computer Vision and Pattern Recognition, 2007, pp.1-8.

Xiaodi Hou, Jonathan Harel and Christof Koch: Image Signature: Highlighting Sparse Salient Regions (PAMI 2012)

 同时推荐他出演的电影“The PHD Movie”:

http://movie.douban.com/subject/6855109/comments

这里有一个很好的JOKE:

http://bbs.sjtu.edu.cn/bbstcon,board,AI,reid,1203564832.html


5. 复旦大学Chenlei Guo, Liming Zhang的工作.

他们在频域残差法(Spectral Residual)的基础上提出相位谱(Phase Spectrum)方法。

Chenlei Guo, Qi Ma, Liming Zhang: Spatio-temporal Saliency detection using phase spectrum of quaternion fourier transform. CVPR 2008

Chenlei Guo, Liming Zhang: A Novel Multiresolution Spatiotemporal Saliency Detection Model and Its Applications in Image and Video Compression. IEEE Transactions on Image Processing 19(1): 185-198 (2010)


6. 瑞士洛桑联邦理工学院EPFL的R. Achanta研究工作.

R. Achanta, F. Estrada, P. Wils, & S. Süsstrunk, Salient region detection and segmentation. International Conference on Computer Vision Systems, 2008, pp.66-75.

R. Achanta and S. Süsstrunk, “Saliency Detection for Content-aware Image Resizing,” in IEEE International Conference on
Image Processing, 2009.

R. Achanta, S. Hemami ,F. Estrada,& S. Süsstrunk, Frequency-tuned salient region detection. IEEE International Conference on Computer Vision and Pattern Recognition, 2009, pp.1597-1604.

R. Achanta and S. Süsstrunk, Saliency Detection using Maximum Symmetric Surround, ICIP, 2010.


7. 西安交通大学TieLiu在微软亚研院的一些工作.

Tie Liu, Jian Sun, Nan-Ning Zheng, Xiaoou Tang and Heung-Yeung Shum. Learning to Detect A Salient Object. In Proc. IEEE Cont. on Computer Vision and pattern Recognition (CVPR), 2007.

Tie Liu, et. al. ,Video Attention: Learning to Detect A Salient Object Sequence, ICPR 2008.

 

8. 瑞典KIT的Boris Schauerte的研究工作.

B. Schauerte, R. Stiefelhagen, "Predicting Human Gaze using Quaternion DCT Image Signature Saliency and Face Detection". In Proc. 12th IEEE Workshop on the Applications of Computer Vision (WACV), 2012. (Best Student Paper Award)

B. Schauerte, R. Stiefelhagen, "Quaternion-based Spectral Saliency Detection for Eye Fixation Prediction". In Proc. 12th European Conference on Computer Vision (ECCV),  2012.


9.  以色列理工大学(The Technion),CGM Lab,L. Zelnik-Manor研究组的工作.

D. Rudoy, D.B Goldman, E. Shechtman and L.Zelnik-Manor, " Learning video saliency from human gaze using candidate selection ",  To appear in CVPR, 2013.

R. Margolin, A. Tal, and L. Zelnik-Manor, " What Makes a Patch Distinct? ",  To appear in CVPR, 2013.

R. Margolin, L. Zelnik-Manor, and A. Tal " SaliencyFor ImageManipulation ",  The Visual Computer, June 2012.

R.Margolin, L. Zelnik-Manor, and A. Tal " SaliencyFor ImageManipulation ",  Computer Graphics International (CGI) 2012.

S. Goferman, L. Zelnik-Manor, and A. Tal " Context-AwareSaliency Detection ", IEEE Trans. on Pattern Analysis and Machine Intelligence(PAMI), 34(10): 1915--1926,Oct. 2012.

M. Holtzman-Gazit, L. Zelnik-Manor and I.Yavne, " Salient Edges: A MultiScale Approach", ECCV 2010 Workshop on Vision for Cognitive Tasks.

S. Goferman, L. Zelnik-Manor, and A. Tal. Context-Aware Saliency Detection. CVPR 2010.


10. 美国西北大学Ying Wu研究组的工作.

Xiaohui Shen and Ying Wu, "A Unified Approach to Salient Object Detection via Low Rank Matrix Recovery", in IEEE Conference on Computer Vision and Pattern Recognition (CVPR)(Oral), 2012.


11. 清华大学程明明(Ming-Ming Cheng)相关工作。

SalientShape: Group Saliency in Image Collections. Ming-Ming Cheng, Niloy J. Mitra, Xiaolei Huang, Shi-Min Hu. Technical Report TR-120624, GGC Group, Tsinghua University.

Global Contrast based Salient Region Detection. Ming-Ming Cheng, Guo-Xin Zhang, Niloy J. Mitra, Xiaolei Huang, Shi-Min Hu. IEEE International Conference on Computer Vision and Pattern Recognition, CVPR2011.


12. MIT Graphics Group, Tilke Judd的研究工作.

Tilke Judd, Understanding and Predicting Where People Look. MIT PhD Thesis of Computer Science, 2011.

Tilke Judd, Frédo Durand, Antonio Torralba, A Benchmark of Computational Models of Saliency to Predict Human Fixations.
currently under review, also available as a 2012 MIT Tech Report.

Tilke Judd, Frédo Durand, Antonio Torralba, Fixations on Low-Resolution Images,Journal of Vision 2011.

Tilke Judd, Krista Ehinger, Frédo Durand, Antonio Torralba.Learning to predict where people look,International Conference on Computer Vision, ICCV 2009.

Judd提供了一个Saliency Benchmark. 并且总结了相关数据集。

http://people.csail.mit.edu/tjudd/SaliencyBenchmark/index.html


13. 大连理工大学卢湖川(Huchuan Lu)老师研究组的工作。

Yulin Xie, Huchuan Lu, Minghsuan Yang, Bayesian Saliency via Low and Mid Level Cues, IEEE Transaction On Image Processing, 2013.

Chuan Yang, Lihe Zhang, Huchuan Lu, Minghsuan Yang, Saliency Detection via Graph-Based Manifold Ranking, CVPR 2013.


 

自然图像抠图/视频抠像技术发展情况梳理(image matting, alpha matting, video matting)--计算机视觉专题1

http://blog.csdn.net/anshan1984/article/details/8581225

图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention)--计算机视觉专题2
http://blog.csdn.net/anshan1984/article/details/8657176

超像素分割技术发展情况梳理(Superpixel Segmentation)--计算机视觉专题3
http://blog.csdn.net/anshan1984/article/details/8918167


这篇关于深度学习tracking学习笔记(2):图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1050199

相关文章

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java MCP 的鉴权深度解析

《JavaMCP的鉴权深度解析》文章介绍JavaMCP鉴权的实现方式,指出客户端可通过queryString、header或env传递鉴权信息,服务器端支持工具单独鉴权、过滤器集中鉴权及启动时鉴权... 目录一、MCP Client 侧(负责传递,比较简单)(1)常见的 mcpServers json 配置

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解(高频使用)三、clean生命周期核心阶

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

深度解析Python yfinance的核心功能和高级用法

《深度解析Pythonyfinance的核心功能和高级用法》yfinance是一个功能强大且易于使用的Python库,用于从YahooFinance获取金融数据,本教程将深入探讨yfinance的核... 目录yfinance 深度解析教程 (python)1. 简介与安装1.1 什么是 yfinance?

Python脚本轻松实现检测麦克风功能

《Python脚本轻松实现检测麦克风功能》在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的... 目录轻松检测麦克风功能脚本介绍一、python环境准备二、代码解析三、使用方法四、知识扩展轻松检测麦

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具:字符串方法与序列匹配二、正则表达式:模式匹配的瑞士军刀2.1 re模块核心AP

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.