文献阅读报告

东北师范大学研究生文献阅读报告

报告题目:视觉注意力的建模方法研究及应用               

课程名称:模式分析与机器智能

姓名:***

学号:**

专 业:计算机软件与理论

年 级:20##级

院 、 所:计算机科学与信息技术

年月日 20**年6月21日

研究生文献阅读报告评价标准

东北师范大学研究生院制

一 引言

日常工作和生活中,我们都认识到“注意(Attention)”的极端重要性。老师上课要求学生注意听讲;在视觉心理物实验中,也总是要求测试者集中注意。如果我们眼睛看到的、耳朵听到的和心里想到的完全一致,那么视听的效果就会非常好;否则即便听过,也可能“视而不见”、“听而不闻”,效果截然不同。早在一百多年前,注意作为人类行为的中枢和心理活动的调节机制就己经受到人们的重视。

当前,随着信息技术的发展,图像数据的规模变得越来越大,面对如此庞大的图像数据,如何能够快速而准确地完成各种图像分析任务己经成为人们研究的热点。传统的图像分析方法将图像中所有区域都被赋予相同的处理优先等级,然而很多图像分析任务(诸如目标识别、图像检索、场景分析等)所关心的内容通常仅占图像中很小的一部分,因此,这种全面加工不但增加了分析过程的复杂性,而且带来了许多不必要的计算浪费。近年来,许多研究学者发现人类视觉系统(Human Visual System, HVS)在面对一个复杂场景时,人类的注意力会迅速集中在少数几个显著的视觉对象上,并对这些对象进行优先处理,该过程则被称为视觉注意(Visual Attention)(Jamesetal.1890),显著的视觉对象被称为注意焦点(Focus Of Attention, FOA)。显然,将这种机制引入到图像分析领域是非常必要且有意义的,它可以提供观察者可能感兴趣的对象区域信息,帮助制定合理的计算资源分配方案,从而可以大幅地提升己有图像处理系统的运行效率。将传统的图像处理过程和人类的视觉注意相结合,提取和图像分析任务有关的内容并优先处理,形成一套合理的资源分配方案来引导图像处理,使计算机具有类似人类选择性和主动性的信息处理能力,是本领域的主要研究目的。

另外,视觉注意力的可计算模型也成为近来年很多专家学者关注的热点,并且在图像分析、图像检索、目标跟踪、机器人跟踪、视频压缩等领域得到广泛地应用。但将视觉注意力与数字水印技术相结合的研究相对来说还是一个新的应用领域,而且随着信息技术的发展,信息隐藏的安全性越来越受到各媒体的重视。由于图像或视频的最终接收端及质量评估者都是人,所以结合人类视觉特性的数字水印技术,是有意义的,也是必要的。

二 主题部分

2.1 视觉注意机制的应用

将视觉注意机制引入图像分析,赋予现有分析过程一定的选择能力,将资源优先分配给那些感兴趣的区域,这使它对于解决数据筛选的问题、降低计算量并提高计算机对信息处理的效率都具有极为重要的研究意义和应用价值。其中表现较为突出的几个应用领域如下:

(1)图像压缩与编码

它是当前最为活跃的视觉注意建模应用研究方向。其基本思想是在图像压缩时对显著对象区域进行无损或近无损压缩,而对其他区域进行有损压缩,从而既能够保持较好的图像质量,又可以获得较高的压缩比。该技术己经被JPEG2000标准所采用(Christopoulos et al.2000;Liu et al.2003; Wang et al.2002)。

(2)图像检索

利用显著对象的视觉属性和空间分布描述图像内容,通过显著对象之间的相似性,度量图像之间的相似性,从而克服与图像内容不相关的区域(如:背景区)对检索过程产生的影响(Dimai 1999;Stejic et al.2003;Vu et al.2003;Tian et al.2010)。

(3)场景渲染

在渲染过程中赋予显著对象区域与其他区域不同的渲染终止条件,从而在保证渲染结果能够被用户接受的情况下,最大限度地降低渲染的计算复杂性(Yee et al.2001;Horvitz et al.1997;Myskowski et al.1999)。

(4)场景分析

针对大量的图像数据,通过对快速筛选出来的显著对象依次分析,进而获得对于整个图像场景内容的初步理解,对后续的图像分析任务提供决策层支持,避免无意义的图像计算任务(Itti et al.1998)。

(5)目标检测

利用自底向上视觉显著度模型自身的特点,和它对于对比度、亮度、和噪声等影响的鲁棒性解决某些目标检测中传统分割方法较难将目标与背景很好地分离的问题(Kadir et al.2001;Wai and Tsotsos 1994;Itti et al.2001;Tian et al.2008)。

(6)监视系统

在动态变化场景的时序图像中,对某个固定区域进行监视,例如交通路口的车辆监视,利用车辆位置的变化构建运动刺激特征,从而有助于对运动目标的跟踪和非运动显著目标的监视(Tian et al.2007)。

(7)目标识别

它的基本思想是依次识别显著对象中一组显著性逐渐下降的区域,并据此不断调整对整个目标的判断,从而避免了由目标中的非感兴趣区域信息引起识别效率下降的问题。例如,人脸识别、手写数字识别等(Salah et al.2002;Dickinson et al.1997;Soyer et al.2003)。

(8)主动视觉

通过模拟视觉注意的显著对象检测,使计算机具有类似于人类的视觉功能,能够对某些特定对象进行后续的识别与判断,这是机器人等应用领域中极为关心的问题(Breazeal et al.2000;Indiveri et al.2001;Backer et al.2001)。

2.2 可计算的注意力选择模型—NVT

在特征综合理论和认七lfe,sGuldedSearch模型在基础之上,计算机科学领域的研究人员提出了许多可计算的注意力选择模型,其中最有名的要数Itti等人提出的NVT模型。Itti、Koch在1998年提出基于显著性特征的注意力选择模型[7],并在20##年度Nature上对该模型理论作了进一步的完善[25]。这个注意力选择模型是基于这样的假设:原始图像输入到模型后,通过多个通道的处理,考虑不同的尺度的分析和滤波的计算后获得一个两维的显著特征映射图,这个映射图中幅度最强的区域部分,就为注意力选择的焦点,其次强的区域为第二选择,以此类推得到数个显著特征区域,它可以为注意力的分配提供很好的策略。它的基本模型如图2一3所示:输入的静态图像先通过一个线性滤波器滤去图像中的噪声,然后并行的分为三个通道获取图像的颜色、亮度、和方向的信息,然后并行地送到方向可控的金字塔状的高斯低通滤波器哈中(OvercomPletesteerablepyr田旧ids)[24],对输入图像进行逐层低通滤波处理和降采样,(具体见后面的介绍),产生一系列不同尺度的红、蓝、绿、黄四种颜色,亮度,以及四个方向(0度,45度,90度,135度)所对应的两维特征图(9个尺度),呈金字塔状输出。然后分别对各个特征通道所对应的不同尺度特征图之间的“中心点一环绕区域”差异性的进行计算(eenter-s~unddi月七renees)和归一化,颜色通道获得红绿特征、蓝黄特征各6幅特征映射图(共12幅),亮度通道6幅特征映射图,方向信息四个方向各6幅映射图(共24幅),然后通过个尺度特征图的合并以及归一化,获得颜色、亮度和方向三个输入通道各自对应的综合特征图。

三 总结与展望

注意力选择是人的视觉感知的一个重要特性,对于注意力选择的研究与建模可以解决传统机器视觉算法无能为力的一般物体的检测和识别。本文就注意力选择的自上而下和自下而上分别做了细致的研究工作,总结如下:

1.在自上而下的方面,提出了一种带有学习和视觉记忆的注意力选择模型,该模型包含3个部分,分别为感知映射,认知映射以及运动映射。在认知映射中,我们提出了基于视觉记忆的自监督竞争神经网络和眼球运动估计机制,并且利用增量多层回归树来模拟视觉记忆。我们的模型被应用于目标跟踪以及机器人自主导航,取得了良好的效果。之后,我们发现以往的视觉记忆模型比如HD侧IHDR没有遗忘函数,这样的记忆模型在处理连续不断的图像样本时,会出现检索速度越来越慢以及记忆溢出的情况。于是我们提出了一种新的带有遗忘函数的视觉记忆模型:遗忘增量多层分类回归树。该模型可以同时模拟人脑的长期记忆和短期记忆。实验表明,相比不带遗忘的记忆模型,我们的记忆模型具有稳定的规模,较快的搜索速度和较高的准确率。该记忆模型应用在我们提出的注意力选择模型上,实现了有监督的视频编码。

2.在自下而上方面,提出了一种基于四元数傅立叶变换的时空显著性检测模型。首先提出了一幅图像的四元数表示,并利用其傅立叶相位谱来获得时空显著图。实验表明该方法不但在检测一般物体上效果好,而且速度很快,能够实时运算。之后,我们仔细分析了我们提出的显著性模型在多分辨率下表现,并在此基础之上,提出了层次选择模型来获取一幅图像的树状表示,利用这种表示,可以建立多辨率小波域注意力模型,这种模型可以提升图像及视频编码的效率,从而提高压缩率。

关于未来工作,我觉得有几个方面的做进一步研究:

1.如何从数学角度去证明傅立叶相位谱和显著图的关系。

2.将我们提出了显著性检测方法与视觉记忆模型相结合,实现机器人的注意力选择系统。

3.将多分辨率小波域注意力模型插入到像或视频压缩的编码器中,优化EZW、SPIHT和EBCOT的编码。

四 主要参考文献

[1]ltti L,Koch C,Niebur E.1998.A model of saliency-based visua1 attention for rapid scene analysis [J]. IEEE Trans.on Pattern Analysis and Machine Intelligence,20(11):1254-1259.

[2]Koch C.and Ulman S.1985.Shifts in Selectionin Visual Attention:Toward the Underlying Neural Circuitry [J].Human Neurobiology,4(4):219-227.

[3] Itti L,Koch C.200l.Computational modeling of visual attention[J].Nature Reviews Neuroscience,2(3):194-230.

[4]Itti L,Koch C.2001.Feature combination strategies for saliency-based visual attentions systems [J].Journal of Electronic Imaging,10(l):161-169.

[5]Ma Y F,Zhang H J.2003.Contrast-based image attention analysis by using fuzzy growing[C].Proceedings of the eleventh ACM International Conference on Multimedia Berkeley:ACM Press,374-381.

[6]Hou X and Zhang L.2007.Salieney Detection: A Spectral Residual Approach [C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Minnesota,USA,l-8.

[7]Hu M K.1962.Visual pattern recognition by moment invariants[J].IEEE Trans.on Information Theory,8(1):179-187.

[8]Hu Y,Rajan D and Chia L-T.2005.Robust Subspace Analysis for Detecting Visual Attention Regions in Images[C].Proceedings of the 13th annual ACM International Conference on Multimedia,Singapore,716-724.

[9]Liu H,Jiang S,Huang Q and Xu C.2008.A Generic Virtual Content Insertion System Based on Visual Attention Analysis[C].Proceeding of ACM Conference on Multimedia,379-388.

[10]Liu H,Jiang S,Huang Q,Xu C,Gao W.2007.Region-Based Visual Attention Analysis with Its Application in Image Browsing on Small Displays[C].Proceedings of 20## ACM International Conference on Multimedia,Augsburg:ACM Press,305-308.

[11]Liu L,Fan G.2003.A new JPEG200O region-of-interest image coding method:Partial significant bitplanes shift[J].IEEE Signal Processing Letters,10(2):35-39.

[12]Liu T,Sun J,Zheng N,Tang X,Shum H.2007.Learning to Detect A Salient object[C].

Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,l-8.

[17]Milanese R,Bost J M,Pun T.1992.A bottom-up attention system for active vision[C]. Proceedings of the 10th European Conference on Artificial Intelligence,Vienna,Austria,808-810.

[18]Kadir T,Brady M.2001.Saliency scale and image description[J].International Journal of Computer Vision,45(2):83-105.

 

第二篇:文献阅读综述报告

文献阅读综述报告

前言

数字技术的迅速发展以及互联网的普及给人们的工作和生活带来了极大的便利。人们可以通过因特网发布自己的创作成果传递重要信息,进行科学交流以及参与电子商务等。但是也正是由于数字化多媒体信息本身具有的易于加工,复制简单,传播迅速的优点使其极其容易被非法拷贝或复制,从而导致数字产品的版权,完整性,有效性得不到保证。严重损害了创作者的利益。对于数字作品的创作者来说,他们迫切需要一种新的技术来保护数字作品的版权、真实性和完整性以及作者的隐私、知识产权和财产安全。

为了解决这一问题,仅仅依靠传统的加密技术已经远远的不能满足人们的要求了,而以将特定的数字标志隐藏在数字作品中为特征的数字水印技术却在此方面发挥了巨大的作用。作为信息隐藏技术的一个重要分支,数字水印技术可以说是信息时代特有的产物,正是由于数字作品的知识产权保护及其他一系列需求导致了数字水印的出现。它通过在原始信息中嵌入秘密信息 ——水印来作为版权信息的标志。被嵌入的水印通常是不可见的,它与原始数据如图象音频视频等紧密结合并隐藏在其中成为原始数据不可分割的一部分,而且可以经历一些不破坏原始数据使用价值或商业价值的操作而存活下来.另外,水印的直入仅仅利用了原始数据的空间,并不需要增加额外的空间。数字水印技术作为数字作品版权保护的一种有效的补充手段,已经成为了多媒体信号处理中的一个研究热点,甚至被称为多媒体数据保护的最后一道防线。

现在社会,人们对食品、药品的消费观念正在转变,由重视产品价格和数量转变为越来越重视产品的质量,但是在商场普通百姓仅仅从外观上很难分辨出所要购买的商品是优质的还是假冒伪劣的。现在市场上劣质食品鱼目混杂,大部分生产者又因为分散经营,产品无标识,难以追究责任。当务之急,就是提供一种方案,可以实现食品的防伪假冒,保护消费者的切身利益的同时,也保障生产者的经济利益。我同研究实现的数字水印和商密二维码的结合可以生成防伪食品标识,很好的解决食品领域的防伪假冒问题。

现状

作为传统加密系统的有效补充办法,从1993年Caronni正式提出数字水印到现在的十几年时间里,无论国内还是国外对数字水印的研究都引起了人们的极大关注。

在国外方面,由于有大公司的介入和美国军方及财政部的支持,虽然在数字水印方面的研究刚起步不久,但该技术研究的发展速度非常快。。1998年以来,《IEEE图像处理》、《IEEE会报》、《IEEE通信选题》、《IEEE 消费电子学》等许多国际重要期刊都组织了数字水印的技术专刊或专题新闻报道。在美国,以麻省理工学院媒体实验室为代表的一批研究机构和企业已经申请了数字水印方面的专利。1998年,美国政府报告中出现了第一份有关图像数据隐藏的AD报告。目前,已支持或开展数字水印研究的机构既有政府部门,也有大学和知名企业,它们包括美国财政部、美国版权工作组、美国空军研究院、美国陆军研究实验室、德国国家信息技术研究中心、日本NTT信息与通信系统研究中心、麻省理工学院、伊利诺斯大学、明尼苏达大学、剑桥大学、瑞士洛桑联邦工学院、西班牙Vigo大学、IBM公司Watson研究中心、微软公司剑桥研究院、朗讯公司贝尔实验室、CA公司、Sony公司、NEC研究所以及荷兰菲利浦公司等。SPIE和IEEE的一些重要国际会议也开辟了相关的专题。

国内方面,我国学术界对数字水印技术的反应也非常快,已经有相当一批有实力的科研机构投入到这一领域的研究中来。为了促进数字水印及其他信息隐藏技术的研究和应用,1999年12月,我国信息安全领域的何德全院士、周仲义院士、蔡吉人院士与有关应用研究单位联合发起召开了我国第一届信息隐藏学术研讨会。2000年1 月,由国家“863”智能机专家组和中科院自动化所模式识别国家重点实验室组织召开了数字水印学术研讨会,来自国家自然科学基金委员会、国家信息安全测评认证中心、中国科学院、北京邮电大学、国防科技大学、清华大学、北方工业大学、上海交通大学、天津大学、中国科技大学、北京大学、北京理工大学、中山大学、北京电子技术应用研究所等单位的专家学者和研究人员深入讨论了数字水印的关键技术,报告了各自的研究成果。从会议反应的情况上看,我国相关学术领域的研究与世界水平相差不远,而且有自己独特的研究思路。

总结

商密二维码和数字水印实现防伪检测,必须侧重考虑以下4个方面:

(1)、不可感知性,即商密二维码和和数字水印结合后生成的防伪标签在外面上肉眼感知不敏感。

(2)、鲁棒性,二维码图片本身具有很强抗无损的能力,在水印算法设计的时候如何设计出强鲁棒性的水印算法,是研究的重点。

(3)、防复制,设计一种基于循环结构的脆弱型数字水印算法,当载体被非法修改的时候水印信息会提示原始图像被修改,并期望能准确指出被修改的位置。这是研究的难点。

相关推荐