11论文工作总结与展望

第八章 论文工作总结与展望

第八章 论文工作总结与展望

在本文绪论中曾提到,视觉心理学在计算机视觉中的应用还存在着一些理论问题急需解决,故本章先对这些问题进行讨论。这是作者本人对博士期间研究工作所作的一次总结与反思。虽然这些想法还很不成熟,有些结论还存在争议,但还是毫无保留地把所思所想写了下来,目的在于给他人以启迪、以借鉴,并希望其它学者在对我的想法进行摒弃的同时,更快更好地前行。

接着,本章对整篇论文进行全面总结,提出进一步的研究构想,并对论文的应用前景进行展望。

8.1 对理论问题的讨论

前面各章主要阐述如何运用视觉心理学的有关理论来解决具体的计算机视觉问题,关注重点主要是细节性、局部性的问题,而对整体性的理论问题研究不足。把视觉心理学应用到计算机视觉中,急需解决的理论问题有:对接的层次问题、计算机视觉问题的适用性、心理学结论的适用性、心理学结论的取舍问题、定量化描述定性问题与跨学科的交流问题。下面分别对这些问题谈谈个人一些粗浅的看法。

(1) 对接的层次问题

各门科学都需要不同层次水平的解释。客观世界太复杂,为了控制复杂性,不得不对客观世界进行抽象,故形成了不同的层次。

计算机视觉的奠基人Marr把视觉问题看作信息处理过程,提出应从三个不同层次(计算理论层、表象与算法层、硬件实现层)进行分析与理解。Marr以商场现金收款机为例来描述这一理论。他认为计算理论要解决的问题是明确我们要对什么东西进行计算,以及为什么要对它们进行计算,关键还在于后者。每个人都知道,现金收款机执行的是加法运算,它执行的为什么是加法运算,而不是别的运算(如乘法)呢?这是因为对商品单价的组合规则(付款规则)正好符合数学上的加法理论。

把商品分成几组,每组一起付款,与每件商品单独付款,所付的总额是一样的,故结合律成立。

128

第八章 论文工作总结与展望

不买东西,不用付钱,故存在零元。

买了东西,然后退货,则总的付款为零,故存在负元。

对商品付款的顺序不影响付款的总额,故交换律成立。

上述四条规则正好定义了一个加法群,故现金收款机应执行加法运算,而不是别的运算。

第二层次所说明的是怎样做,主要解决问题的表象与算法。对于加法运算,可以选用阿拉伯数字(十进制)作为表象,而算法则可以沿用通常的加法规则,即先从低位加起,和大于9就进位。人与收款机一般使用这种表象。当然也可以使用二进制表象,从高位加起。早期的计算机使用的就是这种表象。故计算理论可以用不同的表象与算法来实现。

第三个层次是解决如何运用物理手段来实现上述表象与算法。这时也有多种选择。如对于加法运算,儿童可用扳手指的方法,小学生可用笔算,而大学生则用电子计算机来算。硬件不同,但功能是基本相同的。

在计算机视觉问题的三个层次中,计算理论是最重要的,通过理解正待解决问题的本质,算法可能比较容易理解,而考察用以解决问题的机制(硬件),对理解算法则往往没有很大的帮助。例如,为了理解鸟为什么会飞,必须懂得空气动力学。然后对羽毛的结构和各种不同的鸟翼形状的理解才有意义。计算理论层的基本任务是发现并分离出假定(又称约束),它既足以定义一个处理过程,又具有很强的物理合理性。

心理学家也在三个不同的层次(分析的心理层次、分析的认知层次、分析的神经层次)上进行研究[Best 2000],不同层次的解释是对同一事物不同级别的抽象。

当被问及在童年时代所住房子窗户的数目时,大多数人会产生类似于心理照片的心理意象,并会对它进行描述,以数出窗户的数目。这种意象及其性质位于分析的心理层次。在这种层次上可以审慎地从事一些心理内容的操作,如扫描窗户数目、窗户的颜色、房子距离街道的远近等等。心理的分析层次是伴随着意识体验的心理现象。

但是头脑中并没有照片。有意识的心理意象都是神经活动的独特类型,或独特模式、独特位置的体验。只是在正常的情况下,我们无法有意识的体验到神经活动。神经层次是具体的或物质的层次。

分析的认知层次是介于分析的心理层次与分析的神经层次之间的层次,它

129

视觉心理学在计算机视觉中的应用研究

是对发生在神经层次上的事件的抽象说明,是以判定、参与、贮存、提取等与神经活动没有联系的术语来研究心理过程。例如,构造前面房子的心理表象包括两个过程:首先,必须找到这间房子所有的贮存表象,然后决定将要被描绘的意象的特征(如房子旁边的树上有叶子吗?地上有雪吗?);其次构建一个人们能意识到的意象。也就是说,当我们谈到人的某个部位“搜索”意象、“判定”意象有何特征并构建意象时,我们在描述这些活动时,使用的既非神经方面的术语也非心理方面的术语(因为没有意识到任何事情),而是使用另一种抽象的语言,它与任何类型的神经操作及对这些神经过程的描述均无联系,这就是分析的认知层次语言。

虽然理论上我们最终也许可以发现心理层次或认知层次事件的神经机制,但是若无高于神经机制的抽象解释,对许多心理现象的事实我们仍然无法解释

[Rock 1984, pp1-12]。例如,对各种知觉恒常性现象就很难用神经机制来解释,因为映像的变化并不导致知觉的变化(详见本文第四章)。又如,各种二义图像,同一刺激却一会儿产生这样的知觉,一会儿又产生那样的知觉,这也很难用神经机制来解释。再如图7-2那样的图形,若阴影在上部,就觉得该区域是凹陷的,若阴影在底部,就觉得该区域是凸起的。这是因为在客观世界中,光几乎总是从上面射下来的,因此,洞穴的顶部往往有阴影。如果我们最终发现了负责图7-2效应的神经机制,对它的解释依然需要阴影原理, 仅用神经放电语言很难把这种效应表述清楚。因此向比较基本的分析层次水平还原是可喜的,但较高的分析层次水平依然有用,而且往往首先需要的是后者,因为后者更有利于揭示问题域的本质。

无论对于计算机视觉问题,还是对心理问题的研究,抽象程度越高,结论适用的范围越广。故将视觉心理学应用到计算机视觉中,主要是应用到计算理论层,弄清问题域的本质,发现解决视觉问题的新约束。例如,在第三章中综合应用心理学知识提出了图像语义模型;在第四章中把大小恒常性理论用于图像物体的感知;在第五章、第六章中重视实际地面对深度估计的作用。这些都是借鉴或应用了心理知识,对这些计算机视觉问题域的本质有了更加深入的理解之后,提出了新的计算理论。又如,绪论中介绍的大部分应用(视觉推理机制、特征检测理论、基元理论、格式塔组织原理、拓扑认知理论、恒常性理论)都是作用于视觉处理的计算理论层。故可以说,两者的结合是高层对高层的对接,低层心理学成果一般要经高层抽象才能有效作用于计算机视觉问题的理论层,

130

第八章 论文工作总结与展望

进而提出新的问题或解决问题的新方法。

(2) 计算机视觉问题适用性

哪些计算机视觉问题需要心理学的指导呢?我们认为主要有两类问题。一类是与人的主观偏好有关的计算机视觉问题,如图像语义问题,图像质量评价问题。另一类是计算机视觉系统难以解决,而人类却能轻易解决的问题,如图像分割、边缘检测、恒常性变换,运动感知、物体遮挡等。如果对人类视觉系统完成这些任务的过程有更深入的理解,我们也许能解决这些难题。从本质上讲,这两类问题是相同的,在处理这两类问题时,应自觉地、有意识地应用相关的视觉心理学知识。

(3) 心理学结论的适用性

计算机视觉的主要目标是用计算机来模拟生物外显。最好的,最通用的生物外显就是人类视觉系统。故模拟人类视觉系统就成了计算机视觉的主要目标。视觉心理学主要研究人类视觉系统的特点与感知规律,因此它的任何进展都有益于我们进一步认识人类视觉系统,从而有利于我们用计算机对它进行模拟。从这个意义上讲,所有的视觉心理学结论对计算机视觉的研究都是有益的。

然而,视觉心理学的实验手段主要是统计与观察内省。近年来,虽然各种脑成像技术(如PET,fMRI, ERP)已成功地应用到认知神经心理学,但它们的方法论基础依然是统计学。统计学善于发现变量间相关性,而对因果关系的揭示能力不足,对结论的前提与条件也不能精确的阐述。如在第六章6.5节讨论的那样,心理学家虽然揭示了大小恒常性的计算公式,但是对相机成像高度,成像物距等前提条件的研究仍有不足之处。对心理统计学理论缺陷的详细分析参见

[景怀斌 2005, pp90-112]。

其次,虽然人类视觉系统与照相机有着基本相同的成像基础,但是人类视觉空间与物理空间有着很大的不同。前者所用规则未必适用于后者,应用时要注意两者的区别,详见第五章5.5节的讨论。

所以,应用视觉心理学来解决计算机视觉问题,主要运用类比思维,从人类视觉系统中得到某种启示,弄清计算机视觉问题域的本质,从而能找到新的、有效的计算理论。

131

视觉心理学在计算机视觉中的应用研究

(4) 心理学结论的取舍问题

心理学内部派别林立,各种理论观点针锋相对,选择合适的心理学理论来指导计算机视觉的研究是一个很难的问题。基本原则是从计算机视觉问题域本身出发,选取的心理学理论要对弄清问题域的本质有帮助,要尽量避免陷入对立理论的争论之中。如Gibson的视觉生态学理论虽然在视觉心理学领域受到的攻击非常多,但是这种理论对实际地面的作用、对视觉环境的研究却是比较成功的,故我们在第四、五、六章借鉴了其中的重要思想(即实际地面是人类视觉最重要的参考平面),提出了单幅二维图像深度估计、单幅二维图像三维重建算法。其实,视觉心理学中各学派的争论在于对心理现象的解释不同,他们对这些现象的描述却是基本相同的。仅是这些对视觉心理现象的一致描述就特别有利于我们弄清计算机问题域的本质。

一定不要忘记,我们的出发点与落脚点是计算机视觉问题域本身,而不是心理学,后者只是为前者服务的。我们最重要的目的是从后者寻找解决计算机视觉问题的灵感。

(5) 定量化描述定性问题

针对计算机视觉的具体问题,即使我们已找到了合适的心理学结论,具体应用好这些心理学结论也是一件很难的工作。大部分的心理学结论是定性给出的,而计算机理论与算法是定量的、精确的。通常的手段就是用数学方法对心理学描述进行定量建模,这正是难点所在。所有的模型都是对问题域某一方面的抽象,如果抽象模型能反映问题的本质,那么就是一个很好的模型。对同一问题,从不同的角度,也许建立的模型不同,故计算的结果也就不同。例如第四章与第五章的深度模型就存在差别,一个是完全比照心理学结论进行建模,而另一个只是从心理学接受了某种启示,从几何光学出发建模。 但事实只有一个,真理不得不经受实践检验,别无他法。建立模型是最难的步骤,一般会因人而异,像第四章那样由心理学家提供现成模型的机会是不可多得的。

(6) 跨学科的交流问题

从视觉心理学到计算机视觉的学科跨度是比较大的,对两者进行交叉研究,离不开两门学科的相互借鉴、相互交流。故要相互进入对方的领域,学习掌握对方学科的基本研究对象、基本研究方法、基本术语与基本结论。除了这种途

132

第八章 论文工作总结与展望

径,我个人认为没有更好的办法。

另外,作为计算机视觉的研究者,我个人认为学习心理学知识应多从经典性、科普性的入门书籍开始,如[Rock 1984][Gregory 1997]等等,力图先对视觉心理学有一个整体的理解。科普书籍选用的观点是经过时间与实践检验的,故一般来说也是正确的,而且对有争议的观点,这些书中也会点明。然后,再阅读各学派的经典书籍,如[Best 2000][Koffka 1935][Gibson1997]等等,重点关注对计算机视觉问题域本身有帮助的观点。最后,才能进入心理学论文的阅读阶段。这个阶段也许是不必要的,因为新的心理学论文的结论基本上都是有争议的,而没有争议的观点多数已经反映在最新的书籍之中。所以,我个人的选择是多看心理学书籍,而不是心理学论文。

再者,我们要注意体会人类视觉系统的思维模式。虽然人类科学思维已相当发达,但人类视觉系统依然坚持使用日常思维模式。日常思维是用部分观察资料对事实进行表象、推理,因此受到各种缺陷的妨碍。例如,“地心说”是日常思维的产物。科学思维是从不断矫正日常思维的缺陷的过程中缓慢地发展而来,它使人类获得充分的理智满足和消除内心的不安[Mach 1999,pp8-9]。例如,“日心说”是科学思维的产物。人类视觉系统的知觉过程基本上不受人们关于通过听讲或阅读事实性陈述而传授的知识的影响[Rock 1984, 5-6]。例如,插入水中的筷子看上去是弯曲的,这种视觉感觉并不因为我们知道筷子依然是直的而改变;虽然日心说早已深入人心,但人类视觉依然觉得太阳围绕地球而东升西落。在科技如此发达的今天,人类视觉系统依然固守着远古形成的日常思维模式。但是通过它,我们依然能正确地感知周围环境,获取食物,逃避危险。这是因为人类视觉系统所面对的环境、要解决的问题及解决问题的方式并没有多大的变化。所以,在用视觉心理学来指导计算机视觉的研究时,如果能深刻体会人类视觉系统的思维模式,也许会有意想不到的收获。

8.2 论文工作总结

从光学成像的角度,人类视觉系统与照相机有着几乎完全同样的成像机制,两者都遵循相同的光学成像定律。计算机视觉是用计算机来模拟生物外显或视觉功能的科学与技术。故两者的功能也基本相同。与人类视觉系统相比,计算机视觉系统还很不成熟,还需要进一步借鉴人类视觉系统感知原理与感知规律。

133

视觉心理学在计算机视觉中的应用研究

视觉心理学的主要任务是揭示人类视觉系统的感知原理与感知规律,将它应用到计算机视觉的研究中,就可能为解决计算机视觉的众多难题指明方向,甚至提供理论方案。按照这种研究思路,我们系统运用视觉心理学的有关理论,对计算机视觉中的一些难题进行了深入研究,基本解决了一些问题(如单幅二维图像深度估计、单幅二维图像三维重建)等等,开辟了新的研究方向(如图像物体大小恒常性计算、计算机视觉算法评价)等等,并为另一些问题提供了理论方案(如图像语义模型),同时对视觉心理学在计算机视觉中应用的基本理论问题作了探讨与初步回答。

8.2.1 工作成果

(1) 视觉心理学结论

科学心理学才有100多年的历史,但是科学心理学内部却是派别林立,纷争不断。仅视觉心理学而言,就有五大学派。但是,各学派对视觉现象的描述基本相同,不同仅是对这些现象的解释。要将视觉心理学应用到计算机视觉中,首先必须从计算机视觉的角度对不同学派的观点进行梳理,选取适于计算视觉研究的心理学结论。这为整个研究工作奠定了基础。

(2) 基于视觉心理学的图像语义模型

图像语义理解是计算机视觉最难的问题之一,因为它与人的主观偏好密切相关,故它也是最需要应用心理学理论的地方。综合运用视觉心理学的研究成果,我们详细讨论了符合人的认知特点的图像语义定义,定义了描述图像语义的图像语言及它的基元与语法、总结了人类视觉系统所使用的推理机制及其特点,并将它们应用到图像语义理论的构建中。这些内容初步建立了一种新的图像语义理论模型、形成了一种符合人的认知规律的图像语义提取算法,一些实例研究表明了此模型的可行性与有效性。

(3) 基于视觉心理学的图像物体大小恒常性计算

恒常性变换不仅是图像语言的一条重要的语法规则,而且是图像语义提取的重要步骤。恒常性是人类感知世界最为重要的方式。大小恒常性是重要的恒常性之一。视觉心理学已经揭示了大小恒常性的计算理论。在此理论的指导下,我们提出了图像物体大小恒常性变换的计算模型,实验结果说明该模型是有效

134

第八章 论文工作总结与展望

的。这项工作是在视觉心理学的指导下,我们在计算机视觉领域中开辟的一项新的研究内容,也是应用视觉心理学指导计算机视觉研究的完整实例,它包括心理学框架提取、定性问题定量化描述、算法设计、程序实现等整个过程。同时,从心理学家所发现的图像深度线索出发,提出了基于视觉心理学的二维图像深度估计方法。

(4) 基于几何光学的单幅二维图像深度估计

图像大小恒常性计算的关键在于正确地估计二维图像的深度,但完全建立在心理学基础上的深度估计算法存在一些问题。故我们从物理几何光学出发,推导出了图像深度计算公式。对实际图像实验表明:这个计算公式是比较有效的。图像地面是人类深度感知的最重要的参考平面,故此深度模型中考虑了实际地面与相机离地面高度这两个重要因素。通过与其它各种深度方法比较,我们提出的方法几乎集中了其它方法的优点,是一种低复杂度、高精确度、假定合理、先验知识需求少、通用的、可计算大景深的单图像深度计算方法。同时,将基于心理学的深度计算方法与基于几何光学的方法进行了比较分析,探讨了视觉心理学结论在计算机视觉中的适用性问题。

(5) 基于几何光学的单幅二维图像三维重建

对单幅二维图像进行三维重建一直是计算机视觉领域的难题之一。因为每一图像点都有无限多个场景点与之对应,故从光学成像的角度分析,单幅二维图像三维重建问题好像不存在较为通用的解决方案。然而人类视觉系统能轻松解决二维图像三维重建问题。人眼与照相机的光学成像机制几乎完全相同,故模拟人类视觉系统,计算机对单幅二维图像进行三维重建又是完全有可能的。三维重建问题的难点在于对单幅二维图像进行深度估计。故在基于几何光学深度模型的基础上,提出了二维图像三维重建的计算模型,并从几何光学出发,推导出了图像点对应场景点的三维坐标的计算公式。对实际图像的实验表明:这个结论是比较有效的。本质上讲,大小恒常性变换过程就是一种单幅二维图像三维重建过程,故也对心理学与物理学在这方面的结论进行了比较,继续探讨心理学结论应用到计算机视觉问题中的一些理论问题。

135

视觉心理学在计算机视觉中的应用研究

(6) 基于视觉心理学的计算机视觉算法评价原则

对计算机视觉算法进行评价是计算机视觉领域不断发展的基础。评价方法主要有理论分析与实验评价两种。通过分析计算机视觉评价的特点与难点,我们认为这两种评价方法都离不开视觉心理学的支持。通过理论分析与小心论证,我们提出了基于视觉心理学的计算机视觉算法定性评价原则及具体的使用步骤。对一些典型计算机视觉算法,与实验评价结果相比较,表明了该原则的可行性与有效性。

另外,在上述理论分析与具体实例研究的基础上,结合他人在这方面的研究工作成果,对视觉心理学在计算机视觉中应用的理论问题进行了初步的探讨。这只是我个人的一些粗浅的看法,不一定都对,真切希望其它学者对我的看法进行批判,并对这些问题作出更好的回答。

8.2.2 进一步的工作

对视觉心理学与计算机视觉交叉融合问题,虽然论文在理论上进行了系统分析,在实践上进行了实验论证,基本上解决了计算机视觉中的一些问题,但还有不少问题没有来得及解决,其中有些是非常基础性的工作。今后,作者准备进行进一步的研究,主要包括如下方面:

(1) 地面与天花板检测

地面与天空是视觉环境中最重要的、最基本的表面,它们是其它表面的参考面。如果看不见脚底的大地,如果看不见头顶的天空,我们根本无法感知天地之间纯粹的空间(Empty space)。对室内图像而言,地面变成了地板,天空变成了天花板。故首先必须从图像中把对应天空与地面的图像区域检测出来。目前,检测图像天空的算法已经比较成熟,但对室内天花板检测的研究却很少,因为室内的天花板比室外的天空更难检测。目前,还没有有效的图像地面检测算法,特别当地面上有很多物体时更是如此。为了使我们的方法更加完善,这项工作是必不可少的。

(2) 脚点计算

空间中刚性物体上任何一点M,沿着某条路径,总可以找到它在地面的垂

136

第八章 论文工作总结与展望

直投影点,称为它的脚点M脚。像点M的空间三维坐标就可由它在图像中的位置与它的脚点M脚在图像中的位置共同决定。如果脚点M脚无法确定,对点M的重建是很难的。但当图像物体没有直接与图像地面接触时,定位图像物体所对应的脚点是很难的。所以进一步研究脚点的计算方法也是非常必要的。

(3) 对图像语义提取的其它步骤的研究

第三章中,图像语义提取算法流程关键步骤有13步。目前,比较成熟的是第2步、第3步与第5步。本文基本解决了第8步(恒常性变换)一部分。还有大量的、困难的工作要做。比较重要,也是最有希望取得成功的是第1步(预定义结构知识)与第8步(拓扑变换)。对于第1步,可以仿照第三章3.6节的方法,进行物体多级编码,以进行领域物体识别与图像语义提取等研究工作。如第三章所述,拓扑变换的心理学理论比较成熟,可用来提取视觉信息中的不变特征。这两项研究工作很重要,也比较容易出成果。

(4) 评价理论的完善

合适的评价标准与评价方法对科学的发展进步起着关键性的作用。为了更加方便本文提出的评价原则的使用,需要进一步扩充人类视觉系统使用的假定集。同时,应用视觉心理学来指导计算机视觉算法的实验评价也具有重要的研究意义。

8.3 展望

视觉心理学与计算机视觉交叉融合研究是一个跨学科的、富有挑战性的研究课题。它是信息技术与认知科学的融合,是“NBIC会聚技术”的具体应用。“NBIC会聚技术”是指当前四个迅速发展的科学技术领域的协同和融合。这四个领域分别是:纳米科技、生物技术(包括生物制药及基因工程)、信息技术(包括先进计算机与通信)、认知科学(包括认知神经科学),其简化英文的联式为(Nano-Bio-Info-Cogni),缩写为NBIC。这四个领域的技术现在都在迅速发展,每一个领域都潜力巨大。而其中任何技术的两两融合、三种会聚或者四者集成,都将产生难以估量的效能。20xx年10月,国家杰出青年科学基金实施10周年学术报告会围绕“NBIC会聚技术”展开。大会邀请了白春礼、刘德培、郭雷、郑南宁和裴钢五位国家杰出青年科学基金获得者作了关于“NBIC交叉科学领域动

137

视觉心理学在计算机视觉中的应用研究

态与展望”的大会报告,同时邀请相关学科的数十位国家杰出青年科学基金获得者作了分会报告,希望引起科学界的重视,切实推动“NBIC会聚技术”在我国的发展。作为科学技术的新兴领域,“NBIC会聚技术”在其发源地美国也刚刚起步。我国完全有机会迎头赶上这一新的发展机遇。所以,本论文及后续的研究工作有着较好的理论前景和很强的应用背景。

138

相关推荐