计算机视觉是一门研究如何对数字图像或视频进行高层理解的交叉学科。从人工智能的视角来看,计算机视觉要赋予机器“看”的智能,与语音识别赋予机器“听”的智能类似,都属于感知智能范畴。从工程视角来看,所谓理解图像或视频,就是用机器自动实现人类视觉系统的功能,包括图像或视频的获取、处理、分析和理解等诸多任务。类比人的视觉系统,摄像机等成像设备是机器的眼睛,而计算机视觉就是要实现人的大脑(主要是视觉皮层区)的视觉能力。计算机视觉(Computer Vision)是人工智能的一个重要学科分支,它是用人工智能的方法模拟人类视觉的能力。我们将分三部分介绍计算机视觉的相关内涵、图像分析与理解及其典型应用领域。
计算机视觉概述
在人工智能中,语音识别模拟了人类“听”的能力,自然语言处理模拟了人类“说”的能力,而计算机视觉则是模拟了人类“看”的能力。据统计,人类获取外界信息有80%以上是通过“看”所获得的,由此可见计算机视觉的重要性。
计算机视觉模拟了人类“看”的能力,这种能力包括了对外界图像、视频的获取、处理、分析理解和应用等一系列能力的综合。计算机视觉模拟包含多种学科技术,如脑视觉结构理论、图像处理技术、人工智能技术以及与领域相结合的多种应用学科技术。其中,如图像、视频的获取、处理属于图像处理技术;图像、视频的分析、理解属于人工智能技术;而图像、视频的应用则属于与领域相结合的多种应用学科技术等。这些技术都是以人工智能技术为核心与其他一些学科有机组合而成的。
除此之外,计算机视觉还包括基于脑科学、认知科学以及心理学等基础性的支撑学科。这些学科一方面极大受益于数字图像处理、计算摄影学、计算机视觉等学科带来的图像处理和分析工具,另一方面它们所揭示的视觉认知规律、视皮层神经机制等对于计算机视觉领域的发展也起到了积极的推动作用。例如,多层神经网络即深度学习就是受到认知神经科学的启发而发展起来的,2012年以来为计算机视觉中的众多任务带来了跨越式的发展。与脑科学进行交叉学科研究,是非常有前途的研究方向。
在计算机视觉的整个模拟过程中,一般可分为下面几个层次,它们组成了一个视觉处理的整体。
1. 数字化图像的获取
在外部世界中存在动态、静态等多种景物,它们可以通过摄像设备为代表的图像传感器转化成计算机内的数字化图像,这是一个 点阵结构,可用矩阵 表示。点阵中的每个点称像素,可用数字表示,它反映图像的灰度。这种图像是一种最基本的2D黑白图像。如果点阵中的每个点用矢量表示,矢量中的分量分别可表示颜色,颜色是由三个分量表示,分别反映红、黄、蓝三色,其分量的值则反映了对应颜色的浓度。这就组成了3D彩色的4D点阵图像。
外界景物的数字化就是将外界景物转化成计算机内的用数字表示的图像,可称为数字化图像,它是由摄像设备为代表的图像传感器所完成的,这种设备可以获取外界图像(而视频则是一组有序的图像序列,它的基础是图像,因此仅介绍图像),它一般可以起到人类“眼睛”的作用。
除了摄像设备外,目前还有很多相应的图像传感器以实现外界景物的数字化,如热成像相机,高光谱成像仪雷达设备、激光设备、X射线仪、红外线仪器、磁共振仪器、超声仪器等多种接口设备与仪器,它们不仅具有人类“眼睛”的功能,还具有很多“眼睛”所无法观察到的能力。从这个观点看,计算机视觉的能力可以部分超过人类视觉的能力。
2. 数字化图像的处理
数字化后的图像可在计算机内用数字计算完成图像处理。常用的图像处理有:
(1)图像增强和复原
图像增强和复原可改善图像的视觉效果和提高图像的质量。
(2)图像数据的变换和压缩
为了便于图像的存储和传输,可对图像数据作变换和编码压缩。由于图像阵列很大,图像处理时的计算量会很大。因此,往往通过各种图像变换的方法,将空间域的处理转换为变换域处理,如傅里叶变换、沃尔什变换、离散余弦变换、小波变换等,以减少计算量,或者获得在空间域中很难甚至是无法获取的特性。图像编码压缩技术可减少图像数据量,节省图像传输、处理时间,减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许失真的条件下进行。
(3)图像分割
图像分割是根据几何特性或图像灰度选定的特征,将图像中有意义的特征部分提取出来,包括图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。
(4)图像分解与拼接
图像分解指的是将图像中的一个部分从整体中抽取出来。图像拼接指的是将若干幅图像组合成一幅图像。
(5)图像重建
通过物体外部测量的数据,主要是摄像设备与物体间的距离,经数字处理将2D平面物体转换成3D立体物体的技术称为图像重建。
(6)图像管理
图像管理也属于图像处理,它包括图像的有组织的存储,称为图像库,同时也包括对图像库的操作管理,如图像的调用、图像的增、删、改操作以及图像库的安全性保护和故障恢复等功能。
3. 图像的分析和理解
图像的分析和理解是从现实世界中的景物提取高维数据以便产生数字或符号信息,并可以转换为与其他思维过程交互且可引出适当行动的描述。图像的分析和理解包括图像描述、目标检测、特征提取、目标跟踪、物体识别与分类等,此外还包括高层次的信息分析,如动作分析、行为分析、场景语义分析等。
图像处理是通过计算机对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。图像的分析和理解是由图像到模型、数据或抽象符号表示的语义信息,是人类大脑视觉的一种模拟。它一般需人工智能参与操作,因此又称智能图像处理,它也是计算机视觉的关键技术。图像处理可以分成图像分析与图像理解两个部分。其中,涉及图像分析的有:
(1)图像特征提取
图像特征提取指的是提取图像中包含的某些特征或特殊信息,为分析图像提供便利。图像提取的特征包括很多方面,如频域特征、灰度或颜色特征、边界特征、区域特征、纹理特征、形状特征、拓扑特征和关系结构等。
(2)图像描述
图像描述是图像分析和理解的必要前提。最简单的图像描述可采用几何特性描述物体,描述的方法采用二维形态描述,它可分为边界描述和区域描述等两类。图像描述主要是针对图像中感兴趣的目标进行检测和测量以获得它们的客观信息,为图像分析提供基础。
(3)图像分类、识别
图像分类、识别属于机器学习的范畴,主要内容是对图像作判别分类以识别图像。图像分类常采用浅层机器学习分类和深层机器学习分类等方法。
图像分析是一个从图像到数据的过程,这里数据可以是对目标特征测量的结果,或是基于测量的符号表示。图像分析涉及图像表达、特征提取、目标检测、目标跟踪和目标识别等多项技术内容。其过程是将原来以像素描述的数字化图像通过多个步骤最终转换成简单的非图像的符号描述,如得到图像中目标的类型。然而,图像处理中更高级的图像分析是图像理解,包括:图像目标动作分析、图像目标行为分析和图像场景语义分析。图像理解阶段的目标是使计算机具有通过二维图像认知三维环境信息的能力,这种能力将不仅使计算机感知三维环境中物体的几何信息,包括它们的形状、位置、姿态、运动等。图像理解也是属人工智能范畴,并大量使用机器学习方法。
4. 计算机视觉应用
经过上面三个步骤后,外界景物即可用计算机视觉模拟人类视觉能力,并实现其应用能力。目前主要应用领域范围包括模式识别、机器视觉以及动态行为分析等。目前介绍了计算机视觉的四个层次,如图8-1所示是计算机视觉流程的全示意图。