Comparison on methods of 2D object shape recognition

2016-04-12

二维物体形状识别方法比较

物体的形状识别1是模式识别中一个基本问题，也是一个重要问题，其广泛应用于图像分析、计算机视觉和目标识别等领域。人类可以很容易地识别物体的形状，但是对于计算机来说，自动识别任意物体的形状却相当困难。物体的形状是人的视觉系统分析和识别物体的基础。一般来说，我们对物体的识别更注重于它们的形状，而物体的纹理、颜色次之，因此如何表示形状以及比较形状间的差异在机器视觉的应用和研究领域具有非常重要的意义。物体形状识别一般包括图像中的物体在旋转、缩放、平移、扭曲、遮挡、仿射、射影变换下以及在含噪声图像中通过提取物体的形状识别物体。由于该问题在研究上的复杂性和实现起来的困难性，大多数的研究报道的方法仅针对上述变换的一种或其中几种进行讨论。目前对物体的形状识别的表示和描述国内外已经提出了多种方法。本文以下的部分组织如下：第1节介绍特征提取；第2节介绍分类器设计；第3节给出了仿真实验结果；最后作出总结。

特征提取

在物体识别中，由于图像本身的原始数据量相当大。如果把所有的原始特征都送往分类器，会使得分类器异常复杂同时计算量巨大。因此，需要对物体形状进行分解产生基元并对其符号化，形成特征矢量或符号串、关系图，从而产生代表对象的模式，这个过程被称为特征提取。

简单几何不变性

利用各种几何不变性对物体进行识别也提出了多种方法：利用角点特征[2]，它通常定义为在图像边界上曲率足够高的点。角点特征具有平移、旋转、缩放不变性。它只适用于物体边界角点多且能代表物体形状的特征点的物体。

用等价曲线类[3]来表示形状，这种形状的表示方法具有平移、旋转、缩放不变的特性。它是利用形状边界点的极半径的变化是否一致来判断它们是否属于同一类型。它具有对边界的扰动不敏感，不受形状大小、位置以及方向的影响。它要根据形状的大小以及实际精度的需要来选定合适尺度，过大会使执行过程中引入冗余的计算，减慢执行速度，而太小会使识别精度太粗，从而导致误识，因此选择合适的尺度是此方法的关键。

隐含多项式曲线[4]对物体描述有许多良好的性质，基于高次隐含多项式曲线获得的不变量对物体的识别有较好的鲁棒性，能够克服噪音的影响，并且能识别出部分遮挡的目标物体，但是，隐含多项式曲线不变量的寻找较为困难。另外还有基于曲率函数法[5]，物体的轮廓由它们的曲线函数表示；利用弧长和切线角[6]识别物体等等。利用几何不变性来进行物体识别，对于具有某种特殊特征的物体来说，容易实现，但是对轮廓的描述太抽象，无法实现准确的识别或检索。

高斯描述子

高斯描述子[7]是一种基于边界的形状特征，具有识别或匹配率高，相对于平移、旋转、缩放不变、计算量小、对适度的边缘变动和噪声不敏感以及适用范围广等优点。后来，文献[8]又对高斯描述子进行了推广，提出了局部高斯描述子，将它应用于物体形状识别获得了更高的识别率。但是无论是高斯描述子还是改进了的局部高斯描述子，它们都不具有仿射不变性，有待于进一步的改进。

傅立叶描述子

傅立叶描述子[9]具有简单、高效的特点，已经成为识别物体形状的重要方法之一。它的基本思想是：假定物体的形状是一条封闭的曲线,沿边界曲线上的一个动点p(l)的坐标变化x(l)+jy(l) ( p(l)坐标用复数形式表示) 是一个以形状边界周长为周期的函数。这个周期函数可以展开成傅立叶级数形式表示。傅立叶级数中的一系列系数是直接与边界曲线的形状有关的, 称为傅立叶描述子。当系数项取到足够阶次时，它可以将物体的形状信息完全提取并恢复出来。傅立叶描述子是物体形状边界曲线的傅立叶变换系数，它是物体边界曲线信号的频域分析结果。根据傅立叶变换的性质，傅立叶描述子与形状尺度、方向和起始点有关。因此为了识别具有旋转、平移和尺度不变性的形状，需对傅立叶描述子进行归一化。总之，傅立叶描述子方法是利用图像轮廓进行识别的，只适用于封闭边界，而且不能反映区域内部特征，面对较复杂的图像，图像中有多个目标的或者轮廓不明显的图像，这种方法识别效果不理想。

小波描述子

小波变换[10-11]具有空间-频率局部性、方向性、多分辨率性等优点，在信号处理、图像处理、模式识别等众多领域得到应用。小波变换属于多分辨率变换，它在不同尺度上对图像分解。应用小波进行轮廓表示时，需要选择小波系数的限制级数来描述轮廓，并且要对小波系数进行归一化，从而达到平移、缩放、旋转不变性的要求。称这些小波系数为小波描述子,它弥补了傅立叶变换的一些缺陷。在物体形状识别上，单一的小波变换是基于边界的，计算量大。以上提到的四种方法都是基于边界的。在基于边界的物体形状识别方法中，由于轮廓的检测、表示和后续计算常常不稳定，在应用中一般难以获得理想效果。如何克服现有基于边界的特征表示的困难，并提出稳定可行的新方法，是图像形状表示和识别领域中一个具有挑战性的问题。

骨架化的方法

骨架化方法[12]的核心思想是使用物体的中轴或骨架的拓扑关系来描述其形状。它能够用于识别旋转、平移、缩放的物体，且抗噪。骨架化方法的缺点在于骨架本身并不容易得到，稳定性也不理想，尤其对于形状比较复杂的物体更是如此。

矩不变量

矩不变量是指物体图像经过平移、旋转以及缩放变换仍然不变的矩特征量。利用矩不变量进行物体形状识别是模式识别中的一种重要方法。Hu[13]在1961年首先提出了连续函数矩的定义和关于矩的基本性质，证明了有关矩的平移、旋转以及缩放不变性等性质，具体给出了具有平移、旋转和缩放不变性的七个不变矩的表达式。Hu建立的矩不变式，需要目标区域的所有像素参与计算，尽管有些学者研究了矩的快速算法，但它们还是相当耗时的。Li[14]利用Fourier-Mellin变换的不变性推导出一种构造任意阶矩不变量的方法，并指出Hu’s矩不变量就是它的一个特例。Teague[15]建议利用正交多项式构造正交矩来克服Hu’s矩不变量包含大量冗余信息的缺点。正交矩在信息冗余度、图像表达以及在识别效果方面比其它类型的矩要好。Zernike 矩就是一种正交的不变量，由于它具有正交基，并且容易构造高阶矩，因而被广泛采用。在基于区域的Hu矩不变量的基础上，又对矩进行了推广[16]构造了一些新的矩不变量，如轮廓矩不变量[17]、极半径不变矩[18]、相对边界矩[19]等。以上的矩特征都是在整个图像空间中计算的，得到的是图像的全局特征，容易受到噪声的干扰。而且只适用于具有明显差异的图像，因而提高对相近物体的区分能力成为解决此类问题的关键。以上提到的两种方法都是基于区域的，基于区域的表示法和图像的灰度值密切相关，易于受到非均匀光照等因素的影响，而且由于计算面向整个区域，计算量很大。从另一方面来说，由于它考虑物体的内部结构，比基于边界的方法包含了更多的物体形状的信息，因此它又比较稳定且识别率高。

小波矩

结合矩特征和小波特征而成的小波矩[20-21]既反映了图像的全局信息，又反映了图像的局域性信息。该算法不但解决了图像识别中特征量随图像旋转、平移和缩放而变化的问题,而且提高了对近似物体的识别能力,且具有较强的鲁棒性, 大大地加强了对图像精细程度的分析能力。它具有识别率高，尤其是在相似物体差别小的情况下，抗噪性强等优点，但是它不能识别具有遮挡、扭曲的物体。

独立分量分析（ICA）[22]

设有n类待识别物体，经ICA预处理的同类物体图像像素排成n维行向量，对于k个同类训练样本，组成[k,n]矩阵。设这组观测信号是由d个独立分量线性混合而成。对此矩阵进行独立分量分析，分离出d独立分量，由这些独立分量构成特征空间的一组基，这d个基向量张成的子空间就形成了描述第i类物体的特征空间。由于共有n类物体，可以得到n组独立分量构成的特征空间，并且每组基描述了相应物体类的特征。 ICA在小样本训练的情况下，具有快速提取样本特征的能力，能够识别具有缺失和变形的物体图像，并且对噪声干扰不敏感，这在目标识别的实际应用中是很重要的。

主分量分析（PCA）[23]

在图像识别领域中，设输入的原始数据x的维数是N，希望通过预处理得到M（<N）维数据y，如果不加任何限制条件，仅对x进行简单的截断，那么所引起的均方误差将等于舍弃的各分量方差之和。为此，希望得到一个线性变换W，使得对Wx的截断在最小均方误差下为最优，这就要求被舍弃的分量具有较低的方差，而保留的分量具有较高的方差，PCA正是寻找这个线性变换的方法。它是基于K-L分解，其目的是在数据空间中找一组向量以尽可能地解释数据的方差，通过一个特殊的向量矩阵，将数据从原来的高维空间投影到一个低维的向量空间中，降维后保存了数据的主要信息，从而使数据更易于处理。 PCA在最小均方误差的意义下是最优变换，它在消除模式特征之间的相关性，突出其差异性方面可达到最优效果。但PCA法提取的图像特征不具备位移、尺度及旋转等的不变性。PCA识别过程中整幅图像所有象素都参与了运算，比较适合进行较复杂的图像识别，但要求图像大小一致。

圆周分解的方法

圆周分解法[24]可视为对传统基于边界方法的扩展，既保留了这类方法在细节描述方面的优势，又将它们的描述范围从边界扩展到整个形状区域，因而可以视为基于边界和基于区域的方法的结合。圆周分解法对全局和局部的信息都有很强的描述能力，该方法具有平移、旋转、缩放不变性，并对形变、遮挡以及随机噪声有良好的抵抗能力，但不适用于扭曲物体形状的识别且识别率并不是很好。

Radon变换

Radon变换[25-26]是计算图像f(x,y)沿着一个指定角度方向投影的变换方法。在指定的方向上投影，就是二维函数在该方向上的线积分，也可理解为图像顺时针旋转角度后在水平轴上的投影。它由于其固有的抗噪性能好的优点，在带有噪声源的环境中应用它作为图像分析的一种有效方法是十分有利的。图像经Radon变换后，主要优点是可以把识别问题从二维降到一维，这样便可当作一维信号来处理，大大提高了处理速度，并且提取的图像特征具有旋转、平移和缩放不变性，但是在经处理后一般需要与小波、矩等技术结合实用才会更有效。

分类器设计

在d 维特征空间已经确定的前提下，分类器设计问题是一个选择什么准则，使用什么方法，将已确定的d维特征空间划分成决策域的问题。设计分类精度高、误识率低、可靠性好的分类器是识别的最终目的。

BP神经网络

BP神经网络[27]是模式识别分类中使用最广的神经网络模型，有隐含层的网络可完成多维空间的任意分割。BP网络采取误差反向传播学习算法，广泛应用于函数逼近、模式识别、分类、数据压缩等方面。它是一种具有三层或三层以上的多层神经网络，每一层都由若干个神经元组成。它按有教师学习方式进行训练，当一对学习模式提供给网络后，其神经元的激活值将从输入层经各中间层向输出层传播，在输出层的各神经元输出对应于输入模式的网络响应。然后，按减少希望输出与实际输出误差的原则，从输出层经各中间层、最后回到输入层修正各连接权。 BP算法本质上是一种局部寻优的方法，其收敛过程存在着两个很大的缺陷：一是收敛速度慢，二是存在“局部极小点”问题。在学习过程中，有时会出现当学习反复进行到一定次数后，虽然网络的实际输出与希望输出还存在很大的差距，但无论在如何学习下去，网络全局误差的减少速度都变得很缓慢，或者根本不再变化，这种现象是因网络收敛于局部极小点所致。如果适当改进BP网络中间层的单元个数，或者给每个连接权加上一个很小的随机数，都有可能使收敛过程避开局部极小点。

遗传BP神经网络[28-29]

由于BP神经网络算法采用的是梯度下将法，因而易陷入局部极小并且训练时间较长。遗传算法（GA）采用启发式搜索技术寻找最优解，具有鲁棒性好、搜索效率高、对目标函数限制少、易于采用并行机并行高速运算等优点。遗传BP网络算法综合了遗传算法的全局优化和神经网络的并行计算等特点，可克服遗传算法最终进化至最优解较慢和神经网络易陷入局部解的缺陷，具有较好的全局性和收敛速度。此算法的基本思想是：首先由GA求解优化问题，由于GA是同时搜索解空间的一群点，并构成不断进化的群体序列，因而在进化一定的代数后，可以同时得到一些具有全局性的好点，从这些好点出发，再分别用神经网络求解，进而得到全局优化解。

小波神经网络

小波神经网络[30-31]是一种以小波基函数为神经元激励函数的前馈网络，它既可看作是一种以小波函数为基底的函数连接型网络，也可认为是径向基函数网络的推广。小波神经网络模型包括输入层、输出层和隐层。隐层包含两种节点：小波基节点和尺度函数节点。小波神经网络是基于小波分析而构成的神经网络，它充分利用小波变换的良好的局部化性质并结合神经网络的自学习功能，因而具有较强的逼近、容错能力，它避免了BP神经网络结构设计的盲目性和局部最优等非线性优化问题，大大简化了训练，具有较强的函数学习能力。它具有良好的时频定位特性，将其应用于物体形状识别比传统的神经网络有更好的识别效果，但其受噪声影响。

自组织竞争人工神经网络（SCNN

SCNN[32]基于生物神经细胞的“侧抑制”结构，由单层神经网络组成，其输入节点与输出节点之间为全连接。因为网络在学习过程中的竞争特性表现在输出层上，所以，其输出层也称为竞争层，竞争网络的激活函数为二值型函数。SCNN采用科荷伦学习规则进行训练，它能够对输入模式进行自组织训练和判断，并最终将各类目标进行识别和分类。它可以克服BP网络不易收敛、学习时间长等缺点，进行识别时训练和识别是同时完成的，具有实时性，有很高的效率。

卷积神经网络（CNNS）

CNNS[33]是近年来一种专门应用在二维图像处理、模式识别和机器视觉领域中的方法。大多数分类方式都是基于特征的，这就意味着在进行分辨前必须提取某些特征。然而，显示的特征提取并不容易，在一些应用问题中也并非总是可靠的。CNNS分类器可避免显示特征提取，可隐式地从训练数据中进行学习。它通过结构重组和减少权值将特征提取功能融合进多层感知机。某一层的输出，即特征图，构成下一层的输入，与同一特征图关联的神经元分享共同的一组权值（也即卷积核函）。在最后一层，特征图被一通常是全连通的单层感知机分类。这使得它有别于其它基于神经网络的分类器，而且它可以直接运作于灰度图像，使其能够直接用于处理物体图像的分类。

支持向量机（SVM）

SVM[34-35]是一种基于结构风险最小化原理的机器学习方法，它利用核函数将输入向量映射到一个高维特征空间，然后在该空间中构造一个最优超平面来逼近分类函数。它的基本思想可以概括为：首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，这种非线性变换是通过定义适当的内积函数实现的。 SVM克服了神经网络许多固有的缺陷，如容易出现过学习或陷入局部极小等，对小样本数据的数据分析具有出色的学习能力和推广能力。它对于物体的平移和旋转有很好的识别率，并且具有较强的鲁棒性，但对于缩放物体的识别率有所下将。对于大数据的物体识别分类问题，如何提高它的数据处理的实时性、缩短训练样本的时间，仍是它亟待解决的问题。

Blog

Opinion

胡言乱语说简单