清华大学 机械工程系, 先进成形制造教育部重点实验室, 北京 100084
收稿日期: 2016-03-24
基金项目: 国家科技重大专项(2015ZX04005006)
作者简介: 郑军(1971-), 男, 副研究员。E-mail:zhengj@mail.tsinghua.edu.cn
摘要:为解决3维物体识别及姿态计算问题,提出了一种基于白化变换和改进U弦长曲率特征的图像识别及姿态计算方法。该方法首先提取物体的2维形状特征,然后使用白化变换对模板物体图像轮廓和目标物体图像轮廓进行处理,使处理后的轮廓点集仅存在旋转关系;根据改进后的U弦长曲率方法,求取两轮廓的曲率,并进行匹配。实验结果表明:该方法具备较好的仿射不变性,其识别速度达到58 ms/帧(CPU:2.3 GHz;内存:4 GB),识别率在无遮挡情况下达到了100%,姿态检测精度达到了1.5°。
关键词: 物体识别 仿射不变 白化变换 曲率 姿态计算
Three-dimensional object recognition and posture calculations based on the whitening transformation and curvature characteristics
ZHENG Jun, WEI Haiyong
Key Laboratory for Advanced Materials Processing Technology of Ministry of Education, Department of Mechanical Engineering, Tsinghua University, Beijing 100084, China
Abstract:The whitening transformation and a U chord curvature are used to improve three-dimensional object recognition and posture calculation. The algorithm first extracts the shape characteristics of the object and then matches the contours of the target image with templates using the whitening transformation so that there is only a rotational relationship between the contour point sets. Then, the U chord curvature is improved to match the contours. Tests show that this method is affine invariant with a fast recognition speed which can reach 58 ms/frame (CPU: 2.3 GHz, RAM: 4 GB), a high recognition rate of 100% without shelter and a high detection accuracy of the posture calculation of 1.5°.
Key words: object recognitionaffine invariantwhitening transformationcurvatureposture calculation
在工业自动化中,工件的在线识别及抓取对减少人工成本、提高生产效率有重要意义[1]。对于简单的3维物体,其形状特征可以代表其整体特征,且易提取、计算简单,因此可以提取物体的2维形状特征作为识别特征并以此计算物体姿态。
在实际应用中,由于视角和观察距离的变化,物体的形状会发生平移、旋转、缩放以及剪切变换等仿射变换。这给形状匹配带来了极大的困难。为了解决这个问题,Zhang等利用广义Fourier描述子(generalized Fourier descriptor,GFD)对图像进行识别匹配,但该方法只对图像的平移、缩放、旋转具有不变性[2]。管云峰等提出了Fourier-Mellin变换(FMT)方法,利用Fourier-Mellin变换进行匹配,且对平移、缩放、旋转具有不变性[3]。Tabbone等引入了Radon变换(R-transform)进行形状匹配,对平移、缩放、旋转具有不变性[4]。刘云鹏等引入了Grassmann流形对图像进行形状匹配,取得了较好的效果,但是需要对同类图像进行训练[5-6]。毛建旭等提出来基于独立主成分析(independent components analysis,ICA)和Zernike矩的仿射不变识别方法,首先使用ICA对仿射变换图像进行处理,再计算Zernike矩进行匹配,虽然该方法取得了不错的效果,但耗时较长,难以应用[7]。Arjun等利用形状归一化方法对形状进行匹配,提出了区域归一化(object area normalization,OAN)方法,对仿射变换具有一定的不变性[8-9]。史思琦等对小波变换进行改进,采用级联仿射不变函数进行快速平面形状识别,取得了一定的效果,但需预先对轮廓起始点进行有效配准,实施起来较为麻烦[10]。
本文提出了一种快速3维物体识别及姿态计算方法。该方法首先使用白化变换对模板图像轮廓和目标图像轮廓进行处理, 使处理后的轮廓点集仅存在旋转关系;然后根据改进后的U弦长曲率方法,求取两轮廓的曲率,并进行匹配。与已有算法相比,本文所提算法识别率更高,速度更快,且可以计算目标物体的空间位姿。
1 基于白化变换及曲率的图像识别1.1 白化变换白化变换可使两个具有仿射变换关系的形状点集变换为两个规范形式的形状点集,且两个规范形式的点集间仅存在旋转关系[11]。将白化变换应用到形状轮廓点集, 则可使其具备仿射不变性。设形状轮廓点集为P=(p1, p2, …, pn), pi∈R2, 其规范形式点集为
1.2 改进U弦长曲率计算现有的曲率计算方法主要有k余弦曲率计算方法、带曲线平滑的差分方法、切线法、L曲率及U弦长曲率[13]等。相对于其他算法,U弦长曲率对平移和旋转具有不变性,但在参数U固定时,其不具备伸缩不变性。为了使U弦长曲率计算更加稳定且具备伸缩不变性,对U弦长曲率进行改进,使参数U随着曲线总长度的变化而变化,并对弧长进行归一化,使得不同曲线的曲率可以进行对比。
1.2.1 计算弧长如图 1所示,由于U弦长曲率横坐标为弧长,需要计算每个点到起始点的弧长。设Bi(xib, yib), i=1, 2, …, N,为白化变换后的轮廓点。设Li, i=1, 2, …, N,为各点到起始点的长度, L1=0。根据式(1),从2到N循环计算各点弧长。
图 1 U弦长曲率 |
图选项 |
${L_i}={L_{i - 1}}+\sqrt {{{\left({x_i^b - x_{i - 1}^b} \right)}^2}+{{\left({y_i^b - y_{i - 1}^b} \right)}^2}}.$ | (1) |
1.2.2 计算U弦长曲率U弦长曲率主要原理是找到和当前点距离为U的两点,根据3点的相对位置计算当前点的U弦长曲率,其中参数U的计算公式为
$U=\frac{{{L_N}}}{a}.$ | (2) |
1.2.3 曲率归一化U弦长曲率是随着弧长的变化而变化的, 为了比较不同长度的轮廓曲率, 需对弧长进行归一化。为了计算方便, 将弧长归一化到1~100。设轮廓的U弦长曲率为,ci, i=1, 2, …, N;设归一化后的U弦长曲率为, Ci, i=1, 2, …, 100。
1.3 轮廓曲率匹配在计算出归一化的U弦长曲率之后, 需对两轮廓的曲率曲线进行比较,但由于图像轮廓间存在旋转关系, 无法直接对比曲线, 因此需要对两曲线进行互相关操作, 并根据最大互相关系数平移曲线。设Ci1, Ci2, i=1, 2, …, 100,分别为两轮廓的U弦长曲率, 令ri, i=1, 2, …, 100,为Ci1, Ci2的互相关系数, 则
${r_i}=\sum\limits_{j=1}^{100} {C_j^1C_k^2}.$ | (3) |
设rmax为最大互相关系数,max为其对应的平移量,max∈1, 100。将Ci2, i=1, 2, …, 100,向右平移max计算出不相似度err,
$err=\frac{{\sum\limits_{j=1}^{100} {\left| {C_i^2 - C_i^1} \right|} }}{{\sum\limits_{j=1}^{100} {\left| {C_i^1} \right|} }}.$ | (4) |
$\boldsymbol{R} \boldsymbol{=} \boldsymbol{F}_1^{ - 1}{\boldsymbol{A}^{ - 1}}{\boldsymbol{F}_2}.$ | (5) |
$\boldsymbol{A} \boldsymbol{=} {\boldsymbol{F}_2}{\boldsymbol{R}^{ - 1}}\boldsymbol{F}_1^{ - 1}.$ | (6) |
1)设θ1为模板轮廓初始点和中心点连线与x轴正方向的夹角, 则
${\theta _1}=\arctan \left({\frac{{y_1^1}}{{x_1^1}}} \right).$ | (7) |
$num={N_2}\frac{{\max }}{{100}}.$ | (8) |
${\theta _2}=\arctan \left({\frac{{y_{{\rm{num}}}^2}}{{x_{{\rm{num}}}^2}}} \right).$ | (9) |
$\boldsymbol{R}=\left[{\begin{array}{*{20}{c}}{\cos \left({{\theta _2}-{\theta _1}} \right)}&{-\sin \left({{\theta _2}-{\theta _1}} \right)}\\{ - \sin \left({{\theta _2} - {\theta _1}} \right)}&{\cos \left({{\theta _2} - {\theta _1}} \right)}\end{array}} \right].$ | (10) |
2.2 由仿射矩阵求解空间变换参数当物体到相机的距离远大于其尺寸或其绕x及y轴的旋转角度较小时, 可以将透视投影近似为弱透视投影, 则其图像间的变换关系可近似为仿射变换。通过白化变换和曲率匹配等步骤可以求出图像间的仿射变换矩阵。求出仿射变换矩阵后, 需要根据此仿射矩阵求解出其空间变换参数, 主要是绕x, y, z 3轴旋转角α, β, γ及缩放系数s。
在原始图像上取两点P1(0, 1)和P2(1,0), 设其空间变换后投影到像平面的坐标为P1′(x1, y1)和P2′(x2, y2), 设空间变换矩阵为
$ \left\{ \begin{array}{l}{x_1}=s{r_{12}}, \\{x_2}=s{r_{11}}, \\{y_1}=s{r_{22}}, \\{y_2}=s{r_{21}}, \end{array} \right. $ | (11) |
$\left\{ \begin{array}{l}{\boldsymbol{P}_1}' = \boldsymbol{AP}_{\rm{1}}^{\rm{T}},\\{\boldsymbol{P}_2}' = \boldsymbol{AP}_2^{\rm{T}}.\end{array} \right.$ | (12) |
$\left\{ \begin{array}{l}{r_{11}}=\cos \beta cos\gamma - sim\beta sin\alpha sin\gamma, \\{r_{12}}=\cos \beta \sin \gamma+sim\beta sin\alpha \cos \gamma, \\{r_{21}}=- \cos \alpha \sin \gamma, \\{r_{22}}=\cos \alpha \cos \gamma.\end{array} \right.$ | (13) |
$\left\{ \begin{array}{l}\frac{{{r_{21}}}}{{{r_{22}}}}=\frac{{ - s\cos \alpha \sin \gamma }}{{s\cos \alpha \cos \gamma }}=- \tan \gamma=\frac{{{y_2}}}{{{y_1}}}, \\\frac{{{r_{11}}}}{{{r_{21}}}}=\sin \beta \tan \alpha - \frac{{\cos \beta }}{{\cos \alpha \tan \gamma }}=\frac{{{x_2}}}{{{y_2}}}, \\\frac{{{r_{12}}}}{{{r_{22}}}}=\sin \beta \tan \alpha+\frac{{\cos \beta \tan \gamma }}{{\cos \alpha }}=\frac{{{x_1}}}{{{y_1}}}.\end{array} \right.$ | (14) |
$\gamma=- \arctan \left({\frac{{{y_2}}}{{{y_1}}}} \right).$ | (15) |
$b=\left({\frac{{{x_1}}}{{{y_1}}} - \frac{{{x_2}}}{{{y_2}}}} \right)\left({\frac{{\tan \gamma }}{{\tan {\gamma ^2}+1}}} \right).$ | (16) |
$\cos \beta=b\cos \alpha.$ | (17) |
$cos\beta=\frac{{{a_2}\cos \gamma }}{{{a_1}{y_1}}}.$ | (18) |
2.3 位置参数计算由于仿射变换不改变形状中心的相对位置,即仿射变换前后的轮廓中心为同一位置,因此可以通过计算变换前后中心的偏移量计算x,y轴的位置参数。高度数据则可根据缩放系数计算。
3 实验3.1 匹配实验为了验证算法的有效性,从包含20类、1 400张图片的MPEG-7 CE Shape-1 Part-B数据库中选取10张图片,如图 2所示。分别对它们进行缩放、旋转和剪切变换。其中缩放系数变换从1~4,间隔0.5,如图 3所示;旋转角度变换从0°~150°,间隔30°,如图 4所示;剪切系数变换从0~0.7,间隔0.1,如图 5所示。
图 2 10幅模板图像 |
图选项 |
图 3 缩放变换图像样例 |
图选项 |
图 4 旋转变换图像样例 |
图选项 |
图 5 剪切变换图像样例 |
图选项 |
以10幅图像为模板,使用本文所提白化变换和U弦长曲率(white transform and U chord curvature, WT-UCC)方法、R-transform、FMT[15]、OAN、ICA-Zernike方法对生成的包含190幅图像的数据库进行匹配实验。所得结果如表 1所示。
表 1 各方法的匹配实验结果
方法 | 变换 | 匹配率/% | t/s | ||
缩放 | 旋转 | 剪切 | |||
WT-UCC | 70 | 50 | 70 | 100.00 | 0.147 6 |
R-transform | 70 | 22 | 19 | 53.16 | 0.505 7 |
FMT | 70 | 50 | 25 | 74.74 | 0.824 3 |
OAN | 70 | 44 | 34 | 75.26 | 0.080 1 |
ICA-Zernike | 70 | 49 | 66 | 97.37 | 1.965 4 |
表选项
根据所得数据分别绘制缩放、旋转、剪切及汇总数据的精度-召回率曲线,如图 6-9所示。
图 6 各方法的缩放变换精度-召回率曲线 |
图选项 |
图 7 各方法的旋转变换精度-召回率曲线 |
图选项 |
图 8 各方法的剪切变换精度-召回率曲线 |
图选项 |
图 9 各方法汇总数据的精度-召回率曲线 |
图选项 |
从实验结果可以看出,R-transform仅对缩放有较好的效果,对旋转和剪切变换效果较差;OAN、FMT对缩放和旋转变换效果较好,对剪切变换效果较差;WT-UCC、ICA-Zernike对缩放、旋转及剪切变换都有较好的识别效果,其中WT-UCC匹配效果更佳。同时,对比这5种算法的耗时,OAN匹配速度更快,WT-UCC次之,其他算法则耗时较多,其中ICA-Zernike最为耗时。综合来看,本文算法对仿射变换图像具有很高的识别率,同时具有较快的速度,可以满足实际应用要求。
3.2 位姿精度实验图 10所示为实验所使用的模板图像,对其进行仿射变换来近似空间变换。其中:绕x轴旋转角取值为0°~60°,取值间隔为20°;绕y轴旋转角取值为0°~60°,取值间隔为20°;绕z轴旋转角取值为0°~150°,取值间隔为30°;缩放系数s取值为0.2~5.2,取值间隔为0.5。
图 10 模板图像 |
图选项 |
对共计1 056幅图像进行匹配实验,其位姿检测结果如表 2所示。表 2中:dx,dy分别为x, y方向的位置误差;X, Y为视野范围x, y方向长度。从表 2中可以看出,位姿检测可以达到较高的精度。
表 2 位姿检测精度
检测项 | 平均误差 | 最大误差 |
α/(°) | 1.417 4 | 11.374 0 |
β/(°) | 1.521 9 | 12.473 9 |
γ/(°) | 1.515 2 | 8.923 7 |
s/% | 1.610 2 | 7.719 7 |
dx/X | 7.225 4×10-4 | 0.006 3 |
dy/Y | 6.496 2×10-4 | 0.004 3 |
表选项
3.3 识别速度图 11为识别速度验证实验所使用的待识别图像。对左上角的模板形状进行了缩放、旋转和扭曲,对右下角的形状图像进行了缩放和旋转。将其打印在纸上,拍摄视频进行识别检测。计算机配置为:CPU i5-2410M(2.3 GHz),内存4 GB。视频格式为480P。识别速度为58 ms/帧。图 12为识别视频截图。
图 11 待识别图像 |
图选项 |
图 12 识别视频截图 |
图选项 |
4 结论本文提出了一种基于白化变换和U弦长曲率的快速3维物体识别及姿态计算算法。该方法使用白化变换对轮廓形状进行归一化操作,消除了仿射变换对形状的影响,同时使用了轮廓的U弦长曲率特征进行识别匹配,使识别过程具有较快的速度。此外,该方法利用仿射变换矩阵和旋转矩阵之间的关系计算得出了物体的3维姿态。经实验验证,该算法具备以下特点:
1) 具有一定的仿射不变性,在视角变化较大的情况下仍能有较好的识别率和识别精度。
2) 使用了曲率特征,抗干扰性强,识别率高。
3) 位置及姿态参数计算精度高,可以满足实际生产需求。
4) 识别及计算速度快,可以实现实时检测和计算。
参考文献
[1] | Journal of Central South University(Science and Technology), 41(2):649-654.-->丁险峰, 吴洪, 张宏江, 等. 形状匹配综述[J]. 自动化学报, 2001(5) : 678–694.DING Xianfeng, WU Hong, ZHANG Hongjiang, et al. Review on shape matching[J]. Acta Automatica Sinica, 2001(5) : 678–694.(in Chinese) |
[2] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Zhang D, Lu G. Shape-based image retrieval using generic Fourier descriptor[J]. Signal Processing: Image Communication, 2002, 17(10) : 825–848.DOI:10.1016/S0923-5965(02)00084-X |
[3] | Journal of Central South University(Science and Technology), 41(2):649-654.-->管云峰, 胡勇, 李介谷. 基于Fourier-Mellin变换的对称相匹配滤波算法[J]. 红外与毫米波学报, 1999, 18(6) : 465–471.GUAN Yunfeng, HU Yong, LI Jiegu. Symmetric phase-matched filting algorithms based on Fourier-Mellin transform[J]. Journal of Infrared & Millimeter Waves, 1999, 18(6) : 465–471.(in Chinese) |
[4] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Tabbone S, Terrades O R, Barrat S. Histogram of Radon transform: A useful descriptor for shape retrieval [C]//19th International Conference on Pattern Recognition, 2008. Tampa, FL, USA: IEEE, 2008: 1-4. |
[5] | Journal of Central South University(Science and Technology), 41(2):649-654.-->刘云鹏, 李广伟, 史泽林. 基于Grassmann流形的仿射不变形状识别[J]. 自动化学报, 2012, 38(2) : 248–258.LIU Yunpeng, LI Guangwei, SHI Zelin. Affine-invariant shape recognition using Grassmann manifold[J]. Acta Automatica Sinica, 2012, 38(2) : 248–258.DOI:10.3724/SP.J.1004.2012.00248(in Chinese) |
[6] | Journal of Central South University(Science and Technology), 41(2):649-654.-->杜海静, 肖阳辉, 朱丹, 等. 基于改进多尺度乘积LoG算子的仿射不变形状匹配算法[J]. 计算机应用, 2014(3) : 841–845.DU Haijing, XIAO Yanghui, ZHU Dan, et al. Affine-invariant shape matching algorithm based on modified multi-scale productLaplacian of Gaussian operator[J]. Journal of Computer Applications, 2014(3) : 841–845.(in Chinese) |
[7] | Journal of Central South University(Science and Technology), 41(2):649-654.-->毛建旭, 刘敏. 基于ICA的仿射不变Zernike矩的交通标志识别[J]. 电子测量与仪器学报, 2013(7) : 617–623.MAO Jianxu, LIU Min. Traffic sign recognition using ICA-based affine invariant Zernike moment[J]. Journal of Electronic Measurement and Instrument, 2013(7) : 617–623.(in Chinese) |
[8] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Arjun P, Mirnalinee T T, Sindhuja S, et al. Affine invariant shape descriptor using object area normalization [M]//Power Electronics and Renewable Energy Systems. Kolkata, India: Springer, 2015. |
[9] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Arjun P, Mirnalinee T T, Tamilarasan M. Compact centroid distance shape descriptor based on object area normalization [C]//International Conference on Advanced Communication Control and Computing Technologies. Ramanathapuram, India: IEEE, 2014: 1650-1655. |
[10] | Journal of Central South University(Science and Technology), 41(2):649-654.-->SHI Siqi, SHI Guangming, CHEN Xuyang, et al. Fast planar shape recognition using cascaded affine invariant function[J]. Infrared and Laser Engineering, 2012, 41(9) : 2534–2542. |
[11] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Sprinzak J, Werman M. Affine point matching[J]. Pattern Recognition Letters, 1994, 15(4) : 337–339.DOI:10.1016/0167-8655(94)90081-7 |
[12] | Journal of Central South University(Science and Technology), 41(2):649-654.-->吕玉增.形状仿射不变特征提取与识别研究[D].北京:国防科学技术大学, 2008. Lü Yuzeng. Affine Invariant Feature Extraction and Recognition of Shapes [D]. Beijing: National University of Defense Technology, 2008. (in Chinese) http://cdmd.cnki.com.cn/Article/CDMD-90002-1015959142.htm |
[13] | Journal of Central South University(Science and Technology), 41(2):649-654.-->郭娟娟, 钟宝江. U弦长曲率:一种离散曲率计算方法[J]. 模式识别与人工智能, 2014, 8(8) : 683–691.GUO Juanjuan, ZHONG Baojiang. U-chord curvature: A computational method of discrete curvature[J]. Pattem Recognition and Aitificial Intelligence, 2014, 8(8) : 683–691.(in Chinese) |
[14] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Heikkil? J. Pattern matching with affine moment descriptors[J]. Pattern Recognition, 2004, 37(9) : 1825–1834.DOI:10.1016/j.patcog.2004.03.005 |
[15] | Journal of Central South University(Science and Technology), 41(2):649-654.-->马金福, 薛弘晔. 基于Fourier-Mellin变换的图像配准算法及性能研究[J]. 计算机与数字工程, 2008(11) : 134–136.MA Jinfu, XUE Hongye. Image registration algorithm and efficiency research based on Fourier-Mellin[J]. Computer and Digital Engineering, 2008(11) : 134–136.(in Chinese) |