0 引言
【研究意义】农业害虫综合防治的首要前提是对田间害虫进行及时准确地识别与诊断。目前,我国农业害虫识别与诊断工作主要依靠基层测报人员的人工识别,费时费力,实时性差,无法满足现代农业发展的需求。随着图像处理和模式识别技术的发展与应用,基于图像的农业害虫自动识别技术已成为农业害虫智能监测研究中的一个热点。目前,基于图像的农业害虫识别方面的研究,大部分是在有限种类有限样本量基础上进行的[1,2,3,4,5,6]。而实际应用中,需要从大量的农业昆虫中识别出几种重要的测报害虫。研究从大量的农业昆虫图像中识别出需要测报的害虫,可解决非测报昆虫的有效排除和因农业昆虫图像训练样本种类不足而导致的识别模型鲁棒性不强的问题,为农业害虫图像自动识别技术的田间应用提供理论依据。【前人研究进展】目前,大部分农作物害虫图像识别方法是基于经典的模式识别方法,主要包括图像预处理(背景分割和噪声去除)、特征提取和筛选、分类器训练和害虫识别等步骤[7]。虽然经典的模式识别方法在小样本数据集上表现突出,但模型的建立需要手工设计图像特征,过程复杂繁琐,且模型在鲁棒性和泛化能力上表现一般。近几年,深度学习在图像识别中表现出色,已有****将深度学习应用到农作物害虫的识别中[8,9],首先建立卷积神经网络模型,然后通过迁移学习方法,利用害虫样本微调已经训练好的模型参数。深度学习虽然没有主动特征设计过程,但需要大样本的支持才能获得较好的识别结果。实际应用中,我们很难获得大量的目标样本。近些年,信号稀疏表示方法因其在模型的灵活性、计算速度和自适应等方面具有较好的优势,在图像的压缩、编码、重构和分类上获得了较好的应用[10,11,12,13,14,15,16]。2008年,WRIGHT等[17]提出一个基于稀疏表示的分类器(sparse representation- based classifier,SRC)应用于人脸识别中,使用原始的人脸图像作为训练样本构造过完备字典,通过范数求解测试人脸基于该字典的稀疏系数,由稀疏系数实现测试样本的重构,根据重构误差判别图像类别,获得了较好的分类识别结果。韩安太等[18]将稀疏表示引入害虫识别中,利用害虫训练样本的形态和颜色特征构造完备的训练样本字典矩阵,通过求解l1范数下最优化问题实现待测样本的稀疏分解,利用图像残差结果实现害虫种类的分类识别。张超凡等[19]和胡永强等[20]将颜色、形态和纹理等特征进行融合,利用融合特征构建过完备字典,通过最小化害虫图像的重构误差实现害虫的分类识别。谢成军等[21,22]先后利用害虫图像的多任务稀疏表示和图像稀疏编码与空间金字塔模型相结合方法构建图像的多空间稀疏表示,然后通过多核机器学习方法实现害虫图像的分类识别,获得较好的识别效果。目前,基于图像的农业害虫识别研究大部分是需要对害虫图像进行背景分割、去噪,且在有限害虫种类有限图像集中进行模型的训练和测试。而在实际应用中,很多情况需要我们从大量的昆虫样本中识别出某些种类的目标害虫。由于我们无法采集到农业所有种类大量的昆虫样本图像,导致训练识别模型的样本无法囊括所有种类的昆虫,当一幅测试样本图像进入分类器后,识别模型将该测试样本图像判为训练样本种类中的某一类。为了排除非目标昆虫的干扰,LYTLE等[23]建立了一个BugID系统,该系统是一个允许用户根据需求来选择排除非目标阈值的系统,其基本思想是利用一个朴素贝叶斯概率模型来判断一个新样本属于已知石蝇种类的概率值;当这个概率值低于某个阈值(这个阈值为一个等错误率,即被排除的非目标比例与被识别为目标的比例相等时的值)时,则这个新样本将被判为非目标。冼鼎翔等[24]将与目标种类相似的所有非目标昆虫作为一类,与排除目标昆虫种类一起训练分类器,最终达到识别目标和非目标昆虫的目的。【本研究切入点】鉴于稀疏表示的图像识别方法有很强的抗噪声能力和较好的遮挡处理能力,本研究在此基础上,将图像稀疏表示与图像特征相结合,探讨在不去背景条件下,如何排除非目标昆虫,实现测报害虫的识别。【拟解决的关键问题】本研究以9种水稻测报害虫为对象,分析不同特征组合下获得的稀疏表示识别模型的分类结果,并通过设定稀疏集中指数阈值来排除非测报昆虫,实现从大量的农业昆虫图像中自动识别出9种水稻测报害虫。1 材料与方法
1.1 图像数据集
9种水稻测报害虫包括大螟Scsamia infcrcns、二化螟Chilo suppressalis、稻纵卷叶螟Cnaphalocrocis Medinalis、稻绿蝽Nezera viridula、黑尾叶蝉Nephotettix cincticeps、长肩棘缘蝽Cletus trigonus、中华稻蝗Oxya chinensis、白背飞虱Sogatella furcifera和褐飞虱Nilaparvata lugens(图1-A—图1-I)。图像数据集包括了9种水稻测报害虫的2 728幅训练样本图像和792幅测试样本图像,以及200幅非测报昆虫图像作为测试样本(图1-J—图1-R)。所有图像均来自手机或相机拍摄或网络上的在自然状态下的稻田昆虫图像。显示原图|下载原图ZIP|生成PPT
图19种水稻害虫与非测报昆虫
A. 大螟Scsamia infcrcns, B. 二化螟Chilo suppressalis, C. 稻纵卷叶螟Cnaphalocrocis Medinalis, D. 稻绿蝽Nezera viridula, E. 黑尾叶蝉Nephotettix cincticeps, F. 长肩棘缘蝽Cletus trigonus, G. 中华稻蝗Oxya chinensis, H. 白背飞虱Sogatella furcifera, I. 褐飞虱Nilaparvata lugens, J. 鼎脉蜻蜓Diplacodes trivialls, K. 中华蜜蜂Apis cerana cerana Fabricius, L. 七星瓢虫Coccinella septempunctata, M. 斑蝥Mylabris phalerata Palla, N.摇蚊Chironomd, O. 鹿蛾Ctenuchidae, P. 日本黄脊蝗Patanga japonica, Q. 白翅叶蝉Thaia rubiginosa kuoh, R. 中华蚱蜢Acrida cinerea
-->Fig. 1Rice forecasting pests and non-forecasting insects
-->
为了获得最优的农业害虫识别模型,对图像进行预处理。首先,对图像进行旋转使得昆虫头朝上;然后,按照1﹕2长宽比裁剪图像,使昆虫居中并占据图像大部分区域;最后,对图像进行等比例缩放至统一尺寸48×96像素,以JPG格式保存。
1.2 稀疏表示分类方法
稀疏表示分类方法的基本思想就是利用所有的训练样本图像构造完备字典,计算测试样本在该字典上的稀疏表示,然后根据重构误差判别图像所属类别。假设有k类样本,令A=[A1,A2,…,AK]为一组训练样本集或过完备字典,其中Ai是第i类的训练样本子集,y∈Rm为第i类某一测试样本,需要实现由l1范数最小化求解,为测试样本y找到合适的稀疏表达:
$\hat{a}=\underset{\alpha }{\mathop{\arg \min }}\,\left\{ \text{ }\left\| y\text{-}A\alpha \right\|_{2}^{2}+\lambda {{\left\| \alpha \right\|}_{1}} \right\}$ (1)
式中,λ为一个大于0的标量。
为了判断测试样本是否是目标害虫,需要在识别之前计算稀疏集中指数[17](sparsity concentration index,SCI),对其是否是目标害虫进行判断。
$SCI(\hat{a})=\frac{{k\times {{\max }_{i}}{{\left\| {{\delta }_{i}}(\hat{a}) \right\|}_{1}}}/{{{\left\| {\hat{a}} \right\|}_{1}}\text{-}1}\;}{k\text{-}1}\left[ 0,1 \right]$ (2)
如果$SCI(\hat{a})$≥τ(τ是需要手动输入的一个阈值),则判断该测试样本为测报害虫;否则为非测报昆虫。
如果是测报害虫,计算测试样本y与各类样本之间的逼近残差:
$\underset{i}{\mathop{\text{min}}}\,{{r}_{i}}(y)={{\left\| y\text{-}A{{\delta }_{i}}(\hat{a}) \right\|}_{2}},i=1,...,k$ (3)
式中,${{\delta }_{i}}(\hat{a})$是与第i类样本对应的系数向量,最小残差值对应的类别即为测试样本的最终分类。
1.3 图像特征提取
基于经典模式识别方法的害虫识别研究表明,与全局特征相比,基于HOG、Gabor等局部特征,能更好的克服自然环境中光照不均、姿态变化等全局干扰问题,对昆虫具有较好的识别效果[25,26]。考虑到局部特征提取方法是在灰度图像上进行的,没有充分利用图像的颜色信息,而在实际应用中,图像本身包含丰富的色彩信息,且属于同一类的图像在颜色方面有很大相似性。因此,在利用图像的颜色信息的基础上,结合图像的局部特征,研究基于单一特征与融合特征下稀疏表示的识别效果。1.3.1 颜色特征 由于R、G、B分量之间具有高度相关性,3个色彩分量易受光照强度等因素影响,稳定性差;而HSV色彩模型由色调、饱和度、明度来描述颜色信息,3个分量基本不相关,面对光照变化表现得更稳健,能更好反映颜色的本质信息[27]。因此,本文将图像从RGB颜色空间转换到HSV色彩空间,并提取该空间下直方图特征,作为图像的全局颜色特征。根据公式(4)[28]将HSV分量均匀量化,H分量均匀划分为16个区间,S和V分量分别均匀划分为4个区间,3个颜色分量分区间级联统计特征,获得颜色直方图256(16×4×4)维的全局颜色特征。
1.3.2 HOG特征 方向梯度直方图(histogram of oriented gradient,HOG)特征,是由DALAL和TRIGGS在2005年提出的一种目标检测的特征描述子[29],通过分块思想,计算和统计图像局部梯度方向直方图,最终形成整个图像的特征。与其他局部特征相比,HOG特征对图像的几何和光照变化不敏感,可以忽略被检测目标姿态的细微变化。图像中某个像素点(x, y)的梯度及梯度值计算如下:
$G{}_{x}\left( x,y \right)=H\left( x+1,y \right)-H\left( x-1,y \right)$ (5)
${{G}_{y}}\left( x,y \right)=H\left( x,y+1 \right)-H\left( x,y-1 \right)$ (6)
式中,H(x, y)、Gx(x, y)、Gy(x, y)分别是图像中像素点(x, y)的像素值、水平方向梯度和垂直方向梯度。
像素点(x, y)处的梯度幅值G(x, y)和梯度方向a(x, y)分别为:
$G(x,y)=\sqrt{{{G}_{x}}{{(x,y)}^{2}}+{{G}_{y}}{{(x,y)}^{2}}}$ (7)
$a(x,y)={{\tan }^{-1}}\left( \frac{{{G}_{y}}(x,y)}{{{G}_{x}}(x,y)} \right)$ (8)
9种水稻田间害虫图像的HOG特征提取步骤如下:定义每幅害虫图像的block大小为24×48像素,每个block由相邻4个cell构成,每个cell大小为12×24像素,采用9个bin直方图来统计每个cell的梯度信息。得到每个块内有36(4×9)个梯度直方图,用块对样本图像进行扫描,扫描步长为一个单元,对于一幅48×96像素的害虫图像,那么水平方向有3个扫描窗口,垂直方向有3个扫描窗口,最后合并所有block直方图信息可获得324(36×3×3)维HOG特征向量。
1.3.3 Gabor特征 Gabor[30]变换属于加窗傅里叶变换,Gabor函数可以在频域不同尺度、不同方向上提取相关的特征。二维Gabor滤波器能有效增强图像的峰、谷和脊轮廓等底层特征,使用该滤波器能有效描述害虫图像局部灰度分布,有助于水稻害虫图像的分类识别。圆形的二维Gabor滤波器在空间域的表达形式如下:
${{\psi }_{u,v}}(z)=\frac{{{\left\| {{k}_{u,v}} \right\|}^{2}}}{{{\sigma }^{2}}}{{e}^{(-{{\left\| {{k}_{u,v}} \right\|}^{2}}{{\left\| z \right\|}^{2}}/2{{\sigma }^{2}})}}\left[ {{e}^{i{{{\vec{k}}}_{u,v}}z}}-{{e}^{-{{\sigma }^{2}}/2}} \right]$ (9)
式中,u和v分别表示Gabor滤波器的方向和尺度,z=(x, y)表示像素点,‖·‖表示范式运算,波向量ku,v=kveiφu,其中kv=kmax/f v(kmax为最大频率,f是频域中核函数的间隔因子),φu=πu/8。
本文选取5个尺度和8个方向的Gabor滤波器,但若将40个滤波器与48×96像素的图像直接卷积运算,会造成维度灾难。所以先将每幅图像经双线性插值至6×12的像素大小,再使用Gabor滤波器进行滤波,可获得2880(40×6×12)维的Gabor特征向量。由于获得的Gabor特征维度较大,后期经PCA方法降维处理,在保证特征贡献率达0.95基础上降维至372维,方便后续字典训练。
1.3.4 LBP特征 局部二值模式(local binary pattern,LBP)特征[31]是一种图像局部纹理特征描述算子,也是一种典型的结构与统计相结合的纹理分析方法。LBP算子的数学表达形式如下:
$LBP\left( {{x}_{c}},{{y}_{c}} \right)=\sum\limits_{p=0}^{P-1}{{{2}^{p}}s\left( {{i}_{p}}-{{i}_{c}} \right)}$ (10)
$s\left( x \right)=\left\{ \begin{align} & 1\ \ \ \ \ \ \ \ \ \ \ x\ge 0 \\ & 0\ \ \ \ \ \ \ \ \ \ \ x<0 \\ \end{align} \right.\ \ \ \ \ \ \ \ $ (11)
式中,(xc,yc)为中心像素点的坐标,ip为邻域像素的灰度值,ic为中心像素点的灰度值,p为邻域像素点的第p个像素。
本文采用圆形LBP算子。首先将检测窗口划分为16×16的小区域(cell),然后对每个cell中的一个像素,将其8个邻域像素的灰度值与该像素的灰度值进行比较,若周围像素值大于中心像素值,则该像素点的位置标记为1,否则为标记为0,那么,3×3邻域内的8个点经比较可产生8位二进制数,计算每个“数字”出现的频率获得该单元上的直方图。该直方图可以看作256维特征向量。最后连接所有cell统计直方图为一个特征向量,即得到整幅图像的LBP纹理特征。
1.3.5 特征融合 本文对害虫图像经旋转、裁剪和统一尺寸等预处理操作后,分别提取各类害虫图像的HSV颜色特征、Gabor特征、LBP特征和HOG特征。将提取到的各类害虫图像的颜色特征分别与Gabor特征、LBP特征、HOG特征级联,获得3组不同的融合特征,再依次使用3组融合特征集替代SRC中直接使用图像灰度值作为训练集的方式构建过完备字典,应用构造的过完备字典实现害虫图像的多特征稀疏表示。
1.4 基于不同特征的稀疏表示水稻害虫识别算法
将害虫图像的颜色特征、LBP特征、Gabor特征、HOG特征及颜色特征与各局部特征的融合特征,作为稀疏表达分类器的输入,实现对水稻害虫的分类识别。算法的步骤如下:(1)对水稻田间害虫图像进行旋转、裁剪,并缩放至统一尺寸48×96像素;
(2)提取训练样本图像特征,构建训练样本图像特征矩阵;
(3)训练过完备字典;
(4)提取测试样本图像特征,根据公式(1)求其在字典上的稀疏系数,并实现对测试样本图像特征的重构;
(5)根据公式(2),计算稀疏集中指数SCI,当该值大于或等于阈值τ时(本文τ取0.7,此时害虫图像平均误检率最低),则认为测试样本为某类的目标害虫;否则,该测试样本为非目标昆虫;
(6)根据公式(3)计算测试样本图像特征与每一类图像特征的重构残差,最小残差所对应的类别即为测试样本的害虫类别。
图2给出了第6类害虫长肩棘缘蝽的一幅图像进行稀疏重构后,在9种目标害虫类别上的稀疏系数分布图和残差图。从图2-A可以看出,该幅图像的重构稀疏系数集中在第6类训练样本上;从图2-B可以看出,与第6类的训练样本重构残差值最小,因此可以判断该幅图像为第6类害虫长肩棘缘蝽。
显示原图|下载原图ZIP|生成PPT
图2基于稀疏表示重构某个测报害虫的稀疏系数分布(A)和残差图(B)
-->Fig. 2The sparse coefficient distribution (A) and residual distribution map (B) of a target pest based on sparse representation
-->
图3给出了一个非测报昆虫图像进行稀疏重构后,在9种目标害虫类别上的稀疏系数分布图和残差图。从图3-A可以看出,该幅图像的重构稀疏系数没有集中在某一类的样本上;从图3-B可以看出,与所有类别的训练样本重构残差值均较大。通过计算稀疏集中指数,发现$\tau $=0.26<0.7,因此该图像上的昆虫被判为非测报昆虫,没必要再进行分类识别。
显示原图|下载原图ZIP|生成PPT
图3基于稀疏表示重构某个非测报昆虫的稀疏系数分布(A)和残差图(B)
-->Fig. 3The sparse coefficient distribution (A) and residual distribution map (B) of non-target pests based on sparse representation
-->
1.5 识别结果的评价
用识别率和误检率来评价不同方法对目标害虫的识别结果:$识别率 = \frac{正确识别出目标害虫的数量}{目标害虫的总数量}$
$误检率 = \frac{非目标昆虫识别为目标害虫的数量}{识别为目标害虫的总数量}$
2 结果
为了验证本文的害虫识别方法的有效性,在同一测试集上,分别提取颜色特征和局部特征中的HOG、Gabor和LBP特征,分别利用带后验概率的支持向量机(support vector machine,SVM)[32]和稀疏表示识别方法对害虫图像进行害虫目标有效性的判断和分类识别,识别结果见表1和表2。Table 1
表1
表1基于SVM分类器的水稻害虫识别结果
Table 1Pest identification results of support vector machine (SVM) classifiers
害虫种类 Pest species | 基于不同特征的SVM分类器的害虫识别率 Pest identification rates of SVM classifiers trained on different features (%) | |||||||
---|---|---|---|---|---|---|---|---|
颜色 Color | LBP | Gabor | HOG | 颜色+LBP Color+LBP | 颜色+Gabor Color+Gabor | 颜色+HOG+Gabor Color+HOG+Gabor | 颜色+HOG Color+HOG | |
大螟S. Infcrcns | 66.7 | 67.0 | 79.8 | 82.7 | 68.6 | 83.1 | 82.3 | 89.4 |
二化螟C. Suppressalis | 63.5 | 74.3 | 78.1 | 81.5 | 77.9 | 80.6 | 76.5 | 87.2 |
稻纵卷叶螟C. Medinalis | 70.8 | 71.7 | 81.1 | 86.9 | 76.4 | 84.3 | 82.0 | 90.5 |
稻绿蝽N. Viridula | 70.1 | 65.2 | 80.2 | 88.7 | 67.6 | 83.8 | 84.3 | 91.8 |
长肩棘缘蝽C. Trigonus | 60.5 | 63.7 | 71.6 | 84.3 | 66.7 | 73.5 | 71.6 | 87.7 |
黑尾叶蝉N. cincticeps | 65.1 | 57.8 | 75.6 | 80.6 | 60.7 | 78.3 | 80.7 | 82.4 |
中华稻蝗O. chinensis | 56.4 | 70.3 | 73.0 | 82.2 | 71.2 | 75.2 | 80.2 | 83.8 |
白背飞虱S. furcifera | 61.0 | 64.9 | 80.9 | 85.4 | 67.5 | 82.4 | 83.1 | 88.9 |
褐飞虱N. Lugens | 60.7 | 62.1 | 70.1 | 81.0 | 63.6 | 71.4 | 83.2 | 81.5 |
非测报昆虫Non-forecasting insects | 45.5 | 51.5 | 61.5 | 67.5 | 55.5 | 68.5 | 78.0 | 71.0 |
平均识别率Average identification rate | 62.0 | 64.9 | 75.2 | 82.1 | 67.6 | 78.1 | 80.2 | 85.4 |
平均误检率Average false detection rate | 36.5 | 30.1 | 28.4 | 19.0 | 27.7 | 23.6 | 20.6 | 15.4 |
新窗口打开
Table 2
表2
表2基于稀疏表示识别模型的水稻害虫识别结果
Table 2Pest identification results of sparse representation models
害虫种类 Pest species | 基于不同特征的稀疏表示识别模型的识别率 Pest identification rates of sparse representation models trained on different features (%) | ||||||||
---|---|---|---|---|---|---|---|---|---|
灰度值 Gray value | 颜色 Color | LBP | Gabor | HOG | 颜色+LBP Color+LBP | 颜色+Gabor Color+Gabor | 颜色+HOG+Gabor Color+HOG+Gabor | 颜色+HOG Color+HOG | |
大螟S. Infcrcns | 80.4 | 70.6 | 68.6 | 78.4 | 90.2 | 76.4 | 82.3 | 82.3 | 91.8 |
二化螟C. Suppressalis | 82.4 | 68.2 | 71.7 | 81.2 | 85.9 | 77.5 | 83.5 | 84.7 | 90.2 |
稻纵卷叶螟C. Medinalis | 80.9 | 71.9 | 67.4 | 79.2 | 84.3 | 76.3 | 80.9 | 84.3 | 89.9 |
稻绿蝽N. Viridula | 83.1 | 74.0 | 80.5 | 80.5 | 90.9 | 82.7 | 84.3 | 85.7 | 93.5 |
长肩棘缘蝽C. Trigonus | 80.2 | 64.2 | 69.1 | 80.2 | 83.9 | 74.5 | 81.5 | 80.2 | 86.4 |
黑尾叶蝉N. cincticeps | 83.1 | 74.5 | 60.2 | 80.7 | 89.2 | 72.8 | 87.9 | 89.1 | 92.8 |
中华稻蝗O. chinensis | 78.2 | 60.4 | 72.3 | 77.6 | 83.2 | 80.2 | 79.3 | 80.2 | 84.2 |
白背飞虱S. furcifera | 81.4 | 66.9 | 71.2 | 81.2 | 87.3 | 75.9 | 82.2 | 85.6 | 91.5 |
褐飞虱N. Lugens | 80.5 | 65.4 | 62.6 | 80.5 | 90.2 | 72.2 | 82.1 | 83.2 | 91.6 |
非测报昆虫Non-forecasting insects | 78.0 | 57.5 | 68.0 | 76.0 | 85.0 | 70.5 | 78.5 | 80.0 | 89.0 |
平均识别率Average identification rate | 80.8 | 67.4 | 69.2 | 79.6 | 87.0 | 75.9 | 82.3 | 83.5 | 90.1 |
平均误检率Average false detection rate | 13.0 | 21.8 | 18.3 | 14.8 | 7.5 | 15.7 | 12.5 | 10.3 | 5.2 |
新窗口打开
由表1可以看出,利用单一特征训练得到的SVM分类器,基于HOG特征的SVM分类器获得较高的害虫平均识别率和较低的平均误检率,分别为82.1%和19.0%。将HOG特征与颜色特征融合训练得到SVM分类器,识别率和误检率分别为85.4%和15.4%。与单一特征相比,这个分类器的识别率得到了提高,误检率也大大下降;与其他融合特征相比,HOG与颜色特征结合训练得到的SVM分类器具有最高的识别率和最低的误检率。由此可以看出,融合特征与单一特征相比更具有优势。在融合特征中,局部特征HOG特征具有更好的害虫识别能力。
由表2可以看出,利用单一特征学习字典得到的稀疏表示识别模型,基于HOG特征的稀疏表示识别模型获得了较高的害虫平均识别率和较低的平均误检率,分别为87.0%和7.5%。与单一特征或其他特征融合得到的模型相比,将HOG特征与颜色特征融合得到的得到稀疏表示识别模型,获得了最高平均识别率和最低平均误检率,分别为90.1%和5.2%。
综合表1与表2可以看出,相同特征下训练得到的稀疏表示识别模型比SVM分类器具有更高的识别率和更低的误检率;在单一特征中,基于HOG特征的SVM分类器和稀疏表示识别模型能获得较高的识别率和较低的误检率。多特征融合比单一特征获得的模型识别结果更好,其中基于颜色和HOG特征的稀疏表示识别模型具有最高的识别率和最低的误检率。
3 讨论
3.1 图像特征的筛选
图像特征选择的好坏对昆虫识别结果影响非常大。目前,用于昆虫识别的特征主要包括全局特征中的颜色特征[4]、纹理特征[33]和形状特征[34],以及局部特征中的HOG特征[26]、Gabor特征[35]、LBP特征[26]、SIFT特征[23]等。由于本研究的图像来自自然状态下的田间害虫,为了尽量减少背景的干扰,首先对图像进行了旋转、裁剪和按比例缩放到同一尺寸。由于未进行背景去除,在特征提取过程中,选择了全局特征中的HSV颜色特征和局部特征中描述形状的HOG特征和描述纹理的Gabor和LBP特征。本研究测试结果表明,特征融合比单一特征对害虫具有更好的识别能力;利用颜色和HOG特征融合训练获得的分类器获得了9种水稻测报害虫最高的识别率和最低的误检率。
3.2 分类器的选择
不同的分类器,对昆虫识别结果有一定的影响。已有****利用不同的模式识别技术,如人工神经网络[36]、模糊模式识别[37]、支持向量机[4]、贝叶斯分类器[38]、稀疏表示方法[35]和深度学习[9]等。由于稀疏表示图像识别方法具有较强的抗噪声能力和较好的遮挡处理能力,本研究选择稀疏表示识别方法来研究农业测报害虫识别,并与具有较好泛化能力的SVM分类器进行对比。测试结果表明,基于多特征融合的稀疏表示识别方法对未去背景的害虫图像识别具有更好的识别能力,对害虫的姿态变化、光照不均和遮挡等影响具有鲁棒性[39,40]。与近几年广泛应用的深度学习[9]相比,深度学习需要大量样本的支持才能获得较好的识别结果。而在实际应用中,我们很难获得大量的目标样本,在小样本识别基础上,基于稀疏表示识别方法具有突出的优势。
3.3 非目标害虫的排除
目前基于图像的农业害虫识别研究大多是在去背景条件下,对有限害虫种类和有限样本量提取特征,然后进行模型的训练和识别,取得了较好的识别结果。然而,在实际应用中,往往需要从大量的昆虫中识别出几种目标害虫,因此需要对非目标昆虫进行有效的排除。LYTLE等[23]利用朴素贝叶斯概率模型来判断一个新样本是否属于已知石蝇种类的概率值。冼鼎翔等[24]将非目标昆虫作为一类来达到非目标昆虫的判断,该方法在实际应用中由于非目标昆虫种类较多而导致分类器的鲁棒性不够。本研究通过设定稀疏集中指数阈值来排除非目标昆虫,实现从大量的农业昆虫图像中自动识别出目标害虫,获得了较低的误检率。4 结论
在农业害虫测报中,常常需要从大量的昆虫中识别出几种重要的测报害虫。本研究对自然状态下的田间害虫图像进行旋转、裁剪和按比例缩放到同一尺寸。在不去背景条件下,利用颜色和HOG特征融合训练获得的稀疏表示害虫识别模型,有效地克服了环境、光照和害虫姿态变化等引起的问题,获得了较高的农业测报害虫识别率和较低的误检率;通过稀疏集中指数阈值,有效地排除了非测报昆虫,实现了从大量的农业昆虫中自动识别出需要测报的害虫。The authors have declared that no competing interests exist.