删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

大田作物病害识别研究图像数据集

本站小编 Free考研考试/2022-01-02


摘要&关键词
摘要:根据联合国粮农组织报告,每年农业病虫害造成的自然损失率超过37%,农业病虫害识别与防治对于提高农业产量具有重要意义。传统人工识别方法依赖经验,主观因素较大,不够准确。近年来计算机视觉方法逐渐发展,该方法更加客观,并支持实时在线诊断,但需要大规模训练样本的支持。因此,构建可供机器学习建模使用的图像数据集对于实现高效的农业病虫害识别至关重要。为此我们构建了农业病虫害研究图库(IDADP),涵盖农业病虫害图像采集、分类、标记、存储与建模等多方面的内容,面向科研****与农技人员两大类用户群体提供农业病害在线诊断及相关的技术咨询等服务。本数据集目前包括以水稻、小麦、玉米为主的大田作物的高质量农业病害图像数据约200 GB。与现有大多仅含有3–5幅典型症状图像的农业病害图谱类资源存在本质区别,本图像数据集由高分辨率和高相似度的同类农作物病害原始图像数据构成,每种病害的图像数量有几百乃至上千幅,可作为病害识别建模的训练样本使用。本数据集将为农业病害识别研究领域提供宝贵的基础数据资源,同时可作为大数据环境下机器学习建模的标准图库,对促进农业病害图像识别研究的发展具有重要的实际应用价值。
关键词:农业病害;大田作物;病害识别;标准图库;训练样本

Abstract & Keywords
Abstract:?According to the report of Food and Agriculture Organization of the United Nations, the annual natural loss rate caused by agricultural pests and diseases reached more than 37%. Identification and control of agricultural pests and diseases is significant for improving agricultural yield. Traditional manual recognition methods are not accurate enough since they rely on subjective experience. In recent years, computer vision-based methods have developed gradually. These methods are more objective and support real-time online diagnosis. As these methods depend on large-scale training samples, building an image dataset for machine learning modeling is very important for efficiently identifying agricultural diseases and pests. Therefore, we have constructed an image dataset for agricultural diseases and pests research (IDADP) which covers such aspects of agricultural diseases and pests as image acquisition, classification, labeling, storage and modeling. Meanwhile, this image dataset provides online diagnosis of agricultural diseases and related technical consultation services for scholars and agricultural technicians. The image dataset currently has about 200 GB of high-quality agricultural disease images, including field crops such as rice, wheat and corn. Essentially different from existing agricultural disease map resources which mostly contain only 3 to 5 typical symptom images, our dataset consists of the original image data of the same kind of crop diseases with high resolution and high similarity. Each disease has hundreds or even thousands of images, which can be used as training samples for machine learning modeling of disease identification. As a standard dataset for machine learning modeling in large data environment, this image dataset will provide valuable basic data resources. And it has important applicability in promoting the development of agricultural disease identification.
Keywords:?agricultural disease;?field crops;?disease identification;?standard image dataset;?training sample

数据库(集)基本信息简介
数据库(集)名称大田作物病害识别研究图像数据集
数据作者陈雷、袁媛
数据通信作者陈雷(chenlei@iim.ac.cn);袁媛(yuanyuan@iim.ac.cn)
数据时间范围2013–2018年
地理区域中国境内
数据量200 GB
数据格式SQL Server
基金项目中国科学院信息化专项(XXH13505-03-104);国家自然科学基金面上项目(31871521)。
数据服务系统网址http://www.scidb.cn/journalDetail?dataSetId=633694461276192770&code=5c36e22c13f6b34064283d5e&tID=journalOne&dataSetType=journal&language=zh_CN&lan=2
数据库(集)组成本数据集共有水稻、小麦和玉米3种大田作物的15种病害图像,每种病害对应一个文件夹。其中水稻病害6个文件夹,包括水稻白叶枯病、水稻稻曲病、水稻稻瘟病、水稻胡麻斑病、水稻纹枯病、水稻细菌性条斑病;小麦病害5个文件夹,包括小麦白粉病、小麦赤霉病、小麦梭条斑花叶病、小麦雪霉叶枯病、小麦叶锈病;玉米病害4个文件夹,包括玉米大斑病、玉米南方锈病、玉米小斑病、玉米锈病。每个文件夹中包含该病害图像以流水号命名的原始JPG文件,以及介绍该病害基本信息与防治方法的intro.txt文件。本数据集共有高质量的jpg图像17624张。

Dataset Profile
TitleAn image dataset for field crop disease identification
Data corresponding authorLei Chen (chenlei@iim.ac.cn), Yuan Yuan (yuanyuan@iim.ac.cn)
Data authorsLei Chen, Yuan Yuan
Time range2013 – 2018
Geographical scopeChina
Data volume200 GB
Data formatSQL Server
Data service system<http://www.scidb.cn/journalDetail?dataSetId=633694461276192770&code=5c36e22c13f6b34064283d5e&tID=journalOne&dataSetType=journal&language=zh_CN&lan=2>
Sources of fundingThe 13th Five-year Informatization Plan of Chinese Academy of Sciences (XXH13505-03-104); National Natural Science Foundation of China (31871521).
Dataset compositionThe dataset contains 15 disease images of rice, wheat and maize, each of which corresponds to a folder. Concretely, there are 6 folders of rice diseases, including bacterial blight of rice, rice false smut, rice blast, rice brown spot, rice sheath blight and rice bacterial leaf streak; 5 folders of wheat diseases, including wheat powdery mildew, wheat head blight, wheat spindle streak mosaic virus, gerlachia nivalis and wheat leaf rust; and 4 folders of maize diseases, including corn northern leaf blight, southern corn rust, corn southern leaf blight and corn rust. Each folder contains the original JPG files named by pipeline number of the disease image and the intro.txt file which introduces the basic information of the disease and its control methods. This dataset contains 17?624 high quality JPG image data.



引 言
近些年来,利用计算机视觉和人工智能等技术进行农作物病虫害防治,为农作物病虫害的无损检测和智能化诊断提供了新的方式和思路。尤其是2006年Hinton提出深度学习以来,在诸多领域尤其是图像分类方面取得了显著的效果,为进一步提高基于计算机视觉技术的农业病虫害图像识别效果提供了新的思路。而深度学习方法的效果依赖于大规模的训练数据,因此出现了图像识别最大数据库ImageNet、最有影响的人脸图像数据库LFW等著名的标准图像数据集。同样,在农业病虫害图像识别领域则是需要大规模的农业病虫害基础图像资源。农业病虫害图像数据库的规模和质量在很大程度上决定了病虫害图像识别系统的效果。建设规模化、标准化、可共享的农业病虫害图像资源是该领域应当先行的基础研究。
目前现有的农业病虫害图像资源大多是图谱的形式,如纸质出版物的病虫害图谱包括《中国蔬菜病虫原色图谱》[1]《中国果树病虫原色图谱》[2]《中国经济作物、粮食作物、药用植物病虫害原色图鉴》[3]等。几经改版,现已成为主流的病虫害图谱书籍。本世纪以来,网络版的农业病虫草害数据库在国内外开始出现并应用,国际上最权威的是国际农业和生物科学中心编辑出版的作物保护大全检索系统(CABI-CPC, Center of Agriculture and Biological International-Crop Protection Compendium)[4],收录了世界上150多个国家和地区、3000多种有害昆虫、病害和天敌的信息,部分配有图片。国内电子版的病虫害图谱有中国农业科学院作物科学研究所建立的作物病虫害数据库、河北科技师范学院研制的智能蔬菜病虫害诊断与防治专家系统[5]、安徽省农业科学院农业经济与信息研究所开发的农业病虫草害图文基础数据库、中国医学科学院药用植物研究所植物保护中心开发的药用植物病虫害数据库等。以上这类图谱,对每种病虫害仅给出几张典型症状图片,主要是以科普介绍和形象对照应用为主,不能作为机器学习方法的训练数据集,无法应用于后续的病虫害图像计算机识别方法的研究。由于农作物品种繁多、地域差别以及学科交叉等原因,目前我国还没有建立起可供机器学习使用的农作物病虫害识别研究标准图像数据集。
文章作者在有关项目的支持下,通过采集、整合数据,建设了农业病虫害研究图库(IDADP)。此次公开的数据集包含大量的水稻、小麦、玉米等作物病害图像资源,每种病害有几百乃至上千幅图片,其原始图片分辨率达到2000万像素,建立了一个可为机器学习建模提供训练和测试样本的农作物病虫害识别研究图像数据集。

1 ? 数据采集和处理方法
本研究中图像采集设备为Canon EOS 6D型数码单反相机,配备佳能EF 17-40mm f/4L USM镜头与佳能EF 100mm f/2.8L IS USM微距镜头,以及索尼DSC-RX100M3数码相机。拍摄时采用相机的最优画质与最大分辨率5472×3648,其中佳能数码单反相机采用原始的RAW格式,其后在计算机上使用佳能Digital Photo Professional软件将RAW文件转化为JPG图像文件,索尼数码相机直接采用JPG格式进行拍摄。拍摄时采用光圈优先模式,调整适当的光圈使得图像景深足够大,以保障被拍摄的作物器官在画面中有一定的清晰度。
在采集作物病害图像时,主要是在露天或大棚的自然光照条件下,拍摄角度使光路尽量垂直于作物器官所在平面,并利用侧面光保证作物器官受光均匀,所拍摄的作物器官占据画面的中央主要位置。

2 ? 数据样本描述
本数据集以图像数据库的形式进行存储与管理。其中第一层图像数据词典以Microsoft SQL Server的数据表形式存储,数据表的各字段说明以示例如表1所示,其中图像路径是指向存放在计算机硬盘上的原始图像文件的索引,作为数据库的主键。此外还有一些图像数据的关键信息,如拍摄时间、拍摄地点、图像大小等,已经蕴含在图像文件的exif信息中,因此不在数据表中重复表示。本数据集结构设计较简单,便于数据集管理人员的日常维护与农业病害识别研究人员与农技专家等用户的直接使用。
表1 ? 作物病害图像数据词典的数据表字段与示例
列1列2列3列4列5
作物名称器官名称病虫害名称图像路径备注
小麦叶部赤霉病小麦赤霉病\IMG2015.jpg-
小麦叶部白粉病小麦白粉病\IMG1882.jpg-
小麦叶部白粉病小麦白粉病\IMG1883.jpg-
水稻叶部稻瘟病水稻稻瘟病\DSC18_2083.jpg-
水稻穗部稻曲病水稻稻曲病\IMG17_5657.jpg-

第二层是图像基础数据,保存在计算机硬盘上。本数据集按照作物病害名称建立文件夹,共有15个文件夹。其中水稻病害6个文件夹,包括水稻白叶枯病、水稻稻曲病、水稻稻瘟病、水稻胡麻斑病、水稻纹枯病、水稻细菌性条斑病;小麦病害5个文件夹,包括小麦白粉病、小麦赤霉病、小麦梭条斑花叶病、小麦雪霉叶枯病、小麦叶锈病;玉米病害4个文件夹,包括玉米大斑病、玉米南方锈病、玉米小斑病、玉米锈病。每个文件夹中包含该病害图像以流水号命名的原始JPG文件,以及介绍该病害基本信息与防治方法的intro.txt文件,每张图像代表一个数据样本。例如本数据集中水稻白叶枯病有974张图像,则文件夹“水稻白叶枯病”中含有974张JPG图像样本以及1个介绍水稻白叶枯病基本信息与防治方法的intro.txt文件。本数据集中的部分图像样本示例如图1所示。

(a)


(b)


(c)


(d)


图1 ? 大田作物病害识别研究图像数据集中的样本示例(a)水稻稻曲病 (b)水稻稻瘟病(c)小麦赤霉病 (d)玉米南方锈病


3 ? 数据质量控制和评估
本研究中采集的作物病害图像来源主要有两种方式:一种是人工接种,该方式下所拍摄的作物病害图像完全能够保障分类准确;另一种方式是拍摄各类生产基地的作物病害图像,并没有经过人工接种,病害是自然发生的,因此所拍摄的病害图像后期经过植保专家的实验室分析与鉴定,以保障病害图像的分类准确。同时,图像采集工作由从事农业病害图像识别研究的专业技术人员按照标准操作流程和规范进行,并在后期对所采集的图像进行人工筛选,将不符合要求的文件剔除,保证本数据集中作物病害图像数据来源的质量和可靠性。

4 ? 数据价值
本数据集与现有作物病虫害图谱的最主要区别是本数据集中的每种病害图像具有几百乃至上千张,可以通过机器学习方法建立病害识别相关的模型,为作物病害图像研究领域提供基础数据资源。随着本数据集的发展,今后将建设成为国内标准的农业病虫害图像识别研究数据资源,为业内相关研究人员提供统一的训练集与测试集数据,从而使得不同的方法可以在同一数据集下进行比较,推动农业病虫害图像识别研究的发展。

5 ? 数据使用方法和建议
由于作物病害发生是一个复杂的过程,同种病害在不同品种、不同部位上的表现症状也不完全相同,因此使用本数据集的图像数据时可按照具体需求进行二次筛选。同时由于作物病害图像原始数据文件较大,建立在用于机器学习模型训练时根据所选取的框架进行相应的压缩或裁剪。
本数据集中的大田作物病害图像没有对病害位置进行人工标记,在构建模型时需要一定数量的无病害的作物图像作为正样本,所需的正样本图像数据可前往IDADP网站下载(http://www.icgroupcas.cn/website_bchtk/index.html),因此正样本数据不单独在本数据集中提供。
此外,由于数据版权原因,本文中所上传的图像数据均带有水印,如需获取无水印的原始图像数据需要前往图库网站联系数据库负责人,下载并签署相应的使用协议。

致 谢
感谢安徽省农业科学院的戚仁德、王士梅、王大刚、张爱芳、陆丽娟、黄亮、汪涛、董伟和安徽农业大学金秀提供作物病害图像拍摄基地,协助对作物病害图像进行鉴定与分类。


[1]
吕佩珂. 中国蔬菜病虫原色图谱[M]. 北京: 中国农业出版社, 1992.

+?CSCD?·?Baidu Scholar

[2]
吕佩珂. 中国果树病虫原色图谱[M]. 北京: 华夏出版社, 1993.

+?CSCD?·?Baidu Scholar

[3]
吕佩珂. 中国粮食作物、经济作物、药用植物病虫原色图鉴[M]. 呼和浩特: 远方出版社, 1999.

+?CSCD?·?Baidu Scholar

[4]
International C, Wallingford (RU). Crop protection compendium[M]. Berlin: Blackwell Verlag GmbH, 2006.

+?CSCD?·?Baidu Scholar

[5]
王久兴, 刘介丹, 陈秀敏. 基于. NET的智能蔬菜病虫害诊断与防治专家系统构建[J]. 河北科技师范学院学报, 2013, 27(2): 18-22.

+?CSCD?·?Baidu Scholar


数据引用格式
陈雷, 袁媛. 大田作物病害识别研究图像数据集[DB/OL]. Science Data Bank, 2019. (2019-03-20). DOI: 10.11922/sciencedb.745.

稿件与作者信息

论文引用格式
陈雷, 袁媛. 大田作物病害识别研究图像数据集[J/OL]. 中国科学数据, 2019, 4(4). (2019-06-11). DOI: 10.11922/csdata.2019.0008.zh.
陈雷Lei Chen

主要承担工作:本数据集平台的规划、建设和维护。
chenlei@iim.ac.cn
(1981—),男,安徽省巢湖市人,博士,副研究员,研究方向为机器学习理论方法及在大数据环境下的应用。

袁媛Yuan Yuan

主要承担工作:本数据集原始数据的采集、整理与相关软件工具的研发。
yuanyuan@iim.ac.cn
(1981—),女,安徽省肥东县人,博士,副研究员,研究方向为计算机视觉方法及在农业病虫害图像识别中的应用研究。


相关话题/图像 数据 农业 作物 数据库

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 长江中下游典型地区水稻纹枯病生境评价多源数据集
    摘要&关键词摘要:水稻是当今世界最重要的粮食作物之一,而水稻纹枯病是制约水稻高产、优质的重要因素,近年来,水稻病虫害发生频繁,给水稻产量带来严重损失。本数据以长江中下游典型地区为研究区域,基于Landsat-8OLI、Sentinel-2光学遥感影像数据、MODIS地表温度产品、地面气象站气象数据和 ...
    本站小编 Free考研考试 2022-01-02
  • 1901–2014年黄土高原1 km分辨率月均气温和月降水量数据集
    摘要&关键词摘要:本数据集覆盖了整个黄土高原地区,空间分辨率为1km,时间跨度从1901年1月至2014年12月。它是由英国东英格利亚大学气候研究中心(ClimaticResearchUnit,CRU)发布的全球0.5°气候数据集以及国家生态系统观测研究网络(CNERN)发布的中国区高分辨率气候数据 ...
    本站小编 Free考研考试 2022-01-02
  • 基于端点检测的蒙藏维语音片段数据集
    摘要&关键词摘要:在“中国少数民族地区蒙藏维言语录音2015数据集”的语音数据基础上,采用短时能量和短时过零率的双门限端点检测方法,得到一个句子语音的多个语音片段文件。本语音片段数据集包含蒙古语语音片段1657个、藏语语音片段666个、维吾尔语语音片段756个,数据总量大小约为111MB。通过软件自 ...
    本站小编 Free考研考试 2022-01-02
  • 2000–2019年中国海外电力项目信息数据集
    摘要&关键词摘要:电力短缺是“一带一路”区域发展中国家所面临的主要问题之一。自“一带一路”倡议提出以来,中国企业在“一带一路”沿线电力短缺的国家和地区投资、建设了大量的电力项目。“一带一路”海外项目分布广泛,且数量持续增长,但大量的项目信息较为分散,不利于信息挖掘,亟需将这些项目信息进行收集汇总。本 ...
    本站小编 Free考研考试 2022-01-02
  • 2007–2019年中国海外铁路项目信息数据集
    摘要&关键词摘要:随着我国铁路建设技术的成熟和国外市场的开拓,中国在海外承建的重大铁路互联互通工程快速增长,特别是“一带一路”倡议提出以来,我国企业在“一带一路”沿线区域建设的铁路项目增加明显,但目前还没有集中的铁路项目信息记录。本数据集通过网络爬虫技术、中国拟在建项目网、商务部项目数据库及相关国家 ...
    本站小编 Free考研考试 2022-01-02
  • 2006–2019年中国境外公路项目信息数据集
    摘要&关键词摘要:“一带一路”倡议提出以来,中国境外公路项目发展较快,公路建设是其他工程项目建设的先行载体,对其他配套设施建设至关重要,同时又能够拉动沿线地区经济增长,缩小地区之间的发展差距。但目前对中国境外公路项目信息统计较少,缺乏境外公路项目信息数据集。本数据集采用网络爬虫技术、各个企业官网咨询 ...
    本站小编 Free考研考试 2022-01-02
  • 南海深海海底观测网试验系统海底动力观测数据集
    摘要&关键词摘要:南海深海海底观测网试验系统于2016年9月建设完成,通过光电复合缆为深海观测平台提供能源供给和通信传输链路,实现南海区域海底环境多参数实时、连续观测。其中海底动力平台于2017年6月布放于海底,搭载温、盐、深传感器(CTD)与声学多普勒流速仪传感器(ADCP),并于2017年7月开 ...
    本站小编 Free考研考试 2022-01-02
  • 2002–2019年中国境外水电站项目信息数据集
    摘要&关键词摘要:“一带一路”区域国家拥有丰富的水资源,然而由于资金和技术水平的限制,广大“一带一路”区域发展中国家的水资源利用水平较低。与此同时,电力短缺也是这些国家面临的普遍问题之一。中国拥有雄厚的资金和丰富的水电项目建设经验,可为“一带一路”国家的水资源开发提供高效的解决方案。“一带一路”倡议 ...
    本站小编 Free考研考试 2022-01-02
  • 2000–2015年咸海边界数据集
    摘要&关键词摘要:本研究利用高时频的MODIS数据,基于一种自动化水体提取方法,经过修改和验证工作,得到了2000–2015年32期咸海边界数据集。结果显示,2000年咸海面积为本数据集可以描绘咸海不同区域的时空变化特征,可应用于本世纪以来咸海受人类活动和自然环境影响的后续研究。关键词:咸海;湖泊边 ...
    本站小编 Free考研考试 2022-01-02
  • 1992–2018年中国境外产业园区信息数据集
    摘要&关键词摘要:“一带一路”倡议提出以来,我国境外产业园区作为经贸合作的重要载体,已经成为中国企业走出去的重要平台。然而,虽然中国企业在境外投资的产业园区众多,但是尚未有一个全面的统计工作,这些信息对于国家或者企业投资者来说却至关重要。一些园区的开工时间、实施建设的中国企业名称等难以查到,所以开展 ...
    本站小编 Free考研考试 2022-01-02