删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

蝴蝶物种自动识别研究的生态照片数据集

本站小编 Free考研考试/2022-01-02


摘要&关键词
摘要:蝴蝶物种的自动识别能够为生态环境监测、生物多样性保护、害虫防治等领域提供技术支持,减少对专家人工鉴定的依赖。针对目前蝴蝶自动识别研究中主要依靠标本照片,缺少蝴蝶自然生态照片数据的状况,本数据集提供了一组蝴蝶生态照片、对应的PASCAL VOC 2007格式的标注文件以及每张照片的掩模。本数据集包含的721张中国蝴蝶生态图片,涵盖94种蝴蝶。每张照片对应一个标注文件,标注文件中包含照片大小、照片中蝴蝶的种类和位置等信息。每张照片的掩模对应照片中的蝴蝶区域。本数据集可为自动识别、目标检测、图像分割和昆虫分类等研究提供基础数据。
关键词:蝴蝶分类;生态照片;自动识别;目标检测

Abstract & Keywords
Abstract:?While reducing reliance on experts, automatic species identification can provide strong technical assistance to ecological environment monitoring, biodiversity protection, pest control. However, all the datasets used for butterfly species auto-identification are currently based on specimen images, and there is a lack of ecological butterfly images. Therefore, we set up a dataset of butterfly images which includes ecological images of the butterfly species in China, corresponding annotation files in PASCAL VOC 2007 format, and a mask for each image. The dataset contains 721 butterfly images, covering 94 butterfly species. Each annotation file corresponds to an image, which contains the image size, taxonomic information and location of the butterfly. The mask file for each image corresponds to the specific location of the butterfly in the image. This dataset can support researches on automatic butterfly species recognition, object detection, image segmentation and insect taxonomy.
Keywords:?butterfly taxonomy;?ecological images;?automatic recognition;?object detection

数据库(集)基本信息简介
数据库(集)名称蝴蝶物种自动识别研究的生态照片数据集
数据作者谢娟英、曹嘉文、马丽滨、甄文全、陈振宁、李晓东、李后魂、许升全
数据通信作者许升全(xushengquan@snnu.edu.cn)
数据时间范围2012–2017年
地理区域中国
数据量4.48 GB
数据格式*.jpg, *.xml, *.png
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/706
基金项目国家自然科学基金(61673251、31872273);中央高校基本科研业务费专项资金(GK201701006)。
数据库(集)组成本数据集由3部分数据组成:(1)JPEGImages.zip是蝴蝶生态照片,共721张;(2)Annotations.zip 是对应生态照片的721个标注文件,包含照片大小、照片中蝴蝶的种类和位置等信息;(3)masks.zip 是对应生态照片的掩模,以图片形式保存,共721张。

Dataset Profile
TitleA dataset of butterfly ecological images for automatic species identification
Data corresponding authorXu Shengquan (xushengquan@snnu.edu.cn)
Data authorsXie Juanying, Cao Jiawen, Ma Libin, Zhen Wenquan, Chen Zhenning, Li Xiaodong, Li Houhun, Xu Shengquan
Time range2012 – 2017
Geographical scopeChina
Data volume4.48 GB
Data format*.jpg, *.xml, *.png
Data service system<http://www.sciencedb.cn/dataSet/handle/706>
Sources of fundingNational Natural Science Foundation of China (61673251, 31872273); Fundamental Research Funds for the Central Universities under Grant No. GK201701006
Dataset compositionThe dataset consists of 3 subsets in total: (1) JPEGImages.zip is made up of 721 butterfly ecological images; (2) Annotations.zip is made up of 721 annotation files corresponding to the ecological images, and contains the image size, species and location of the butterfly; (3). masks.zip is made up of 721 mask files corresponding to the ecological images.



引 言
蝴蝶是节肢动物门昆虫纲鳞翅目锤角亚目昆虫的统称[1]。其最引人关注的特征就是翅和身体表面由不同形态和色彩的鳞片所形成的绚丽多彩的图案和花纹。这些色彩和花纹与蝴蝶的拟态、保护色、求偶等行为有关;也是千百年来蝴蝶作为文化昆虫而被人们描绘、歌颂的原因[1]。全球目前已知的蝴蝶种类约18000种,每种蝴蝶都基本固定取食少数几种植物,其发生与植物和生态系统的变化密切相关,是重要的环境指示昆虫和生物多样性监测指示生物[2-3]。对蝴蝶物种的快速准确鉴定是生物学多样性保护和蝴蝶文化发展的迫切需求,但人工对蝴蝶进行鉴别和分类是一件非常耗时耗力的工作,且对专家的分类经验依赖度很高。近年来出现了不少关于蝴蝶自动识别的研究。例如,基于内容检索的蝴蝶所属科的识别[4]、基于极限学习机的蝴蝶种类自动识别[5]和基于单隐层神经网络的蝴蝶识别[6]等。然而,这些研究所使用的数据集均为蝴蝶标本的模式照片,且涵盖的种类较少,研究结果无法应用到对蝴蝶生态照片的识别,特别是从生态照片中区别蝴蝶和环境背景。鉴于此,本数据集通过野外拍摄、蝴蝶爱好者捐赠等方式收集、筛选、整理了一组自然环境中的蝴蝶生态照片,并提供了PASCAL VOC 2007格式的记录照片中蝴蝶种类和位置信息的标注文件,以及每张照片的掩模。本蝴蝶生态照片数据集是已完成的第三届中国数据挖掘竞赛(国际首次蝴蝶识别大赛)的竞赛数据,包括了竞赛使用的全部蝴蝶生态照片训练数据,是目前世界上唯一的蝴蝶生态照片数据集,解决了蝴蝶自动识别领域现有数据只包含有蝴蝶标本照片且种类较少的局限,填补了蝴蝶自动识别领域尚无生态照片数据的空白。竞赛使用的训练数据还包括周尧先生的《中国蝶类志》[1]全部蝴蝶照片。希望本数据集能为昆虫分类、目标检测和自动识别领域的相关研究提供数据支持。

1 ? 数据采集和处理方法
1.1 ? 数据采集方法
本数据集中蝴蝶的生态照片来源于野外实地拍摄和蝴蝶爱好者的捐赠,均为高清单反相机拍摄所得,保证了照片的质量。

1.2 ? 数据处理方法
照片中的蝴蝶依据《中国蝶类志》[1]《中国蝴蝶图鉴》[7]等蝴蝶分类文献鉴定到物种。我们使用labelImg工具标记照片中蝴蝶的位置和类别,并生成PASCAL VOC 2007格式的标注文件,蝴蝶位置由矩形框给出,一张照片对应一个标注文件。另外,为了方便图像分割领域研究者使用,我们提供了每张照片的掩模,使用labelme工具,用多边形描绘蝴蝶的外边缘,每张照片生成一个标注文件并转换为掩模图片,以png格式的图片保存。


2 ? 数据样本描述
数据集共包含721张照片,涵盖94种蝴蝶。如图1所示,自然环境中蝴蝶的照片与蝴蝶标本照片的不同在于姿态各异,有些是正面照、有些是侧面照、有些正在展翅、有些双翅合拢等。特别是为了躲避天敌的捕食,大部分蝴蝶具有拟态和保护色,它们翅和身体的颜色和花纹与周围环境相似,难以辨认。










图1 ? 生态图片部分样本
蝴蝶生态照片的统计数据如图2所示,大部分种类蝴蝶的样本个数在13以内,每种蝴蝶至少有1个样本,最多包含61个样本,呈现典型的长尾分布。




图2 ? 蝴蝶生态图片数据分布
每张照片都对应一个PASCAL VOC 2007格式的xml标注文件,文件中包含对应的图片名、图片大小、蝴蝶种类和蝴蝶位置信息。其中蝴蝶分类精确到种,蝴蝶的位置由矩形框标出,在标注文件中记录矩形框的对角位置信息。同时,每张照片对应一张png格式的掩模图片,可用于提取蝴蝶精确位置区域,为图像分割等算法评价研究提供支持。

3 ? 数据质量控制和评估
本数据集中每张照片的蝴蝶都由昆虫分类学专家按照《中国蝶类志》等蝴蝶分类文献进行鉴定,保证了数据的准确性。
蝴蝶的位置信息均为人工标注,并经过多次核查,以确保数据质量。
本数据集已在“2018年第三届中国数据挖掘竞赛——国际首次蝴蝶识别大赛”中发布供参赛者使用,竞赛圆满结束。此次竞赛的圆满成功也说明了本数据集提供的照片数据和标注数据质量可信,可以为相关研究提供数据支持。

4 ? 数据价值
本数据集提供了94种蝴蝶在其自然生态环境中的721张生态照片,并给出了照片中蝴蝶的种类和位置信息。由于蝴蝶有拟态和保护色,和周围环境不易区别,所以识别生态照片中的蝴蝶种类是目标检测领域的挑战性难题。虽然本数据集只包含了94种蝴蝶,没有涵盖全部的中国蝴蝶种类,但蝴蝶物种的识别是同一大类内的小类间区分识别问题,属于细粒度分类,完全不同于常见的目标检测是不同大类物体的识别问题,而且94类的分类问题也是一个很挑战的多类分类问题;加上蝴蝶种类的识别主要依赖于蝴蝶翅膀图案,而生态环境中拍摄的蝴蝶照片,其翅膀通常不会完全展开,使得其分类特征很难获得。细粒度多类分类和高难分类特征,使得训练自动识别方法难度非常大。本数据集在为相关研究提供基础数据的同时,也能促进相关实际应用的开发,使得大众及昆虫爱好者能更加方便地了解和认识蝴蝶。

致 谢
本数据集曾在蝴蝶识别大赛中使用,在数据的整理和测试阶段得到了南京大学计算机系高阳教授、北京邮电大学杜军平教授、北京交通大学于剑教授、山东财经大学尹义龙教授、复旦大学张军平教授、南京航空航天大学谭晓阳教授的指导。特别感谢山东财经大学吕鹏副教授、北京交通大学景丽萍教授、南京大学史颖欢副教授带领各自团队在竞赛前对数据验证所做的大量工作。本数据在听取2018年第三届中国数据挖掘竞赛——国际首次蝴蝶识别大赛部分参赛队伍建议的基础上进行了完善,对这些队伍和队员表示感谢。


[1]
周尧. 中国蝶类志[M]. 郑州: 河南科学技术出版社, 1998.

+?CSCD?·?Baidu Scholar

[2]
ESPELAND M, BREINHOLT J, WILLMOTT K R, et al. A Comprehensive and Dated Phylogenomic Analysis of Butterflies[J]. Current Biology, 2018, 28(5): 770-778.

+?CSCD?·?Baidu Scholar

[3]
马方舟, 徐海根, 丁晖, 等. 我国蝴蝶多样性的保护现状与对策[J]. 世界环境, 2016(s1): 29-31.

+?CSCD?·?Baidu Scholar

[4]
WANG J, JI L, LIANG A, et al. The identification of butterfly families using content-based image retrieval[J]. Biosystems Engineering, 2012, 111(1): 24-32.

+?CSCD?·?Baidu Scholar

[5]
KAYA Y, KAYCI L, TEKIN R, et al. Evaluation of texture features for automatic detecting butterfly species using extreme learning machine[J]. Journal of Experimental & Theoretical Artificial Intelligence, 2014, 26(2): 267-281.

+?CSCD?·?Baidu Scholar

[6]
KANG S H, SONG S H, LEE S H. Identification of butterfly species with a single neural network system[J]. Journal of Asia-Pacific Entomology, 2012, 15(3): 431-435.

+?CSCD?·?Baidu Scholar

[7]
武春生, 序堉峰. 中国蝴蝶图鉴(全四册)[M]. 福州: 海峡书局, 2017.

+?CSCD?·?Baidu Scholar


数据引用格式
谢娟英, 曹嘉文, 马丽滨, 等. 蝴蝶物种自动识别研究的生态照片数据集[DB/OL]. Science Data Bank, 2018. (2019-04-08). DOI: 10.11922/sciencedb.706.

稿件与作者信息

论文引用格式
谢娟英, 曹嘉文, 马丽滨, 等. 蝴蝶物种自动识别研究的生态照片数据集[J/OL]. 中国科学数据, 2019, 4(3). (2019-04-08). DOI: 10.11922/csdata.2018.0092.zh.
谢娟英Juanying Xie

主要承担工作:数据集结构设计。
(1971—),女,陕西省西安市人,博士,教授,研究方向为机器学习、数据挖掘与生物医学数据分析。

曹嘉文Jiawen Cao

主要承担工作:数据的标注。
(1995—),女,陕西省西安市人,硕士研究生,研究方向为模式识别与人工智能。

马丽滨Libin Ma

主要承担工作:照片拍摄。
马丽滨(1980—),男,宁夏回族自治区银川人,博士,副教授,研究方向为昆虫分类学。

甄文全Wenquan Zhen

主要承担工作:照片拍摄。
(1971—),男,辽宁省彰武县人,博士,副教授,研究方向为昆虫生态学。

陈振宁Zhenning Chen

主要承担工作:照片拍摄。
(1970—),男,河南省柘城县人,博士,教授,研究方向为动物系统分类与生态。

李晓东Xiaodong Li

主要承担工作:照片拍摄。
(1982—),男,陕西省蒲城县人,博士,副教授,研究方向为昆虫生物多样性。

李后魂houhun li

主要承担工作:照片拍摄。
(1956—),男,江苏省南京市人,博士,教授,研究方向昆虫分类学。

许升全Shengquan Xu

主要承担工作:数据集设计,照片拍摄、筛选。
xushengquan@snnu.edu.cn
(1967—),男,陕西省兴平市人,博士,教授,研究方向昆虫系统与进化。


相关话题/数据 生态 昆虫 工作 信息

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 2016–2018年四川省石渠县鼠类包虫病感染状况数据集
    摘要&关键词摘要:四川省甘孜藏族自治州的石渠县包虫病发病率位居全国之首,半数家庭遭受包虫病的折磨。因其高感染率和高致死率,藏区人称之为“虫癌”。包虫病的防治和扶贫并列为该县的两大政治任务。中国科学院亚热带农业生态研究所野生动物生态研究团队于2016–2018年在石渠县选取包虫病发病率高的乡镇,于城镇 ...
    本站小编 Free考研考试 2022-01-02
  • 黄土高原地区500 m分辨率植被覆盖度数据集
    摘要&关键词摘要:黄土高原位于我国的生态敏感区,植被覆盖动态变化是该区域植被恢复和生态系统健康状况的重要指标。本数据集包含黄土高原2000年和2010年的逐月植被覆盖度数据,主要基于中国500m归一化差分植被指数(NormalizedDifferencevegetationindex,NDVI)旬合 ...
    本站小编 Free考研考试 2022-01-02
  • 高亚洲冰川区度日因子空间分布数据集
    摘要&关键词摘要:基于冰雪消融与气温之间线性关系建立的度日模型是冰川研究中应用较为广泛的模型。度日因子是该模型的重要参数,反映了单位正积温产生的冰雪消融量,其空间变化对于该模型模拟冰雪消融过程的精度影响较大。然而,高亚洲地区有长期观测的冰川数量较少,无法为应用度日模型开展区域冰川消融模拟提供必要的参 ...
    本站小编 Free考研考试 2022-01-02
  • 长江中下游典型地区水稻纹枯病生境评价多源数据集
    摘要&关键词摘要:水稻是当今世界最重要的粮食作物之一,而水稻纹枯病是制约水稻高产、优质的重要因素,近年来,水稻病虫害发生频繁,给水稻产量带来严重损失。本数据以长江中下游典型地区为研究区域,基于Landsat-8OLI、Sentinel-2光学遥感影像数据、MODIS地表温度产品、地面气象站气象数据和 ...
    本站小编 Free考研考试 2022-01-02
  • 大田作物病害识别研究图像数据集
    摘要&关键词摘要:根据联合国粮农组织报告,每年农业病虫害造成的自然损失率超过37%,农业病虫害识别与防治对于提高农业产量具有重要意义。传统人工识别方法依赖经验,主观因素较大,不够准确。近年来计算机视觉方法逐渐发展,该方法更加客观,并支持实时在线诊断,但需要大规模训练样本的支持。因此,构建可供机器学习 ...
    本站小编 Free考研考试 2022-01-02
  • 1901–2014年黄土高原1 km分辨率月均气温和月降水量数据集
    摘要&关键词摘要:本数据集覆盖了整个黄土高原地区,空间分辨率为1km,时间跨度从1901年1月至2014年12月。它是由英国东英格利亚大学气候研究中心(ClimaticResearchUnit,CRU)发布的全球0.5°气候数据集以及国家生态系统观测研究网络(CNERN)发布的中国区高分辨率气候数据 ...
    本站小编 Free考研考试 2022-01-02
  • 基于端点检测的蒙藏维语音片段数据集
    摘要&关键词摘要:在“中国少数民族地区蒙藏维言语录音2015数据集”的语音数据基础上,采用短时能量和短时过零率的双门限端点检测方法,得到一个句子语音的多个语音片段文件。本语音片段数据集包含蒙古语语音片段1657个、藏语语音片段666个、维吾尔语语音片段756个,数据总量大小约为111MB。通过软件自 ...
    本站小编 Free考研考试 2022-01-02
  • 2000–2019年中国海外电力项目信息数据集
    摘要&关键词摘要:电力短缺是“一带一路”区域发展中国家所面临的主要问题之一。自“一带一路”倡议提出以来,中国企业在“一带一路”沿线电力短缺的国家和地区投资、建设了大量的电力项目。“一带一路”海外项目分布广泛,且数量持续增长,但大量的项目信息较为分散,不利于信息挖掘,亟需将这些项目信息进行收集汇总。本 ...
    本站小编 Free考研考试 2022-01-02
  • 2007–2019年中国海外铁路项目信息数据集
    摘要&关键词摘要:随着我国铁路建设技术的成熟和国外市场的开拓,中国在海外承建的重大铁路互联互通工程快速增长,特别是“一带一路”倡议提出以来,我国企业在“一带一路”沿线区域建设的铁路项目增加明显,但目前还没有集中的铁路项目信息记录。本数据集通过网络爬虫技术、中国拟在建项目网、商务部项目数据库及相关国家 ...
    本站小编 Free考研考试 2022-01-02
  • 2006–2019年中国境外公路项目信息数据集
    摘要&关键词摘要:“一带一路”倡议提出以来,中国境外公路项目发展较快,公路建设是其他工程项目建设的先行载体,对其他配套设施建设至关重要,同时又能够拉动沿线地区经济增长,缩小地区之间的发展差距。但目前对中国境外公路项目信息统计较少,缺乏境外公路项目信息数据集。本数据集采用网络爬虫技术、各个企业官网咨询 ...
    本站小编 Free考研考试 2022-01-02