摘要&关键词
摘要:河流砂碎屑组分的鉴定和统计是物源分析的关键步骤,传统显微镜鉴定和人工统计过程费时费力,所获得的数据标准不一,质量参差不齐,不同实验室所获得的数据对比性较差。使用机器辅助技术实现碎屑组分自动鉴定是地质学家的夙愿。要实现这一目标,需要专业地质人员拍摄和标记显微图像文件作为训练基础。基于数据公开、共享的原则,作者将前期耗费大量时间和精力所标记的图像数据集发表出来,供感兴趣的地学、计算机等领域研究人员共享。本数据集包含8734个标记的碎屑颗粒的图像和坐标文件,1876张高清砂粒显微图像,120张编号标记底图和2个砂粒成分鉴定表。本数据集可作为机器学习训练集,也可以作为鉴定其他河流砂碎屑组分的参考。
关键词:砂粒;显微图像;沉积学;机器学习;雅鲁藏布;河流砂
Abstract & Keywords
Abstract:?One of the key steps of river provenance analysis is to analyze and identify sand and sediment components. The traditional statistical processes are not only time-consuming and laborious, but yield data of uneven quality. Generated by different laboratories using different processing standards, these data more often lack value of contrast or comparison. While automatic identification through machine learning can potentially relieve geologists from such tedious and time-consuming work, a large number of microscopic images will be required for machine training. To facilitate data disclosure and sharing, the authors hereby publish a photomicrograph dataset of sand grains obtained from the Yarlung Tsangpo, Tibet, China. The dataset consists of 8734 tagged clastic particle images and corresponding coordinate information files, 1876 sand microscope images, 120 numbered base maps and two tables for sand composition identification, which we hope can provide good bases for the machine training of automatic sand component identification. It also provides references for identification of other river sand detrital components.
Keywords:?sand grains;?photomicrograph;?sedimentology;?machine learning;?Yarlung Tsangpo;?river sand
数据库(集)基本信息简介
数据库(集)名称 | 雅鲁藏布江砂粒显微图像数据集 |
数据作者 | 董小龙,胡修棉,赖文 |
数据通信作者 | 胡修棉(huxm@nju.edu.cn) |
数据时间范围 | 河流砂样品采集的时间为2016年6月;河流砂薄片偏光显微照片拍摄于2019年。 |
地理区域 | 样品采自中国西藏自治区日喀则地区雅鲁藏布江干流;GPS坐标为:29°19′13.5″N,88°51′28.4″E。 |
偏光显微镜分辨率 | 4908×3264像素 |
数据量 | 10.3 GB |
数据格式 | *.jpg,*.xls,*.xml |
数据服务系统网址 | https://dx.doi.org/10.11922/sciencedb.j00001.00035 |
基金项目 | 第二次青藏高原科学考察研究项目(STEP,2019QZKK0204) |
数据库(集)组成 | 数据集共包括3个数据文件,它们分别为:碎屑单颗粒标记图片集data.zip、标记底图.zip、砂粒信息表.zip。其中:(1) data是标记的图像坐标文件(xml格式)和原始薄片偏光显微照片(jpg格式),共1876张照片,数据量9.49 GB;(2)标记底图是标记的颗粒的编号及其对应的显微照片拍照视域,共120张照片,数据量911 MB;(3) 砂粒信息表是标记的砂粒的类型,共2份,数据量162 KB。 |
Dataset Profile
Title | A photomicrograph dataset of sand grains from the Yarlung Tsangpo, Tibet |
Data corresponding author | Hu Xiumian (huxm@nju.edu.cn) |
Data authors | Dong Xiaolong, Hu Xiumian, Lai wen |
Time range | Modern river sand samples were collected in June 2016; Polarized photomicrographs of thin section were taken in 2019. |
Geographical scope | The sampling site is located at the trunk river of Yarlung Tsangpo in Xigaze, Tibet; GPS: 29°19′13.5″N & 88°51′28.4″E. |
Polarized microscope resolution | 4908*3264 pixels |
Data volume | 10.3 GB |
Data format | *.xml; *.jpg; *.xls |
Data service system | <https://dx.doi.org/10.11922/sciencedb.j00001.00035> |
Source of funding | The Second Tibetan Plateau Scientific Expedition and Research Program (STEP), Ministry of Science and Technology, China (Grant No. 2019QZKK0204). |
Dataset composition | The dataset includes three data files, including “photomicrographs for labeled single grain.zip”, “labeled base map.zip”, and “information table of single grain.xls”. (1) “Photomicrographs for labeled single grain.zip” stores the coordinates of all the sand grains(*.xml) and their 1876 polarized photomicrographs (*.jpg), with a data volume of 9.49 GB; (2) “Labeled base map.file” stores the serial number of the particles and their corresponding photomicrograph photographic field, with 120 photos totaling a data volume of 911 MB; (3) “Information table of single grain.xls” are data sheets for identification of sand grains in the thin sections, with a data volume of 162 KB. |
引 言
砂或砂岩中碎屑颗粒的组分和含量是判定碎屑物源的重要依据。要获得碎屑颗粒的组分和含量,传统工作需要将砂或砂岩磨制成标准薄片,在偏光显微镜下采用Gazzi-Dickinson方法统计约400个颗粒[1]。然而,这种靠人眼在显微镜下逐颗粒识别统计的方法不仅所耗时间长,劳动强度大,而且受人的主观认识和经验的影响,所得到的统计数据的对比性较差。如何能把地质工作者从繁琐耗时的碎屑统计中解脱出来,从而提高工作效率,是一个亟待解决的问题。
近年来,使用机器学习技术的计算机辅助方法已应用于煤岩组分的自动鉴定[2],矿石矿物的自动鉴定[3]和重矿物的自动识别[4],这不仅可以减少地质学家的工作量,并且可以提高鉴定的准确性,实现不同实验室的数据对比。基于机器学习算法的地质图像分类方法首先通过提取地质图像特征,如颜色、解理、结构和形状等信息,在特征空间中构建对地质图像的特征表示。然后使用机器学习算法学习不同类别特征间的差异,构建特征分类器,从而实现基于显微图像的碎屑颗粒自动鉴定和分类统计。
基于显微图像的碎屑组分自动鉴定技术,前期需要大量的由专业地质人员所标记的图像数据集作为机器学习的样本。然而,该类型的数据现在还处于空白,有许多想要利用已标记好的碎屑颗粒图像数据集进行深度学习的计算机工作者苦于找不到公开发表的数据基础。基于数据共享,公开利用的原则,笔者将前期耗费大量时间和精力所拍照并逐一标记的显微图像数据集进行整理,并与大家共享。
1 ? 数据采集和处理方法
选取2016年6月采集于雅鲁藏布江干流心滩河流砂样品16A063(图1),采样标准参考[5,6,7,8 ],采集砂样约2公斤,分成2份分别编号16A063-1和16A063-2。16A063-1用2000 μm和63 μm的筛网湿筛得到粒径在63–2000 μm的砂样,16A063-2用500μm和63μm的筛网湿筛得到粒径在63–500 μm的砂样。然后用分样器多次均分样品,最终得到约5 g砂样,前后分两批送往河北省廊坊诚信地质服务有限公司进行标准薄片磨制,获得厚度为0.03 mm的标准光学薄片,其中薄片16A063-1颗粒胶结物为蓝色环氧树脂,薄片16A063-2颗粒胶结物为无色环氧树脂。
图1 ? 样品位置图(改自[10])MBT:主边界逆冲断裂;STDZ:藏南拆离系;GKT:吉隆 -康马断裂;YTSZ:雅鲁藏布缝合带;LMF:洛巴堆-米拉山断层;SNMZ:狮泉河-纳木错混杂岩带。
拍摄显微图像时,先在薄片上画出一定的矩形区域,以去掉边缘不均匀的部分。然后在标准偏光显微镜下(显微镜型号Nikon ECLIPSE LV 100POL,目镜10倍)进行底图拍照,同时拍摄单偏光和正交偏光照片。拍照时有小部分重叠以便能完整拼接。根据砂粒大小,薄片16A063-1选用2.5倍物镜进行底图拍摄,选用10倍物镜进行单颗粒图像拍照。薄片16A063-2选用5倍物镜进行底图拍摄,选用20倍物镜逐一拍摄单颗粒图像。薄片拍照和信息采集方法统一按《岩石显微图像专题》的标准执行[9],系统采集了砂薄片显微图像。采集的每张单颗粒图像视域均在底图上框出,以便能快速找到每张显微照片的位置。采集完偏光显微图像后,按照划分的17种颗粒类型进行逐颗粒鉴定,将鉴定的结果在底图上标出,用折线将标记的颗粒相连,折线中每个拐点所在的位置代表一个颗粒,按照顺序以间距为10进行编号,同时在Excel表中对每个颗粒进行编号,以方便后期颗粒标记(图2)。将拍摄的单颗粒图像文件用专业标记软件LabelImg打开并对每张图片上的每一个颗粒进行标记,得到样本的标记数据集。LabelImg是一款开源的标注工具,使用版本为windows_v1.5.0(下载网址:http://tzutalin.github.io/labelImg/)。
图2 ? 砂粒显微图像拍照编号流程图
2 ? 数据样本描述
本数据集由3部分组成,分别为data文件夹、标记底图文件夹和砂粒信息表文件夹。共包含不同类别的砂粒8734颗,砂薄片显微图像1996张,其中单颗显微图像1876张,标记底图照片120张。粒砂粒按照6大类17小类进行分类(表1),分类标准参考[1],对于石英仅区分单晶石英和多晶石英,长石区分斜长石和钾长石,本数据集未再进行细分。不同类型的砂粒数量见表2。
表1 ? 砂粒分类及缩写表
缩写 | 英文全称 | 中文名称 | 备注 |
---|---|---|---|
Qm | Monocrystalline quartz | 单晶石英 | Q=Qm+Qp |
Qp | Polycrystalline quartz | 多晶石英 | |
Q | Total quartz | 石英 | |
P | Plagioclase feldspar | 斜长石 | F=P+K |
K | Potassium feldspar | 钾长石 | |
F | Feldspar | 长石 | |
Lvf | Acid-intermediate volcanic rock fragments | 中-酸性火山岩岩屑 | Lv= Lvf+ Lvm+ Lvi |
Lvm | Mafic volcanic rock fragments | 基性火山岩岩屑 | |
Lvi | Intrusive rock fragments | 侵入岩岩屑 | |
Lv | Volcanic rock fragments | 火成岩岩屑 | |
Lsc | Carbonate grain | 碳酸盐岩岩屑 | Ls=Lsc+Lsm+Lss+Cht |
Lsm | Mudstone or shale grain | 泥岩或页岩岩屑 | |
Lss | Sandstone & siltstone | 砂岩或粉砂岩岩屑 | |
Cht | Chert fragments | 硅质岩岩屑 | |
Ls | Sedimentary rock fragments | 沉积岩岩屑 | |
Lml | Slate fragments | 板岩岩屑 | Lm=Lml+Lmp+Lms+Lmu+Lmc |
Lmp | Phyllite fragments | 千枚岩岩屑 | |
Lms | Schist fragments | 片岩岩屑 | |
Lmu | Metamorphic rock fragments of ultramafic rocks | 超基性变质岩(如蛇纹岩) | |
Lmc | Lithic grains of marble | 大理岩岩屑 | |
Lm | Metamorphic rock fragments | 变质岩岩屑 | |
其他 | 重矿物、不透明矿物,无法识别矿物 |
表2 ? 薄片16A063-1和16A063-2颗粒数量和显微图片数量统计表(颗粒缩写见表1)
Qm | Qp | P | K | Lvf | Lvm | Lvi | Lsc | Lsm | Lss | |
16A063-1 | 1328 | 82 | 224 | 114 | 172 | 11 | 2 | 29 | 60 | 49 |
16A063-2 | 3428 | 290 | 445 | 47 | 715 | 6 | 26 | 460 | 161 | 100 |
总数 | 4756 | 372 | 669 | 161 | 887 | 17 | 28 | 489 | 221 | 149 |
Cht | Lml | Lmp | Lms | Lmu | Lmc | 其他 | 颗粒总数 | 照片数 | ||
16A063-1 | 15 | 2 | 62 | 23 | 0 | 0 | 196 | 2369 | 374 | |
16A063-2 | 30 | 5 | 58 | 84 | 2 | 2 | 506 | 6365 | 1502 | |
总数 | 45 | 7 | 120 | 107 | 2 | 2 | 702 | 8734 | 1876 | |
备注 | ||||||||||
16A063-1 | 其他=重矿物(187)+不透明矿物(7)+无法识别矿物(2) | |||||||||
16A063-2 | 其他=重矿物(338)+不透明矿物(163)+无法识别矿物(5) |
2.1 ? 碎屑单颗粒标记图片集
全部数据集信息保存为data压缩文件。data文件中包含:image文件夹,annotation文件夹和类别注释predefined classes文件。annotation文件夹包含与image文件夹中图片一一对应的标注文件(图3)。这样的文件组织格式方便计算机进行读取。
图3 ? 显微图像数据组成图
图像标注工作使用LabelImg软件完成,在LabelImg软件中打开砂粒图像,手动标注颗粒位置及类别。由于单偏光图像与正交偏光图像颗粒位置一一对应,故仅需对单偏光图像进行标记。计算机可以根据单偏光标记的位置坐标自动提取正交偏光显微照片的颗粒位置。标记信息以xml格式保存在annotation文件中。annotation文件中的每个颗粒标记坐标文件可用软件Notepad++,版本为windows_v7.8.8(下载地址:https://notepad-plus-plus.org/downloads/v7.8.8/)打开。标记的图片位置用LabelImg打开时,需要将图片文件夹名称与标记保存的xml文件夹名称对应(图4A两个红色方框位置),才能显示标记位置。
图4 ? 颗粒标记示意图(A)LabelImg标记单偏光图片,存放于annotation文件中;(B)对应的原始偏光显微图片,存放于Image文件中
砂粒照片数据集image文件夹共包含1876张单颗粒偏光显微照片组成,每一个单颗粒视域都包含单偏光显微照片和正交偏光显微照片各一张,显微照片编号样式为“a1-”和“a1+”,“a1”为对应底图拍照视域的位置,“-”表示单偏光照片,“+”表示正交偏光照片(图4B)。显微照片颜色与偏光显微镜下的肉眼观察一致。显微照片的分辨率为4908×3264,保存格式为JPG。
2.2 ? 标记底图
标记底图文件夹中共有120张标记好的显微图像照片。其中文件名“a*标”为10倍或20倍镜下拍摄的单颗粒照片视域(图5A);文件名“a*-1”为对应的“a*标”视域,用折线将每个鉴定编号的颗粒相连,以10为间距依次编号(图5B)。
图5 ? 标记底图示例(A)单颗粒照片视域位置图,编号“a1标”;(B)颗粒顺序编号图,编号“a1-1”
2.3 ? 砂粒信息表数据子集
砂粒信息表为两张薄片16A063-1和16A063-2的颗粒鉴定结果,信息表中的编号与底图“a*-1”的编号顺序相一致(图5B)。单颗粒的鉴定结果按照底图标定的顺序以缩写的形式填写在砂粒信息表中。在薄片16A063-1将强烈蚀变的斜长石(P)和钾长石(K)分别标记为P1和K1,以示区别。不同的颗粒所占总体的比例如图6。
图6 ? 薄片16A063-1和薄片16A063-2不同类型砂粒组成比例图(颗粒缩写见表1)
3 ? 数据质量控制和评估
岩石薄片样本符合国家与国际标准的厚度。在本次显微照片拍摄和薄片鉴定过程中,同一批次的岩石薄片中观察到石英颗粒的干涉色均为一级干涉色,说明薄片的厚度符合0.03 mm的国家标准。显微照片高清且无色差。在显微镜拍摄过程中,采用自动曝光和自动白平衡,使得肉眼观察和系统照片颜色尽量保持一致;且显微照片的分辨率统一采用拍照系统的最高值4908×3264像素,图片统一保存为jpg格式;故而显微照片的质量与清晰度是可靠的。每张照片都添加有比例尺,为后期颗粒大小的测量、圆度计算、面积计算提供便利。
砂粒的鉴定是研究者共同讨论的结果,以确保鉴定结果的准确性。
本数据集提供大量的已标记的砂粒图像和标记的坐标文件,每张颗粒显微照片的每个颗粒均进行标记,可以获得每个颗粒的坐标值和对应的颗粒类型。同时标记过程中在底图上标出颗粒图像的视域位置并进行颗粒编号,使得每个标记颗粒的位置和类型可追踪。后面的使用者可以进行校验。
数据的不足之处在于数据结构不均衡,有的颗粒类型数量非常多,如石英颗粒,有的颗粒类型非常少,如变质岩岩屑(图6)。这使得基于机器学习技术的图像识别结果的准确性参差不齐,有待下一步继续对数据集进行补充,减少数据库内各颗粒类型的数量差距。由于人工移动载物台,拍照视域和底图视域稍有偏差,但不影响快速定位。部分颗粒在底图上未标出,但用LabelImg标记时每张图片中出现的颗粒均标出其坐标位置和颗粒类型,以利于计算机读取。
4 ? 数据价值
本数据集包含大量标记好的单颗粒图片和坐标文件,是利用机器学习技术实现砂粒中的矿物和岩屑自动鉴定的重要数据基础。大量已鉴定的单颗粒照片可以作为鉴定图版使用。砂粒的分类可为后续的河流砂研究提供参考标准,提高不同实验室所获碎屑数据的可比较性。现代河流砂砂粒的鉴定特征可以为砂岩成分的鉴定提供参考依据,帮助我们理解古代砂岩的特征。
5 ? 数据使用方法和建议
本数据集中3个文件的关联性较强,内容相对应,使用时注意以下几点:
(1)数据集中出现的薄片,都集中统一保存在南京大学胡修棉教授课题组。如果以上数据集中提供的显微照片不能满足进一步的研究需要,可以联系通信作者申请进一步使用。
(2)数据使用时3个文件应同时下载使用,以便能迅速找到每个颗粒的位置信息和颗粒类型,在使用标记的annotation标记文件时,应提前下载好标记软件LabelImg(具体安装步骤可参考https://blog.csdn.net/qq_38451119/article/details/83036495)和坐标文件读取软件Notepad++,以读取颗粒图像和坐标。用LabelImg打开图像文件时,应将标记的保存目录更改为与图像文件相对应的文件名下,才能显示标记的图框位置。如在使用中有任何问题请联系本文作者。
(3)单颗粒的砂粒照片可以作为河流砂碎屑鉴定的标准图版,部分具有典型结构的碎屑颗粒可以直接用于教学和图书出版。
数据可用性声明 ?
由于本数据集正在进行相关的研究,特此对该数据集申请保护3年。保护期间读者可以登录网站https://dx.doi.org/10.11922/sciencedb.j00001.00044,下载部分数据集内容供理解和参考。保护期后读者登录科学数据存储库官网下载和使用数据,访问和下载网址:https://dx.doi.org/10.11922/sciencedb.j00001.00035。
致 谢
感谢李超、马安林博士在薄片颗粒鉴定中的有益讨论;感谢郭荣华采集野外样品。
[1]
Ingersoll R V. The effect of grain size on detrital modes; a test of the Gazzi-Dickinson point-counting method[J]. Journal of Sedimentary Research, 1984, 54(1): 103-116.
+?CSCD?·?Baidu Scholar
[2]
宋孝忠, 张群. 煤岩显微组分组图像自动识别系统与关键技术[J]. 煤炭学报, 2019, 44(10): 3085-3097.
+?CSCD?·?Baidu Scholar
[3]
徐述腾,周永章. 基于深度学习的镜下矿石矿物的智能识别实验研究[J]. 岩石学报, 2018, 34(11) : 3244-3252.
+?CSCD?·?Baidu Scholar
[4]
HAO H Z, GUO R H, GU Q, et al. Machine learning application to automatically classify heavy minerals in river sand by using SEM/EDS data[J]. Minerals Engineering, 2019, 147. https://doi.org/10.1016/j.mineng.2019.105899.
+?CSCD?·?Baidu Scholar
[5]
Garzanti E. Petrographic classification of sand and sandstone[J]. Earth-Science Reviews, 2019, 192:545-563.
+?CSCD?·?Baidu Scholar
[6]
Garzanti E, Vezzoli G, Andò S, et al. Petrology of Indus River sands : a key to interpret erosion history of the Western Himalayan Syntaxis[J]. Earth and Planetary ence Letters, 2005, 229(3-4): 287-302.
+?CSCD?·?Baidu Scholar
[7]
Garzanti E, Vezzoli G, Andò S, et al. Sand petrology and focused erosion in collision orogens: the Brahmaputra case[J]. Earth and Planetary ence Letters, 2004, 220(1): 157-174.
+?CSCD?·?Baidu Scholar
[8]
Garzanti E, Limonta M, Vezzoli G, et al. Petrology and multimineral fingerprinting of modern sand generated from a dissected magmatic arc (Lhasa River, Tibet)[M]// Ingersoll R V, Lawton T F, Graham S A. Tectonics, Sedimentary Basins, and Provenance: A Celebration of William R. Dickinson’s Career. The Geological Society of America, 2018: 197-221.
+?CSCD?·?Baidu Scholar
[9]
胡修棉, 赖文, 许艺炜, 等. 沉积岩显微数字图像数据的获取与信息收集标准[J/OL]. 中国科学数据, 2020. (2020-03-02). DOI: 10.11922/csdata.2020.0008.zh.
+?CSCD?·?Baidu Scholar
[10]
GUO R H, HU X M, Garzanti E, et al. How faithfully the geochronological and geochemical signatures of detrital zircon, titanite, rutile and monazite record magmatic and metamorphic events? A case study from the Himalaya and Tibet[J]. Earth Science Review, 2020. https://doi.org/10.1016/j.earscirev.2020.103082.
+?CSCD?·?Baidu Scholar
数据引用格式
董小龙, 胡修棉, 赖文. 雅鲁藏布江砂粒显微图像数据集[DB/OL]. Science Data Bank, 2020. (2020-07-15). DOI: 10.11922/sciencedb.j00001.00035.
稿件与作者信息
论文引用格式
董小龙, 胡修棉, 赖文. 雅鲁藏布江砂粒显微图像数据集[J/OL]. 中国科学数据, 2020, 5(3). (2020-09-21). DOI: 10.11922/csdata.2020.0051.zh.
董小龙Dong Xiaolong
主要承担工作:薄片鉴定、薄片拍照、砂粒的标定、论文撰写。
(1993—),男,四川眉山市人,硕士生,研究方向为现代河流砂。
胡修棉Hu Xiumian
主要承担工作:数据集的设计、论文撰写。
huxm@nju.edu.cn;
(1974—),男,江西省南昌市人,博士,教授,研究方向为沉积学。
赖文 Lai Wen
主要承担工作:薄片鉴定、论文撰写。
(1992—),男,江西省赣州市人,博士,助理研究员,研究方向为大地构造沉积学。