删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

染色体易位重组位点的自动识别方法研究

本站小编 Free考研考试/2021-12-04

染色体易位重组位点的自动识别方法研究

刘子铭1,郭佩宏1,孙永恒1,祖建1,胡曦2,马欣越3,吴晓明2,王彤4

(1.西安交通大学 数学与统计学院, 数学与生命科学交叉中心, 西安 710049; 2.西安交通大学 生命科学与技术学院,生物医学信息工程教育部重点实验室,西安 710049; 3.西安交通大学 医学部, 西安 710061;4.河北燕达陆道培医院, 河北 廊坊 065201)



摘要:

染色体易位重组位点的识别对很多染色体遗传性疾病的诊断有着重要的意义。本文基于实际诊断中采集到的24类染色体数据和9号正常与异常染色体数据,构建了一套自动识别染色体易位重组位点的模型和方法。首先,对染色体图像进行预处理,得到了方向梯度直方图特征(HOG)和局部二值模式特征(LBP),构建了基于纹理特征的染色体24分类多通道网络模型,分类准确率达到了95.99%;再与ResNet18模型(分类准确率95.86%)进行模型融合,最终分类准确率达到97.08%。其次,将染色体密度谱作为正常和异常染色体的分类特征,采用投票的方法集成支持向量机、随机森林和XGBoost模型,构建了正常和异常染色体的集成分类器,正常和异常9号染色体的分类准确率达到了100%。最后,对于易位的异常染色体,我们提出了基于动态时间规划(DTW)的易位重组位点自动识别算法,在异常染色体的密度谱曲线上找到了重组位点,并映射至染色体G显带模式图,得到标准诊断结果,通过与临床专家的诊断结果进行比较说明了自动识别结果的有效性。本文设计的一套自动识别染色体易位重组位点的模型方法对临床辅助诊断有很大的帮助,有望完善成为一套软件系统应用于临床诊断,提升相关疾病的诊断效率和准确率。

关键词:  染色体分类  异常染色体  重组位点  自动识别  深度学习

DOI:10.12113/202008007

分类号:Q343.2

文献标识码:A

基金项目:国家自然科学基金项目(No.5,2);陕西省自然科学基础研究计划(No.2019JM-478). *



Automatic identification of recombination sites for translocated chromosome

LIU Ziming1, GUO Peihong1, SUN Yongheng1, ZU Jian1, HU Xi2, MA Xinyue3, WU Xiaoming2, WANG Tong4

(1. Interdisciplinary Research Center for Mathematics and Life Sciences, School of Mathematics and Statistics, Xian Jiaotong University, Xian 710049, China;2.The Key Laboratory of Biomedical Information Engineering of Ministry of Education, School of Life Sciences and Technology, Xian Jiaotong University, Xian 710049, China; 3.Health Science Center, Xian Jiaotong University, Xian 710061, China;4.Hebei Yanda Lu Daopei Hospital, Langfang065201, Hebei China)

Abstract:

Precise identification of recombination sites of translocated chromosome is of great significance for the diagnosis of many chromosomal inherited diseases. Based on the 24 types of chromosome data and the normal and abnormal chromosome 9 data collected in actual diagnoses, a deep learning method was constructed for the automatic identification of chromosomal recombination sites. First, through image preprocessing, the histogram of oriented gradients (HOG) feature and local binary patterns (LBP) feature of chromosome images were obtained. Based on these texture features, a multi-channel classification model was constructed, and the classification accuracy reached 95.99%. By fusing the proposed model with the ResNet 18 model(classification accuracy of 95.86%),the final classification accuracy reached 97.08%. Then, the chromosome density profile was used as the classification feature of normal and abnormal chromosomes. By using voting method to integrate the results of support vector machine, random forest, and XGBoost models, an integrated normal and abnormal chromosome classifier was constructed with a classification accuracy of 100%. After obtaining the abnormal chromosome, based on the method of dynamic time warping (DTW), a DTW automatic identification algorithm of recombination site was developed, and the recombination site on the density profile of abnormal chromosome was found. In addition, the recombination site was further mapped to the G-banded karyotypes. By comparing with the results of clinical experts, the rationality of the model estimated results was verified. The automatic identification method of chromosome recombination sites designed in this paper is of great significance for clinically assisted diagnosis. It is expected to be designed as a software for clinical diagnosis so as to improve the diagnosis efficiency of related diseases.

Key words:  Chromosome classification  Abnormal chromosome  Recombination site  Automatic identification  Deep learning


刘子铭, 郭佩宏, 孙永恒, 祖建, 胡曦, 马欣越, 吴晓明, 王彤. 染色体易位重组位点的自动识别方法研究[J]. 生物信息学, 2021, 19(3): 159-169. DOI: 10.12113/202008007.
LIU Ziming, GUO Peihong, SUN Yongheng, ZU Jian, HU Xi, MA Xinyue, WU Xiaoming, WANG Tong. Automatic identification of recombination sites for translocated chromosome[J]. Chinese Journal of Bioinformatics, 2021, 19(3): 159-169. DOI: 10.12113/202008007.
基金项目 国家自然科学基金项目(No.11971375, 11631012);陕西省自然科学基础研究计划(No.2019JM-478) 通信作者 祖建, 男, 教授, 博士生导师, 研究方向: 生物信息学.E-mail: jianzu@xjtu.edu.cn 作者简介 刘子铭, 男, 硕士研究生, 研究方向: 机器学习.E-mail: lzmlzm@stu.xjtu.edu.cn;
郭佩宏, 女, 硕士研究生, 研究方向: 生物医疗大数据.E-mail: 1176119985@qq.com;
孙永恒, 男, 硕士研究生, 研究方向: 智能诊疗.E-mail: 3304925266@qq.com 文章历史 收稿日期: 2020-08-19 修回日期: 2020-10-16


Contents            Abstract            Full text            Figures/Tables            PDF


染色体易位重组位点的自动识别方法研究
刘子铭1, 郭佩宏1, 孙永恒1, 祖建1, 胡曦2, 马欣越3, 吴晓明2, 王彤4     
1. 西安交通大学 数学与统计学院, 数学与生命科学交叉中心, 西安 710049;
2. 西安交通大学 生命科学与技术学院,生物医学信息工程教育部重点实验室,西安 710049;
3. 西安交通大学 医学部, 西安 710061;
4. 河北燕达陆道培医院,河北 廊坊 065201

收稿日期: 2020-08-19; 修回日期: 2020-10-16
基金项目: 国家自然科学基金项目(No.11971375, 11631012);陕西省自然科学基础研究计划(No.2019JM-478)
作者简介:刘子铭, 男, 硕士研究生, 研究方向: 机器学习.E-mail: lzmlzm@stu.xjtu.edu.cn郭佩宏, 女, 硕士研究生, 研究方向: 生物医疗大数据.E-mail: 1176119985@qq.com孙永恒, 男, 硕士研究生, 研究方向: 智能诊疗.E-mail: 3304925266@qq.com
通信作者: 祖建, 男, 教授, 博士生导师, 研究方向: 生物信息学.E-mail: jianzu@xjtu.edu.cn


摘要: 染色体易位重组位点的识别对很多染色体遗传性疾病的诊断有着重要的意义。本文基于实际诊断中采集到的24类染色体数据和9号正常与异常染色体数据,构建了一套自动识别染色体易位重组位点的模型和方法。首先,对染色体图像进行预处理,得到了方向梯度直方图特征(HOG)和局部二值模式特征(LBP),构建了基于纹理特征的染色体24分类多通道网络模型,分类准确率达到了95.99%;再与ResNet18模型(分类准确率95.86%)进行模型融合,最终分类准确率达到97.08%。其次,将染色体密度谱作为正常和异常染色体的分类特征,采用投票的方法集成支持向量机、随机森林和XGBoost模型,构建了正常和异常染色体的集成分类器,正常和异常9号染色体的分类准确率达到了100%。最后,对于易位的异常染色体,我们提出了基于动态时间规划(DTW)的易位重组位点自动识别算法,在异常染色体的密度谱曲线上找到了重组位点,并映射至染色体G显带模式图,得到标准诊断结果,通过与临床专家的诊断结果进行比较说明了自动识别结果的有效性。本文设计的一套自动识别染色体易位重组位点的模型方法对临床辅助诊断有很大的帮助,有望完善成为一套软件系统应用于临床诊断,提升相关疾病的诊断效率和准确率。
关键词: 染色体分类    异常染色体    重组位点    自动识别    深度学习    
Automatic identification of recombination sites for translocated chromosome
LIU Ziming1, GUO Peihong1, SUN Yongheng1, ZU Jian1, HU Xi2, MA Xinyue3, WU Xiaoming2, WANG Tong4     
1. Interdisciplinary Research Center for Mathematics and Life Sciences, School of Mathematics and Statistics, Xi'an Jiaotong University, Xi'an 710049, China;
2. The Key Laboratory of Biomedical Information Engineering of Ministry of Education, School of Life Sciences and Technology, Xi'an Jiaotong University, Xi'an 710049, China;
3. Health Science Center, Xi'an Jiaotong University, Xi'an 710061, China;
4. Hebei Yanda Lu Daopei Hospital, Langfang 065201, Hebei China


Abstract: Precise identification of recombination sites of translocated chromosome is of great significance for the diagnosis of many chromosomal inherited diseases. Based on the 24 types of chromosome data and the normal and abnormal chromosome 9 data collected in actual diagnoses, a deep learning method was constructed for the automatic identification of chromosomal recombination sites. First, through image preprocessing, the histogram of oriented gradients (HOG) feature and local binary patterns (LBP) feature of chromosome images were obtained. Based on these texture features, a multi-channel classification model was constructed, and the classification accuracy reached 95.99%. By fusing the proposed model with the ResNet 18 model(classification accuracy of 95.86%), the final classification accuracy reached 97.08%. Then, the chromosome density profile was used as the classification feature of normal and abnormal chromosomes. By using voting method to integrate the results of support vector machine, random forest, and XGBoost models, an integrated normal and abnormal chromosome classifier was constructed with a classification accuracy of 100%. After obtaining the abnormal chromosome, based on the method of dynamic time warping (DTW), a DTW automatic identification algorithm of recombination site was developed, and the recombination site on the density profile of abnormal chromosome was found. In addition, the recombination site was further mapped to the G-banded karyotypes. By comparing with the results of clinical experts, the rationality of the model estimated results was verified. The automatic identification method of chromosome recombination sites designed in this paper is of great significance for clinically assisted diagnosis. It is expected to be designed as a software for clinical diagnosis so as to improve the diagnosis efficiency of related diseases.
Key Words: Chromosome classification    Abnormal chromosome    Recombination site    Automatic identification    Deep learning    
染色体是人类遗传物质(DNA)的载体,在人类体细胞中共有46条染色体,22对为与性别无关的常染色体,剩余的两条为性染色体,其中女性性染色体成对出现表现为XX,男性为XY[1]。任何的染色体异常都会导致很严重的疾病,如子代流产、死胎、新生儿死亡、先天畸形、智力低下、发育迟缓以及血液肿瘤疾病等[2]。染色体的异常包括数目异常和结构异常,分别是指整条染色体的增加或减少和染色体部分片段的断裂重组,这些异常的判断需要由训练有素的专业人员基于细胞分裂至中期的显微镜观察图,先进行染色体核型分析[3],再从核型中判断染色体是否异常,整个流程费时、费力。随着遗传病诊断需求的增加,染色体自动分类和异常诊断日渐重要,因此发展染色体核型的自动分析方法和异常染色体的自动识别方法来辅助临床诊断是非常有必要的。

染色体核型分析最为关键的一步是染色体分类,该任务实质上属于图像分类问题。早期的染色体分类问题,通过提取染色体的视觉特征,构建分类器进行分类,MARKOU[4]等通过提取染色体特征,构建支持向量机(SVM)分类器,染色体分类达到93.5%的准确度。自卷积神经网络(CNN)提出以来,利用CNN进行图像分类的研究越来越多,CNN结构来自HUBEL和WIESEL对猫的视觉皮层的建模[5],有着强大的特征提取功能,基于早期CNN的改进模型如AlexNet[6]、VGG[7]、ResNet[8]等一系列网络不断刷新了图像分类的准确度。目前已有一些研究将CNN方法应用于染色体分类:HU[9]等人构建了一个6层卷积层,3层池化层和4层随机失活层以及2个全连接层对染色体进行了24分类;SWATI[10]等人提出一种自动矫直染色体的方法后输入孪生网络对染色体进行24分类,实验表明比常规的CNN分类更高;SHARMA[11]采用众包预处理得到单条染色体,然后输入CNN网络进行分类。

对于染色体异常识别问题,WANG[12]等人结合染色体大小、平均灰度、标准差、着丝粒指数、最暗带指数以及最暗带比来识别22对染色体,然后运用模板匹配方法进行正常/异常分类,达到了93.3%的准确度;SAEID[13]等人根据形态特征(长度、长短臂比值)对染色体的异常进行了识别。

对于易位重组位点的自动识别问题,LEGEAND[14]等结合不同核型指定参考染色体密度谱后,采用动态时间规划方法(DTW)对染色体密度谱进行了易位重组位点识别。

但是,目前染色体分类和异常染色体易位重组位点的自动识别方法还存在一些不足。首先,现有的染色体类别识别往往都基于一个具体的分类网络进行,特征提取能力有限,因此本文针对染色体24分类,利用基于纹理特征的多通道模型进行特征提取,并和ResNet18基本模型进行模型融合,构建了整合的染色体分类网络。其次,大多异常染色体判别方法都是基于染色体的多个形态特征进行识别,然而当染色体发生易位时密度谱特征是变化最为明显的特征,因此本文采用密度谱作为异常染色体判别的主要特征,集成支持向量机、随机森林和XGBoost模型进行异常染色体判别。最后,异常染色体中易位重组位点的自动识别方法目前也较少有人研究,本文借助于DTW算法在判别序列相似度方面的优势,用于染色体密度谱序列进行易位重组位点的判别,并在临床数据中进行了验证。此外,本文通过以上的研究能够构建一套比较完整的易位重组位点的自动识别流程,有较强的现实意义和应用价值。

1 数据集介绍1.1 数据来源数据来源于河北燕达陆道培医院,其中包含准确分类的1-22号常染色体、X、Y性染色体,共24类;异常染色体t(9;22) (q34;q11.2),即9号、22号易位染色体(t(9;22) (q34;q11.2)表示9号染色体3区4带和22号染色体1区1带发生易位)。所有数据来自显微镜拍摄的样本,染色体类型由专业医师确认。

1.2 染色体分类数据集该数据集包含了专业医师手动分割出的24类染色体,每一类染色体含有179张左右的染色体图片,24号染色体为男性性染色体仅有28张图片,共计4 108张,数据具体情况(见表 1),下载地址http://gr.xjtu.edu.cn/web/jianzu/useful-links。

表1(Table 1)
表 1 24类染色体分类数据信息汇总Table 1 Summary of data information for 24 classes of chromosomes 染色体类别 染色体数目/条 染色体类别 染色体数目/条

1号 169 13号 179

2号 178 14号 179

3号 179 15号 179

4号 179 16号 179

5号 179 17号 179

6号 179 18号 179

7号 179 19号 179

8号 179 20号 178

9号 178 21号 182

10号 179 22号 179

11号 179 X 152

12号 179 Y 28



表 1 24类染色体分类数据信息汇总Table 1 Summary of data information for 24 classes of chromosomes


1.3 正常和异常9号染色体数据集该数据集包含了正常的9号染色体图片和发生易位的9号染色体图片(异常),其中正常染色体图片有61张图片,异常染色体有53张图片,数据量描述如表 2所示,下载地址http://gr.xjtu.edu.cn/web/jianzu/useful-links。

表2(Table 2)
表 2 正常和异常9号染色体数据信息汇总Table 2 Summary of data information for normal and abnormal chromosomes 9 染色体类别 染色体数量/条

正常 61

异常 53



表 2 正常和异常9号染色体数据信息汇总Table 2 Summary of data information for normal and abnormal chromosomes 9


2 染色体重组位点自动识别研究框架本研究旨在建立一套自动识别染色体易位重组位点的方法流程。总体流程图(见图 1),首先,结合带有标签的24类染色体数据,构建染色体类别识别网络,提出基于纹理特征的多通道网络模型进行染色体24分类,再与ResNet18基本模型进行模型融合,预测染色体的类别。然后,对每一类染色体,构建染色体易位异常识别模型,结合带有正常和异常标签的9号染色体,基于染色体密度谱序列利用投票的方法集成支持向量机、随机森林和XGBoost分类模型,构建了染色体异常判别器。最后,基于识别出的异常染色体的密度谱,利用动态时间规划(DTW)算法计算出了发生易位的重组位点。本文接下来的3节分别对该框架的染色体类别识别、异常染色体判别和重组位点计算进行详细介绍。

图 1(Figure 1)
图 1 染色体重组位点自动识别总体流程图Figure 1 Overall flow chart of automatic identification of chromosome recombination sites


3 基于特征融合的染色体类别识别方法不同类别的染色体在长度、条带、长短臂比例等多方面有着较大的区别,在有限的数据集下训练卷积神经网络难以提取到深层的特征,如何充分利用现有数据成为关键。

一方面,通过随机旋转10度、随机中心裁剪、随机水平翻转进行数据增强,实验表明这有效地增强了分类的效果。另一方面,不仅仅直接使用统一维度(224×224)的原始图像数据训练了ResNet18基础网络模型,还通过对染色体图像进行预处理,提取了纹理特征,得到方向梯度直方图特征(HOG)和局部二值模式特征(LBP),并同时输入ResNet18网络模型,训练了多通道网络模型。相比ResNet18基础网络模型,基于纹理特征的多通道网络模型更注重染色体条带间的灰度变化信息,而ResNet18基础网络模型由于没有直接利用提取好的纹理特征,会更注重染色体的轮廓信息等。

最后,在现有数据上进行了24分类的测试。由于数据有限,我们对ResNet18基础网络模型和基于纹理特征的多通道网络模型都进行了4折交叉验证,最后把训练完成的两个模型进行融合,预测染色体的类别。本文设计的分类流程如(见图 2)。

图 2(Figure 2)
图 2 染色体24分类流程图Figure 2 Flow chart of chromosome 24 classification


3.1 基于纹理特征的多通道染色体分类模型首先,将原始图片转化为224×224,通过LBP映射、HOG映射预处理,得到LBP特征图、HOG特征图。然后,再把LBP特征图、HOG特征图和原始染色体图像组合为3×224×224的多通道输入。

具体的多通道输入模型为经过调整的ResNet18模型,将最后一层调整为一个(512,24)的全连接层以适应我们的分类任务。同时,训练了维度为224×224单通道原始图像作为输入的ResNet18基础网络模型。2个模型都采用了部分ImageNet预训练的参数进行初始化,并利用数据增强和4折交叉验证以增强分类的效果。

3.2 模型融合对ResNet18基础网络模型和基于纹理特征的多通道网络模型分别进行4折交叉验证,可以分别得到4种不同训练集、验证集划分,相当于2个子模型一共训练了8种情形。这8种情形在同一个测试集上可以得到共8个特征图,每个特征图的维度为训练批次数目×训练批次大小×24,最后一个维度对应了标签的独热编码。

模型融合的方式是把2个子模型得到的共8个特征图在最后一个维度相加(与取平均等价),得到的结果取最大值,得到输出的预测标签,与真实标签比对,最终得到分类准确率。

3.3 损失函数本文讨论的染色体类别识别问题是一个24分类问题,因此可以直接使用基本的多类别交叉熵损失。对于样本数据集(X, Y)={(xi, yi)}, yi为真实标签, 现在有24个类别标签,第i个样本第k个标签的预测概率记为pi, k,则该多分类网络的损失函数为:

$L\left( {X, Y, P} \right) = - \frac{1}{N}\sum\limits_{i = 1}^N {\sum\limits_{k = 1}^{24} {{y_{i, k}}} } \log \left( {{p_{i, k}}} \right).$

4 基于密度谱的异常9号染色体判别方法4.1 染色体密度谱计算方法染色体密度谱是指染色体横截面处灰度值的均值构成的序列,其计算过程由算法1给出:


算法1 ????染色体密度谱曲线计算算法

Require已经分割好的染色体图像M

Ensure:染色体图片无多余的白边

1:计算染色体的长度L,宽度W

2:从1到L遍历染色体每一位点,计算横截面处灰度均值m

3:for i = 1 to L do

4:????????for j = 1 to W do

5:??????????????????????$ {m_i} = \sum\nolimits_j {{M_{ij}}/W} $

6:?????????end for

7:end for

8: 得到的M=m1, m2, ..., mL即为染色体的密度谱序列






由于不同类别的染色体有着唯一的带状信息,因此密度谱序列能够直接反映染色体的带状信息。因此当染色体发生易位时,会直接反映在密度谱序列上,图 3展示了正常和异常染色体密度谱的序列图,红色曲线代表正常9号染色体的密度谱,蓝色曲线代表异常9号染色体密度谱。

图 3(Figure 3)
图 3 正常和异常9号染色体密度谱曲线图Figure 3 Density profiles of normal and abnormal chromosomes 9


4.2 异常染色体判别器构建传统的染色体易位异常的判断是依靠专业人员进行判断,这种判别方式耗费人力和时间,因此本文基于带有标签的9号正常和异常染色体数据,构建分类器模型来自动判别正常和异常染色体。在训练集上分别训练支持向量机,随机森林和XGBoost分类器,在测试集上采用投票法对三种分类器的分类结果进行投票融合(见图 4),得到最终的正常/异常预测结果。

图 4(Figure 4)
图 4 异常染色体集成识别器构建流程图Figure 4 Flow chart of integrated identifier for abnormal chromosomes


5 基于DTW的染色体重组位点识别方法在识别出染色体类别并识别出异常染色体之后,进一步需要识别染色体发生易位后的重组位点。动态时间规划方法(DTW)是一种衡量不同长度序列之间相似度的方法,本文基于此方法进行重组位点的计算,基于动态时间规划方法(DTW)的易位重组位点识别算法由算法2给出:


算法2 ????基于动态时间规划方法(DTW)的易位重组位点识别算法

Require正常染色体密度谱序列X=x1, x2, ..., xn

???????异常染色体密度谱序列Y=y1, y2, ..., ym

Ensuremn

1:计算序列两点之间的欧式距离:D(xi, yj), 1≤in, 1≤jm

2:找出距离矩阵D(xi, yj)中从D(1, 1)到D(m, n)的最短距离dij

3:for i = 1to m do

4:??????????DTWi=DTW(X, (y1, ..., yi))

5:end for

6:min(DTWi)对应的位点i即为计算出的重组位点






通过第3,4,5节提出的方法,输入单张染色体图像即可识别染色体类别和判别其是否异常,并自动识别易位异常染色体的重组位点。

6 实验及结果6.1 染色体24分类结果对收集到的4 108张染色体图像数据集按照8∶1∶1的比例进行训练集、验证集和测试集的划分。首先,通过3.1提出的染色体特征提取方法进行特征提取,网络参数由表 3给出,将得到的特征进行融合后进行全连接分类,得到准确率曲线(见图 5)。

表3(Table 3)
表 3 染色体24分类网络参数说明Table 3 Parameter description of chromosome 24 classification network 子模型 输入特征图维度 数据增强 预训练 交叉验证

基于纹理特征的多通道网络模型 3×224×224 √ √ 4折

ResNet18基本模型 224×224 √ √ 4折



表 3 染色体24分类网络参数说明Table 3 Parameter description of chromosome 24 classification network


图 5(Figure 5)
图 5 染色体24分类模型准确率曲线图Figure 5 Accuracy curves of chromosome 24 classification model


用测试集对ResNet18基本模型、基于纹理特征的多通道网络模型和两模型的融合模型进行测试,分类准确率分别达到了95.86%,95.99%和97.08%。换句话说,融合模型达到了更好的分类效果。为了分析融合分类模型对每一类染色体的分类情况,计算得到的混淆矩阵(见图 6),从混淆矩阵可以得到,有20类染色体的分类准确率均达到了95%及以上。只有第17类染色体的分类精度较低,说明对应的图像数据提取出的特征代表性还不够,会与9号和10号染色体混淆。特别地,对于23和24号染色体,即X、Y性染色体,尽管数据较少,但是用融合模型得到的分类准确率都达到了97%。

图 6(Figure 6)
图 6 染色体24分类混淆矩阵Figure 6 Confusion matrix of chromosome 24 classifications


6.2 异常染色体判别结果按照16∶4∶5的比例对115张正常和异常9号染色体数据集进行训练集、验证集和测试集的划分,采用公平投票的方式在测试集上对第4.2节得到的判别模型进行测试,正常和异常染色体判别准确率均达到了100%。这表明基于密度谱特征构建分类器对染色体易位异常进行判别是非常有效的。

6.3 重组位点识别结果首先,计算标准密度谱:使用专家确定的10条正常染色体,计算10条染色体的平均长度和宽度,为了统一标准,将10条染色体的长度和宽度规范化为平均长度100和宽度50,按照算法1计算密度谱,取该10条正常染色体密度谱的均值作为标准的参考密度谱A;

其次,计算异常染色体的密度谱:按照算法1计算待识别的异常染色体的密度谱序列B;

最后,计算易位位点: 按照算法2通过序列A和B计算易位重组位点。

选择了27张异常的9号易位染色体进行易位重组位点识别测试,得到的部分识别结果(见图 7)。

图 7(Figure 7)
图 7 易位重组位点识别结果图Figure 7 Identification results of translocation recombination sites


由图 7可以看出利用算法2可以准确定位出发生易位的位点。由于计算出的位点是基于图片像素位点,医学上将染色体的条带信息进行编号得到染色体G显带模式图,将计算的像素位点映射到染色体G显带模式图上,得到临床上的位点描述,可以得到发生易位的区域均在9号染色体的3区4带,这与临床医生根据原始数据的诊断结果一致,说明本算法可以较为准确的识别染色体易位的发生区域。

7 讨论染色体易位重组位点的自动精准识别对辅助临床诊断具有重要的应用价值。本文结合河北燕达陆道培医院采集到的24类染色体数据和9号正常与异常染色体数据,构建了一套自动识别染色体易位重组位点的模型和方法。对于任意给定的一对染色体图像,我们首先可以自动将其进行分类;如果是9号染色体,我们可以进一步判断它是正常染色体还是易位异常染色体;如果是易位异常染色体,我们还可以进一步自动判断其易位的重组位点,具有较高的准确率。本论文的主要创新点包括: 第一,通过将染色体灰度图像转换成密度谱曲线,将染色体密度谱曲线作为正常和易位异常染色体的分类特征,采用集成分类器的分类方法,使得正常和异常染色体的分类准确率达到了100%。第二,基于动态时间规划(DTW)的算法,我们设计了染色体易位重组位点的自动识别算法,在异常染色体的密度谱曲线上准确找到了重组位点,并映射至染色体G显带模式图上,得到的诊断结果与临床专家的诊断结果一致,相关方法也可以应用到其他类别异常染色体重组位点的识别。具体来讲,本文提出的模型和方法具有以下优点和可以进一步改进的地方:

首先,为了提取染色体更多的纹理特征,本文在ResNet18基本模型的基础上,提出了基于纹理特征的多通道网络模型和融合模型,进行了特定的特征提取和特征融合,同时辅以数据增强,有利于对染色体图像特征的提取,且分类准确度达到了较高的水平。从表 4可以看出,相比已有研究结果,我们提出的融合模型达到了较好的分类预测效果。但是由于临床数据不易获取,目前训练和测试数据的数量有限,数据在质量上也存在显著的类别间不平衡因素和图像质量的问题,随着不同类型染色体数据的不断收集和增强,以及更高级针对小样本数据的智能学习方法、稳健方法的应用,本文提出的分类模型将达到更高的准确率。

表4(Table 4)
表 4 染色体分类结果比较Table 4 Comparison of chromosome classification results 方法 引用 数据量/张 准确度/%

CNN HU[9] 4 368 93.79

Siamese Networks SWATI[10] 1 740 84.60

Crowdsourcing CNN SHARMA[11] 1 800 86.70

Our Proposed Method — 4 108 97.08



表 4 染色体分类结果比较Table 4 Comparison of chromosome classification results


其次,在染色体异常判别分析中,WANG[12]等人运用模板匹配方法进行正常/异常染色体分类,达到了93.3%的准确度。然而,我们基于密度谱曲线特征,采用集成的思想融合多个分类器,对9号正常和异常染色体的判别准确率达到了100%,取得了更好的效果。后续可以继续收集22号或者其他类别异常染色体的数据信息,可将此集成分类器应用于22号或其他类别染色体的异常识别。

最后,本文基于动态时间规划方法(DTW)对9号易位染色体进行了易位重组位点的识别,能准确的定位到易位发生的区域,并通过与临床专家诊断的结果进行比较,验证了算法的有效性和可信度。相关识别方法可推广至22号或者其他类别染色体易位点的识别。但是由于图像质量的影响,有少数的易位重组位点识别不准确,因此对于染色体图像质量的增强、评估是一个很好的改进方向。此外,构建一个正常染色体的标准密度谱曲线数据库,也将大大提高重组位点的识别准确率。

8 结论总的来讲,基于24类染色体灰度图像数据和9号正常与易位异常染色体数据,本文提出了一套自动识别易位染色体重组位点的方法流程。基于多网络提取特征和模型融合的染色体分类网络的设计,加强了染色体特征提取的能力,达到了较高的分类准确率。基于特定纹理特征融合的染色体分类方法在我们的测试数据上达到了97.08%的分类准确率;基于密度谱曲线的正常和异常染色体判别器在目前的数据集上达到了100%的分类准确率,说明利用密度谱这一特征进行染色体异常判别是非常有效的。对于异常染色体,基于动态时间规划方法(DTW)对重组位点进行了识别,计算出可能的重组位点并映射至染色体G显带模式图上,得出了临床直观的诊断结果,并由临床专家进行判断检验,提升了本文算法的可信度。本文提出的自动识别易位重组位点的方法流程具有较强的现实意义,有望完善和设计成一套软件系统,应用于临床实践。


参考文献
[1] TANVI A, RENU D. Geometric feature-based classification of segmented human chromosomes[J]. International Journal of Image and Graphics, 2020, 20(1): 2050006. DOI:10.1142/S0219467820500060 (0)


[2] 张成成, 宋婕萍, 徐淑琴, 等. 基于深度卷积神经网络对中期染色体分类的应用于研究[J]. 中国临床新医学, 2020, 13(2): 123-124.
Zhang Chengcheng, SONG Jieping, XU Shuqin, et al. Application of deep convolution neural network in metaphase chromosome classification[J]. New Clinical Medicine in China, 2020, 13(2): 123-124. DOI:10.3969/j.issn.1674-3806.2020.02.04 (0)


[3] NATARAJAN A T. Chromosome aberrations: Past, present and future[J]. Mutation Research, 2002, 504(1): 3-16. DOI:10.1016/S0027-5107(02)00075-1 (0)


[4] MARKOU C, MARAMIS C, DELOPOULOS A, et al. Automatic chromosome classi cation using support vector machines[R]. Thessaloniki: Aristotle University of Thessaloniki, 2012. (0)


[5] HUBEL D H, WIESEL T N. Receptive fields of single neurones in the cat's striate cortex[J]. The Journal of Physiology, 1959, 148(3): 574-591. DOI:10.1113/jphysiol.1959.sp006308 (0)


[6] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[J]. Neural Information Process Systems, 2012, 25: 1-9. DOI:10.1145/3065386 (0)


[7] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//International Conference on Learning Representations (ICLR), 2015: 1-14. https://arxiv.org/abs/1409.1556. (0)


[8] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-774. DOI: 10.1109/CVPR.2016.90. (0)


[9] HU Xi, YI Wenling, JIANG Ling, et al. Classification of metaphase chromosomes using deep convolutional neural network[J]. Journal of Computational Biology, 2019, 26(5): 473-480. DOI:10.1089/cmb.2018.0212 (0)


[10] SWAT I, GUPTA G, YADAV M, et al. Siamese networks for chromosome classification[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 72-81. DOI: 10.1109/ICCVW.2017.17. (0)


[11] SHARMA M, SAHA O, SRIRAMAN A, et al. Crowdsourcing for chromosome segmentation and deep classification[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops Honolulu: IEEE. 2017: 34-41. DOI: 10.1109/CVPRW.2017.109. (0)


[12] WANG Xingwei, ZHENG Bin, LI Shibo, et al. Automated identification of abnormal metaphase chromosome cells for the detection of chronic myeloid leukemia using microscopic images[J]. Journal of Biomedical Optics, 2010, 15(4): 046026. DOI:10.1117/1.3476336 (0)


[13] SAEID A, HASSAN K, MAHLAGHA A, et al. Automatic identification of chromosomal abnormalities in metaphase karyotype using paired images in human chromosomes[C]//International Conference on Knowledge-Based Engineering and Innovation(KBEI), 2015: 762-769. DOI: 10.1109/KBEI.2015.7436140. (0)


[14] LEGEAND B, CHANG C S, ONG S H, et al. Automated identification of chromosome segments involved in translocations by combining spectral karyotyping and banding analysis[J]. IEEE Transactions on Systems, 2008, 38(6): 1374-1384. DOI:10.1109/TSMCA.2008.2003963 (0)



相关话题/临床 西安交通大学 数据 疾病 数学

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 针对网级评估的区域桥梁信息集成与数据挖掘
    针对网级评估的区域桥梁信息集成与数据挖掘夏烨1,雷晓鸣1,王鹏2,刘国明3,孙利民4(1.同济大学土木工程学院,上海200092;2.上海临港经济发展(集团)有限公司,上海201306;3.河北省交通规划设计院,石家庄050011;4.土木工程防灾国家重点实验室(同济大学),上海200092)摘要: ...
    本站小编 Free考研考试 2021-12-04
  • 基于TCGA数据库分析甲状腺癌基因表达谱
    基于TCGA数据库分析甲状腺癌基因表达谱赵国连1,王冀邯2,崔晓利1(1.西安市胸科医院检验科,西安710100;2.西北工业大学医学研究院,西安710072)摘要:为分析甲状腺癌基因表达谱,筛选疾病相关的基因标志物。基于肿瘤基因组图谱(TCGA)数据库中的甲状腺癌基因表达数据,运用R/Biocon ...
    本站小编 Free考研考试 2021-12-04
  • 利用TCGA数据库构建肾透明细胞癌相关miRNA预后模型
    利用TCGA数据库构建肾透明细胞癌相关miRNA预后模型高艾,王昕苑,苏依琳,苏龙龙,张建辉,牛晓辰(山西医科大学,太原030000)摘要:利用TCGA数据库中肾透明细胞癌的miRNA与mRNA数据及临床信息,构建由miRNA组成的预后风险评分模型,并筛选与生存预后相关的miRNA-mRNA调控关系 ...
    本站小编 Free考研考试 2021-12-04
  • MAML2基因表达及临床参数与低级别胶质瘤(LGG)患者的诊断及预后价值
    MAML2基因表达及临床参数与低级别胶质瘤(LGG)患者的诊断及预后价值李文才,夏少怀,夏学巍,王文波,陈力(桂林医学院附属医院神经外科,广西桂林541001)摘要:脑胶质瘤(Glioma)是最常见的中枢系统恶性肿瘤,MAML2是NOTCH信号通路的共激活因子,通过癌基因组数据库(TCGA)分析验 ...
    本站小编 Free考研考试 2021-12-04
  • 低时延传输的ERDQN数据调度算法
    低时延传输的ERDQN数据调度算法常梦磊,罗述翔,李幸睿,李鲁群(上海师范大学信息与机电工程学院,上海201418)摘要:针对车载网络、远程医疗、工业控制等领域需要低时延、高可靠性的网络传输应用场景,提出了一种经验回放的DQN(experiencereplayDQN,ERDQN)数据传输调度算法。该 ...
    本站小编 Free考研考试 2021-12-04
  • 人类疾病遗传易感性研究方法进展
    人类疾病遗传易感性研究方法进展刘天资1,王国经2,周丁华2(1.中国科学院北京基因组研究所精准基因组医学重点实验室,北京1001012.中国人民解放军火箭军特色医学中心,北京100088)摘要:遗传易感性是指基于个人遗传背景的多基因遗传病发病风险,即来源于父母一方或双方的特定遗传变异在某些情况下会诱 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 边界数据浸入法在弱可压缩流动中的应用
    边界数据浸入法在弱可压缩流动中的应用赵体豪1,赵欣2(1.北京理工大学机械与车辆学院,北京100081;2.北京理工大学宇航学院,北京100081)摘要:受限于计算机的计算能力与计算的成本,实际的计算过程中,往往要对流体做出一些物理假设,如无粘流体、不可压缩流体等,但是这将给计算带来不同程度的误差. ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 分段自适应阈值小波的地铁塞拉门数据压缩方法
    分段自适应阈值小波的地铁塞拉门数据压缩方法李城汐,蒋启龙,陆凡,刘东(西南交通大学电气工程学院,成都610000)摘要:针对地铁塞拉门进行PHM应用诊断时产生海量数据的压缩问题,提出一种基于分段自适应阈值的小波压缩算法,通过原始数据的自适应分段和自动调节各段阈值放大系数,实现了兼顾精度和大压缩比的数 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 控制工程专硕去年公共课考试改成了数学一英语一
    提问问题:调剂学院:电气工程学院提问人:18***30时间:2017-09-1915:35提问内容:老师您好,燕山大学控制工程专硕去年公共课考试改成了数学一英语一,如果报考其他学校的专硕考的数学二英语二,是否符合接近科目调剂呢?回复内容:不符合, ...
    本站小编 燕山大学 2019-11-26
  • 学科数学
    提问问题:学科数学学院:教师教育学院提问人:13***26时间:2019-09-2316:11提问内容:老师您好,我想问一下今年学科数学为什么会缩招呀缩招之后试卷难度会不会变大?学科数学今年推免生大概有几个回复内容:招生计划是根据我校实际情况制定的,试题难度无法回复,抱歉。推免生暂不确定。欢迎报考河 ...
    本站小编 河北师范大学 2019-11-26