1. 东北大学 中荷生物医学与信息工程学院, 辽宁 沈阳110169;
2. 山东中医药大学 理工学院, 山东 济南 250355
收稿日期:2017-05-08
基金项目:国家自然科学基金资助项目(61672146, 81671773)。
作者简介:魏国辉(1983-), 男, 山东广饶人, 东北大学博士研究生;
钱唯(1955-), 男, 美籍华人, 东北大学教授, 博士生导师。
摘要:为了克服肺部病变CT表现复杂, 极易造成医生误诊的缺点, 提出了一种基于相似性度量的医学图像检索算法并用于肺癌的诊断研究, 该相似性度量保持了图像的语义相关和视觉相似.首先,根据相似性度量理论构建距离度量学习算法学习一个马氏距离;然后,根据学习的马氏距离度量, 提出新的医学图像检索算法, 并将提出的算法应用于肺癌的诊断研究.实验结果证明了该检索算法在肺癌诊断应用中的可行性和有效性.
关键词:医学图像检索肺癌相似性度量距离度量学习纹理特征
Image Retrieval Algorithm of Pulmonary Nodules Based on Similarity Measurement
WEI Guo-hui1,2, QI Shou-liang1, QIAN Wei1, ZHANG Kui-xing2
1. School of Sino-Dutch Biomedical & Information Engineering, Northeastern University, Shenyang 110169, China;
2. School of Science and Engineering, Shandong University of Traditional Chinese Medicine, Jinan 250355, China
Corresponding author: QI Shou-liang, E-mail: qisl@bmie.neu.edu.cn
Abstract: In order to overcome the shortcomings that CT of pulmonary lesions is complex and is very easy to lead to misdiagnosis, a medical image retrieval algorithm based on similarity measurement was proposed to diagnose lung cancer. The similarity measurement maintains the semantic relevance and visual similarity of the image. Firstly, a distance metric learning algorithm was constructed to learn a Mahalanobis distance on the basis of the proposed similarity measurement. Secondly, a novel medical image retrieval algorithm was proposed based on the learned distance metric to diagnose lung cancer. The study results demonstrate the feasibility and effectiveness of the proposed retrieval algorithm in lung cancer diagnosis.
Key words: medical image retrievallung cancersimilarity measurementdistance metric learningtexture features
肺癌是世界上死亡率最高的癌症.早期筛查和诊断已经被证明可以显著提升肺癌的5年期存活率.计算机辅助断层扫描(CT)影像具有较高的密度分辨率, 在断层上可以明显区分正常解剖结构和病理表现, 从而成为早期肺癌筛查的最好的影像学方法.但是, 肺部病变的CT表现非常复杂, 极易造成医生的误诊.为了克服该缺点, 计算机辅助诊断已经被提出来帮助医生做出更好的决策.
基于内容的医学图像检索是一种计算机辅助诊断方法, 它可以从较大的数据库中搜索与待诊断的肿瘤相似的肿瘤, 从而辅助医生诊断癌症.医学图像检索的主要挑战包括:肿瘤图像特征提取, 用于精确地表示肿瘤图像; 相似性度量的定义, 以提取的特征作为指标在肿瘤图像库中快速检索.Gundreddy等[1]提出一个两步医学图像检索方案用于辅助诊断乳腺癌的良恶性, 其中每一个乳腺肿块由两个密度相关的特征表示.Cho等[2]开发了一个决策树医学图像检索诊断系统, 用于评估超声影像中乳腺肿瘤的恶性程度.Dubey等[3]和Xu等[4]应用医学图像检索技术辅助肺癌的诊断.但是上述的方法主要聚焦于肿瘤的特征表示, 而没有对相似性度量进行深入研究.
本文系统研究了医学图像检索的关键技术, 提出一个基于相似性度量的医学图像检索算法, 用于辅助诊断肺结节良恶性.实验结果证明了所提算法对于肺结节良恶性诊断的有效性和可行性.
1 基于相似性度量的图像检索算法医学图像检索是为了从数据库中检索出和待诊断的肿瘤相似的肿瘤, 从而为医生诊断提供参考.相似性度量的定义通常会考虑使用距离度量, 如欧氏距离.因此, 距离度量的选择会影响医学图像检索系统精度.本节首先提出一个新的距离度量学习算法用于学习马氏距离度量, 然后使用学习到的马氏距离计算肿瘤图像特征的相似性.
1.1 图像的相似性度量相似性度量包含语义相关度量和视觉相似度量[5].语义相关依赖于肿瘤图像的良恶性标签, 如果两幅肿瘤图像都是良性的或恶性的, 则表示这两幅图像在语义上是相关的.视觉相似则是指特征相似性, 主要是从人类视觉的角度表征肿瘤图像相似性.
1.2 马氏距离度量学习算法在本文中, 1n∈Rn表征全1向量, In∈Rn×n表示单位矩阵.数据集被定义为X={x1, x2, …, xn}, xi ∈Rd是输入空间中的第i个数据, n是整个数据集的样本数.为了更好地阐述, 使用矩阵表示数据为X=[x1, …, xn]∈Rd×n.
数学上, 任意数据样例之间的马氏距离被定义为[6]
(1) |
(2) |
定义Y∈Rn×r(1 < r < d)是一个数据样本集X∈Rd×n的低维特征表示, 其中r是降维空间的维度.这样, yi=ATxi, i=1, …, n, 即Y=XTA.因此, 研究一个线性降维, 即, 研究一个变换矩阵A∈Rd×r, 使得样本集X的嵌入表示Y为Y=XTA.如果计算获得A, 则M=AAT,进而可以计算获得马氏距离dM(xi, xj).
本文学习一个马氏距离度量来同时保持肿瘤图像的语义相关和视觉相似.因此, 需要从这两方面考虑矩阵A.
1.2.1 语义相关度量语义相关是从语义的角度描述肿瘤图像的相似性.如果两幅肿瘤图像标签相同, 表示这两幅图像在语义上是相关的.本文使用差分散度判别准则(DSDC)[7]度量语义相关, 即:
(3) |
本文使用的输入数据是有标签的训练数据,即式(3)的另外一种形式,
(4) |
1.2.2 视觉相似度量视觉相似是指特征相似性, 主要是从人类视觉的角度表征肿瘤图像相似性.视觉相似为原始输入空间中基于最小欧氏距离的肿瘤图像的视觉特征.根据块对齐框理论[9], 需要最小化新的特征表示Yj和第j个数据块的线性映射的误差, 然后排列所有的块.
给定一个样本xi∈X和它的局部数据块Xi, Xi是由xi的k-近邻构建, 表示为Xi=[xi, xi1, xi2, …, xik]∈Rd×(k+1).存在一个线性变换模型fi:Xi->Zi, Zi=XiTWi+1k+1biT, 可以将每一个Xi映射为新的特征, 即:Yi=[yi, yi1, …, yik]T∈R(k+1)×r, Wi∈Rd×r是局部映射矩阵, bi ∈Rr是偏置.数据块和近邻是由欧氏距离选择的.
为了学习该线性变换模型, 需要最小化局部数据块的变换误差:
(5) |
假设Xi是中心化的, 则Xi1k+1=0d.为了获得式(5)的最优解, 设置式(5)关于bi和Wi的导数为0, 然后得到解如下:
(6) |
(7) |
在获得Li之后, 全局对齐如下:
(8) |
(9) |
根据线性假设Y=XTA, 得到全局数据块误差:
(10) |
1.2.3 目标函数组合来自于式(4)的实证拟合项和来自于式(10)的正则项, 整个的半监督学习目标函数可以计算如下:
(11) |
在学习距离度量的时候, 希望尽可能地避免数据低维表示的冗余.其中一个方法是使投影方向正交, 即:
(12) |
1.3 医学图像检索算法医学图像检索算法描述如下:
给定医学图像样本特征集合X=[x1, x2, …, xn]∈Rd×n, X划分为两类:训练集X1和测试集X2.
1) 根据训练集X1计算马氏距离度量.
2) 计算测试样本和训练集中样本的马氏距离, 并从小到大排列.
3) 根据检索结果, 确定测试样本的诊断结果.
2 肺结节数据集提取本文选取LIDC-IDRI肺癌数据库作为研究对象[10], 每一个病例包含一个XML文件, XML文件包含所有肺结节的标注信息, 包括肺结节的轮廓坐标, 以及肺结节的恶性程度:1—高度不可能, 5—高度可能.构建肺结节数据库, 提取肺结节的步骤如下:
1) XML文件处理.根据放射学专家的肺结节手绘轮廓信息, 选取包含最大肺结节轮廓的切片.并从XML文件中读取专家对肺结节恶性程度的标注, 并计算均值, 如果均值大于等于3.5, 则认为该结节是恶性的; 反之, 如果均值小于等于2.5, 则认为该结节是良性的.
2) 肺结节轮廓绘制.根据放射学专家的轮廓坐标标注, 绘制肺结节轮廓, 形成肺结节二值图像模版.
3) 肺结节轮廓融合.将绘制的4个肺结节轮廓二值图像融合为一个肺结节轮廓.
4) 肺结节提取.根据肺结节轮廓二值图像模版, 从肺CT切片中提取肺结节.
所有提取的肺结节由Haralick纹理特征进行表示, 该特征计算自构建的灰度共生矩阵(相对位移为1和4,方向0, 45°, 90°, 135°).本文计算了除最大相关系数以外的13个度量的均值和方差.因此, 每一个肺结节由26维特征表示.提取的数据集共有746个肺结节, 其中371个良性和375个恶性肺结节.训练数据集是从肺肿瘤数据库中随机挑选的400个结节图像.剩下的346个结节图像作为测试数据集.
3 实验3.1 肺癌诊断方法本文研究采用医学图像检索方法对肺结节的良恶性进行分类.首先基于k-近邻法计算和待查询肺结节最相似的K个参考肺结节.和查询结节的马氏距离最小的K个肺结节即是K个最相似的结节.然后, 计算该查询结节的恶性概率值来评估结节的恶性程度.查询结节的恶性概率公式计算如下(K是检索到的肺结节数量, N是K个结节中恶性肺结节的数量):
(13) |
3.3 实验结果与分析3.3.1 算法参数设置在进行实验测试提出的图像检索算法的分类性能之前, 有几个参数需要设置.本文将分类精度(accuracy)作为参数设置的评估度量, 计算公式如下:
(14) |
图 1(Fig. 1)
图 1 参数设置Fig.1 Parameter configuration |
表 1(Table 1)
表 1 参数值选择Table 1 Selection of parameter values
| 表 1 参数值选择 Table 1 Selection of parameter values |
3.3.2 检索样例图 2展示了良性和恶性结节的检索样例.每一个检索结果都是根据学习的马氏距离计算得出, 然后按照距离递增的方式排列.第一行查询结节的恶性概率为Sq=0.1, 表明该结节是恶性肿瘤的概率非常低; 而第二行结节的恶性概率是Sq=1, 表明该结节极有可能是恶性的.同时可以看出, 查询结节和检索到的结节在语义和视觉上都是相似的.
图 2(Fig. 2)
图 2 查询结节(左)和最相似的10个检索参考结节Fig.2 Query nodules (left) and their top 10 retrieved ROIs |
3.3.3 分类性能比较本研究将测试集肺结节用于检索训练集中的参考肺结节, 检索结果用于绘制受试者操作特征曲线(ROC曲线)并计算ROC曲线下的面积(AUC).本文比较了提出的算法(DPDM)和语义相似性度量(semantic)、视觉相似性度量(visual)的分类性能.欧式距离(Euclidean)作为比较参考列出.从表 2中可以看出, 提出的检索算法的分类性能优于单纯的语义相似性度量和视觉相似性度量.
表 2(Table 2)
表 2 分类精度比较Table 2 Comparison of the classification accuracy
| 表 2 分类精度比较 Table 2 Comparison of the classification accuracy |
3.3.4 检索性能比较本实验将留一法应用于测试集肺结节, 每一次使用一个肺结节作为查询结节, 剩余的结节作为参考肺结节.检索精度的公式定义如下[11]:
(15) |
实验比较了所提算法的距离度量和经典的距离度量LMNN[6], RCA[12], ITML[13]的检索性能.欧式距离是一个比较参考度量.图 3为所提算法度量和比较算法度量的检索精度曲线.从图中可以看出, 所提算法的检索性能优于比较的距离度量的检索性能.
图 3(Fig. 3)
图 3 检索精度比较Fig.3 Retrieval accuracy comparison |
4 结语本文提出了一种新的基于相似性度量的医学图像检索算法, 该算法可以度量查询肺结节图像和参考肺结节图像的相似性, 从而用于肺癌的医学图像检索和诊断.大量的实验验证了医学图像的相似性度量中, 语义相关和视觉相似同样重要.同时实验也证明了该检索算法对肺结节分类的可行性和有效性.未来, 如何将该算法融合到肺癌的计算机辅助诊断系统中是一个值得研究的课题.
参考文献
[1] | Gundreddy R R, Tan M, Qiu Y, et al. Assessment of performance and reproducibility of applying a content-based image retrieval scheme for classification of breast lesions[J].Medical Physics, 2015, 42(7): 4241–4249.DOI:10.1118/1.4922681 |
[2] | Cho H, Hadjiiski L, Sahiner B, et al. A similarity study of content-based image retrieval system for breast cancer using decision tree[J].Medical Physics, 2013, 40(1): 113–132. |
[3] | Dubey S R, Singh S K, Singh R K. Local wavelet pattern:a new feature descriptor for image retrieval in medical CT databases[J].IEEE Transactions on Image Processing, 2015, 24(12): 5892–5903.DOI:10.1109/TIP.2015.2493446 |
[4] | Xu J, Napei S, Greenspan H, et al. Quantifying the margin sharpness of lesions on radiological image for content-based image retrieval[J].Medical Physics, 2012, 39(9): 5405–5418.DOI:10.1118/1.4739507 |
[5] | Yang L, Jin R, Mummert L, et al. A boosting framework for visuality-preserving distance metric learning and its application to medical image retrieval[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2008, 32(1): 30–44. |
[6] | Weinberger K Q, Saul L K. Distance metric learning for large margin nearest neighbor classification[J].Journal of Machine Learning Research, 2009, 10(1): 207–244. |
[7] | Tao D, Li X, Wu X, et al. General tensor discriminant analysis and gabor features for gait recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(10): 1700–1715.DOI:10.1109/TPAMI.2007.1096 |
[8] | Chen L, Xu D, Tsang I, et al. Spectral embedded hashing for scalable image retrieval[J].IEEE Transactions on Cybernetics, 2014, 44(7): 1180–1190.DOI:10.1109/TCYB.2013.2281366 |
[9] | Zhang T, Tao D, Li X, et al. Patch alignment for dimensionality reduction[J].IEEE Transactions on Knowledge & Data Engineering, 2009, 21(9): 1299–1313. |
[10] | Armato S, Mclennan G, Bidaut L, et al. The lung image database consortium (LIDC) and image database resource initiative (IDRI):a completed reference database of lung nodules on CT scans[J].Medical Physics, 2011, 38(2): 915–931.DOI:10.1118/1.3528204 |
[11] | Muramatsu C, Li Q, Suzuki K, et al. Investigation of psychophysical measure for evaluation of similar images for mammographic masses:preliminary results[J].Medical Physics, 2005, 32(7): 2295–2304. |
[12] | Bar-Hillel A, Hertz T, Shental N, et al. Learning a Mahalanobis metric from equivalence constraints[J].Journal of Machine Learning Research, 2005, 6(6): 937–965. |
[13] | Davis J, Kulis B, Jain P, et al.Information-theoretic metric learning [C]// Proceeding of the 24th International Conference on Machine Learning.Corvallis, 2007: 209-216. |