基于三元组网络的单图三维模型检索*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

信息时代的到来为计算机硬件的发展提供了强大的助力，各种媒体数据如音频、视频、图像、三维数据等呈井喷式增长。如何对已获得的海量媒体数据进行智能分析，并设计快速有效的检索方法成为目前的热点问题。如今，三维模型被广泛应用于计算机辅助设计、影视动画、医疗诊断、自动驾驶^[1-2]等众多领域，由于三维视角更贴近于人类日常生活，因此开发便捷的3D应用程序有助于提高工作效率，促进生产发展。公共安全监控视频是维护治安稳定的重要信息资源，利用视频中的图像数据检索三维模型在增强现实、3D打印、3D场景重建等研究中有重要的应用^[3-4]，有助于提高对公共安全监控视频数据内容分析效率和质量，实现警务实战应用系统向高效化、三维化、智能化发展。
近年来，很多****在三维模型检索方面做了卓有成效的工作，取得了一定的成果^[5-7]。但是，已有工作往往属于基于实例的三维模型检索，根据输入三维模型检索同类相似的三维模型，属于同域检索。在实际应用中，用于查询的三维模型往往并不容易获取，相比之下，图像数据的获取则方便得多。因此，基于图像的三维模型跨域检索具有重要的研究意义和应用前景。
基于图像检索三维模型属于跨域检索问题，其输入可以是RGB图像、手绘草图或RGB-D图像，输出为与图像对应的三维模型，本文主要关注基于单幅RGB图像的三维模型检索。近年来，深度学习在二维图像领域取得了显著的成绩^[8-9]，随着大规模三维数据集的建立，深度神经网络在三维模型分析上展现出其强大的特征表示和学习能力。相比于基于手工特征的传统分析方法，利用深度学习解决基于图像的三维模型检索问题能在较短时间内获取更准确的检索结果。
基于图像的三维模型检索方法为模型检索工作带来便利的同时也具有很多挑战：①如何对二维图像和三维模型提取完整有效的特征描述符，为后续的特征相似度度量工作打下良好的基础；②二维图像和三维模型是2种不同模态的数据，如何融合多模态数据，减小其间的语义差异，从而提高模型检索准确度。近期的研究工作通常利用深度学习将图像和三维模型特征映射到同一高维空间来完成跨域检索问题，并取得了不错的成果^[10]。但是这些工作大多是针对手绘草图作为输入来检索三维模型，而在实际生活中，人们更多接触的是带有背景、光照等噪声信息的真实图像，这些噪声信息同时也给检索准确度带来了新的挑战。相较于二维图像而言，三维模型数据包含更加丰富的信息，其特征提取工作也具有更大的难度。目前，用于跨域检索的主流特征提取方法是用一组多角度投影视图表示三维模型^[11]，通过组合视图特征完成对三维模型的特征表示，但是如何减小视图表示三维模型过程中产生的特征损失依然是值得关注的问题。
针对基于图像检索三维模型问题的难点和已有工作的不足，本文设计异构的三元组网络提取图像和三维模型的特征表示向量。其中，三维模型采用一组顺序视图表示，通过距离度量构建特征联合嵌入空间，减小不同模态数据特征的分布差异，实现基于单幅RGB图像的三维模型检索。具体来说，跨域检索三元组网络包含2种结构的分支网络，分别对应于2种模态的输入数据。对于图像输入，设计基于注意力机制^[12]的图像精确特征提取分支网络，实现图像自适应特征细化学习，去除图像中的背景噪声，缩小真实图像与三维模型视图间的语义差异。对于三维模型，将其投影为一组顺序视图，并结合门控循环单元(Gate Recurrent Unit, GRU)^[13]设计三维模型顺序视图特征提取分支网络，在获取每个视图内容信息的同时得到视图间的空间信息，增强三维模型特征表示能力，提高跨域检索准确度。在获取到输入数据的特征表示后，即可通过三元组损失函数将不同模态的数据映射到特征联合嵌入空间，在此空间中，直接计算特征间距离即可度量不同模态数据的相似性。
分别在IM2MN^[14]和MI3DOR^[15]2个跨域检索数据集上进行实验，证明了本文方法的有效性，并提供了定量和定性的评估结果。总体来说，本文的主要贡献如下：
1) 提出了一种跨域检索三元组网络，用于图像与三维模型跨域检索。针对不同模态数据设计适应的特征提取分支网络，实现单幅真实图像到三维模型的端到端检索。
2) 将三维模型投影为一组顺序视图进行表示，设计三维模型顺序视图特征提取分支网络，在图像深度神经网络的基础上加入GRU结构，通过在获取每个视图信息的同时关注视图之间的联系，得到更加完整的三维模型全局特征描述符，从而提高跨域检索准确度。
3) 针对具有复杂背景的真实图像与投影视图之间的语义差异，将图像卷积神经网络(Convolutional Neural Netwoks，CNN)的注意力模块用于图像到三维模型的跨域检索任务，针对真实图像数据设计基于注意力机制的图像精确特征提取分支网络，使得网络在学习图像特征时更关注于对象信息，而不是背景信息，提高跨域检索准确度。
1 相关工作 1.1 基于实例的三维模型检索目前的三维模型检索工作大多是基于实例的三维模型检索，这种方法需要提供一个待查询的三维模型，通过设计三维模型特征描述符提取方法，比较查询模型与模型库中三维模型的相似度完成检索过程，属于同域检索问题^[16-17]。在深度学习发展之前，三维模型的特征表示主要采用几何距离，如欧氏距离^[18]、测地距离^[19]等，还有基于谱形状分析的特征提取方法，如热核特征^[20]和波核特征^[21]等传统方法。随着深度学习的迅速发展，主流的三维模型检索研究利用CNN、自动编码器等深度学习网络模型提取三维形状特征，其可根据三维模型表达方式分为基于体素^[22]、网格^[23]、点云^[24]和视图^[25]的方法。体素表示方法较为简单，可以看作是二维像素到三维的扩展，缺点是需要消耗大量的计算和存储资源^[26]。网格由若干顶点和与其相连的边构成，是三维模型的重要原始表示形式，拥有比其他表达方式更为强大的描述能力，但是由于网格的复杂性和不规则性，目前的方法大多只对平滑的流形网格有效^[27]。点云数据是分布在三维空间中点的集合^[28]，因获取方便而被广泛应用，但是点云数据的旋转性和不规则性给当前研究带来了较大的困难。基于视图的方法用不同角度的投影视图表示三维模型，通过融合二维视图特征得到三维模型特征描述符用于检索任务。Su等^[29]提出了多视图卷积神经网络(Multi-View Convolutional Neural Netwoks，MVCNN)用于学习多视图表示的三维模型。在此基础上，Feng等^[30]提出了分组卷积神经网络(Group-View Convolutional Neural Networks，GVCNN)，通过加入分组模块考虑了视图间的相似性和区分性，提取更完整的三维模型特征。考虑到同一平面视图组的局限性，Jiang等^[31]提出多环视卷积神经网络(Multi-Loop-View Convolutional Neural Networks，MLVCNN)模型，通过分层视图-循环-形状3个层次提取三维模型特征，完成模型检索任务。基于实例的三维模型检索研究中的特征提取方法也可以应用到跨域三维模型检索任务中来，鉴于投影视图与查询图像较为相近，采用基于视图的方法表示三维模型。
1.2 跨域三维模型检索与基于实例的同域检索相比，跨域三维模型检索更适应于媒体数据多样化的发展趋势。Tasse和Dodgson^[32]构建了多模态三维模型检索系统，实现从文本、草图、深度图、真实图像和三维模型等多模态数据检索相似的三维模型。由于基于文本的输入通常过于笼统，无法精确表达目标三维形状，因此激发了对基于图像的三维模型检索研究。
一种方法是利用从图像中提取的手工特征或者学习特征训练分类器，该分类器为每个细粒度类提供三维模型^[33-34]，但是这种方法的检索结果只选择训练过程中出现过的三维模型。为了突破此局限，近期研究的主流方法是将图像和三维模型映射到公共嵌入空间中，并通过距离度量来执行检索任务^[35]。Xiang等^[36]使用单个CNN将RGB图像和RGB渲染图像映射到嵌入空间，并采用基于欧氏距离的损失函数优化训练。Wang等^[37]将孪生网络用于基于草图的三维模型检索，其中一个分支作用于草图域，另一个分支作用于三维模型域，这种方法选择一个“最佳”投影视图表示三维模型，但实际上用单张视图表示三维模型会产生很大的损失，影响检索准确度。Li等^[38]提出了将图像和三维形状共同嵌入同一空间的框架，其中嵌入空间由通过AlexNet^[8]网络提取的图像特征与三维模型多视图的方向梯度直方图(Histogram of Oriented Gradient，HoG)特征之间的距离构建，但是由于需要计算所有训练三维模型对的距离，这种方法不可用于大规模三维形状数据集。Dai等^[39]使用预训练的AlexNet^[8]对草图提取特征，并对三维模型提取具有局部约束线性编码(Locality-constrained Linear Coding，LLC)约束的SIFT特征，再对草图和三维模型得到的特征使用判别性损失函数和相关性损失函数进行度量学习。在后续工作中，Dai等^[40]在此基础上继续提出了DHML(Deep Correlated Holistic Metric Learning)方法，在隐藏层加入损失训练，以鼓励隐藏层中的功能也具有所需的特性，避免梯度消失，帮助网络稳定收敛，从而提高性能。鉴于三元组网络在图像分类检索领域取得了很好的成绩^[41]，Lee等^[14]将其扩展到图像到三维模型的跨域检索领域中，使用2个CNN将RGB图像和投影视图组映射到嵌入空间，但是没有关注真实图像的有效特征提取，而且其提出的跨视图卷积方法会损失视图内容信息，影响检索准确度。
与以上方法不同，本文采用异构的三元组网络构建RGB图像与三维模型的特征联合嵌入空间，并分别设计基于注意力机制的图像精确特征提取算法和基于顺序视图的三维模型特征提取算法，提高不同模态数据特征描述符的辨别力，从而提高跨域检索准确度。
2 基于三元组网络的跨域数据检索方法本文提出一种采用三元组深度神经网络匹配不同模态数据特征的方法，用于基于单幅RGB图像的三维模型检索，图 1给出了本文方法的详细框架。首先，对图像数据和三维模型数据进行预处理，将三维模型投影为一组顺序视图。然后，将图像数据和视图组数据以三元组的形式输入到网络中进行训练，跨域检索三元组网络由2种网络结构组成：一种是用于处理二维图像数据的图像精确特征提取分支网络，另一种是用于视图组数据的三维模型顺序视图特征提取分支网络。最后，在获取到数据的特征向量后，利用三元组损失构建特征联合嵌入空间，在此空间上即可根据距离度量跨域数据相似性，完成检索任务。

图 1 跨域检索三元组网络架构 Fig. 1 Architecture of cross-domain retrieval triplet network

图选项

2.1 数据预处理图像与三维模型跨域检索数据集由RGB图像和三维模型组成。先将图像数据统一处理为256×256，通过多尺度数据增强，随机裁剪成227×227的图片，防止模型过拟合。再将RGB图像转换为灰度图，去除图像颜色信息对检索的干扰。
对三维模型数据进行顺序投影处理，在以模型为中心的圆上均匀设置虚拟相机阵列，从而捕获三维模型的顺序视图组。这种视图获取方法简单有效，被广泛应用于三维模型预处理任务中^{[27, 31]}。在投影视图数量的选取上，鉴于12个不同角度的投影视图被证明可以很好地表达三维模型，并且在三维模型的分类、检索等任务中取得了不错的效果^[29-30]，设置相机阵列包含12个虚拟相机，它们放置在三维模型周围的圆平面上，指向三维模型质心，与水平面呈30°夹角，相机间隔为30°。第一个视图的视角可以选在圆上任意一个固定位置，再以顺时针方向获取后续的视图，由此组成三维模型的顺序视图组。
2.2 三元组网络结构数据预处理完成后，将其中的图像数据和三维模型的视图组数据以三元组的形式输入到跨域检索三元组网络中，如图 1所示。三元组数据格式为：(基准图像-正类视图组-反类视图组)。其中，基准图像来自图像数据集，正类视图组表示的三维模型与基准图像中的对象同类，反类视图组则与基准图像异类。对应于输入数据，跨域检索三元组网络有3个分支网络。分支1为图像精确特征提取分支网络，其输入为具有复杂背景的基准图像，经过CNN完成对图像重要特征自适应细化学习。分支2和分支3为三维模型顺序视图特征提取分支网络，输入分别为正类模型和反类模型的视图组，其网络结构相同，权值共享，在提取每个视图特征的同时关注不同视图之间的联系，获得三维模型的特征描述符。由于基准图像与视图均属于二维图像，因此3个分支网络均以在ImageNet数据集上预训练好的VGG19^[42]网络作为基础网络提取基准图像特征和三维模型的视图级特征，如图 1中的卷积块所示。

2.2.1 图像精确特征提取分支网络真实图像包含与检索无关的复杂背景信息，这些噪声会对检索准确度产生负面影响。而且，在通过特征学习构建跨域特征联合嵌入空间时，真实图像与“干净”的投影图像之间的语义鸿沟也会导致检索准确度降低。文献[12]通过叠加全连接层和Relu层，对提取到的图像特征执行仿射变换来缩小真实图像与投影图像的域差异。在此基础上，笔者关注于在特征提取阶段实现图像特征自适应细化学习。
通过加入注意力机制实现对基准图像有效特征的精确提取。注意力机制的本质是定位特征中的感兴趣信息，并抑制其中的无用信息。本文主要关注于对基准图像的有效区域特征提取，因为对于图像与三维模型的跨域检索任务来说，并非图像中的所有区域对任务的贡献都是同等重要的，只有与被检索对象相关的像素才是特征提取网络的重点学习区域。因此，选择空间注意力模型来降低图像背景信息对检索任务的影响，从而完成基准图像精确特征提取。
图像精确特征提取分支网络以VGG19网络为基础，VGG19网络由16个卷积层和3个全连接层组成，这16个卷积层被分成5段，段间采用一个最大池化层来缩小图片尺寸。在每一段的每2个卷积层之间加入空间注意力模块^[12]，实现对图像中重要对象的特征提取。由于VGG19网络结构较长，在图 1中仅显示一个注意力模块作为示例。
空间注意力模块利用特征在空间维度的关系生成空间注意力权重图，用于在图像信息中找出需要被关注的区域。如图 2所示，对于输入特征F_I∈R^H×W×C(H为高度，W为宽度，C为通道数量)，空间注意力模块在通道维度上对其执行最大池化(Max-pooling)和平均池化(Average-pooling)，得到2个H×W×1的空间描述符。采用2种池化方法的好处在于：最大池化可以更多地保留纹理信息，而平均池化对特征图上的每一个像素点都有反馈，可以在减少维度的同时完整传递信息。池化完成后，按照通道维度进行拼接得到通道数为2的特征描述符，应用一个7×7的卷积层和Sigmoid激活函数生成H×W×1的空间注意力权重图A_S。经过区域过滤得到的新特征F′_I∈R^H×W×C即可参与接下来的特征提取过程，最终得到图像的精确特征。

图 2 注意力模块详细结构 Fig. 2 Detailed structure of attention module

图选项

(1)

(2)

式中：?表示逐个元素相乘；φ表示Sigmoid函数；g表示卷积计算。
通过加入空间注意力模块，图像精确特征提取分支网络在学习图像特征时更关注于对象信息，而非背景信息。采用文献[12]中由全连接层和Relu层叠加组成的特征自适应层，对获取到的图像特征进行仿射变换，进一步消除背景信息，从而得到图像的精确特征。

2.2.2 三维模型顺序视图特征提取分支网络由于视图与图像相近，多视图方法可以在特征提取部分减小图像与三维模型的语义差异，因此在跨域检索任务中具有良好的效果。但是，用视图表示三维模型的过程会产生较多信息损失，因此，如何减少特征损失，提取三维模型更完整有效的特征仍然是一个困难的问题。相比于传统CNN，循环神经网络(Recurrent Neural Network，RNN)具有强大的记忆功能，善于处理序列信息。GRU网络是RNN最成功的变体，其通过加入门控单元解决了长序列训练过程中的梯度爆炸和梯度消失问题，具有更强大的记忆功能。因此，通过GRU结构聚合顺序视图，在聚合每个视图内容信息的同时保留视图序列的空间信息，获取更具有辨别力的三维模型特征描述符。
三维模型顺序视图特征提取分支网络由VGG19网络和GRU网络组成。对于输入的顺序视图组V，先将VGG19网络作用于其中的每个顺序视图v_k(k=1, 2, …, 12)，获取它们的低级特征f_k(k=1, 2, …, 12)，再采用GRU网络按照视图序列逐步聚合视图级特征。如图 3所示，以第j时间步为例，视图v_k的低级特征向量f_j被输入到GRU中，其中隐状态h_j作为“记忆”储存学习过的信息。在重置门控r_j的控制下，GRU利用f_j与前一个时间步的隐状态h_j-1生成重置数据h′_j。

图 3 GRU网络聚合视图级特征 Fig. 3 Aggregation of view-level features using GRU networks

图选项

(3)

(4)

式中：W_r和W为权重矩阵；tanh为激活函数。
通过更新门控z_j有针对性地将h′_j中的信息添加到隐状态h_j-1，从而学习到了新的“记忆”，生成新的隐状态h_j。

(5)

(6)

式中：W_z为更新门控对应的权重矩阵；“ $ \circ $”表示Hadamard乘积。
更新“记忆”后，GRU即可将隐状态h_j向下一个步骤传递并经过维度变换输出为O_j。

(7)

式中：W_o和b分别为可学习的权重和偏置参数。
在GRU完成逐步学习后，采用最大池化层聚合每个视图对应的GRU隐状态的输出O_k(k=1, 2, …, 12)，得到三维模型的全局特征F_S。
2.3 构建特征联合嵌入空间通过图像精确特征提取分支网络和三维模型顺序视图特征提取分支网络，三元组网络的3个分支分别获得基准图像、正类三维模型和反类三维模型的特征表示向量，采用L₂正则化函数分别对其进行标准化，从而控制模型复杂度，防止过拟合。

(8)

式中：x为特征向量中的元素；ε取值为1×10^-12。
利用三元组损失函数对图像特征和三维模型特征构建联合嵌入空间，通过控制特征距离将不同模态的数据特征映射到同一高维空间中。具体来说，网络训练的目的是使基准图像特征f(X_i^a)与反类三维模型特征f(X_iⁿ)的距离大于它和正类三维模型特征f(X_x^p)的距离，使得域间数据特征差异减小的同时，域内同类数据相近，异类数据疏远。损失函数定义如下：

(9)

(10)

(11)

式中：d_p为基准图像与正类三维模型的特征距离；d_n为基准图像与反类三维模型的特征距离；margin为避免模型在训练过程中走捷径导致错误结果而设定的相对距离。
在特征联合嵌入空间中，图像数据与三维模型数据特征按照类别呈簇状分布，通过欧氏距离等方法直接计算特征间距离即可度量不同模态数据的相似性。
3 实验检索过程使用跨域检索三元组深度网络，对查询图像和模型库中的三维模型同时提取特征并构建特征联合嵌入空间，特征在此空间中的距离代表数据的相似度，利用欧氏距离计算查询图像与三维模型之间的特征距离并排序，选择前5个三维模型作为检索结果。本文以CentOS7.3为工作平台，在一个Intel Xeon E5-2609 v4 CPU和两个NVIDIA GTX1080 GPU上采用TensorFlow深度学习框架实现模型。采用Adam算法优化网络，设置三元组损失函数中margin为0.2，网络学习率为1×10^-6，衰减因子设为0.1。
3.1 数据集分别在SHREC 2019提供的MI3DOR数据集和IM2MN数据集上进行实验来验证本文方法。其中，MI3DOR数据集有21个类，包含7 690个三维模型和21 000个RGB图像，其中，训练集包括3 842个三维模型和10 500个图像，测试集包括3 848个三维模型和10 500个图像。IM2MN数据集包含12 311个三维模型和10 000个RGB图像，共分为40个类，其中，训练集包括9 843个三维模型和8 000个图像，测试集包括2 468个三维模型和2 000个图像。由于本文的三维模型预处理方法与IM2MN数据集中的视图子数据集生成方法一致，所以直接将其用于视图特征提取网络。相比于MI3DOR数据集，IM2MN数据集涉及的类别范围更广，而且包含较多容易混淆的数据，因此更具有挑战性。
3.2 消融实验为了验证提出的基于注意力机制的图像精确特征提取算法和基于GRU网络的三维模型顺序视图特征提取算法对跨域检索的有效性，分别在IM2MN数据集和MI3DOR数据集上做消融实验，其中检索性能通过平均准确率(mean Average Precision，mAP)进行评估，如表 1和表 2所示。针对网络是否包含注意力模块和GRU网络模块，分别设计不同的网络结构进行测试。其中，图像精确特征提取分支网络在采用文献[14]所提出的特征自适应层的基础上，加入空间注意力模块，进一步减少图像中的背景噪声对检索任务的影响，缩小跨域数据特征间的语义差异。为区分注意力模块与特征自适应层对提升检索结果的贡献程度，通过控制是否包含特征自适应层模块变量，进一步体现各模块对跨域检索任务的影响。从表 1、表 2可以看出，注意力模块和GRU网络模块均对检索准确度产生了积极的影响，仅加入注意力模块使得检索平均准确率提高3.19%~4.08%，仅加入GRU网络模块使得检索平均准确率提高5.57%~5.74%，而同时包含2种结构的网络模型的检索平均准确率最高，说明了本文方法的有效性。
表 1 IM2MN数据集消融实验测试结果 Table 1 Test results of ablation experiment onIM2MN dataset

自适应层	注意力模块	GRU	mAP/%
无	无	无	42.16
有	无	无	48.74
有	有	无	51.93
有	无	有	54.48
有	有	有	55.65

表选项

表 2 MI3DOR数据集消融实验测试结果 Table 2 Test results of ablation experiment onMI3DOR dataset

自适应层	注意力模块	GRU	mAP/%
无	无	无	42.78
有	无	无	49.67
有	有	无	53.75
有	无	有	55.24
有	有	有	56.53

表选项

3.3 基于图像的三维模型跨域检索为验证本文方法的有效性，在IM2MN数据集上与CDTNN^[14]算法、MVCNN^[29]算法和基于三元组网络的增强MVCNN算法的检索结果进行定量比较，检索性能通过平均准确率mAP进行评估，测试结果如表 3所示。其中，基于三元组网络的增强MVCNN算法是在基础三元组网络结构的基础上，利用MVCNN算法提取三维模型特征并作用于网络的正类和负类分支上得到检索结果。
表 3 基于图像的三维模型检索性能 Table 3 Performance for image-based 3D model retrieval

数据集	方法	mAP/%
IM2MN	MVCNN^[29] 三元组+MVCNN^[14] CDTNN^[14] 本文	7.92 40.85 52.67 55.65
MI3DOR	CDTNN^[14] 本文	53.48 56.53

表选项

从表 3中可以发现，CDTNN算法在基线方法中的检索平均准确率最高，而本文方法的检索平均准确率较CDTNN算法提高2.98%，达到55.65%。为验证本文方法在其他公开数据集上的有效性，在MI3DOR数据集上与CDTNN基线方法进行检索平均准确率评估，相较于MI3DOR数据集，IM2MN数据集中包含更多的类别和容易产生混淆的数据，因此其检索准确度略微低一些。如表 3所示，本文方法在MI3DOR数据集上检索平均准确率较CDTNN算法提高3.05%，达到56.53%。
图 4可视化地展示了一些检索结果示例。其中，图 4的顶部展示了一些成功的检索结果，底部则展示了2种典型的检索失败情况，其中错误的检索结果用方框圈出。从图 4中可以看出，本文方法在处理单幅图像到三维模型的跨域检索任务上有不错的效果，但同时也存在一些失败情况，如多目标场景(显示器与桌子共同出现在查询图像中)，图像中的检索对象不完整及存在遮挡物体(查询图像中书架没有被完整显示，并且被大量物体遮盖，导致其与桌子类别产生混淆)，均会对检索产生负面影响。

图 4 基于单张图像的三维模型检索结果示例 Fig. 4 Examples of monocular image based 3D model retrieval results

图选项

4 结论 1) 本文提出了跨域检索三元组网络来解决基于单幅图像的三维模型检索任务，为提高检索准确度，针对网络的不同输入数据设计图像精确特征提取分支网络和三维模型顺序视图特征提取分支网络，提高从不同模态数据学习得到的特征描述符的适配能力。通过对比实验可以看出，相较于最优基线方法，本文方法在2个数据集上的检索平均准确率均提高3%左右，体现了本文方法的有效性。
2) 为了验证提出的图像精确特征提取算法和三维模型顺序视图特征提取算法对提高跨域检索准确度的有效性，设置了消融实验针对不同网络情况进行测试。从实验结果可以看出，2种特征提取算法均对检索有积极的作用。
3) 本文方法对多目标场景和存在遮挡物体的图像检索可能会出现失败的情况，而这类图像在实际生产应用中也较为常见。因此，在后续工作中，可以考虑结合图像识别等领域的知识对算法作进一步改进。

参考文献

[1]	BU S H, WANG L, HAN P C, et al. 3D shape recognition and retrieval based on multi-modality deep learning[J]. Neurocomputing, 2017, 259: 183-193. DOI:10.1016/j.neucom.2016.06.088

[2]	蔡轶珩, 王雪艳, 胡绍斌, 等. 基于多源图像弱监督学习的3D人体姿态估计[J]. 北京航空航天大学学报, 2019, 45(12): 2375-2384. CAI Y H, WANG X Y, HU S B, et al. Three-dimensional human pose estimation based on multi-source image weakly-supervised learning[J]. Journal of Beijing University of Aeronautics and Astronautics, 2019, 45(12): 2375-2384. (in Chinese)

[3]	GIRDHAR R, FOUHEY D F, RODRIGUEZ M, et al.Learning a predictable and generative vector representation for objects[C]//European Conference on Computer Vision.Berlin: Springer, 2016: 484-499.

[4]	TULSIANI S, GUPTA S, FOUHEY D F, et al.Factoring shape, pose, and layout from the 2d image of a 3d scene[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 302-310.

[5]	IYER N, JAYANTI S, LOU K, et al. Three-dimensional shape searching:State-of-the-art review and future trends[J]. Computer-Aided Design, 2005, 37(5): 509-530.

[6]	XIE J, FANG Y, ZHU F, et al.Deepshape: Deep learned shape descriptor for 3d shape matching and retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2015: 1275-1283.

[7]	MIAN A S, BENNAMOUN M, OWENS R A.Matching tensors for pose invariant automatic 3D face recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2005: 120.

[8]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E.Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems.Cambridge: MIT Press, 2012: 1097-1105.

[9]	杨思晨, 王华锋, 王月海, 等. 深度学习机制与小波融合的超分辨率重建算法[J]. 北京航空航天大学学报, 2020, 46(1): 189-197. YANG S C, WANG H F, WANG Y H, et al. Super-resolution reconstructing algorithm based on deep learning mechanism and wavelet fusion[J]. Journal of Beijing University of Aeronautics and Astronautics, 2020, 46(1): 189-197. (in Chinese)

[10]	GRABNER A, ROTH P M, LEPETIT V.Location field descriptors: Single image 3D model retrieval in the wild[C]//Proceedings of the 2019 International Conference on 3D Vision (3DV).Piscataway: IEEE Press, 2019: 583-593.

[11]	WU Z Z, ZHANG Y H, ZENG M, et al. Joint analysis of shapes and images via deep domain adaptation[J]. Computers & Graphics, 2018, 70: 140-147.

[12]	WOO S, PARK J, LEE J Y, et al.CBAM: Convolutional block attention module[C]//European Conference on Computer Vision.Berlin: Springer, 2018: 3-19.

[13]	CHO K, VAN MERRI?NBOER B, GULCEHRE C, et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL].(2014-06-03)[2020-02-25].https://arxiv.org/abs/1406.1078.

[14]	LEE T, LIN Y L, CHIANG H Y, et al.Cross-domain image-based 3D shape retrieval by view sequence learning[C]//Proceedings of the 2018 International Conference on 3D Vision (3DV).Piscataway: IEEE Press, 2018: 258-266.

[15]	LI W, LIU A, NIE W Z, et al.SHREC 2019-Monocular image based 3D model retrieval[EB/OL].(2019-01-28)[2020-02-25].https://www.iti-tju.org/MI3DOR19/.

[16]	FANG Y, XIE J, DAI G, et al.3D deep shape descriptor[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2015: 2319-2328.

[17]	李海生, 武玉娟, 郑艳萍, 等.基于深度学习的三维数据分析理解方法研究综述[J/OL].计算机学报, 2019, 42: 1-25.(2019-07-09)[2020-02-21].http://kns.cnki.net/kcms/detail/11.1826.TP.20190709.1509.002.html. LI H S, WU Y J, ZHENG Y P, et al.A survey of 3D data analysis and understanding based on deep learning[J/OL].Chinese Journal of Computers, 2019, 42: 1-25.(2019-07-09)[2020-02-21].http://kns.cnki.net/kcms/detail/11.1826.TP.20190709.1509.002.html(in Chinese).

[18]	OSADA R, FUNKHOUSER T, CHAZELLE B, et al. Shape distributions[J]. ACM Transactions on Graphics (TOG), 2002, 21(4): 807-832. DOI:10.1145/571647.571648

[19]	MAHMOUDI M, SAPIRO G. Three-dimensional point cloud recognition via distributions of geometric distances[J]. Graphical Models, 2009, 71(1): 22-31.

[20]	SUN J, OVSJANIKOV M, GUIBAS L. A concise and provably informative multi-scale signature based on heat diffusion[J]. Computer Graphics Forum, 2009, 28(5): 1383-1392. DOI:10.1111/j.1467-8659.2009.01515.x

[21]	AUBRY M, SCHLICKEWEI U, CREMERS D.The wave kernel signature: A quantum mechanical approach to shape analysis[C]//Proceedings of 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops).Piscataway: IEEE Press, 2011: 1626-1633.

[22]	WANG P S, SUN C Y, LIU Y, et al. Adaptive O-CNN:A patch-based deep representation of 3D shapes[J]. ACM Transactions on Graphics (TOG), 2018, 37(6): 1-11.

[23]	FENG Y, FENG Y, YOU H, et al.MeshNet: Mesh neural network for 3D shape representation[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto: AAAI Press, 2019, 33: 8279-8286.

[24]	QI C R, YI L, SU H, et al.Pointnet++: Deep hierarchical feature learning on point sets in a metric space[C]//Advances in Neural Information Processing Systems.Cambridge: MIT Press, 2017: 5099-5108.

[25]	HUANG H B, KALOGERAKIS E, CHAUDHURI S, et al. Learning local shape descriptors from part correspondences with multiview convolutional networks[J]. ACM Transactions on Graphics (TOG), 2017, 37(1): 1-14.

[26]	WANG P S, LIU Y, GUO Y X, et al. O-CNN:Octree-based convolutional neural networks for 3d shape analysis[J]. ACM Transactions on Graphics (TOG), 2017, 36(4): 1-11.

[27]	HAN Z, SHANG M, LIU Z, et al. SeqViews2SeqLabels:Learning 3D global features via aggregating sequential views by RNN with attention[J]. IEEE Transactions on Image Processing, 2018, 28(2): 658-672.

[28]	LAN S Y, YU R C, YU G, et al.Modeling local geometric structure of 3D point clouds using Geo-CNN[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2019: 998-1008.

[29]	SU H, MAJI S, KALOGERAKIS E, et al.Multi-view convolutional neural networks for 3d shape recognition[C]//Proceedings of the IEEE International Conference on Computer Vision.Piscataway: IEEE Press, 2015: 945-953.

[30]	FENG Y, ZHANG Z, ZHAO X, et al.GVCNN: Group-view convolutional neural networks for 3D shape recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2018: 264-272.

[31]	JIANG J, BAO D, CHEN Z, et al.MLVCNN: Multi-loop-view convolutional neural network for 3D shape retrieval[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto: AAAI Press, 2019, 33: 8513-8520.

[32]	TASSE F P, DODGSON N. Shape2Vec:Semantic-based descriptors for 3D shapes, sketches and images[J]. ACM Transactions on Graphics (TOG), 2016, 35(6): 1-12.

[33]	AUBRY M, MATURANA D, EFROS A A, et al.Seeing 3d chairs: Exemplar part-based 2d-3d alignment using a large dataset of cad models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2014: 3762-3769.

[34]	MOTTAGHI R, XIANG Y, SAVARESE S.A coarse-to-fine model for 3d pose estimation and sub-category recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2015: 418-426.

[35]	KULIS B. Metric learning:A survey[J]. Foundations and Trendsin Machine Learning, 2013, 5(4): 287-364.

[36]	XIANG Y, KIM W, CHEN W, et al.ObjectNet3D: A large scale database for 3d object recognition[C]//European Conference on Computer Vision.Berlin: Springer, 2016: 160-176.

[37]	WANG F, KANG L, LI Y.Sketch-based 3d shape retrieval using convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2015: 1875-1883.

[38]	LI Y Y, SU H, QI C R, et al. Joint embeddings of shapes and images via CNN image purification[J]. ACM Transactions on Graphics (TOG), 2015, 34(6): 1-12.

[39]	DAI G, XIE J, ZHU F, et al.Deep correlated metric learning for sketch-based 3d shape retrieval[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto: AAAI Press, 2017: 4002-4008.

[40]	DAI G X, XIE J, FANG Y. Deep correlated holistic metric learning for sketch-based 3d shape retrieval[J]. IEEE Transactions on Image Processing, 2018, 27(7): 3374-3386. DOI:10.1109/TIP.2018.2817042

[41]	SCHROFF F, KALENICHENKO D, PHILBIN J.FaceNet: Aunified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2015: 815-823.

[42]	SIMONYAN K, ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-09-04)[2020-02-25].https://arxiv.org/abs/1409.1556.