删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种基于深度学习的实时视频图像背景替换方法

本站小编 Free考研考试/2021-12-15

谢天植, 雷为民, 张伟, 李志远
东北大学 计算机科学与工程学院, 辽宁 沈阳 110169
收稿日期:2021-01-27
基金项目:国家重点研发计划项目(2018YFB1702000); 中央高校基本科研业务费专项资金资助项目(N2016014)。
作者简介:谢天植(1996-), 男, 河北石家庄人, 东北大学硕士研究生;
雷为民(1969-), 男, 山西平遥人, 东北大学教授, 博士生导师。

摘要:针对视频会话业务的实时性需求, 提出一种轻量级深度学习网络模型实现视频图像的实时背景替换功能.网络模型包含语义分割和背景替换两个模块.语义分割模块整体架构采用编解码结构, 编码端使用编码器模块、空洞卷积金字塔池化模块、注意力模块以及增益模块提取特征;解码端使用解码器模块、调整模块以及编码器模块恢复图像, 再传入背景替换模块完成背景替换.该网络模型在本文设定的数据集训练后分割精确度达到94.1%, 分割速度达到42.5帧/s, 在实时性和准确性上达到较好的平衡, 具有很好的实用效果.
关键词:实时视频图像背景替换深度学习语义分割编解码结构
A Real-Time Video Image Background Replacement Method Based on Deep Learning
XIE Tian-zhi, LEI Wei-min, ZHANG Wei, LI Zhi-yuan
School of Computer Science & Engineering, Northeastern University, Shenyang 110169, China
Corresponding author: ZHANG Wei, E-mail: zhangwei1@cse.neu.edu.cn.

Abstract: Aiming at the real-time requirement of video session service, a lightweight deep learning network model is proposed to realize the real-time background replacement function of video images. The network model includes two modules: semantic segmentation and background replacement. The whole architecture of semantic segmentation module adopts encode-decoder structure. Encoder module, dilated convolution pyramid pooling module, attention module, and gain module are used in the encoding terminal to extract features. Decoder module, adjustment module, and encoder module are used in the decoding terminal to recover the image, and the background replacement module is used to complete the background replacement. After the data-set training, the segmentation accuracy of the network model reaches 94.1 %, and the segmentation speed reaches 42.5 frames/s, which achieves a good balance between real-time and accuracy, and has a good practical effect.
Key words: real-time video imagebackground replacementdeep learningsemantic segmentationencode-decode structure
视频会话类业务已经成为人与人交流中不可缺少的部分, 视频会话方便了交流的同时也带来了隐私泄露的问题, 尤其最近一年新冠疫情使居家办公成为一种常态, 这使得隐私泄露问题变得更加严重, 通过语义分割将人像提取后进行背景替换, 可以很好地保护会话人的隐私.
传统的图像分割[1-2]算法主要有阈值分割法[3]、光流法[4]、边缘检测算法[5]等, 这些算法都是根据图像的特征完成图像分割.首先是分析图像的特征, 对每一个特征设定一个特定的提取器, 最后根据特定提取器对图像进行分割.但传统算法对图像的分割缺少语义上的理解, 无法对特定的人像进行提取, 而是将所有前景全部提取出来, 不能满足视频会话业务中背景替换任务的需求.
语义分割任务是一项对图像进行语义理解后进行特定目标分割的深度学习任务, 为视频会话中人像提取提供了新思路, 它是计算机视觉中的一个重要方向, 实现由粗推理到精推理的步骤, 完成目标的分类与定位, 预测并推断图像中的所有像素, 实现细粒度的推理[6], 即实现了对视频图像的语义理解.
近年来, 深度学习发展迅速, 语义分割已经在自动驾驶、室内机器人导航等方面[7-8]得到了广泛的应用.全卷积神经网络[9](fully convolutional networks, FCN)改进分类深度卷积神经网络结构, 用卷积层替换原始网络末端的全连接层, 最终得到两通道的特征图(feature map), 将特征图输入Softmax层后得到视频图像中每个像素点的分类信息, 完成分割.该网络忽略了低维的特征图, 导致边缘信息的丢失, 分割效果较差,并且在速度上无法达到实时.文献[10]使用了编解码结构提升分割效果, 通过编码器获取深层次的语义信息, 使用解码器将浅层的空间信息与深层语义信息相融合, 进而恢复边缘与细节的信息; Deeplabv2[11]使用空洞卷积替换普通卷积, 空洞卷积设置适宜特征图尺寸的膨胀率, 使卷积核在不增大参数量的情况下获取更大的感受野, 获取相对于普通卷积更丰富的上下文信息, 对分割大目标以及精准分割提供了思路; Deeplabv3[12]网络舍弃了条件随机场, 在空洞卷积金字塔池化模块中加入批量归一化操作, 加入平均池化层解决空洞卷积膨胀率过大导致的“权值退化”问题也增加了全局特征.OSVOS[13]网络、STM[14]网络以及SAT[15]网络利用了帧间相关信息提升分割性能, 但网络模型整体较复杂, 很难达到实时处理速度或需要高性能显卡进行支持.
上述模型大而复杂,对于实时视频会话业务场景是难以应用的, 这些场景需要极低的处理时延.为了提升语义分割的实时性, 用于特征提取的骨干网络可以采用小而高效的轻量级网络结构. BiSeNet[16]为减少计算量提升运算速度加入语义路径和空间路径两个步骤, 力图实现速度与精确度的平衡; MobileNetV1[17]网络用深度可分离卷积替换掉普通卷积, 降低参数量, 提升了速度; MobileNetV2[18]通过加入残差结构提升效果, 并在子模块初始部分加入卷积调整通道数提升性能与速度.
现阶段语义分割在部分特定任务上已经达到了很好的效果, 但语义分割所处的实时视频会话背景替换场景与这些特定任务场景存在明显的不同, 视频会话实时背景替换场景中视频帧率较快并且分割的目标在视频图像中所占比例较大.本文针对此场景, 以提取视频会话中的人物并达到实时效果为任务, 提出了一种深度学习背景替换方法.该方法有语义分割以及背景替换两部分, 语义分割部分完成视频会话中人像与背景的分离, 该部分中编码器使用多分支结构, 每个分支设置不同的膨胀率获取更多的感受野.为更好地提取大目标, 并通过这种网络结构加快分割速度, 加入注意力机制模块以及空洞卷积金字塔池化模块提升性能, 主要卷积方式为深度可分离卷积提升速度.最后将分割结果进行处理后输入背景替换部分完成背景替换.实验结果表明, 本文模型可以很好地完成实时背景替换, 性能达到较高的水准.
1 背景替换网络构建本文目标是实现视频会话图像实时背景替换, 以精准的分割以及实时的处理速度为标准, 以深度卷积神经网络为主体搭建背景替换网络.本节将详细介绍背景替换网络的搭建, 并对网络的每一模块进行详细介绍.
1.1 整体网络结构本文设计的深度学习网络模型如图 1所示, 整体架构采用编解码结构, 该结构常被用于语义分割网络的搭建.编解码结构包括编码端与解码端两部分.具体来说, 编码端的任务是在给定输入图像后, 通过神经网络的学习得到输入图像的特征图; 解码端使用由编码端输出的特征图逐步实现对视频图像中所有像素的标签标注, 完成分割.在深度学习网络中, 浅层网络提取的特征更偏向于局部信息如边缘纹理等, 即浅层特征图保留的是高分辨率的细节信息; 深层网络提取的特征偏向于全局信息, 即高维特征图保留的是整个图像上下文的语义信息.因此为了使图像的全局语义信息与局部细节信息相融合, 本文网络将浅层模块输出的特征图通过带有调整模块的跳跃连接后输出到解码端.
图 1(Fig. 1)
图 1 实时视频图像背景替换网络Fig.1 Real-time video image background replacement network

1.2 语义分割编码端整个编码端由4个部分构成: 编码器模块、注意力模块、空洞卷积金字塔池化模块和增益模块.
1.2.1 语义分割编码器模块编码器模块采用3分支结构, 如图 2所示.分支结构借鉴了MobileNetV2的模块思路, 通过在不同的分支中使用不同膨胀率的空洞卷积, 对同一特征图从不同维度上提取特征, 增加了上下文信息, 并使用残差结构减少信息的丢失.编码器第一层为用于调整通道数的1×1卷积层, 此操作将特征图通道数提高, 有利于提取到整体的足够多的信息; 第二层为特征提取层, 此部分为3×3深度可分离卷积, Stride默认为1, 网络第一次使用某一数量分支编码器模块时设置Stride为2, 并去掉残差结构, 对特征图进行下采样; 第三层为空洞卷积层, 对同一模块中各分支依次编号为1到n, 每个分支根据编号设置不同的膨胀率, 速率为2n-1, 由于特征图的维度随着网络的加深而变小, 所以编码器分支由三分支逐渐降为一分支, 膨胀率范围的选取也逐渐变小, 由[1, 2, 4]逐渐降为[1].在不同分支上的输出串联形成一个包含多尺度信息的特征图, 最后再经过1×1卷积进行通道调整操作, 将通道数降低, 以优化处理速度.连续应用编码器模块捕获多层信息.
图 2(Fig. 2)
图 2 3分支编码器模块Fig.2 3-branch encoder module

特征图通道数较低时, 非线性激活函数会滤除掉很多有用的信息, 因此使用了线性激活函数代替了非线性激活函数, 每个分支的结构总体是一个先提升通道数再降低通道数的结构, 这样既减少了信息的丢失, 最终输出也降低了参数量.
1.2.2 注意力模块注意力模块用于在特征图中提取对当前目标更关键的信息.分类网络在全连接层(fully-connected, FC)前加入全局池化层, 形成最终的概率向量, 进而选取关键信息, 这是一种典型的注意力模型.借鉴此思路, 本文注意力模块将特征图先进行全局池化后, 再使用FC层和1×1卷积层减少通道来匹配编解码器输出的特征图, 然后通过N×C×1×1编码向量按照输入方式与输入特征图相乘.注意力模块结构如图 3所示.
图 3(Fig. 3)
图 3 注意力模块Fig.3 Attention module

1.2.3 空洞卷积金字塔池化模块空洞卷积金字塔池化模块(atrous spatial pyramid pooling, ASPP)是语义分割网络中的常用模块.模块使用不同的膨胀率分支提取特征图的多尺度信息, 膨胀率的选取相比于编码器模块的膨胀率选取范围更大, 旨在获取更加全面的信息.通过研究发现当膨胀率接近特征图分辨率时, 3×3卷积由于空洞的填充所覆盖的区域已经远远大于特征图, 只有中心区域能起到作用, 其作用本质上是一个1×1卷积, 因此ASPP模块将其直接替换为一个1×1卷积.同时加入全局平均池化分支对特征图上所有元素进行整合.将以上各分支得到的特征图串联输入到一个1×1卷积层后, 传入到下一个模块中. ASPP结构如图 4所示.
图 4(Fig. 4)
图 4 ASPP模块Fig.4 ASPP module

1.2.4 增益模块增益模块位于整个编码端的末尾处, 该模块使用深度可分离卷积对特征图相邻像素的特征关系进行提取,以减弱编码器模块与ASPP模块因使用连续的空洞卷积对特征图中信息的连续性造成的影响.增益模块结构如图 5所示.
图 5(Fig. 5)
图 5 增益模块Fig.5 Enhanced module

1.3 语义分割解码端在输入上, 解码端有两种输入的特征图, 除输入编码端输出的特征图外还输入了编码端中部分模块输出的特征图, 这部分特征图通过跳跃连接输入解码端.在结构上, 整个解码端由三部分组成, 分别为解码器模块、调整模块、编码器模块.
解码器模块的作用是通过上采样操作将特征图恢复到输入视频图像的分辨率.编码端一共进行了4次下采样操作, 需进行4次×2操作才能将特征图恢复原始视频图像分辨率, 因此使用了4次解码器模块.解码器中上采样操作使用了转置卷积的方式, 逐渐减少通道, 提升分辨率.解码器模块结构如图 6所示.
图 6(Fig. 6)
图 6 解码器模块Fig.6 Decoder module

编码端中第一个三分支编码器模块的输出特征图与第一个两分支编码器模块的输出特征图跳跃连接输入到解码端, 并分别与同分辨率的解码器输出特征图融合传入解码端下一个模块.本文跳跃连接中编码端特征图与解码端特征图的结合方式与以往语义分割网络中两种特征图直接进行结合的方式不同, 本文使用调整模块对两者进行结合, 模块中加入了深度可分离卷积层进一步提取特征图信息, 再与上采样信息连接在一起, 对提取到的有效信息进一步细化, 这一思路借鉴了SharpMask算法[19-20]中的Refinement模块.调整模块结构如图 7所示.
图 7(Fig. 7)
图 7 调整模块Fig.7 Adjustment module

调整模块的输出特征图与解码器模块输出特征图直接连接后, 在上采样操作恢复原始图像尺寸操作前复用编码器模块进行特征融合, 这样解决了上采样操作无法增强对临近值的预测问题, 与编码端中的编码器结构不同的是由于在上采样解码阶段, 应保持特征图分辨率不再变小, 所以该模块不再有Stride=2的卷积层.
1.4 替换端替换端的作用是完成最终的背景替换操作, 将分割好的掩码图像与输入的视频图像输入该模块, 使用OpenCV库中的API进行处理, 首先得到人物在分割好的掩码图像中所处的位置, 再标记到原始视频图像中的相同位置, 最后将视频图像中未被标记的像素点用替换背景同位置点代替, 完成背景替换操作.
2 实验及结果分析2.1 实验数据集1) Supervisely Person数据集[21]包含了5 711张图像, 每张图像都标注了人物的位置, 共有6 884人像目标, 每张图像被分为前景与背景两部分.
2) Aisegmentation数据集[22]是由网络公司搜寻的图像制作而成的数据集, 数量为34 427.
3) Adobe deep image matting dataset[23],在该数据集中挑选了420张人物分割数据集.
4) 由本实验室人员自行拍摄图片, 进行处理后得到的数据集, 该数据集包含了5 982张图片, 分别对每张图片中的人物进行提取.
本文共收集了46 540张人物图像, 为了获得更多的数据集以增加模型的鲁棒性, 将已有的图像进行水平方向翻转, 得到同样数量的新图像加入训练集.将分辨率设置为256×256, 并将图片按照8∶ 1∶ 1的比例分为训练集、验证集、测试集.
2.2 评价标准本文网络模型选用平均交并比(mean intersection-over-union, mIoU)、图像处理速度FPS(帧/s)以及像素精确度作为性能指标.
mIoU为语义分割的标准度量, 其计算所有类别交集和并集之比的平均值, 这两个交集与并集为真实值和预测值, 计算公式如公式(1) 所示: i为真实值, j为预测值, pij表示将i预测为j.
(1)
图像处理速度计算公式如式(2)所示, N为图像数量, t为处理每幅图像所用的时间.
(2)
像素精确度(ACC)定义为预测正负样本像素正确的个数的和与总样本像素总数的比值, 其中FP代表的是正样本预测结果为正确的数目; FN代表的是负样本被预测为正样本的数目; TP代表的是正样本被预测为负样本的数目; TN代表的是负样本预测结果为正确的数目, 计算公式如式(3)所示.
(3)
2.3 训练参数实验操作系统为Ubuntu18.04, 64位操作系统, 显卡为NVIDIA GTX1080Ti和NVIDIA GTX1060.编译器设置为Python3.6.5, 使用TensorFlow1.8.0深度学习框架作为实验平台, 并使用自适应矩估计优化器进行训练, 每次迭代24张图片, 共训练200个Epoch, 学习率设置为0.000 075.
2.4 性能分析与比较本文的分割结果在速度和精确度上与以MobileNetV2为主干网的Deeplabv3网络模型和BiseNet网络模型对比.
2.4.1 网络模型整体分析图 8图 9给出了本文网络模型的mIoU和像素精确度随Epoch训练轮次增加的变化曲线.从实验结果可以看出, 随着Epoch的增加, 曲线逐渐平滑, mIoU值以及像素精确度维持在一定水平上下浮动.
图 8(Fig. 8)
图 8 mIoU与Epoch关系图Fig.8 Relationship between mIoU and Epoch

图 9(Fig. 9)
图 9 像素精确度与Epoch关系图Fig.9 Relationship between pixel accuracy and Epoch

2.4.2 网络模型性能比较将语义分割网络Deeplabv3以及BiseNet在本文所使用数据集上进行训练.
本文选用的Deeplabv3网络是以MobileNetV2为主干网的, Deeplabv3的作者选用了ResNet[24]作为主干网, 通过研究发现使用ResNet作为特征提取网络的模型在图像细节分割效果上要好于使用MobileNetV2的模型, 但是在整体的效果上二者分割效果大体相似, 由于MobileNetV2使用深度可分离卷积, 在显存占用方面优势明显, 可被并行处理的图像数量增多, 其分割速度相对于ResNet会有显著提升.因此本文并未选用以ResNet为主干网的Deeplabv3作为对比网络.
在NVIDIA GTX1080Ti实验环境下进行训练, mIoU与Epoch之间的关系如图 8所示, 两个对比网络以及本文研究网络随着Epoch的增加效果逐渐变好, 但是相比之下本文网络模型性能要高于另外两种网络.在图 9像素精确度曲线图上可以看到, 本文网络模型的像素精确度以及BiseNet网络像素精确度基本在同一精确度线上下浮动, 并且高于Deeplabv3网络像素精确度, 但本文网络模型的像素精确度曲线浮动相较于BiseNet更平稳, 像素精确度更加稳定.
在GTX1060实验环境中对训练好的模型在统一的测试集下查看测试结果, 如表 1所示.本文研究的网络的mIoU优于BiseNet以及Deeplabv3网络模型, 虽相较于BiseNet处理速度稍差, 但仍然满足实时要求, Deeplabv3在使用MobileNetV2作为主干网后达到了实时分割速率, 但其mIoU低于其他两个网络.总体上看, 本文所研究的网络在性能与速度上达到了一个较好的平衡, 能够满足实时背景替换方法的要求.
表 1(Table 1)
表 1 不同网络模型在测试集上的性能对比Table 1 Performance comparison with different network models on test set
网络模型 mIoU/% t/ms 图像处理速度/(帧·s-1)
BiseNet 93.2 20.6 48.5
Deeplabv3 91.6 30.2 33.1
本文网络 94.1 23.5 42.5


表 1 不同网络模型在测试集上的性能对比 Table 1 Performance comparison with different network models on test set

图 10为本文网络模型的语义分割模块与其他网络效果图比较, 本文网络相较于另外两个网络对边缘提取更精细, 并且提取出的人物并未出现残缺, 得到的分割图更接近于真实分割图.
图 10(Fig. 10)
图 10 语义分割模块与其他网络效果对比图Fig.10 Effect comparison between semantic segmentation module and other networks

2.5 背景替换效果演示将训练好的模型进行测试, 如图 11所示, 首先设置两个显示窗口begin和segmentation, begin窗口用于显示输入视频, segmentation窗口用于显示背景替换后的视频.将模型运行后结果进行显示, 从segmentation窗口中可以看到背景替换效果图, 并与begin窗口中的显示进行比较, 可以看到本文网络能将人物与背景相分离, 并将背景替换为一个不相关的图片, 网络模型运行处理速度达到42.5帧/s, 性能与速度上都有很好的表现.
图 11(Fig. 11)
图 11 背景替换效果演示Fig.11 Background replacement effect demonstration

3 结语本文实现了一种基于深度学习的实时视频图像背景替换方法, 用于实时视频会话背景替换, 达到了隐私保护的目的.此方法对视频图像进行特征提取, 利用人像的语义信息, 使人像与背景相分离, 实现背景替换.该方法不管在已有公开数据集或本文制作数据集上都有不错的效果, 在GTX1060这一类普通性能的显卡上运行仍然满足实时要求, 具有较强的实际应用价值.但该方法仍有一定的局限性, 如在未配置GPU的设备上的速度仍然无法满足实时, 边缘信息不够准确等, 因此, 在未来还将进一步对网络结构进行调整优化.
参考文献
[1] Zhu D. The application of computer image processing technology in the fine arts creation[C]//2014 IEEE Workshop on Advanced Research and Technology in Industry Applications(WARTIA). Ottawa: IEEE, 2014: 790-792.
[2] 韩思奇, 王蕾. 图像分割的阈值法综述[J]. 系统工程与电子技术, 2002, 24(6): 91-94.
(Han Si-qi, Wang Lei. A survey of thresholding methods for image segmentation[J]. Systems Engineering and Electronics, 2002, 24(6): 91-94. DOI:10.3321/j.issn:1001-506X.2002.06.027)
[3] Zhu S, Xia X, Zhang Q, et al. An image segmentation algorithm in image processing based on threshold segmentation[C]//2007 Third International IEEE Conference on Signal-Image Technologies and Internet-Based System. Shanghai: IEEE, 2007: 673-678.
[4] 任洪娥, 刘冕, 董本志. 基于改进形态学算子的木粉边缘检测算法[J]. 计算机工程与应用, 2015, 51(5): 183-186.
(Ren Hong-e, Liu Mian, Dong Ben-zhi. Edge detection algorithm of wood-flour based on modified morphological operator[J]. Computer Engineering and Applications, 2015, 51(5): 183-186.)
[5] Zhang Y, Qin L, Yao H, et al. Beyond particle flow: bag of trajectory graphs for dense crowd event recognition[C]//2013 IEEE International Conference on Image Processing. Melbourne: IEEE, 2013: 3572-3576.
[6] Csurka G, Perronnin F. An efficient approach to semantic segmentation[J]. International Journal of Computer Vision, 2011, 95(2): 198-212. DOI:10.1007/s11263-010-0344-8
[7] He Y, Wang H, Zhang B. Color-based road detection in urban traffic scenes[J]. IEEE Transactions on Intelligent Transportation Systems, 2005, 5(4): 309-318.
[8] 安喆, 徐熙平, 杨进华, 等. 结合图像语义分割的增强现实型平视显示系统设计与研究[J]. 光学学报, 2018, 38(7): 85-91.
(An Zhe, Xu Xi-ping, Yang Jin-hua, et al. Design of augmented reality head-up display system based on image semantic segmentation[J]. Acta Optica Sinica, 2018, 38(7): 85-91.)
[9] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, 2015: 3431-3440.
[10] Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[11] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. DOI:10.1109/TPAMI.2017.2699184
[12] Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv Preprint arXiv: 1706.05587, 2017.
[13] Caelles S, Maninis K K, Pont-Tuset J, et al. One-shot video object segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, 2017: 221-230.
[14] Oh S W, Lee J Y, Xu N, et al. Video object segmentation using space-time memory networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Long Beach, 2019: 9226-9235.
[15] Chen X, Li Z, Yuan Y, et al. State-aware tracker for real-time video object segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, 2020: 9384-9393.
[16] Yu C, Wang J, Peng C, et al. BiseNet: bilateral segmentation network for real-time semantic segmentation[C]// Proceedings of the European Conference on Computer Vision. Munich, 2018: 325-341.
[17] Howard A G, Zhu M, Chen B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[J]. arXiv Preprint arXiv: 1704.04861, 2017.
[18] Sandler M, Howard A, Zhu M, et al. MobileNetv2: inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 4510-4520.
[19] Pinheiro P O, Lin T Y, Collobert R, et al. Learning to refine object segments[C]//European Conference on Computer Vision. Cham: Springer, 2016: 75-91.
[20] Rhemann C, Rother C, Wang J, et al. A perceptually motivated online benchmark for image matting[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 1826-1833.
[21] Supervisely. Supervisely person dataset[DB/OL]. (2018-04-12)[2020-11-04]. http://github.com/superwisely/supervisely.
[22] Aisegmen. com. Aisegmention[DB/OL]. (2019-05-30)[2020-11-04]. https://github.com/aisegmentcn/matting_human_datasets.
[23] Xu N, Price B, Cohen S, et al. Deep image matting[C]// IEEE Conference on Computer Vision & Pattern Recognition. Hawaii: IEEE Computer Society, 2017: 311-320.
[24] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2016: 770-778.

相关话题/图像 实时 深度 背景 方法

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于相空间重构的心冲击信号房颤检测方法
    蒋芳芳,王浩乾,程天庆,洪楚航东北大学医学与生物信息工程学院,辽宁沈阳110169收稿日期:2021-03-19基金项目:国家自然科学基金资助项目(61801104,61902058);中央高校基本科研业务费专项资金资助项目(N2019002);东北大学第十五届(2021年)大学生创新训练计划项目( ...
    本站小编 Free考研考试 2021-12-15
  • 基于优化的残差网络的锈蚀钢筋图像分类
    方亮1,2,3,周云1,2,唐志泉41.湖南大学土木工程学院,湖南长沙410082;2.湖南大学工程结构损伤诊断湖南省重点实验室,湖南长沙410082;3.湖南农业大学水利与土木工程学院,湖南长沙410128;4.湖南大学信息科学与工程学院,湖南长沙410082收稿日期:2021-04-26基金项目 ...
    本站小编 Free考研考试 2021-12-15
  • 结合DNA编码的快速混沌图像加密算法
    周红亮,刘洪娟东北大学软件学院,辽宁沈阳110169收稿日期:2020-02-07基金项目:国家自然科学基金青年基金资助项目(62902057);辽宁省自然科学基金资助项目(2020-MS-083);辽宁省博士科研启动基金资助项目(2019-BS-084)。作者简介:周红亮(1994-),男,吉林汪 ...
    本站小编 Free考研考试 2021-12-15
  • 基于稳定函数的支撑结构系统临界力计算方法
    王述红,姚骞,张超,王鹏宇东北大学资源与土木工程学院,辽宁沈阳110819收稿日期:2020-08-03基金项目:国家自然科学基金资助项目(U1602232);辽宁省科学技术计划项目(2019JH2/10100035);中央高校基本科研业务费专项资金资助项目(N170108029)。作者简介:王述红 ...
    本站小编 Free考研考试 2021-12-15
  • 基于在线评论的产品竞争力分析方法
    田金霓,尤天慧,袁媛东北大学工商管理学院,辽宁沈阳110169收稿日期:2021-02-11基金项目:国家自然科学基金资助项目(71771043)。作者简介:田金霓(1996-),女,吉林省吉林市人,东北大学硕士研究生;尤天慧(1967-),女,黑龙江宾县人,东北大学教授,博士生导师。摘要:随着电子 ...
    本站小编 Free考研考试 2021-12-15
  • 基于控制思想求解非线性规划问题的李雅普诺夫方法
    张瑞友,王超慧,陈勇强东北大学信息科学与工程学院,辽宁沈阳110819收稿日期:2020-02-18基金项目:国家自然科学基金资助项目(71971050,71831006)。作者简介:张瑞友(1979-),男,辽宁沈阳人,东北大学教授,博士生导师。摘要:为了高效求解非线性规划问题,对一种基于控制思想 ...
    本站小编 Free考研考试 2021-12-15
  • 基于差异信息量的多源数据融合方法
    王姝,任玉,关展旭,王晶东北大学信息科学与工程学院,辽宁沈阳110819收稿日期:2020-01-04基金项目:国家重点研发计划项目(2019YFE0105000);矿冶过程自动控制技术国家(北京市)重点实验室开放课题(BGRIMM-KZSKL-2018-09)。作者简介:王姝(1979-),女,辽 ...
    本站小编 Free考研考试 2021-12-15
  • 基于语义分割注意力与可见区域预测的行人检测方法
    王璐1,王帅1,张国峰1,徐礼胜2,31.东北大学计算机科学与工程学院,辽宁沈阳110169;2.东北大学医学与生物信息工程学院,辽宁沈阳110169;3.沈阳东软智能医疗科技研究院有限公司,辽宁沈阳110167收稿日期:2021-01-04基金项目:中央高校基本科研业务费专项资金资助项目(N181 ...
    本站小编 Free考研考试 2021-12-15
  • 车削工件2-D表面形貌检测方法研究
    赵春雨1,程大众1,耿浩博21.东北大学机械工程与自动化学院,辽宁沈阳110819;2.澳门大学科技学院,澳门999078收稿日期:2020-11-20基金项目:国家自然科学基金资助项目(51775094)。作者简介:赵春雨(1963-),男,辽宁黑山人,东北大学教授,博士生导师。摘要:主轴回转误差 ...
    本站小编 Free考研考试 2021-12-15
  • 悬挂式止水帷幕基坑降水引起坑外地面沉降计算方法
    张志红,郭晏辰,凡琪辉,张钦喜北京工业大学城市与工程安全减灾教育部重点实验室,北京100124收稿日期:2020-01-14基金项目:北京市自然科学基金重点资助项目(8171001)。作者简介:张志红(1976-),女,河北深州人,北京工业大学教授;张钦喜(1964-),男,山东肥城人,北京工业大学 ...
    本站小编 Free考研考试 2021-12-15