删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于端到端句子级别的中文唇语识别研究

本站小编 Free考研考试/2022-01-02

摘要:近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学习的唇语识别模型中,通常包含使用神经网络对图像进行特征提取和特征理解两个部分.根据中文唇语识别的特点,将识别过程划分为两个阶段——图片到拼音(P2P)以及拼音到汉字(P2CC)的识别.分别设计两个不同子网络针对不同的识别过程,当两个子网络训练好后,再把它们放在一起进行端到端的整体架构优化.由于目前没有可用的中文唇语数据集,因此采用半自动化的方法从CCTV官网上收集了6个月20.95GB的中文唇语数据集CCTVDS,共包含14 975个样本.此外,额外采集了269 558条拼音汉字样本数据对拼音到汉字识别模块进行预训练.在CCTVDS数据集上的实验结果表明,所提出的ChLipNet可分别达到45.7%的句子识别准确率和58.5%的拼音序列识别准确率.此外,ChLipNet不仅可以加速训练、减少过拟合,并且能够克服汉语识别中的歧义模糊性.



Abstract:In recent years, with the widely application of deep learning, lip reading recognition technology has achieved rapid development. Different from traditional methods, lip reading recognition methods based on the deep learning usually use the neural network model both for the feature extraction and comprehension. According to the characteristics of Chinese language, a two-step end-to-end architecture is implemented, in which two deep neural network modules are applied to perform the recognition of picture-to-pinyin (P2P) and pinyin-to-hanzi (P2CC) respectively. After the two modules are trained with convergence, they are then jointly optimized to improve the overall performance. Due to the lack of Chinese lip reading dataset, the 6-month daily news broadcasts are collected from China Central Television (CCTV), and they are semi-automatically labelled into a 20.95 GB dataset CCTVDS with 14 975 samples. In addition, the supplementary dataset with 269 558 samples are collected during the pre-training of P2CC. According to experimental results trained on the CCTVDS, the proposed ChLipNet can achieve 45.7% sentence-level and 58.5% Pinyin-level accuracies. In addition, ChLipNet can not only accelerate training, reduce overfitting, but also overcome syntactic ambiguity in the recognition of Chinese language.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5709
相关话题/数据 中文 网络 过程 设计

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于ICN网络架构的社区感知型MSN路由机制
    摘要:移动社交网络(mobilesocialnetwork,简称MSN)利用移动用户之间的社交关系,通过节点间的协作式转发实现消息交付.然而,随着大数据时代的到来,MSN需要满足移动用户日益增长的对内容(如视频)的需求.由于信息中心网络(information-centricnetworking,简 ...
    本站小编 Free考研考试 2022-01-02
  • 节点度估计和静态博弈转发策略的Ad Hoc网络路由协议
    摘要:针对AdHoc网络路由发现过程中广播路由请求分组导致的广播风暴问题,提出了一种基于节点度估计和静态博弈转发策略的AdHoc网络路由协议NGRP.NGRP考虑边界影响,采用分段函数的思想将网络场景分为中心、边和角区域,分别估算网络中节点在不同区域的节点度,避免了周期性广播Hello消息获取节点度 ...
    本站小编 Free考研考试 2022-01-02
  • 面向大数据分析作业的启发式云资源供给方法
    摘要:云计算已成为大数据分析作业的主流运行支撑环境,选择合适的云资源优化其性能面临巨大挑战.当前研究主要考虑大数据分析框架(如Hadoop,Spark等)的多样性,采用机器学习方法进行资源供给,但样本少容易陷入局部最优解.提出了大数据环境下基于负载分类的启发式云资源供给方法RP-CH,基于云资源共享 ...
    本站小编 Free考研考试 2022-01-02
  • 深度神经网络测试研究综述
    摘要:随着深度神经网络技术的快速发展、大数据的涌现和计算能力的显著提升,深度神经网络被越来越多地应用到各个安全攸关领域,例如自动驾驶、人脸识别、飞机碰撞检测等.传统的软件系统通常由开发人员手工编写代码实现其内部的决策逻辑,并依据相应的测试覆盖准则设计测试用例来测试系统代码.与传统的软件系统不同,深度 ...
    本站小编 Free考研考试 2022-01-02
  • 面向顺序存储结构的数据流分析
    摘要:C程序中数组、malloc动态分配后的连续内存等顺序存储结构被大量使用,但大多数传统的数据流分析方法未能充分描述其结构及其上的操作,特别是在利用指针访问顺序存储结构时,传统的分析方法只关注了指针的指向关系,而未讨论指针可能发生偏移的数值信息,且未考虑发生偏移时可能存在越界的不安全问题,导致了对 ...
    本站小编 Free考研考试 2022-01-02
  • 基于TEE的主动可信TPM/TCM设计与实现
    摘要:可信技术正在从被动可信度量向着下一代的主动可信监控方向发展,要求TPM/TCM模块有能力主动度量和干预主机系统,传统的TPM/TCM从架构和运行机制等方面都无法满足这种能力.TEE(trustedexecutionenvironment)技术提供了可信执行环境和主动访控能力,为构建下一代TPM ...
    本站小编 Free考研考试 2022-01-02
  • 拉普拉斯阶梯网络
    摘要:阶梯网络不仅是一种基于深度学习的特征提取器,而且能够应用于半监督学习中.深度学习在实现了复杂函数逼近的同时,也缓解了多层神经网络易陷入局部最小化的问题.传统的自编码、玻尔兹曼机等方法易忽略高维数据的低维流形结构信息,使用这些方法往往会获得无意义的特征表示,这些特征不能有效地嵌入到后续的预测或识 ...
    本站小编 Free考研考试 2022-01-02
  • 轮廓指导的层级混合多任务全卷积网络
    摘要:传统的深度多任务网络通常在不同任务之间共享网络的大部分层(即特征表示层).由于这样做会忽视不同任务各自的特殊性,所以往往会制约其适应数据的能力.提出了一种层级混合的多任务全卷积网络HFFCN,以解决CT图像中的前列腺分割问题.特别地,使用一个多任务框架来解决这个问题.这个框架包括一个分割前列腺 ...
    本站小编 Free考研考试 2022-01-02
  • 基于代理重加密的云数据访问授权确定性更新方案
    摘要:有越来越多的用户选择云为其进行存储、运算、共享等数据处理工作,因此云端数据量与日俱增,其中不乏敏感数据和隐私信息.如何对用户托管于云端的数据进行授权管理,保证数据机密性、访问授权有效性等至关重要.为此,提出一种基于代理重加密(proxyre-encryption,简称PRE)的云端数据访问授权 ...
    本站小编 Free考研考试 2022-01-02
  • 面向流数据分类的在线学习综述
    摘要:流数据分类旨在从连续不断到达的流式数据中增量学习一个从输入变量到类标变量的映射函数,以便对随时到达的测试数据进行准确分类.在线学习范式作为一种增量式的机器学习技术,是流数据分类的有效工具.主要从在线学习的角度对流数据分类算法的研究现状进行综述.具体地,首先介绍在线学习的基本框架和性能评估方法, ...
    本站小编 Free考研考试 2022-01-02