人机自然交互系统分布式网络环境及双模态语音识别的若干问题
文献类型 | 学位 |
作者 | 蒙山[1] |
机构 | 北京航空航天大学 ↓ |
授予学位 | 博士 |
年度 | 2003 |
学位授予单位 | 北京航空航天大学 |
语言 | 中文 |
关键词 | 人机交互;分布式计算;模式识别;语音识别;图像处理 |
摘要 | 该文主要研究了人机自然交互系统新的基本体系结构和关键技术问题.在人机自然交互中,信息交互内容的传递主要是以语言方式来完成的.在我们承接"863"计划关于语音识别研究的基础上,根据正在进行的广东省自然科学基金的要求,该文进行了听觉-视觉双模态语音识别的研究,因为语言表达实质上至少是双模态的.为此,我们研究并设计和建立了分布式网络环境,人机自然交互主渠道的双模态语音识别的视觉语音特征区域定位、视觉语音特征提取、训练与识别以及双模态信息融合.该文的主要研究成果可概括如下.(1)研究了人机自然交互系统的体系结构理论设计及其中所涉及的核心技术问题,构思了在现有信息处理技术条件下能够为人机自然交互系统提供的各基本组成单元.提出了人机自然交互系统以听觉-视觉双模态语言传递信息交互内容为核心技术的协作机制.(2)为提高人机自然交互系统开发效率并为随后的分布式系统运行提供高效稳定的支持环境,提出并开发了一种分布式网络环境,以之实现对底层网络连接以及具体硬件和软件平台的抽象与隔离,为所有人机自然交互系统中的分布式信息处理单元提供统一的开发、运行环境,实现了人机自然交互系统中可能出现的异构系统运行协作和不同种类编程语言开发的对象间互操作.(3)基于对象请求中介架构的分布式网络环境实施框架,在此框架内,开发了分布工对象配置管理和对象注册等基本系统服务工具.以对象请求中介架构中的多媒体流传输标准为基础,提出了适合人机自然交互系统的实时数据流传输机制设计方案,并实际开发了相关的数据流传输部件.(4)研究了双模态语音识别中视觉语音特征区域定位问题.给出了基于简化的彩色模型的人脸目标区域分割方法.这种图像分割方法训练过程简单,具有较好的光照稳定性,经过实验验证,效果良好.深入研究了基于非线性核函数映射主元分析方法,给出了广义似然距离作为判据来进行定位判别的新方法.通过与传统主元分析和线性区别分析定位方法和基于统计学习理论的支撑向量机方法的实验对比,验证了新方法的定位正确性和有效性.(5)基于汉语普通话语音基本发音单位数量相对于其它种类语言(如英语)较少的特点,归纳了汉语语音发音可能涉及的基本发音现象,总结出了基本发音集合.它包括了针对听觉信息的基于拼音组合规则的有调、无调发音单元集合,以及针对视觉信息的基于口形变化特点的发音分类集合.给出和建立了具有较高灵活性的双模态识别处理机制,在分布式多场景的交互过程中,能够实现实时语法规则切换.这样,一方面降低了识别所需的计算量,另一方面,还能够提高系统识别正确率. |
影响因子:
dc:title:人机自然交互系统分布式网络环境及双模态语音识别的若干问题
dc:creator:蒙山
dc:date: publishDate:1753-01-01
dc:type:学位
dc:format: Media:北京航空航天大学
dc:identifier: LnterrelatedLiterature:北京航空航天大学.2003.
dc:identifier:DOI:
dc: identifier:ISBN: