传统文档到XML的转换技术的研究与实现
文献类型 | 学位 |
作者 | 陈峰[1] |
机构 | 北京航空航天大学 ↓ |
授予学位 | 硕士 |
年度 | 2004 |
学位授予单位 | 北京航空航天大学 |
语言 | 中文 |
关键词 | 文档转换;信息抽取;机器学习;传统文档;XML;XML Schema |
摘要 | 该文首先具体分析了XML转换的现状,较深的研究了XML转换的关键技术.然后基于多策略的XML转换方法,设计并实现了一个通用的XML转换原型系统(简称为Doc2XML).系统采用了该文新提出的一种自动(基于规则)的信息抽取方法,该方法较好的解决了上面所提的前三个不足.基本的解决过程如下:首先自定义了一种描述能力较强的规则描述语言(简称RDL语言),该语言不仅仅能描述元素的各种分界符,还能描述元素的丰富格式特征,同时通过定义特征权值的方式来支持模糊匹配.其次,RDL语言虽然只定义单独元素的规则,但通过结合使用W3C XML Schema的模式定义,使得它能描述XML的各种复杂的嵌套结构.最后,设计了一种状态机模型,状态机的执行能高效的完成XML转换的具体过程,同时又具有一定的容错处理能力.对于第四个不足(即通过训练文档来学习规则),在对各种机器学习算法进行了深入研究的基础上,提出了结合使用经典的FOIL算法和基于最大熵的学习算法,来学习生成RDL语言描述的规则.通过理论分析可知,该算法具有一定的可行性.除此之外,原型系统的体系结构和主要模块的设计思想对于将来各种XML转换相关系统的设计和实现都具有较高的借鉴价值.目前,Doc2XML能把常用格式(RTF,HTML,PDF和Txt)的传统文档自动的转换成用户指定模式的XML.同时Doc2XML具有可扩展性,对于其他格式的传统文档,只需要增加该格式的文档解析器,并进行局部的少量修改,系统就能支持对该格式的传统文档进行XML转换.由于Doc2XML采用基于规则的信息抽取方法,自定义的规则描述语言(简称RDL语言)具有较强的描述能力,因此针对大多数情况下用户指定的模式,Doc2XML都能进行转换.Doc2XML已应用于中国专利电子申请系统之中,并起到了较好的效果. |
影响因子:
dc:title:传统文档到XML的转换技术的研究与实现
dc:creator:陈峰
dc:date: publishDate:1753-01-01
dc:type:学位
dc:format: Media:北京航空航天大学
dc:identifier: LnterrelatedLiterature:北京航空航天大学.2004.
dc:identifier:DOI:
dc: identifier:ISBN: