XML全文检索系统的设计与实现
文献类型 | 学位 |
作者 | 高庆一[1] |
机构 | 北京航空航天大学 ↓ |
授予学位 | 硕士 |
年度 | 2004 |
学位授予单位 | 北京航空航天大学 |
语言 | 中文 |
关键词 | 专利申请;电子政务;可扩展标记语言;全文检索;向量空间模型 |
摘要 | 中国国家知识产权局专利局正在开发的中国专利电子申请系统作为电子政务工程,意义十分重大.鉴于国际知识产权组织将XML格式作为专利电子申请文件的描述标准,为了和国际接轨,中国专利电子申请系统也采纳XML标准.在业已实现的电子申请系统中,实现了从客户端XML文档编辑生成,打包传输,接受处理存储的一整套流程.但是,如何使已经存储为XML文档的专利文档能够发挥最大的作用,有效地提供用户检索,是一个非常重要而且必须解决的问题.该文所设计的XML专利文档全文检索系统,就是专门为国家知识产权局专利局提供的专利文档全文检索工具.XML文档相对传统文本,能够表达文档的内容和结构信息,充分应用文档结构信息可以有效地提高检索系统的查准率.该文介绍了一种将结构信息与传统向量空间模型相结合检索技术,提出的检索方式是基于无须给定数据详细结构信息的树匹配概念进行检索.采用逻辑文档的概念来确定文档的边界,检索的范围确定在逻辑文档之中,并且项权重可以动态改变.通过对于文档树子树的处理,可以完成对于检索文档的部分结构匹配.进而,该文还说明如何将传统向量空间模型和树匹配的算法应用在XML文档之中.该文设计了有效的算法来计算全部或者部分树匹配以及项权重.并且提出XML-N层向量空间模型的概念,对XML专利文档进行项权重的匹分设置,进而缩短检索时间.最后给出了XML全文检索系统的在中国国家知识产权局专利局的电子申请项目中专利全文检索系统X-Search中的应用. |
影响因子:
dc:title:XML全文检索系统的设计与实现
dc:creator:高庆一
dc:date: publishDate:1753-01-01
dc:type:学位
dc:format: Media:北京航空航天大学
dc:identifier: LnterrelatedLiterature:北京航空航天大学.2004.
dc:identifier:DOI:
dc: identifier:ISBN: