搜索引擎专用化智能化研究
文献类型 | 学位 |
作者 | 李振星[1] |
机构 | 北京航空航天大学 ↓ |
授予学位 | 博士 |
年度 | 2003 |
学位授予单位 | 北京航空航天大学 |
语言 | 中文 |
关键词 | 搜索引擎;文本过滤;概念检索;中文分词;文本聚类 |
摘要 | 论文提出一种有预测的采集专业领域网页信息方法,来实现搜索引擎专用化.首先根据样本文档集潜在语义索引模型对文本之间相似计算的方法,构造出用户兴趣模型,可以快速判断页面与样本文档集合的相关性.然后对Web站点结构分析,通过计算已知网页相关性可以对未知网页相关性作出预测,从而控制信息的采集过程,有效的缩短采集时间,减少信息存储冗余、加快检索时间,节约网络资源.针对专用搜索引擎海量网页数据的分词标引和概念关联模型建立应用,提出自扩充词典快速分词算法.结合快速的单文档串频统计分词方法和词典分词最快的全二分最大匹配分词算法,利用两次不同类型的快速分词进行综合切分,在保障分词速度的基础上获得了较好的未登录词识别和歧义消除的效果,然后添加确认新词到自扩充词典.自扩充词典快速分词算法通过统计学习获得新词,并自动维护自扩充词典,为专用搜索引擎不断更新的专业领域分词奠定了基础,基本达到了其既识别新词又快速分词的要求.论文提出字词结合的逐级拆分中文全文标引方法.避免了单独使用字、词、心理概念词方法标引的误差.在保证查全率的情况下,使用(心理)词标引权值衰减更具有语言意义.对因特网信息冗余度越来越大的情况,提出一种基于中文词元相似度的检索前二次聚类算法. |
影响因子:
dc:title:搜索引擎专用化智能化研究
dc:creator:李振星
dc:date: publishDate:1753-01-01
dc:type:学位
dc:format: Media:北京航空航天大学
dc:identifier: LnterrelatedLiterature:北京航空航天大学.2003.
dc:identifier:DOI:
dc: identifier:ISBN: