专用搜索引擎中信息采集的预测与过滤方法
文献类型 | 会议 |
作者 | 李振星[1];任继成[2];唐卫清[3];唐荣锡[4] |
机构 | [1]北京航空航天大学机械工程及自动化学院 [2]中国科学院计算技术研究所(北京 [3]中国科学院计算技术研究所(北京 [4]北京航空航天大学机械工程及自动化学院 ↓ |
会议论文集 | 搜索引擎与Web挖掘进展 |
来源信息 | 年:2003页码范围:107-115 |
会议信息 | 全国搜索引擎和网上信息挖掘学术讨论会ISSN: |
关键词 | 潜在语义索引;信息采集;文本过滤;搜索引擎 |
摘要 | Web信息急速膨胀使搜索引擎专用化成为发展趋势.有效定向采集过滤专业信息成为搜索引擎一个重要研究方向.本文提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析,对未知网页的相关性的预测来控制信息的采集.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约网络资源. |
所属部门 | 机械工程及自动化学院 |
全文链接 | http://d.g.wanfangdata.com.cn/Conference_4100390.aspx |
会议地点 | 北京 |
会议开始日期 | 2003-03-14 |
人气指数 | 1 |
浏览次数 | 1 |
全文
影响因子:
dc:title:专用搜索引擎中信息采集的预测与过滤方法
dc:creator:李振星;任继成;唐卫清,等
dc:date: publishDate:2003-03-14
dc:type:会议
dc:format: Media:全国搜索引擎和网上信息挖掘学术讨论会
dc:identifier: LnterrelatedLiterature:全国搜索引擎和网上信息挖掘学术讨论会.2003,107-115.
dc:identifier:DOI:
dc: identifier:ISBN: