删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

Web数据的深度定向采集

中国人民大学 辅仁网/2017-07-03

文献详情
Web数据的深度定向采集
外文标题:Deep directional collection of Web data
文献类型:期刊
作者:夏天[1]
机构:数据工程与知识工程教育部重点实验室,北京100872;中国人民大学信息资源管理学院,北京100872

年:2011
期刊名称:山东大学学报(理学版)
卷:46
期:5
页码范围:34-38
增刊:增刊
收录情况:中文核心期刊要目总览中国科技核心期刊CSCD(CSCD:4210671)
所属部门:信息资源管理学院
语言:中文
ISSN:1671-9352
链接地址:http://d.g.wanfangdata.com.cn/Periodical_sddxxb201105006.aspx
基金:国家社会科学基金资助项目
关键词:深度采集;定向网络爬虫;公共网络舆情
摘要:通过模拟人类访问网页的浏览行为,提取定向爬行子页面集限定爬虫的爬行方向;引入页面继承关系,并通过爬行条目的属性继承实现跨页面复合对象的数据关联关系;设计实现了支持深度定向采集的通用爬行流程.面向天涯热帖的舆情采集实验结果表明:该方法可以在整体处理流程不变的前提下,实现复杂对象的数据采集,并具有较高的采集效率.
作者其他论文



基于内容代表性评价的关键帧抽取.顾益军;解易;夏天.计算机科学.2014,41(8),286-288,315.
中国政府网站移动浏览器兼容性研究.夏天;陈杰;魏小贞,等.现代情报.2014,34(11),62-69.
中心网页中主题网页链接的自动抽取.夏天.山东大学学报:理学版.2012,47(5),25-31.
基于扩展标记树的网页正文抽取.夏天.广西师范大学学报(自然科学版).2011,29(1),133-137.
Nutch的插件机制分析.夏天.广西师范大学学报(自然科学版).2010,28(1),105-108.

相关话题/数据 山东 流程 管理学院 网络