摘要/Abstract
摘要: 地学文档中蕴含了丰富的信息与专家知识,缺少关键词支持的地学文档给分类管理、信息检索与共享带来不便.为了发挥大数据技术处理非结构化地学数据优势,本文基于Hadoop平台设计并开发了一款地学文档关键词自动提取算法软件,将各类Word、PDF格式地学文档资料分布式存储在HDFS和HBase中,可对非结构化数据进行自动地读取、解析、处理、计算等.研发了大数据环境下的基于加权、词频的关键词提取算法,以及融合加权与词频两套方法的组合关键词提取算法.使用100余篇期刊论文对算法进行测试并与作者关键词对比,结果表明组合算法提取的复合关键词具有较高的地学类关键词命中率,有的甚至可达100%,其计算效率大大优于单机运行,可为地学文档在线查阅与检索等提供有效的辅助支持.
PDF全文下载地址:
http://www.progeophys.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=8717