<script type="text/javascript" src="https://cdn.bootcss.com/mathjax/2.7.2-beta.0/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script> <script type='text/x-mathjax-config'> MathJax.Hub.Config({ extensions: ["tex2jax.js"], jax: ["input/TeX", "output/HTML-CSS"], tex2jax: {inlineMath: [ ['$','$'], ["\\(","\\)"] ],displayMath: [ ['$$','$$'], ["\\[","\\]"] ],processEscapes: true}, "HTML-CSS": { availableFonts: ["TeX"] }, TeX: {equationNumbers: {autoNumber: ["none"], useLabelIds: true}}, "HTML-CSS": {linebreaks: {automatic: true}}, SVG: {linebreaks: {automatic: true}} }); </script> 王末1,2,, 郑晓欢3, 王卷乐4,5,6,, 柏永青4,5
1. 中国农业科学院农业信息研究所,北京 100081
2. 农业部农业大数据重点实验室,北京 100081
3. 中国科学院办公厅,北京 100864
4. 中国科学院地理科学与资源研究所,资源与环境信息系统国家重点实验室,北京 100101
5. 中国科学院大学,北京 100049
6. 江苏省地理信息资源开发与利用协同创新中心,南京 210023

A hybrid personalized data recommendation approach for geoscience data sharing

WANGMo1,2,, ZHENGXiaohuan3, WANGJuanle4,5,6,, BAIYongqing4,5
1. Agricultural Information Institute of Chinese Academy of Agricultural Sciences, Beijing 100081, China
2. Key Laboratory of Agricultural Big Data, Ministry of Agriculture, Beijing 100081, China
3. Office of General Affairs, Chinese Academy of Sciences, Beijing 100864, China
4. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101, China
5. University of Chinese Academy of Sciences, Beijing 100049, China
6. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
通讯作者:通讯作者:王卷乐(1976- ),男,博士,研究员,主要研究方向为科学数据共享、地理信息系统与遥感应用。E-mail: wangjl@igsnrr.ac.cn
-->作者简介:王末(1987- ),男,助理研究员,研究方向为地学数据共享与挖掘。E-mail: wangm.13b@igsnrr.ac.cn


推荐系统是帮助互联网用户克服信息过剩的有效工具。在地学数据共享领域,较其他物品的内容属性,地学数据具有更加丰富的时空属性,这也给地学数据推荐带来挑战。针对地学数据的特点,为地学数据共享推荐服务开发了一种动态加权的混合过滤方法。该方法分别采用协同过滤和基于内容过滤算法预测用户对数据的兴趣度,再以训练模型计算最优加权权重,计算最终预测评分。在数据获取阶段,通过用户访问日志数据,采用Jenks Natural Break算法分析用户访问记录获取用户的数据兴趣度。在基于内容过滤部分,通过数据的空间、时间及内容属性计算数据相似度,并以用户历史行为为依据计算用户兴趣。在协同过滤和基于内容过滤中分别采用k-NN算法计算用户对未访问数据的预测评分,并进行加权求和。通过训练集,对理想权重值及用户的共同评价度(co-rating level)进行建模,拟合二者的关系。该模型被应用于混合过滤的权重调整,以获得最优的加权方程。测试结果显示,结合数据时空属性的混合过滤方法的准确度和召回率,较单一的协同过滤或基于内容过滤方法有显著提高。

Recommender systems are effective tools helping Internet users mitigate information overloading. In geoscience data sharing domain, items (datasets) are more informative in terms of spatial and temporal attributes compared to regular item (e.g. books, movies, music). Thus, high-performance recommendation algorithms for geoscience data are more challenging. This study proposed an approach that combines content-based filtering with item-based collaborative filtering using dynamic weights. The approach examines merits of both collaborative filtering in its predictive ability and item content information to mitigating data sparsity and early ratter problem. Users' ratings on items were first derived with their historical visiting time by Jenks Natural Breaks. In the CBF part, spatial, temporal, and thematic information of geoscience datasets were extracted to compute item similarity. Predicted ratings were computed with k-NN method separately using CBF and CF, and then combined with dynamic weights. With training dataset, we attempted to find the best model describing ideal weights and users’ co-rating level. A logarithmic function was identified to be the best model. The model was then applied to tune the weights of CF and CBF on user-item basis with test dataset. Evaluation results showed that the dynamic weighted approach outperformed either solo CF or CBF approach in terms of Precision and Recall.

Keywords:recommender system;geoscience data;hybrid filtering;science data sharing

王末, 郑晓欢, 王卷乐, 柏永青. 基于混合过滤的地学数据个性化推荐方法设计与实现[J]. 地理研究, 2018, 37(4): 814-824 https://doi.org/10.11821/dlyj201804014
WANG Mo, ZHENG Xiaohuan, WANG Juanle, BAI Yongqing. A hybrid personalized data recommendation approach for geoscience data sharing[J]. Geographical Research, 2018, 37(4): 814-824 https://doi.org/10.11821/dlyj201804014

1 引言

个性化推荐系统是一种能够学习用户偏好,并基于用户偏好预测用户需求,在大量的可能选项里给出个性化推荐的Web应用系统[11]。常见的个性化推荐算法类型有协同过滤算法(collaborative filtering)、基于内容过滤算法(content-based filtering)以及人口统计学过滤算法(demographic filtering)。协同过滤依赖于用户间的共同评分来计算用户间相似度,并将用户喜好项目推荐给与其相似的用户;基于内容过滤则通过项目属性计算项目(item)间相似度,依据用户历史兴趣推荐具有相似属性的项目;人口统计学过滤则是通过用户的社会属性(比如年龄、性别、地域、职业等)来计算用户的相似性,划分用户类型,给出相应的推荐。这些推荐方法有着各自的优缺点,单一地使用某一种推荐算法并不能适应所有的应用场景。在有大量的用户评分数据情形下,协同过滤往往能获得比基于内容过滤更好的效果[12],但协同过滤算法效果容易受到数据稀疏性影响。由于无需其他用户的评分数据,基于内容过滤算法则能避免这种问题。人口统计学过滤算法则易受用户隐私问题的限制,对推荐算法及其重要的信息往往是用户不愿透露的隐私信息。此类推荐算法在实际应用中很少被采用。基于以上考虑,结合多种过滤算法的混合式推荐算法可利用各算法优点,避免其缺点,获得更好的推荐效果[13]
混合式过滤算法在不同的应用场景下有不同的目标。最常见的设计目标是提高系统的推荐准确度[14,16]。也有些应用场景是为了克服推荐系统的冷启动问题。此外,推荐系统需要处理大量的数据,亦有些混合式推荐算法的目的是提高计算效率。由于混合式过滤算法具有应用潜力,此类算法已在多个领域得以研究应用,如应用书籍[26]、电影[4, 27]、音乐[28,29]等。除了上述的商品推荐外,混合式过滤推荐算法也被应用于推荐新闻[19,30]、网络教学课程[31,32,33]、数据图书[34]、旅游目的地[35,36]。然而在地学数据共享领域,缺少专业的数据推荐方法。

2 混合式过滤地学数据推荐方法设计

-->Fig. 1Workflow of the proposed hybrid filtering algorithm


2.1 基于内容过滤数据相似度计算

2.1.1 主题内容相似度 地理空间数据的主题相似度与传统推荐系统应用里的书籍、电影、音乐内容相似度类似,由内容的描述属性确定。本研究从两个属性确定主题内容相似度:关键字和分类层级。计算公式为:
若分类层级深度表示为|Hi|,在ij的分类层级重合度为 Hi?Hj-1。分类层级相似度的计算公式为:
2.1.2 空间范围相似度 相比于商品、电影、音乐等,地理空间数据的一个显著特征是其空间属性。计算两个地理空间数据集的空间相似度最直接的方法是计算二者的拓扑关系,确定二者的空间范围重合度[38]。然而,采用地理信息系统计算拓扑关系开销较大。在地学数据共享平台处理大量地理空间数据的应用场景下,该计算方法实用性较差。地理空间本体则记录了位置名词间的空间关系,能提供快速的空间关系查询,适用于大量空间的空间位置关系查询计算。近年来,有多项的空间信息检索研究应用了地理空间本地作为语义检索工具[39,40]
2.1.3 时间范围相似度计算 由于时间的一维性,其相似度的计算较简单。时间范围相似度计算需考虑数据的时间数据类型。数据的时间属性类型有时间点和时间范围两种。时间属性A和B的相似度有二者的重叠程度确定。以|A|和|B|表示时间A和B的长度,则A和B的相似度计算公式为:

2.2 协同过滤数据相似度计算

2.2.1 项目相似度计算 协同过滤分为基于用户的(User-based CF)和基于项目的(Item-based CF)两种。基于用户的协同过滤通过与用户有相同兴趣的用户群来预测用户偏好;而基于项目的协同过滤则通过用户间共同评分计算项目相似度,并依据用户历史预测用户偏好。科学数据共享平台提供的是专业性强的服务,其用户群主要来自高校和科研院所。科研人员在一段时间内将保持其科研兴趣,对某一主题的科学数据感兴趣。从这一角度考虑,基于项目的协同过滤更符合本应用场景。
余弦相似度(Cosine similarity)是基于项目的协同过滤中最常使用的相似度计算方法[41]。然而,余弦相似度忽略了不同用户对项目评分的习惯。一些用户倾向于较轻易地给出高评分,而一些用户很少给出高评分。修正余弦相似度(adjusted cosine similarity)可克服这一问题。令U为同时对项目a和项目b作出评分的用户集合,ru,a为用户u对项目a作出的评分, ruˉ为用户u的所有评分的平均值,余弦相似度simcos和修正余弦相似度simadj_cos计算公式分别为:
2.2.2 项目评分计算 商业网站通常通过用户评分、浏览、收藏、购买等用户行为获取用户兴趣。科学数据共性平台也可通过用户浏览、下载等行为获取用户兴趣。本研究的目标是所有用户的行为模式,包括匿名用户和注册用户。部分共享数据用户并不能直接下载,且网站平台未提供直接的评分系统。因此,本研究通过用户浏览时间来推算用户评分。受制图学里分级方法Jenks Natural Breaks的启发,本研究通过该方法推算用户对数据的评分。该方法在每一分级下将数据差异最小化,可被看作是一维的k-means算法。因此,该方法能消除用户网络浏览行为习惯的差异。
首先,通过日志数据获取用户对每个数据集的历史累计时间。然后针对各用户,使用Jenks Natural Breaks法对数据集的浏览时间划分为5个等级,分别代表评分的1~5分。表1中以用户浏览时间为例,用户对数据集的累计时间从1~30 min不等,Jenks Natural Breaks划分的5个等级为[1,2]、(2,5]、(5,7]、(7,13]、(13,30]。
Tab. 1
表1Jenks Natural Breaks划分用户浏览时间示例
Tab. 1Jenks Natural Breaks for item rating assignment


2.3 动态加权混合过滤模型

若令 predweightedu,i为用户u对数据集i的实际评分,则计算出的β为理想的权重。本研究定义协同过滤中用来预测评分的k个最邻近数据集的平均共同评价数量为CL(co-rating level),则CL可表达为:

3 数据来源与实验设计

3.1 数据来源

3.1.1 服务器日志数据 服务器日志数据是本研究用户行为数据的来源。本研究获取了2015年的服务器日志数据进行试验,共12062607条。该日志数据以NCSA ECLF格式储存,每天日志信息里包含了用户IP、访问时间、方法、访问URL地址、状态、访问来源链接、客户端信息等。
3.1.2 数据集元数据 地空间数据集的元数据描述了数据的主题内容、空间范围、时间范围等信息,是基于内容过滤中计算数据集相似度的信息来源。在地球系统科学数据共享平台共享的数千个数据集中,本研究随机选择了200个样本数据集进行试验,并分别通过元数据提取了样本数据集的分类、关键词、空间范围、时间范围信息。
3.1.3 地理空间本体 本研究采用了王东旭等针对地学数据共享开发的地理空间本体[42]。通过本体查询工具,可获取不同地理名词间的空间拓扑关系,并用于数据间空间相似度计算。

3.2 数据预处理


3.3 实验设计

本研究随机选取了平台共享的200个数据集。根据用户历史访问,计算出用户对这200个数据集的评分。经过数据预处理,共得到7287个活跃用户的117375个评分。然后将这些评分中的70%作为训练集用于推荐系统中相似度计算,10%用于权重和CL关系的建模(建模集),剩下20%用于测试推荐效果(测试集)。推荐算法编程语言为Python。此外,基于内容过滤中数据相似度计算过程中采用Java Jena框架查询地理空间本体。

4 结果分析

-->Fig. 2Scatter plot of ideal weight and co-rating level (CL)

-->Fig. 3Precision (left) and Recall (right) evaluation of CBF, item-based CF and proposed Hybrid approach

5 结论与讨论

本研究提出了一种面向地理空间数据推荐应用的混合式推荐算法。从数据的空间范围相似度、时间范围相似度、内容主题相似度三个方面来解决基于内容过滤中的相似度计算问题。实验结果表明,本研究提出的动态加权混合式过滤算法较单纯的协同过滤或基于内容过滤的推荐效果有明显提高。将地理空间数据的时空属性作为推荐系统的输入变量,提高了推荐效果,可应用于地理空间数据网络服务。研究中提出的以Jenks Natural Break来区分用户兴趣度的方法,亦可用于其他领域用户行为研究。
The authors have declared that no competing interests exist.

