The semantic relevancy computation model on essential features of geospatial data
ZHAOHongwei收稿日期:2015-06-21
修回日期:2015-11-18
网络出版日期:2016-01-23
版权声明:2016《地理研究》编辑部《地理研究》编辑部
基金资助:
作者简介:
-->
展开
摘要
关键词:
Abstract
Keywords:
-->0
PDF (1933KB)元数据多维度评价相关文章收藏文章
本文引用格式导出EndNoteRisBibtex收藏本文-->
1 引言
随着3S技术的发展,地理空间数据的内容日益丰富、来源越来越广泛、存储格式多样化。传统基于关键词的数据检索方式,很难满足用户需求。如“江苏省1语义相关度不仅包含词汇间的相似性,而且包括词汇之间根据各种语义关系具有的关联性[3],例如:对于“江苏省”和“无锡市”这两个词而言,虽然两者词汇相似性非常低,但其空间相关性却很高(无锡市属于江苏省)。除了空间关系,地理空间数据集之间还具有多种语义关系如属性类别关系、时间关系等。目前,国内外****主要通过地理本体[4-7]、地名词典[8,9]、地理语义目录[10]等方式构建地理语义关系来辅助计算地理空间数据的语义相关性。然而,构建地理本体需要完整的概念体系和概念之间的空间关系,难度大、耗时长;地名词典、地理语义目录不能够表达地理空间特征的拓扑关系、度量关系等。因此,以地理空间元数据为语料库,选取用户检索中主要关注的空间、时间、内容三个特征,构建地理空间数据本质特征语义相关度计算模型。该模型通过建立空间、时间、内容三个维度的关联指标体系,并根据不同维度的语义特点,利用地理空间元数据提供的语义信息分别计算语义相关度,进而实现地理空间数据之间的语义关联,支持地理空间数据的精准搜索和排序。
2 地理空间数据本质特征语义关联指标体系
内容、空间、时间是多源地理空间数据的本质特征,每个特征的语义关联都是由多种语义关系构成的,这些语义关系在不同程度上影响地理空间数据的语义相关度。通过对本质特征的分析建立地理空间数据本质特征三级关联指标体系(表1)。每个指标的权重由专家打分确定。空间度量关系和时间度量关系如重叠比例、空间距离等,一方面可以辅助量化空间拓扑关系,另一方面可提高空间语义相关度计算的准确性。Tab. 1
表1
表1地理空间数据本质特征语义关联指标体系
Tab. 1The semantic relevance indices system of essential features of geospatial data
一级指标 | 二级指标 | 三级指标 |
---|---|---|
内容语义相关度 (Fsem) | 内容词汇语义相似度(F1) | |
类别相关度(F2) | 类别层次相关度(F21) | |
类别相关比例(F22) | ||
空间语义相关度 (Ssem) | 空间拓扑关系相关度 (S1) | |
空间度量关系相关度(S2) | 空间重叠比例(S21) | |
空间距离(S22) | ||
时间语义相关度 (Tsem) | 时间拓扑关系相关度(T1) | |
时间度量关系相关度(T2) | 时间重叠比例(T21) | |
时间距离(T22) |
新窗口打开
(1)内容语义相关度,用Fsem表示。指地理空间数据集所表达的内容信息的相关程度。一部分取决于数据内容描述词汇的相似性,如土地覆被、土地利用的语义相似性很大;另一部分取决于内容所属的类别相关性,如果园与农用地词汇相似性非常低,但果园属于农用地,在类别上有一定的相关性。两部分分别用内容词汇语义相似度(F1)和类别相关度(F2)两个二级指标表示。
类别相关度包含类别层次相关度和类别相关比例两个三级指标。类别层次相关度是指在同一分类体系中,两个数据所属类别的相关程度。在某些情况下,同一地理空间数据集会同时属于多个类别,如“杭嘉湖地区1
(2)空间语义相关度,用Ssem表示。指地理空间数据所表达的空间实体间的空间关联程度,包括拓扑关系、度量关系和方位关系。方位关系在检索排序中的影响较小,采用拓扑关系和度量关系计算空间语义相关度。
空间拓扑关系主要包括相交、包含、相接等。同一拓扑关系,如包含关系,多个空间对象的距离、面积不同,其语义相关度也不同。如图1所示的面—面之间的拓扑关系,如采用空间实体几何中心的欧式距离,B同时包含A、C、D,距离(CB)=距离(AB)、面积(A)>面积(C),一般认为空间相关度(AB)>空间相关度(CB);距离(DB)>距离(CB)、面积(D)=面积(C),根据地理学第一定律[11]距离越近的两个事物相关性越紧密,则空间相关度(CB)>空间相关度(DB)。因此,空间语义关系在考虑空间拓扑关系的基础上,应进一步考虑空间重叠比例和空间距离等度量关系。
显示原图|下载原图ZIP|生成PPT
图1空间拓扑关系和空间度量关系示意图
-->Fig. 1The diagram of spatial topological relations and measure relationship
-->
(3)时间语义相关度,用Tsem表示。指地理空间数据所表达时间(对于监测类的数据,可用采集时间代替)的关联程度。与空间语义相关度相似,时间语义相关度包括时间拓扑关系(T1)和时间度量关系(T2)两个二级指标。时间度量关系由时间重叠比例和时间距离构成。
3 地理空间数据语义关联模型
3.1 语义相关度计算模型
地理空间数据语义关联度由三个一级指标直接计算得出,如式(1)所示。每个一级指标由相应的二级、三级指标逐层计算得到。式中:GeoSem为地理空间数据语义相似度;
地理空间数据语义相关度计算流程(图2):首先从地理空间元数据语料库中提取各个三级指标值,并进行标准化处理;然后分别计算内容相关度、空间相关度、时间相关度;最终通过加权求和,即通过式(1),得到综合地理空间数据语义相关度。
显示原图|下载原图ZIP|生成PPT
图2地理空间数据本质特征语义相关度计算流程图
-->Fig. 2The calculation flow chart of semantic relevance
-->
3.2 内容相关度
内容语义相关度是指地理空间数据表示的内容、要素属性之间的相关程度,由内容的词汇语义相似度和内容的类别相关度确定,相应的计算模型如下:式中:Fsem是内容语义相关度;
3.2.1 内容词汇语义相似度 目前,语义相似度算法主要是基于本体词典或知识库的规则方法以及基于大规模语料库的统计方法。采用基于《知网》的语义相似度的度量方式,首先从元数据中提取内容关键词集合,然后应用刘群等开发的词汇语义相似度软件WordSimilarity[12]计算地理空间元数据内容关键词的语义相似度。设数据集A和数据集B的关键词集合分别为(
式中:
由于所有的义项根据上下位关系构成了一个树状的义项层次体系,假设两个义项在这个层次体系中的路径为d,两个义项之间的语义相似度:
式中:
3.2.2 内容类别相关性 (1)类别层次相关性
地理空间数据内容分类是指数据按专题要素进行分类,分类体系可以使用层次化的树状结构来描述类与类之间的逻辑关系,因此,计算类与类的相关性需要处理分类树中父子节点、兄弟节点等不同类型的关系。地理空间数据类别语义相关度对于数据挖掘、知识发现、类型数据库综合有重要理论意义,国内外****对其多有研究[13-15]。通过对比分析,采用Yao等的算法[15]计算内容类别层次相关性。
设分类树的根节点为T(图3),T1、T2、T3分支为T的子树,计算任意两个非根节点X和Y的相关性分两种情况:
显示原图|下载原图ZIP|生成PPT
图3X和Y在同一子树上
-->Fig. 3X and Y in the same subtree
-->
当X和Y在同一子树上时(图3),X与Y的语义相关度
式中:l表示X和Y的最近的共同父类到T的距离(边的数量);
当X和Y不在同一子树上时(图4),分别属于子树T1和子树T2,X和Y的最近共同父类是T,X与Y的语义相关度
显示原图|下载原图ZIP|生成PPT
图4X和Y在不同子树上
-->Fig. 4X and Y in the different subtrees
-->
式中:
另外,计算任意节点X与根节点T的相关度公式如下:
式中:
(2)类别相关部分比例
式中:
3.3 空间语义相关度
从地理空间元数据中提取的空间信息一般为文本格式,如行政区划、特征区域(如黄土高原、长江三角洲、京津冀)、道路名称(如国道311)、特征位置(如气象站点、山峰)等地理名称。如何根据地理名称来计算数据集之间的空间拓扑关系和空间度量关系,是空间语义相关度计算的根本。本文首先建立具有统一空间参考的基础地理数据库,并按照面、线、点的顺序将文本格式的地理名称与基础地理数据库中空间数据图层的属性值进行匹配,从而将地理名称映射到空间几何实体,进而依据匹配到的空间几何实体来计算空间拓扑关系和空间度量关系。3.3.1 空间拓扑关系 目前,普遍应用的拓扑关系模型是由Egenhofer等建立的4交模型和9交模型[16,17]。根据空间特征关联的特点,采用4交模型表示空间实体的拓扑关系。在实际应用中,基础地理数据库中的矢量数据共有点、线、面三种类型,任意两种类型的拓扑关系如表2所示。
Tab. 2
表2
表2空间实体拓扑关系
Tab. 2Spatial topology relationships
新窗口打开
3.3.2 空间度量关系 空间度量关系如重叠比例、空间距离等,一方面可以辅助量化空间拓扑关系,另一方面可提高空间语义相关度计算的准确性,包含两个指标:空间重叠比例(S21)和空间距离(S22),相关定义如下:
定义1,空间重叠比例:几何实体重叠部分的面积/长度与实体总面积/长度的比值。
定义2,空间距离:空间实体主要涉及到点、线、面三种几何形态,点—点、点—面、面—面的距离指几何中心的欧式距离;点—线、线—面的距离指点和面的几何中心到线的最短距离;线—线的距离指线的最短距离。
定义3,空间距离比:两个空间实体的空间距离与实体外包圆半径和之比。
定义4,基本权重:两个空间实体满足一种拓扑关系时专家所给予的最小权重。
定义5,控制权重:考虑空间度量关系情况下,一种拓扑关系所能达到的最大权重。如重叠的极限为两个实体完全相互重叠,即相等,这时取最大权重为1。
空间度量关系不能一概而论,如点—线、点—面相交的图形是点,因此,S21是没有实际意义的,空间距离(S22)控制度量关系。如果面—面的关系是Touches,那么S21指面—面相接线的长度占面周长的比例;如果面—面的关系是Contains/Overlaps,那么S21指相交面积占面的面积的比例。因此,空间度量关系的计算还要考虑具体的拓扑关系,即度量关系是用来区分具有相同拓扑关系的几何实体之间的相关度。同一拓扑关系有基本权重(
(1)点—线拓扑关系:由于点—线相交图形为点,因此S21不具有实际意义。点在线上时,距离线中心越近的点,点—线之间的关联强度越强
(2)点—面拓扑关系:由于点—面相交图形为点,S21不具有实际意义。根据地理学第一定律,距离面中心越近的点与面的相关度越大。
(3)线—线拓扑关系:相交的图形有点、线两种情况,相交的图形是点,S21不具有实际意义,空间度量关系由距离控制;相交图形为线,S21表示相交线段长度占两个线实体长度总和的比例。
(4)线—面拓扑关系。相交的图形有点、线两种情况,当相交为点,S21不具有实际意义,空间度量关系由距离控制;当相交为线,S21表示相交线段长度占线实体长度的比例/占两个面实体周长总和的比例。
(5)面—面拓扑关系。相交的图形有点、线、面三种情况,当相交为点,S21不具有实际意义,空间度量关系由距离控制;当相交为线,S21表示相交线的占两个面实体周长总和的比例;当相交为面,S21表示相交部分的面积占两个面实体面积之和的比例。
通过以上分析,任意两个数据集的空间度量关系相关度的计算方法如下:
式中:
3.3.3 空间语义相关度计算 根据层次计算方法,空间语义相关度计算模型可表示为:
式中:Ssem为空间语义相关度;
3.4 时间语义相关度
地理空间元数据包含了丰富的时间信息,主要包括地学现象或过程发生、演化、完结的时间,以及相应的地理空间数据采集、存储、处理和分析、再生产与应用过程中的时间。从实际检索应用上考虑,采用地学现象或过程发生和(或)完结的时间,记录方式采用公历时间。3.4.1 时间拓扑关系 地理空间数据集记录的时间有时间点、时间段、复合时间等,复合时间由时间点、时间段符合而成。因此,时间拓扑关系可分为时间点—时间点、时间点—时间段、时间段—时间段三种。
(1)时间点—时间点的拓扑关系
时间点之间存在两种拓扑关系:相等、不相等。相等时,相关度为1;不相等时,相关度为0。
(2)时间点—时间段的拓扑关系
时间点B—时间段A之间存在四种拓扑关系:A包含B、B在A期间、B是A的开始时间、B是A的结束时间。从数据相关性的角度来看,四种时间拓扑关系起到的作用大致相同。本文认为以上四种时间拓扑关系权重相同。
(3)时间段—时间段的拓扑关系
Allen对时态拓扑关系描述和推理进行了研究,归纳出13种时态关系,分别为before、overlap、meet、equal、start、finish、during及其对应的逆关系,equal没有逆关系,如表3所示[18]。其中,2~4的六种时间关系具有相同的拓扑相关性,因此,本研究认为六种时间关系的拓扑权重相同。
Tab. 3
表3
表3时间段—时间段拓扑关系
Tab. 3Time topology relationships
新窗口打开
3.4.2 时间度量关系 与空间度量关系相似,时间度量关系用来调控时间拓扑关系,每种时间拓扑关系都具有相应的基本权重(
定义6,时间重叠比例:时间重叠长度与时间范围A或时间范围B长度的比值。
定义7,时间距离比:两个时间范围中间时间点的距离与两个时间半径和的比值。
时间度量关系相关度计算如下:
式中:
3.4.3 时间语义相关度计算模型 同理,时间语义相关度计算模型可表示为:
式中:
4 实验分析
4.1 实验数据与实验方法
(1)实验数据集实验数据来源于国家科技基础条件平台——地球系统科学数据共享平台(http://www2.geodata.cn/)。该平台的元数据以ISO19100地理信息系类标准为基础,每条地理空间元数据包含了丰富的空间、时间、内容特征。
实验选取地球科学数据共享平台100条数据,提取空间、时间、内容特征,并对其进行预处理以便与基础地理数据库中的属性进行匹配和进一步计算,部分数据处理结果如表4所示。
Tab. 4
表4
表4地理空间元数据特征提取结果
Tab. 4The extraction result of geospatial metadata features
数据条目 | 关键词 | 内容分类 | 起始年 | 终止年 | 空间特征 |
---|---|---|---|---|---|
2000年新疆土地覆被数据 | 土地,土地覆被 | 规划地籍,测绘 | 2000 | 2000 | 新疆维吾尔自治区 |
2010年新疆土地覆被数据 | 土地,土地覆被 | 规划地籍,测绘 | 2010 | 2010 | 新疆维吾尔自治区 |
江苏沿海1 | 土地,土地利用 | 规划地籍,测绘 | 1980 | 2010 | 江苏省 |
长三角地区时间序列遥感影像数据集(1990-2012年) | 遥感,影像 | 测绘 | 1990 | 2012 | 长江三角洲 |
青藏高原NPP时空数据集(1982-2006年) | 初级,生产力,土壤,碳含量,生物量 | 生物,地学信息 | 1982 | 2006 | 青藏高原 |
中国30 m分辨率的降雨侵蚀力图(1981-2010年) | 降雨,侵蚀力, | 气候/气象/大气,地学信息 | 1981 | 2010 | 中华人民共和国 |
中国1 | 流域,水资源, | 地学信息,内陆水 | 2002 | 2002 | 中华人民共和国 |
藏东南帕隆藏布流域冰川水文站点观测数据集 | 径流,水资源 | 地学信息,内陆水 | 2007 | 2008 | 帕隆藏布江 |
2009-2012年南海海洋断面科学考察海面气象过程图集系列 | 气象,海洋 | 气候/气象/大气,海洋 | 2009 | 2012 | 南海 |
西藏纳木错流域冰川水文站点观测数据集(2006-2008年) | 径流,水资源 | 地学信息,内陆水 | 2007 | 2008 | 纳木错 |
…… | …… | …… | …… | …… | …… |
新窗口打开
(2)基础地理空间数据库
所选取的地理空间数据空间位置都在中华人民共和国内,因此实验建立的基础地理空间数据库包含选取的100条数据所在的全部空间范围。实验基础地理空间数据库包含中华人民共和国国界、中国省界、中国地区界、中国县界、中国单线河流等图层。
(3)权重设置方法。实验中征求了8位地理科学、地球科学数据共享、地理本体、地理语义等相关领域的专家对一级、二级关联指标进行权重打分,平均结果如表5所示。
Tab. 5
表5
表5关联指标打分结果
Tab. 5Scores of relevancy indices
一级指标 | 一级指标分值 | 二级指标 | 二级指标分值 |
---|---|---|---|
内容关系 | 41 | 内容词汇语义相似度 | 58 |
内容分类 | 42 | ||
小计 | 100 | ||
空间关系 | 35 | 空间拓扑关系 | 60 |
空间度量 | 40 | ||
小计 | 100 | ||
时间关系 | 24 | 时间拓扑关系 | 60 |
时间度量 | 40 | ||
小计 | 100 | ||
合计 | 100 |
新窗口打开
(4)实验环境:Windows7 操作系统,Intel(R) Core(TM) i5-2400 CPU @3.10GHz, 4GB内存,程序实现为Python 2.7。
4.2 结果分析
本实验根据层次计算法,逐步计算地理空间数据两两之间的内容特征、空间特征、属性特征。由于篇幅限制,随机选取“鄱阳湖湖口2005年日流量数据集”(简称为“鄱阳湖数据集”)和“上海市1表6给出100条实验数据中与“鄱阳湖数据集”相关度大于0.1的数据集排序。“鄱阳湖数据集”的空间特征、时间特征、内容分类、内容特征分别为:“鄱阳湖”、“2005年”、“内陆水”、“水资源、水流量”。与之相关度较高的“中国30m分辨率的降雨侵蚀力图(1981-2010年)”,“中国区域地面气象要素数据集(1981-2008年)”,“中国1
Tab. 6
表6
表6与“鄱阳湖湖口2005年日流量数据集”相关度≥0.1的数据集排序
Tab. 6The sorting of data sets which have the semantic relevancy with "The daily traffic data set of Poyang Lake (2005)" greater than 0.1
数据编号 | 数据条目 | 语义相关度 |
---|---|---|
1 | 鄱阳湖湖口2005年日流量数据集 | 1 |
2 | 中国30 m分辨率的降雨侵蚀力图(1981-2010年) | 0.414 |
3 | 中国1 | 0.370 |
4 | 中国区域地面气象要素数据集(1981-2008年) | 0.367 |
5 | 青藏高原地区水资源数据(1988年,分县) | 0.354 |
6 | 中国环境污染数据库(分省:1981-2000年;分城市:1981-2001年) | 0.352 |
7 | 东北平原与山地湖区10 km2以上湖泊2008-2010水量观测数据集 | 0.320 |
8 | 东部平原湖区10 km2以上湖泊2007-2009水量观测数据集 | 0.320 |
9 | 青藏高原湖区10 km2以上湖泊2008-2010水量观测数据集 | 0.320 |
10 | 淮河流域2005-2006年面积10 km2以上主要湖泊信息数据集 | 0.314 |
11 | 松花江流域2005-2006年面积10 km2以上主要湖泊信息数据集 | 0.314 |
12 | 西南诸河流域2005-2006年面积10 km2以上主要湖泊信息数据集 | 0.314 |
13 | 辽河流域2005-2006年面积1 km2以上湖泊基本信息数据集 | 0.314 |
14 | 黄河流域2005-2006年面积1 km2以上湖泊基本信息数据集 | 0.314 |
15 | 东南诸河流域2005-2006年面积1 km2以上湖泊基本信息数据集 | 0.314 |
16 | 淮河流域2005-2006年面积1 km2以上湖泊基本信息数据集 | 0.314 |
17 | 海河流域2005-2006年面积1 km2以上湖泊基本信息数据集 | 0.314 |
18 | 松花江流域2005-2006年面积1 km2以上湖泊基本信息数据集 | 0.314 |
19 | 珠江流域2005-2006年面积1 km2以上湖泊基本信息数据集 | 0.314 |
20 | 海河流域2005-2006年面积10 km2以上主要湖泊信息数据集 | 0.314 |
21 | 长江流域2005-2006年面积1 km2以上湖泊基本信息数据集 | 0.314 |
22 | 长江中下游1980-1989年主要水文站日均流量数据集 | 0.281 |
23 | 杭嘉湖地区1 | 0.276 |
24 | 辽河流域2000年湖泊分布数据集 | 0.274 |
25 | 青藏高原湖区10 km2以上湖泊2008-2010年水质观测数据集 | 0.259 |
26 | 江苏省1 | 0.253 |
27 | 安徽省1 | 0.253 |
28 | 安徽省1 | 0.253 |
29 | 上海市1 | 0.253 |
30 | 重庆市1 km分辨率的NDVI数据集(2001-2010年) | 0.144 |
31 | 青藏高原NPP时空数据集(1982-2006年) | 0.107 |
32 | 江苏沿海1 | 0.107 |
新窗口打开
表7给出100条实验数据中与“上海市数据集”相关度大于0.2的数据集排序。“上海市数据集”的空间特征、时间特征、内容分类、内容特征分别为:“上海市”、“2008年”、“测绘、规划地籍”、“土地利用”。与之相关度较高的有“上海市1
Tab. 7
表7
表7与“上海市1
Tab. 7The sorting of data sets which have semantic relevancy with "Land use data set (1:100000) of Shanghai (2008)" greater than 0.2
数据编号 | 数据条目 | 语义相关度 |
---|---|---|
1 | 上海市1 | 1 |
2 | 上海市1 | 0.720 |
3 | 上海市1 | 0.720 |
4 | 上海市1 | 0.720 |
5 | 上海市1 | 0.720 |
6 | 江苏省1 | 0.592 |
7 | 长三角1 | 0.585 |
8 | 长三角1 | 0.585 |
9 | 长三角1 | 0.585 |
10 | 上海2006年统计年鉴数据集 | 0.420 |
11 | 1 | 0.400 |
12 | 江苏省1 | 0.392 |
13 | 江苏省1 | 0.392 |
14 | 江苏省1 | 0.392 |
15 | 江苏省1 | 0.392 |
16 | 江苏省1 | 0.392 |
17 | 安徽省1 | 0.320 |
18 | 安徽省1 | 0.320 |
19 | 安徽省1 | 0.320 |
20 | 浙江省1 | 0.320 |
21 | 长三角地区时间序列遥感影像数据集(1990-2012年) | 0.320 |
22 | 中国30 m分辨率的降雨侵蚀力图(1981-2010年) | 0.311 |
23 | 长三角1990年统计年鉴数据集 | 0.285 |
24 | 长三角1995年统计年鉴数据集 | 0.285 |
25 | 中国区域地面气象要素数据集(1981-2008年) | 0.285 |
26 | 中国环境污染数据库(分省:1981-2000年;分城市:1981-2001年) | 0.279 |
27 | 华东部分省区(江苏、安徽、上海)1980-1997农作物数据集 | 0.265 |
28 | 杭嘉湖地区1 | 0.260 |
29 | 中国1 | 0.257 |
30 | 长江下游河道、河口地形数据集(2008年) | 0.200 |
新窗口打开
5 结论与讨论
以提高地理空间数据检索的查全率和查准率为目标,根据地理空间数据特点及数据检索中用户关注的焦点,选取地理空间数据内容、空间、时间三大本质特征建立语义关联指标体系。在此基础上,采用分层逐级计算的方式构建地理空间数据本质特征语义相关度计算模型。实验结果表明,该模型具有四点优势:① 构建简单、构建周期短。在提高地理空间数据的查全率、查准率的同时,避免了在语义检索中空间、时间、内容本体构建的复杂性、主观性。② 语义相关性的定量化计算与领域专家较精确的语义判断相结合。在模型中,几何关系的计算依赖于基础地理空间数据库,空间拓扑关系、空间度量关系均可精确表达计算;时间语义相关度的计算有赖于时间的数值描述;内容语义相关度同时包含了内容特征语义相似度和内容类别的相关性。③ 具有一定的可扩展性。基础地理空间数据库、属性分类、时间描述方式均可根据实际应用进行扩展。④ 可应用于多源异构数据。该模型基于元数据,因此,不受数据格式的限制,不同的数据源均可应用。通过实验分析,本模型虽然具有多种优势,但是还存在一定的不足。比如空间、时间、内容的特征提取由人工参与,具有一定的主观性;模型中权重的赋值依赖于专家知识。因此,在后续的工作中还要对模型进行优化、改进。如从多标准的元数据中自动或半自动提取空间、时间、内容特征并进行统一化表达;尝试利用训练数据集确定权重。
The authors have declared that no competing interests exist.
参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
[1] | |
[2] | |
[3] | Abstract: This paper presents a new measure of semantic similarity in an IS-A taxonomy, based on the notion of information content. Experimental evaluation suggests that the measure performs encouragingly well (a correlation of r = 0.79 with a benchmark set of human similarity judgments, with an upper bound of r = 0.90 for human subjects performing the same task), and significantly better than the traditional edge counting approach (r = 0.66). |
[4] | , This paper reports our efforts to address the grand challenge of the Digital Earth vision in terms of intelligent data discovery from vast quantities of geo-referenced data. We propose an algorithm combining LSA and a Two-Tier Ranking (LSATTR) algorithm based on revised cosine similarity to build a more efficient search engine - Semantic Indexing and Ranking (SIR) - for a semantic-enabled, more effective data discovery. In addition to its ability to handle subject-based search, we propose a mechanism to combine geospatial taxonomy and Yahoo! GeoPlanet for automatic identification of location information from a spatial query and automatic filtering of datasets that are not spatially related. The metadata set, in the format of ISO19115, from NASA's SEDAC (Socio-Economic Data Application Center) is used as the corpus of SIR. Results show that our semantic search engine SIR built on LSATTR methods outperforms existing keyword-matching techniques, such as Lucene, in terms of both recall and precision. Moreover, the semantic associations among all existing words in the corpus are discovered. These associations provide substantial support for automating the population of spatial ontologies. We expect this work to support the operationalization of the Digital Earth vision by advancing the semantic-based geospatial data discovery. |
[5] | , A wiki system is a typical Web 2.0 application that provides a bi-directional platform for users to collaborate and share much useful information online.Unfortunately,computers cannot well understand the wiki pages in plain text.The user-generated geographical content via wiki systems cannot be manipulated properly and efficiently unless the geographical semantics is explicitly represented.In this paper,a geographical semantic wiki system,Geo-Wiki,is introduced to solve this problem.Geo-Wiki is a semantic geographical knowledge-sharing web system based on geographical ontologies so that computers can parse and storage the multi-source geographical knowledge.Moreover,Geo-Wiki mashed up with map services enriches the representation and helps users to find spatial distribution patterns,and thus can serve geospatial decision-making by customizing the Google Maps APIs. |
[6] | |
[7] | . , 时空地理本体模型是一套描述地理时空知识的形式化说明规范,是构 建时空地理本体实例的基础和参考.本文基于GML规范及时空推理理论提出了一种时空地理本体模型的框架,并详细阐述了其组成:要素模型、几何模型、空间关 系模型、时态模型中类的关系和所涉及到的属性定义,并基于该本体模型给出了应用实例一行政区划本体设计和构建方法.文中所提出的时空地理本体模型,对开展 面向不同应用的地理本体实例的构建和共享研究具有一定参考意义. , 时空地理本体模型是一套描述地理时空知识的形式化说明规范,是构 建时空地理本体实例的基础和参考.本文基于GML规范及时空推理理论提出了一种时空地理本体模型的框架,并详细阐述了其组成:要素模型、几何模型、空间关 系模型、时态模型中类的关系和所涉及到的属性定义,并基于该本体模型给出了应用实例一行政区划本体设计和构建方法.文中所提出的时空地理本体模型,对开展 面向不同应用的地理本体实例的构建和共享研究具有一定参考意义. |
[8] | , There is an immense number of information resources on the Internet that can be utilized free of charge. So many knowledge workers try to make use of this information in their daily tasks. Nevertheless, it is very hard to find the relevant information in the Internet by using the full-text retrieval techniques which are offered by most existing search engines. This paper demonstrates that Thesauri, which have been used in established online retrieval systems for a long time, also open up new methods for the automated search for information in the Internet. In addition, thesaurus-like structures known as Gazetteers allow handling geographical references of information resources in a very effective way. The knowledge represented in thesauri and gazetteers can be used to process a variety of thematic and geographical queries and to retrieve the information of interest from the Internet. Comfortable ways of specifying queries can be offered to the users, e. g., by navigating in a hierarchical tree of descriptors, by using synonymous, related or foreign-language terms rather than fixed elements of a controlled vocabulary, or by indicating a geographical region of interest on a cartographic map. In addition to the general principles, examples of powerful query processors and advanced user interfaces are presented which demonstrate the effective usage of the knowledge stored in thesauri and gazetteers. The implemented solutions turn out to be considerably more comfortable than the "black box search" offered by most existing library catalogs and Internet search engines. |
[9] | , |
[10] | , The enhancement of the search capabilities of geo-spatial tools occupies one of the highest positions in the agenda of the INSPIRE initiative. This can be done by equipping applications with tools able to understand user terminology. However, this is in contrast with current approaches, which tend to fix in advance the terminology with a consequent rigidity in the way users interact with the system. In this paper we present the work we have done with the Semantic Geo-Catalogue (SGC) project in providing a semantic extension to the geo-catalogue of the Autonomous Province of Trento (PAT) in Italy. This was done through the adoption of a semantic matching tool and a faceted ontology that codifies knowledge about the geography of the PAT and that was created by reorganizing data extracted from the local geographical dataset. Thanks to the semantic extension, queries to the geo-catalogue are expanded with domain specific terms taken from the ontology thus obtaining a higher number of relevant documents in output. We also complied with the Open Government Data (OGD) initiative by publishing in RDF and by linking to relevant dictionaries some useful data taken from the local repository. |
[11] | , |
[12] | |
[13] | , Measuring similarity or distance between two entities is a key step for several data mining and knowledge discovery tasks. The notion of similarity for continuous data is relatively well-understood, but for categorical data, the similarity computation is not straightforward. Several data-driven similarity measures have been proposed in the literature to compute the similarity between two categorical data instances but their relative performance has not been evaluated. In this paper we study the performance of a variety of similarity measures in the context of a specific data mining task: outlier detection. Results on a variety of data sets show that while no one measure dominates others for all types of problems, some measures are able to have consistently high performance. 1 |
[14] | , |
[15] | , ABSTRACT Database generalization process will be used to derive a new database with less detail for some application purposes from a single detailed database. In a database generalization process, semantic similarity measures among objects and among object |
[16] | , One of the fundamental concepts necessary for the analysis of spatial data in a Geographic Informa- tion System (GIS) is a formal understanding of the geometric relationships among arbitrary spatial objects. Topological relations, a particular subset of geometric relations, are |
[17] | , Two formalisms for binary topological spatial relations are compared for their expressive power. The 4-intersection considers the two objects' interiors and boundaries and analyzes the intersections of these four object parts for their content (i.e., emptiness and non-emptiness). The 9-intersection adds to the 4-intersection the intersections with the two objects' complements. The major results are (1) for objects with co-dimension 0, the 4-intersection and the 9-intersection with the content invariant provide the same results; and (2) for objects with co-dimension > 0, the 9-intersection with the content invariant provides more details than the 4-intersection. These additional details are crucial to determine when two objects are equal. It is also demonstrated that the additional details can provide crucial information when specifying the semantics of spatial relations in GIS query languages. |
[18] | , lames F. Allen's main interests are in artificial intelligence in particular natural language processing and the representation of knowledge. Author's Present Address: |