智慧城市建设的基础就是对城市多模式数据的感知和挖掘。这些数据是城市的战略资源[3-4],通过对这些数据进行挖掘、融合和充分利用,其影响力远远超出人们的想象。数据挖掘能够发掘无数有趣的或者与生活有关的事情。例如:2015年KDD (Knowledge Discovery and Data Mining)大会中,来自德国的研究人员为大家展示了通过分析电影院中观影者产生的气体来对电影情节进行预测的方法[5]。又如研究者还提出了通过融合微博用户的日常微博数据、用户的关注数据和网上商城用户的购买数据,进行用户的购买推荐[6-7]。另外,大量研究都源自于多模式数据的挖掘。多模式数据融合正越来越多地出现在人工智能的研究中,如何融合多模式数据从而得到相比于单一数据源更好的挖掘效果成为了众多研究者关注的问题。
面向多模式数据的融合[8-9]有如下特点:
首先,多模式数据融合可能包含若干种不同的数据形式。例如,所处理的数据可能既包含了空间范围内的数据信息,也包含了时域范围的数据信息。不同的数据由于形式与结构上的差异,可能处理的方法、标准全然不同,因此需要提出一种能够同时面向多类数据项的数据融合方法,即面向多模式数据的数据融合方法。
其次,在数据融合的过程中,由于多模式数据自身形式上的差异,面向某一事件,多种数据源可能表现形式和结构均完全不同。例如,面对交通拥堵问题,可能会存在交通部门的交通事故记录表、微博获得的非结构化交通行车情况播报以及各个路段的车流量和车速。这3种数据虽然在表现形式上完全不同,但阐述的是相同的交通流量问题。如何将3种数据融合,挖掘有利的信息将是数据挖掘领域一个非常重要的问题。
在构建数据融合系统时,对于普通数据而言相对简单,大量开源代码和工具很容易完成数据挖掘的工作。但是,针对多模式数据而言,需要经过数据的多源融合过程才能更好地获取隐藏在多模式数据背后的知识[10-11]。例如,针对交通问题的知识挖掘,单纯通过交通事故报告可能很难发现事件与事件之间的规律以及各次交通事故的共性,但如果综合视频数据或者交通流量数据,可能交通情况有关知识的获取就要丰富得多。因此,面对多模式数据,需要进行数据融合工作,使得将来能够更好地发现数据,更好地挖掘知识。
然而,目前关于多模式数据的融合模型和方法研究较少。因此,本文提出了一种多模式互联生长(MICROS)模型,模型的基本架构分为基础融合模型和数据互联模型两部分,基础融合模型为互联模型服务,通过对数据信息、元数据以及数据互联方法进行描述,最终构建数据互联模型。与此同时,本文还给出了数据互联模型在现实生活中的应用场景,验证了模型的有效性。
1 城市数据的多模式属性 在构建智慧城市的过程中,数据源的种类多样[12-13],数量巨大。例如,在城市路网中,各个十字路口以及主要干道上都会出现监视器、摄像头。这些监视器与摄像头一方面能够快速捕捉城市地面上车辆的行车情况(如车速,车距)[14],另一方面也为针对城市数据挖掘提供了较好的素材[15]。例如,利用摄像头捕获的数据既可以用作超速检测,也能够基于计算机视觉算法进行跨摄像头的目标车辆追踪;既可以用作车辆牌照识别数据源,也能够针对车辆占摄像机的面积比例进行道路拥挤情况的预估。可以看出,在现代城市建设中,在线与离线数据并存,实时与非实时系统并存的情况非常明显,这一现象使城市中获取的数据呈现出了越来越明显的多模式属性。
1.1 多源 城市数据的多源特性体现在3个方面,即获取手段不同,系统来源不同以及数据格式不同。
1)数据的获取手段不同。例如,针对城市交通情况这一事件,交通数据可以通过不同数据源获取,比如通过视频监控确定某路段的拥堵情况,或利用微博数据进行挖掘得到各路段的拥堵状况,或根据路上车的速度、流量检测仪判定路段的拥堵状况。上述针对某一数据其获取手段的不同,可视为构成数据的多源性。
2)数据的系统来源不同。还是以交通拥堵为例,数据的来源既可以是通过监控器从交通的监控系统中进行判定,也可以是通过出租车系统将出租车轨迹进行收集来判定交通拥堵。2种数据来源分属于不同的系统,但是判定的目标却是一致的。因此,由于数据来源不同构成了数据多源的另一个方面:数据的系统来源不同。
3)数据的格式也不相同。依旧以交通拥堵为例,通过监控器获取得到的数据为视频数据,其构成的数据格式为帧、视频片段等。而如果通过路面的交通数据检测器进行拥堵的判定,则获取的数据格式一般是文本格式,例如json、xml等。因此,针对某一个数据,其被获取的存储格式数据亦不相同。
1.2 异构 城市数据的异构特性包括数据组成结构或数据模型结构异构,无法用统一的方法进行处理。首先,数据的多源属性使得获取的数据格式并不相同,因此数据在融合编辑时存在不同的组成,即融合面对的数据组成是异构的。其次,数据采集系统并不相同,这些系统面对不同的硬件设备,其系统构成和数据模型结构具有明显的异构性。
1.3 时变 城市是一个大的生态系统,其每时每刻都在发生变化改变感知数据或产生新的数据,这使得城市数据具有明显的时变特性。如对城市交通道路进行实时交通情况监控,针对一条道路r,其行车速度一般描述为:V={v|v1, v2, …, vt-1, vt},表示该路段r从第1个时间段的速度v1到第t个时间段的速度vt。可以看出,该数据是随时间的推移而改变的。
1.4 高维 城市数据拥有时变、异构、多源等特征,使得城市数据的描述可以从多个不同维度展开。例如针对一个道路的描述,可以包括其道路长度、宽度、经纬度等低频信息,也可以包括实时车速等时变性很强的高频信息。因此,为了有效描述城市中一个实体或者事件,需要多个维度的信息使得城市数据具有明显的高维特征。
2 多模式数据融合基础模型 城市信息的多源、异构、时变、高维的多模式特性,使得数据融合异常困难。因此,需要研究并构建多模式数据的融合模型,从而实现对城市主体的联合感知、产生高维而更有价值的数据,并实现数据的互通互联[16-18]。为此,本文提出了一种多模式互联生长模型,其框架如图 1所示。该模型包括服务信息描述模型、元数据模型和互联模型3个层次,其基本思想是:首先需描述各项数据与服务及其关联关系,以便多模式数据的统一;在此基础上,模型其次将进行元数据处理,实现数据本体的建模及元数据的存储;最后提出基于服务信息描述模型和元数据模型的数据互联模型方法,通过使用虚拟标签技术进行数据实体间的互联,从而实现城市多模式数据的融合。
图 1 多模式数据融合模型的基本架构 Fig. 1 Basic framework of multimodal data fusion model |
图选项 |
2.1 服务信息描述模型 服务信息描述模型的目标是从系统的角度凝练城市中的基本数据概念,并构建这些基本数据概念之间的关系。这些城市基本数据概念,是城市信息和系统组成的单元。参考国际标准PAS 180、PAS 181和PAS 182,本文提出的服务信息描述模型如图 2所示,即包括准则、智慧城市系统和指标3个领域的基本概念。其中,准则描述了智慧城市相关的各种协议、标准和政策等;指标则包括衡量智慧城市系统好坏的性能指标、评价指标和基准等;智慧城市系统是核心,涵盖了如何利用已有的技术、设施、资源以及通过一定的管理,构建针对一定的场景和事件、服务于人或组织等对象的智能系统。因此,图 2所示的服务信息描述模型不但定义了智慧城市中的基本数据概念,更蕴含着这些概念之间的逻辑层次和关系。
图 2 智慧城市服务信息描述模型 Fig. 2 Service information description model in smart city |
图选项 |
这些基本数据概念间的关系是数据融合的基础,数据的关系不但表明了数据间应该如何融合,更表明了数据间何时应该融合。同理,参考PAS 180、PAS 181和PAS 182等国际标准,本文定义了基本关系(见表 1)和扩展关系(见表 2)。
表 1 基本数据关系 Table 1 Basic data relationship
关系定义 | 释义(A关系名B) |
defined by | A由B定义 |
contains | A包含了B |
subconcept of | A是B的子概念 |
has state | A具有B状态 |
has role in | A是B的一个角色 |
at | A在B |
takes | A作用于B |
implements | B由A实施 |
for | A为了B |
used by | A被B所用 |
responsibility of | A对B有责任关系 |
provided by | A由B提供 |
owned by | A为B所有 |
data links | A和B是互联 |
has outcome | A能产出B |
derived from | A由B驱动 |
applies | A使用B |
for outcome | A是B的产出 |
influenced by | A被B影响 |
planned | A由B计划 |
has | A具有B |
about | 关于关系 |
records | A记录B |
members of | A是B的成员 |
raised from | A产生于B |
data activation | 数据A活化B |
cause | A引发B |
表选项
表 2 扩展数据关系 Table 2 Expansion data relationship
关系定义 | 释义(A关系名B) |
co-ordination | A协调关系 |
monitoring | A监控B |
integration | A集成B |
procurement | A采购B |
supply chain | A供应链 |
configuration | A配置B |
broadband connection | A连接B |
operation | A操作B |
表选项
基本关系是两数据之间的基本属性关系。例如has role in、contains等。这些基本关系描述的是数据与数据间的定性关系。例如:has role in代表的是扮演角色关系。指的是一个概念在另外一个概念里面发挥一定的作用。针对2个数据实体教师和学校,他们之间的关系就应该是has role in,意为老师在学校中扮演了某些角色。再比如,contains描述了数据与数据之间的包含关系,指一个概念包含其他概念,或者自身的关系。例如,群体可能会与另一个群体产生contains关系。如中国人民群体与各民族人民群体就产生了contains关系,代表两者的包含关系。
扩展关系一般被认为是比较高级的抽象关系,例如协调、集成、配置等关系,这类关系并非数据本身表面上的一一对应或者具有属性的关系,而是在实际操作中的抽象关系。例如:co-ordination代表的是协调关系,表明了城市技术协调中的步骤,特点是智能的增加及空间和资源元素间交互的协调。例如城市建设中,组织与组织间为了达成某一共同观点或共同完成某项工程,可能会进行资源的协调过程。因此,各个组织与自有的资源间的关系就是协调关系。再比如,monitoring代表的是监控关系,指为了检测到任何改变而周期性地检查工序、设备和环境的行为。例如,在城市的生产过程中,需要时时刻刻对生产产品的设备进行质量监控工作,这就代表了设备质量监控器与设备之间构成了监控的关系。
基于上述基本概念和概念间的这些基本及扩展关系,城市中的大部分事件或实体都可以通过基础数据加关联关系的方法来描述。比如,为了描述城市建设中的服务这一概念,首先需要确定其中的数据概念本体不仅有服务本身,还应有服务的具体应用,例如自动取款机、供水系统、电网等。同时,服务在实际操作和运作时还应该包含其应用范围和使用指标。再有,为了描述清楚服务的特点,应该有服务的目标、计划、方法和功能等。因此,可以使用如图 3所示来进行描述。其中:①自动取款机、供水系统、电网等与服务构成成员关系,即是服务的一个成员;②应用与服务构成扮演角色关系,即应用在服务中扮演了一个角色;③服务与指标构成被影响关系,即服务被指标所影响;④服务与目标、计划、方法和功能都构成具有关系,即服务具有一定的目标和功能, 并有明确计划和实现方法。
图 3 针对“服务”这一数据概念的关联关系描述 Fig. 3 Connection relation description to data concept of "service" |
图选项 |
从图 3可知,与服务这一基础数据模型有关的数据概念一共列了9项,服务与这9项的关系均可以通过基本关系或扩展关系来描述(实际情况可能远这不止9项基础数据概念,只是一个示例)。但通过类似方法,基本上智慧城市中所有数据概念均能通过基本关系或扩展关系进行描述。
2.2 元数据模型 智慧城市服务信息描述模型定义了智慧城市中数据与服务的基本概念模型,而元数据模型则对服务信息描述模型中所定义的基本数据概念进行元数据描述和表示。本文所定义的元数据模型从如下5个方面来定义数据的属性,即基本属性、权限属性、语义属性、特征属性和时空属性。其中:①基本属性,描述了数据的诸如名称、类型、大小等最基本特征。比如,针对一辆汽车,其基本属性一般为车辆大小、长度等物理量,这些数据每辆车都存在,甚至所有物品都存在,因此称为基本属性。②权限属性,比如读写权限或其他权限等。权限属性一般都存在,对于每一个物品,一般都存在所有权,其权限由所有权人限定。③语义属性,指数据所属的描述语义,比如针对一段文字,可能包含有语义主题;针对一个工业产品,其可能存在所属工业领域等。④特征属性,指对数据特征采集的工作,例如对一段视频需要获取其颜色、亮度、饱和度等特征属性,这些能够称为一个数据独一无二的描述的数据,被称之为特征属性。⑤时空属性,比如修改时间和地址等可称为时空属性,其主要描述的是某些数据在时间与空间上的特性。
对于元数据属性的描述,采用如表 3所示的形式。比如,为了描述人员的性别这个基本属性,采用如表 4所示的描述方法。
表 3 元数据属性的描述方法 Table 3 Method for meta-data property description
描述项 | 释义 |
编号 | 按一定规则排列的属性项的顺序号 |
中文名称 | 该属性项的中文标识 |
英文名称 | 该属性项的英文标识 |
目的 | 描述该属性项的必要性和作用 |
约束性 | 说明采用该属性项的强制性程度 |
值域 | 可以分配给该属性项的值 |
缺省值 | 该属性项的默认值 |
注释 | 对该属性项的进一步说明 |
表选项
表 4 “性别”这一基本属性的描述方法 Table 4 Method for basic property "gender" description
描述项 | 释义 |
编号 | 101016001 |
中文名称 | 性别 |
英文名称 | gender |
目的 | 描述人员的性别特征 |
约束性 | 非必填项 |
值域 | 1(男),0(女) |
缺省值 | 无 |
注释 | 无 |
表选项
2)元数据采集,是在获取元数据时,为了能够使不同类型的服务数据能够通过元数据描述进行融合,因此需要在采集时规定元数据的格式。主要包括元数据的组织、计划、录入、优化等。
图 4 元数据管理模型 Fig. 4 Meta-data management model |
图选项 |
3)元数据使用,是指在使用元数据时,为了确保不同类设备访问元数据的安全性,需要进行合理性审核以及数据清理的工作。
2.3 数据互联模型 数据互联模型的目的在于,针对多模式数据,在数据处理过程中通过感知、关联、溯源等手段,实现数据的主动演进和存储优化,增强存储系统的适应性,提高其查询、分析、处理的能力,数据互联以数据实体为基本组织和处理单元,其核心思想就是为数据增加身份标识,数据连同其身份标识构成了数据实体。数据实体的身份标识是指如何区分不同数据,核心是保证数据能被唯一标识并寻址(即能被其他数据访问到)。
对于数据的身份标识,可以采用文献[16]所提出的用虚拟语义标签标注的方法。在物理世界中,很多物体都有RFID等实际的标签来唯一标识这些物体。而在笔者刚刚所提的数据实体中,可以将其看成一种虚拟的物体,为了唯一标识数据,也采用标签的思想进行虚拟物体的标注,笔者称这种标识数据这类虚拟物体的标签为虚拟标签。嵌入到数据实体中的虚拟标签一般要承载数据重要的属性,从而保证能够对这些数据实体进行高效处理。采用如下结构来编码数据的虚拟标签:[数据类型(定长);数据编号(定长);备选属性个数(定长);(备选属性编号;属性内分隔符;备选属性值域;属性间分隔符);(备选属性编号;属性内分隔符;备选属性值域;属性间分隔符)…]。其中,数据编号能保证标签的唯一性,数据类型是标签中的必备项,使得其他数据或系统在解析出该数据的标签后,就能知道该数据的类型。同时,该结构允许将数据的其他属性(即结构中所说的备选属性)纳入到标签中,使得其他数据或系统在解析出该数据的标签后,能更多地了解到该数据的属性。结构中备选属性个数是多少,则结构中就包含多少个(备选属性编号;属性内分隔符;备选属性值域;属性间分隔符)子结构,如果备选属性个数为0,则不包含(备选属性编号;属性内分隔符;备选属性值域;属性间分隔符)子结构。
3 城市多模式数据互联融合模型 城市多模式数据互联融合是一个系统的工程,除了要依赖于上面提到的模型,实现数据的互联,更重要的是能够进行真正的融合,尤其是数据的自主融合生长,实现真正的数据活化。为此,提出了如下的数据融合互联框架(见图 5),只有从如框架中的4个方面进行了突破,才能真正实现数据的融合与活化。
图 5 数据融合互联模型 Fig. 5 Data fusion connection model |
图选项 |
1)数据表示
为了实现数据互联融合,数据的表示也需进行大的改变。不再是只表示数据本身,更重要的是在融合场景下,数据包括的内容将更加丰富,需要能对数据所包括的所有内容都能进行表示,包括数据关联关系的表示(比如用数据关系图来表示)、数据虚拟标签的表示(按照前述的策略来定义并表示虚拟标签)。同时,需要描述数据活化酶,它像生物体中的酶,类似一个数据处理者的身份,可以促成数据融合的自动进行。
2)数据关联关系
这里的数据关联不单指前面提到的数据之间的基本关系和扩展关系,更是指如何建立数据之间的关系,即和数据关联关系相关的研究和实践工作,主要包括数据关联关系的挖掘、数据关联关系的表示以及数据关联关系的生长。城市多模式的海量数据之间,存在着庞杂的关系,有些关系是显式的,有些关系是隐式的,有些是直接的关系,有些是间接的关系,有些关系是静态的,有些关系是动态的。数据关联关系挖掘就是解决如何能够发现数据之间如此复杂的关系;数据关联关系表示如数据表示部分所说的就是对挖掘出来的关联关系进行表示;数据关联关系生长则是指数据对动态的关系,如何能够实现关系的自主变化和生长。
3)数据互联
数据互联的目的是建立数据之间彼此沟通的通路,形成数据网络。为了实现这一目标,将数据从互联的角度来看,除了数据虚拟标签能实现数据的唯一标识外,还需要解决数据寻址、数据互联访问等问题。数据寻址是指如何在数据网络中准确找到特定的数据;数据互联访问则是解决数据联网中的各种访问方法和控制策略问题等。
4)数据新陈代谢
数据新陈代谢是指互联的数据,如何根据和其有关联的其他数据的变化来实现自身的变化生长。这里需要解决3个层次的问题:一是数据如何知道自己什么时候需要代谢,即代谢感知规则和方法;二是数据知道自己需要代谢的时候如何知道自己应该如何代谢,即代谢执行规则;三是数据知道自己什么时候需要如何代谢的时候,如何实现代谢过程,即代谢执行语言。代谢的感知规则可以包括通知模式、感知模式和订阅模式。比如,加入数据A和B之间有关联关系,当A发生变化时,由A主动通知B需要代谢,则为通知模式;如果由B定期监测数据A的变化,并决定是否需要代谢,则为感知模式。而订阅模式是指数据B会向跟它有关联的数据A和其他部分或全部数据发送订阅请求,请求A发生变化后通知B;而数据A发生变化时,也只将通知发送给所有订阅了其他关联数据。
4 结论 1)本文主要针对当前智慧城市的构建中出现的数据多模式情况增多,数据呈现多源异构时变高维等特点,面向最困难的多模式数据融合问题,提出了一种多模式数据的融合模型。
2)模型基于三部分数据处理与描述模型:服务信息描述模型、元数据模型以及数据互联模型,将数据的几个重要互联模块进行方法实现。
3)最后提出了一个针对多模式的互联模型,其实现方法为数据处理与描述模型中的各种方法,最终实现数据互联生长融合模型的目的。
参考文献
[1] | WANG L, JING C, ZHOU P.Security structure study of city management platform based on cloud computing under the conception of smart city[C]//20124th International Conference on Multimedia Information Networking and Security (MINES).Piscataway, NJ:IEEE Press, 2012:91-94. |
[2] | LI H, XUE L, ZHU Y, et al.The application and implementation research of smart city in China[C]//2012 International Conference on System Science and Engineering (ICSSE).Piscataway, NJ:IEEE Press, 2012:288-292. |
[3] | COLLINS J P. Sailing on an ocean of 0 s and 1s[J].Science, 2010, 327(5972): 1455–1456.DOI:10.1126/science.1186123 |
[4] | NIELSEN M. A guide to the day of big data[J].Nature, 2009, 462(7274): 722–723.DOI:10.1038/462722a |
[5] | WICKER J, KRAUTER N, DERSTORFF B, et al.Cinema data mining:The smell of fear[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM, 2015:1295-1304. |
[6] | WANG J P, CONG G, ZHAO X W, et al.Mining user intents in twitter:A semi-supervised approach to inferring intent categories for tweets[C]//29th AAAI Conference on Artificial Intelligence, AAAI 2015 and the 27th Innovative Applications of Artificial Intelligence Conference.Palo Alto, CA:AAAI, 2015:318-324. |
[7] | GRBOVIC M, RADOSAVLJEVIC V, DJURIC N, et al.E-commerce in your inbox:Product recommendations at scale[C]//21st ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD 2015.New York:ACM, 2015:1809-1818. |
[8] | GROVES A R, BECKMANN C F, SMITH S M, et al. Linked independent component analysis for multimodal data fusion[J].Neuroimage, 2011, 54(3): 2198–2217.DOI:10.1016/j.neuroimage.2010.09.073 |
[9] | SRIVASTAVA N, SALAKHUTDINOV R. Multimodal learning with deep Boltzmann machines[J].Journal of Machine Learning Research, 2014, 15(8): 1967–2006. |
[10] | STATHOPOULOS A, TSEKERIS T. The athens dynamic traffic map for multimodal travel information services[J].Journal of Maps, 2008, 4(1): 119–133.DOI:10.4113/jom.2008.1001 |
[11] | LINDEN G, SMITH B, YORK J. Amazon.com recommendations:Item-to-item collaborative filtering[J].Internet Computing IEEE, 2003, 7(1): 76–80.DOI:10.1109/MIC.2003.1167344 |
[12] | O'GRADY M, O'HARE G. Computer science.How smart is your city?[J].Science, 2012, 335(6076): 1581–1582.DOI:10.1126/science.1217637 |
[13] | NAM T, PARDO T A.Conceptualizing smart city with dimensions of technology, people, and institutions[C]//International Digital Government Research Conference:Digital Government Innovation in Challenging Times.New York:ACM, 2011:282-291. |
[14] | SCHOEPFLIN T N, DAILEY D J. Dynamic camera calibration of roadside traffic management cameras for vehicle speed estimation[J].IEEE Transactions on Intelligent Transportation Systems, 2003, 4(2): 90–98.DOI:10.1109/TITS.2003.821213 |
[15] | PORIKLI F, LI X.Traffic congestion estimation using hmm models without vehicle tracking[C]//Intelligent Vehicles Symposium, 2004.Piscataway, NJ:IEEE Press, 2004:188-193. |
[16] | FAN W, CHEN Z, XIONG Z, et al. The Internet of data:A new idea to extend the IOT in the digital world[J].Frontiers of Computer Science, 2012, 6(6): 660–667. |
[17] | PORIA S, CAMBRIA E, HUSSAIN A, et al. Towards an intelligent framework for multimodal affective data analysis[J].Neural Networks, 2015, 63: 104–116.DOI:10.1016/j.neunet.2014.10.005 |
[18] | ZHENG L Y, MA H, WU B, et al.Estimation of travel time of different vehicle types at urban streets based on data fusion of multisource data[C]//14th COTA International Conference of Transportation Professionals:Safe, Smart, and Sustainable Multimodal Transportation Systems, CICTP 2014.Panama:ASCE, 2014:452-466. |