1. 泰华智慧产业集团股份有限公司, 济南 250101;
2. 济南市市中区发展和改革委员会, 济南 250001;
3. 九三学社济南市委员会, 济南 250012
收稿日期:2016-06-30
作者简介:洪之旭 (1977-), 男, 高级工程师。E-mail:hongzhixu@126.com
摘要:为解决社会治理分布式数据集成复杂和数据分析可视性弱的问题,该文提出一种分布式数据集成及可视化应用方法。该方法基于大数据处理模式,将分散在不同网络路由的数据库数据接入、抽取和集成,进行挖掘分析,增强数据动态描述和Web可视化能力,提供面向服务的智慧化社会治理决策分析与应用。在此基础上设计开发了一个原型系统并进行了试用。实验结果表明:该方法提升了数据集成的实时性、安全性、准确性和数据分析的可视化,且比传统模式更加简化。
关键词:社会治理数据集成决策分析大数据智慧化
Social governance data integration and decision analysis method based on big data
HONG Zhixu1, CHEN Hao2, CHENG Liang3
1.Telchina Smart Industry Group Co., Ltd., Jinan 250101, China;
2.Shizhong District of Jinan City Development and Reform Commission, Jinan 250001, China;
3.Jinan City Commission of Jiu San Society, Jinan 250012, China
Abstract: This paper presents distributed data integration and visualization methods for distributed data integration for complex social governance data sets which have weak data analysis. The enhanced dynamic data description and Web visualization capabilities facilitate service-oriented intelligence society governance decision analyse using the large data processing mode to access, extract, integrate, and mine scattered data in different network routing databases. This paper presents a prototype system with trial evaluations. The results show that this method enhances real-time data integration, security, accuracy and data analysis visualization, and is more streamlined than the traditional model.
Key words: social governancedata integrationdecision analysisbig datasmart
社会治理系统是基于大数据的复杂系统,涉及政法、综治、维稳、信访、公安、司法、城管、市政、民政、人社、计生、安监、应急等多个职能部门和市、区、街办 (乡镇)、社区 (村) 多级体系的管理服务资源,具有数据量大、变量层次多、单元构成差别大和动态性高特点。传统关系型数据库在存储大数据集时失去性能、功能和成本优势,并且在处理和查询大数据集时更是力不从心,亟需针对大数据设计和优化数据存储、管理和查询的平台。
当前,多业务应用系统的数据集成主要是基于关系型数据库与可扩展标记语言 (extensible markup language,XML) 的双向转换模式,缺乏大数据的特征和属性。本文在对社会治理信息化实地调研、详细需求分析的基础上,结合社会治理业务流程,融合大数据理念,构建贯通上下、横向协同、反应快捷、支撑有力的数据集成及决策分析平台。把分布在不同系统中的异构数据整合起来,在保持数据一致性和良好可扩展性条件下,透明地访问原始系统的数据资源,进行决策分析综合应用[1]。
1 设计原理与集成策略社会治理数据涉及的大量结构化和非结构化数据,其特点是数据体量大、类型和价值潜力大。将分散在不同领域的“人、地、物、情、事、组织”基础数据压缩、抽样、挖掘集成起来,构建社会治理空间数据库、公共数据库、业务数据库和人口数据库,建立常态化的数据同步更新机制,基于B/S结构的协同工作应用环境,实现图、文、表、工作流一体化的信息互联管理,提供一个资源共享、快速反应的大数据分析管理平台,与传统的数据仓库应用相比,具有数据量大、查询分析复杂等特点。
利用元数据、数据库、数据仓库、地理信息系统 (geographic information system,GIS)、网络、Web等整合与集成社会治理技术框架[2]。根据对运营数据的不同需求,平台全方位考虑不同用户界面的功能组合、数据组合和数据范围,在调用业务系统、使用数据和访问视频时能够保证各系统的独立运行,相互之间不受影响[3]。
平台构建在各个不同部门分散的、异构的、专业的应用系统之上,集成类静态数据、实时监测数据和多媒体流数据,在确保各业务系统独立运行的基础上,提供社会治理实时监测数据、视频资源访问、显示服务等智慧化的决策分析支持手段。图 1给出了设计模型结构,可看出平台集成了多种数据源数据,抽取形成空间数据库、公共数据库、行业数据库和人口数据。
图 1 设计模型结构 |
图选项 |
空间数据包括电子地图、遥感影像、虚拟三维等数据。公共数据包括城市物件、城市设施、地标地点、管理组织等数据。业务数据包括管理事件数据,主要有系统运转生成业务相关的数据,涉及信访、流动人口、公共安全、矫正帮教、安全防范、综合执法等事件以及流程定义的事件分布、上报案件、评价指标等数据。人口数据包括实有人口、监控人群、服务人群等,对社会治理重点人群和帮扶人群数据统一集成,建立动态人口信息资源数据库,实现跨部门、跨层级、跨平台的人口数据信息共享共用[4]。
2 技术架构基于大数据,综合运用地理信息、人机交互、数据挖掘、信息检索、数据可视化等信息技术,采用数据抽取的集成方式,在多库异构数据集成的同时,不影响各专项应用系统的独立运行,既保证专业应用对数据访问的即时性需求,又保证各数据版本的即时更新和统一,从全局上始终把握着社会治理的最新状况,可以理性地对城市发展和调整做出科学的判断[5]。图 2为整体技术架构,包括从专项业务应用系统数据库群中抽取数据、数据存储与管理、加速器、大数据分析应用。
图 2 平台技术架构 |
图选项 |
2.1 不同数据源接入与获取数据源是数据集成的基础。从各专项业务系统群中的各类型数据源中抽取、清理和装载数据,并按照一定的规则和标准,将数据加载到平台中。平台接入部分是由一系列的服务和接口构成,每个服务和接口对应一个具体的数据源。
数据源提供者需要在页面上填写数据源的连接信息,向服务中心注册。只有注册后的数据源才能成为有效的数据源。异构数据库接入是指通过接口和类实现连接异构数据库系统数据源,访问数据源的元数据。Web数据源接入是指读取XML文档的数据,插入到平台数据库中。接入Web数据资源时,系统查询元数据库中储存该Web资源注册的样式表字段,读取文件中的预定义模式,形成Web数据文件数据资源描述文件。
2.2 数据抽取、加载、转化和输出服务数据抽取、加载、转化和输出服务是主要内容,需要建立一个面向主题的、集成的、相对稳定的、反映历史变化的数据集成管理平台,用于支持管理决策,实现对社会治理专项业务运行运营数据的存储、查询和提取等数据管理。
集成数据管理用于支持决策,面向分析型数据处理,它不同于业务单位现有的操作型数据库,是对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据集成平台中的数据一般不再修改。图 3为数据集成的处理结构图,包括数据获取、存储转化、输出服务和应用服务。
图 3 数据集成处理结构 |
图选项 |
数据的抽取是将数据从联机事务处理系统、外部数据源和脱机的数据存储介质中导入到数据集成平台,主要涉及互连、复制、增量、转换、调度和监控等方面。
存储和管理是数据集成的关键,对数据进行抽取、清理并有效集成,按照主题进行重新组织,最终确定数据的物理存储结构,组织存储元数据。数据的组织管理方式有别于传统数据库,包括了数据的安全、归档、备份、维护、恢复等工作。
数据的表现集中在多维分析、数理统计和数据挖掘方面通过不同体系结构数据的互操作、对社会治理业务深层次、多维度数据分析、信息灵活组合和挖掘,提供在线联机分析能力,实现决策结果多样化输出,构成一个完整的智慧社会治理生态系统。
数据压缩的压缩算法对系统实时优化有至关重要的作用。增量型的旋转门压缩算法 (swing door trending, SDT) 利用结构化查询语言 (structured query language, SQL) 数据库存储压缩数据,并利用LZW (lempel-ziv-welch encoding) 压缩算法进行二次无损压缩,提高了存储的压缩效率[6]。本文中压缩模块采用文[6]的压缩算法及策略。
2.3 规则驱动的决策分析平台将来自不同专题数据库的数据通过一定的规则进行整合,对社会治理全局数据进行智慧化的深度挖掘和量化分析,在统一运行平台上集中展现并对行业管理提供专项决策分析服务。平台对基于规则的XML查询语言 (XML rule-based query language, XML-RL) 进行扩展,定义系统内数据转换的规则,将多源数据集成模块产生的XML数据经过规则引擎,生成符合规则的数据,并根据规则指定的操作进行相应的处理。
平台集报表管理、指标定制、模型构建、多维展示和GIS图形展示等为一体,提供全方位、多角度的社会治理发展现状和趋势分析,提高事件快速反应能力和规划能力,包括社会治理监测预警、应急指挥管理、辅助决策支持等。
监测预警是通过对关联数据多尺度挖掘,发掘数据背后隐藏的、潜在的、频繁的相关关系与模式[7],实现对社会治理体征指标数据的分析,进行分项、区域和综合展示,实时、动态地掌握城市社会治理状态,统计社会治理运行情况,预测未来一段时间的运行情况,实现对社会治理总体监测。
应急指挥管理是对突发公共事件分析、计划、组织、协调和管理控制,提供信息服务、资源调度、命令实施部署以及监督的方法,及时有效地调集资源,对突发事故应急处置,减轻危害。
决策分析支持是通过数据、模型和知识,提供决策者人机交互方式,进行半结构化或非结构化的决策。平台立足于信息检索的准确性和功能多样性,融合智能人机界面多通道交互方式和网页、音频、视频等多种载体交互展现形式,以更接近人感知外部世界的方式输入或输出信息,提高对信息表现形式的选择和控制能力,提高信息表现形式与人的逻辑和创造能力的结合程度,在顺序、符号信息以及并行、联想信息方面扩展人的信息处理能力,使决策分析支持更加人性化[8]。
社会治理集成数据具备大数据特征:海量性达到PB数据量级;类型多样性涵盖表单数据、视频、图像与位置坐标等半结构化和非结构化数据信息;数据流快速化使决策分析需要快速、持续的实时处理,并融合人工智能交互;数据挖掘低密度性需要从海量数据中挖掘小范围价值信息[9]。RES (rule execution server) 服务是一种有效的构建大规模可扩展系统的有效途径,提供技术架构上的约束,可以帮助实现松耦合、可维护性、可演化性和可扩展性[10],构建一个集数据管理、图形管理、多维展示、网络发布集成于一体的社会治理交互平台,提供多专业、多层次、多目标的综合决策分析服务和虚拟体验。
3 数据集成模型目前有多种技术可以实现多源数据的无缝集成,包括数据中间件技术、SMS (short messaging service) 技术、数据标准化模式等。本系统采用的数据中间件技术和数据标准化结合的方法,进行数据的初步集成。
3.1 建立数据处理模型由于社会治理业务的复杂性,不可能直接从现实社会治理业务中建立数据模型,而是把分散的业务数据抽象为信息模型,并建立社会治理信息业务数据概念模型,再进一步把业务数据概念模型转化为可在计算机中实现的、最终支持数据库系统的业务数据模型。图 4为数据处理模型构建结构。
图 4 数据处理模型构建结构 |
图选项 |
模型准备阶段中,首先明确建模目的,搜集必需的信息,弄清对象的特征;模型假设是指根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,应尽量使问题线性化、均匀化;模型构成阶段中利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其他数学结构;模型求解阶段中采用解方程、画图形、证明定理、逻辑运算、数值运算以及近代的计算机数学方法;模型分析阶段中对模型进行数学分析、误差分析、数据稳定性分析等。
3.2 基于文档类型定义的多源数据复合模型采用统一的模型将有利于对数据进行统一处理,生成模型一致的数据,使得后面的数据转换模块可以使用同样的方式处理这些来源复杂的数据,降低对不同格式的数据进行解析的复杂度。
XML技术标准的出现,使得能够实现各子系统数据的统一描述[11]。多源数据集成后的数据模型以XML的形式进行存储,包括时间、地理和行业3个维度,其中地理信息和专题数据都是复合对象,由实际业务系统给出定义,此处不再赘述。其XML的文档类型定义 (document type definition, DTD) 定义如下:
<?xml version=“1.0” encoding=“UTF-8”?>
<! ELEMENT time (#PCDATA)>
<! ELEMENT areainfo (#PCDATA)>
<! ELEMENT businessInfo (#PCDATA)>
<! ELEMENT data (time, areainfo, business Info)>
4 基于XML-RML的决策分析方法经过统一模型转换后,系统产生了大量的包含地理信息以及专题数据复合信息的XML数据,这些数据还不能直接作为最终数据展示,也不具备用来进行决策分析的能力。为了解决这一问题,本文在基于规则的XML操纵语言 (extensible markup language rule-based manipulation language, XML-RML) 基础上扩展出一种可操纵的规则语言。
4.1 XML-RLXML-RL把XML文档看成是复杂对象数据模型,是一种基于规则的XML查询语言[12]。XML-RL语言的查询语句由查询子句和构造子句2个部分组成。查询子句是以规则为基础的路径表达式,被用来从XML文档提取数据。构造子句被用来构造查询结果,其定义如下:
Querying qexp1, …, qexpn
Constructing cexp.
4.2 XML-RML规则语言定义基于规则这一思路,对XML-RL语言进行了扩展,命名为基于规则的XML操纵语言。
结合实际需求,一个规则可能产生多个结果,而且不同的结果对应不同的操作。因此,对查询语句的结构进行扩展。预定义后一组操作的集合,并在其构造子句中的结果集中加入对应的操作。操作是一组集合,对应着系统提供的一系列不同的接口。扩展后的结构描述如下:
Operations:op1, op2, …, opm
Querying qexp1, …, qexpn
Constructing [cexp1, op1], [cexp2, op2], …, [cexpk, opk].
操作使得数据规则转换模块有很好的灵活性以及扩展性,从而节省成本,降低应用开发的难度。在资源业务平台增加的情况下,只要相应地增加其对应的规则和接口,就可以实现。
4.3 XML-RML实现XML-RML的实现以XML-RL查询语言为基础,获得每一个构造子句表达式的结果,并针对结果根据不同的操作调用不同的接口,最终完成对应的操作。算法实现见图 5。
图 5 算法实现 |
图选项 |
4.4 效率分析假设XML-RML规则集合Σ的大小为m,操作集合大小为n,XML-RL查询语言的时间复杂度是O(X),那么上面的算法的时间复杂度是O。XML-RML算法复杂度取决于XML-RL查询语言的时间复杂度,由此可知该算法的复杂度是多项式级别的。
5 测试结果分析在此基础上设计并开发一个原型系统,并在该系统上进行了性能测试。
测试环境由一台中央平台服务器IBM System p6 550Q和10台数据库服务器IBM System p5520组成,10台数据库服务器分布在网络节点中,其中一台为地理信息数据库,一台为中央平台实时数据库,其余8台为资源专题业务数据库。操作系统是Linux,数据库软件是Oracle。图 6是分析平均响应时间测试结果,从中可知,系统完全能够支撑社会治理在数据集成和决策分析方面的需求。
图 6 平均响应时间测试结果 |
图选项 |
测试内容以采集来的数据为样本进行测试,其中来自地理信息系统和资源专题业务系统的数据,平均数据大小5 MB。系统中,定义的规则不可太多,否则业务处理效率会过低。将规则的数量定义在2 000个,系统在不同的数据量的情况下,统计处理的平均响应时间,单位为ms。
6 结论本文基于社会治理分布式结构数据集成的复杂性高和数据分析可视性弱的现状,提出了XML-RML语言和数据集成可视化应用模型,为多源数据复合提供了标准参考,并进行了试用,且征求了领域专家的意见。结果表明:利用该系统辅助进行社会治理,可提高分布式数据的集成效率,为支持社会治理决策分析提供了一种有效的手段,同时解决了社会治理多系统协同工作的问题。系统具有良好的扩展性,从而节省成本,降低应用开发的难度。
参考文献
[1] | Journal of Central South University(Science and Technology), 41(2):649-654.-->张宇, 蒋东兴, 刘启新. 基于元数据的异构数据集整合方案[J]. 清华大学学报 (自然科学版), 2009, 49(7): 1037–1040.ZHANG Yu, JIANG Dongxing, LIU Qixin. Metadata-based integration scheme for heterogeneous datasets[J]. J Tsinghua Univ (Sci and Tech), 2009, 49(7): 1037–1040. (in Chinese) |
[2] | Journal of Central South University(Science and Technology), 41(2):649-654.-->宋越, 左群超, 牛海波, 等. 国家基础地质数据库整合与集成基本技术框架[J]. 中国矿业, 2016, 25(6): 154–157.SONG Yue, ZUO Qunchao, NIU Haibo, et al. National geological database consolidation and integration of the basic technical framework[J]. China Mining Mageazine, 2016, 25(6): 154–157. (in Chinese) |
[3] | Journal of Central South University(Science and Technology), 41(2):649-654.-->洪亢基. 人口信息共享与业务协同[J]. 中国信息化, 2013, 5: 66–67.HONG Kangji. Population information sharing and business collaboration[J]. Information of China, 2013, 5: 66–67. (in Chinese) |
[4] | Journal of Central South University(Science and Technology), 41(2):649-654.-->董燕. 中央监测资源集成平台的软件架构设计思路[J]. 广播与电视技术, 2007, 34(11): 105–108.DONG Yan. Software architecture design ideas of central monitoring resource integration platform[J]. Radio and TV Monitoring, 2007, 34(11): 105–108. (in Chinese) |
[5] | Journal of Central South University(Science and Technology), 41(2):649-654.-->陈如明. 大数据时代的挑战、价值与应对策略[J]. 移动通信, 2012, 36(17): 14–15.CHEN Ruming. Challenge, value and coping strategie of big data era[J]. Mobile Communications, 2012, 36(17): 14–15. (in Chinese) |
[6] | Journal of Central South University(Science and Technology), 41(2):649-654.-->赵利强, 于涛, 王建林. 基于SQL数据库的过程数据压缩方法[J]. 计算机工程, 2008, 34(14): 58–62.ZHAO Liqiang, YU Tao, WANG Jianlin. Process data compression method based on SQL database[J]. Computer Engineering, 2008, 34(14): 58–62. (in Chinese) |
[7] | Journal of Central South University(Science and Technology), 41(2):649-654.-->柳萌萌, 赵书良, 陈敏, 等. 多尺度管理规则挖掘的尺度上推算法[J]. 计算机应用研究, 2015, 32(10): 2924–2929.LIU Mengmeng, ZHAO Shuliang, CHEN Min, et al. Scaling-up mining algorithm of multi-scale association rules mining[J]. Application Research of Computers, 2015, 32(10): 2924–2929. (in Chinese) |
[8] | Journal of Central South University(Science and Technology), 41(2):649-654.-->孟祥旭, 李学庆. 人机交互技术——原理与应用[M]. 北京: 清华大学出版社, 2004.MENG Xiangxu, LI Xueqing. Human-Computer Interaction Techniques-Principles and Applications[M]. Beijing: Tsinghua University Press, 2004. (in Chinese) |
[9] | Journal of Central South University(Science and Technology), 41(2):649-654.-->孙祖汉. 基于OKApi可视化RESTful服务组合建模研究与实现[D]. 杭州: 浙江大学, 2016. SUN Zuhan. OKApi Visualization RESTful Service Composition Modeling and Implementation[D]. Hangzhou:Zhejiang University, 2016. (in Chinese) |
[10] | Journal of Central South University(Science and Technology), 41(2):649-654.-->何廷润. 以数据为中心的智慧城市信息体系架构研究[J]. 移动通信, 2013, 37(21): 13–17.HE Yanrun. Wisdom city information architecture research of data-centric[J]. Mobile Communications, 2013, 37(21): 13–17. (in Chinese) |
[11] | Journal of Central South University(Science and Technology), 41(2):649-654.-->张晶, 张云生. 基于XML的实时数据一致性描述与查询处理[J]. 计算机工程, 2007, 33(10): 52–54.ZHANG Jing, ZHANG Yunsheng. XML-based real-time data uniform description and query processing[J]. Computer Engineering, 2007, 33(10): 52–54. (in Chinese) |
[12] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Liu M, Ling T W. Towards declarative XML querying[C]//Proc 3rd International Conference on Web Information Systems Engineering. Singapore:IEEE Press, 2002:127-136. |