Research on the Recent Development and Future Trend of Data Mid-End Technology
Su Meng, Jia Xishun, Du Xiaomeng, Gao TiweiBeijing PERCENT Information Technology Co., Ltd., Beijing 100089, China收稿日期:2019-08-15网络出版日期:2019-01-20
基金资助: |
Received:2019-08-15Online:2019-01-20
作者简介 About authors
苏萌,1973年生,百分点集团董事长兼CEO,北京大学光华管理学院研究教授、博导,北京大学国家发展研究院****,国家“****”专家。主要研究方向为大数据建模、政府决策大数据、推荐引擎、数据智能分析预测。
本文承担工作为:框架的整体结构设计、研究指导。
Su Meng, born in 1973, President/CEO of Beijing Percent Group. Research professor and doctoral advisor of Guanghua School of Management, Peking University. Distinguished Professor of National School of Development at Peking University. Expert of National “Thousand Talents Program”. His main research interests are big data modeling, big data for government decision making, online recommendation engine and intelligent data analysis and prediction.
Undertaking the following tasks in this paper: overall research framework design and research supervisor.
E-mail: meng.su@percent.cn.
贾喜顺,1982年生,百分点平台业务部负责人,在读研究生,主要研究方向为大数据平台、数据治理、数据中台。
本文承担工作为:数据中台技术框架分析与展开讨论。
Jia Xishun, born in 1982, Head of Platform Business Group of Beijing Percent Group. He is currently a master student study on big data platform, data governance and mid-end technologies.
Undertaking the following tasks in this paper: taking part in the discussion about mid-end framework analysis.
E-mail:xishun.jia@percent.cn
杜晓梦,1984年生,百分点企业业务事业部总经理,首席模型科学家,2018年北京市“科技新星”,北京大学营销模型专业博士,主要研究方向为跨学科数据科学建模、消费者行为预测、归因模型、流失预警模型、社会网络分析。
本文承担工作为:文献调研与回顾,企业实践案例分析。
Du Xiaomeng(Corresponding Author), born in 1984, General manager of Enterprise Business Group and Chief Data Scientist of Beijing Percent Group. Nominated “Beijing Technical New Star” in 2018. Ph. D in Marketing Models, Peking University. Her main research interests include big data modeling, data science in different domains, consumer behavior prediction, attribution model, customer churn model and social network analysis.
Undertaking the following tasks in this paper: Literature review and industrial case studies.
E-mail: xiaomeng.du@percent.cn
高体伟,1973年生,百分点集团高级副总裁,华南理工大学软件工程硕士,主要研究方向为云计算、政府决策大数据。
本文承担工作为:政府案例实践分析,数据中台未来发展趋势讨论。
Gao Tiwei, born in 1973, is the Senior Vice President of Beijing Percent Group. He obtained his software engineering master degree from South China University of Technology. His research interests are cloud computing and big data for government decision making.
Undertaking the following tasks in this paper: taking part in the discussion about mid-end trends of future.
E-mail:tiwei.gao@percent.cn
摘要
【目的】本文主要就数据中台相关研究背景、技术架构和关键技术以及在行业中的落地应用展开介绍,并结合技术发展趋势提出未来研究和应用发展方向。【方法】本文综述了数据中台相关领域的国内外研究,并提出数据中台通用技术架构,分别对大数据技术平台、数据资产管理平台、数据分析挖掘平台和统一服务总线的核心技术和功能进行了展开讨论。【结果】基于本文提出的数据中台的相关技术框架,数据中台在相关行业已经得到初步应用和实践,其中互联网、金融和政府等行业走在前沿。【结论】数据中台的相关技术会越来越向自动化、智能化方向发展,其支撑的上层业务应用将会在一系列相关技术突破的推动下在各行业形成爆发式的发展。
关键词:
Abstract
[Objective] The article mainly introduces the research background, technical framework and key technologies related to data mid-end, as well as its application in the industry, and proposes the future research and application development direction based on the technology development trend in the end. [Methods] In the research background part, the existing researches on data mid-end and related fields in China and other countries are summarized. The chapter on technical architecture synthesizes the research results at home and abroad by sniffing application in various industries, and puts forwards the general architecture of data min-end. The industry application section introduces the application situation and value of data mid-end in the Internet, traditional industries and government departments. The future trend and prospect part discusses the future development of data mid-end based on relevant technologies. [Results] Based on the relevant technical framework in the article, data mid-end has been preliminarily applied and used in relevant industries, with Internet, finance, government affairs and other industries leading the trend. [Conclusion] The relevant technologies of data mid-end will be developed towards much more automatic and intelligent. The upper business applications supported by data mid-end will register explosive growth in various industries, attributed to a series of relevant technological breakthroughs.
Keywords:
PDF (10315KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
苏萌, 贾喜顺, 杜晓梦, 高体伟. 数据中台技术相关进展及发展趋势. 数据与计算发展前沿[J], 2019, 1(1): 116-126 doi:10.11871/jfdc.issn.2096.742X.2019.01.012
Su Meng.
引言
近年来随着互联网、移动互联网、IoT、5G等技术的普及与发展,企业和政府获取的数据以指数级增长,同时数据类型也从最初的结构化数据逐渐扩展到视图声等非结构化数据。对企业来说,需要更好地应对生产、营销和运营等业务挑战,快速响应用户需求;对政府来说,需要更好地服务人民及进行国家治理,二者对数据资产的综合应用越来越重视。为了解决海量异构数据的采集、加工、分析,以沉淀数据资产快速响应上层应用的难题,数据中台的概念应运而生,其在满足常规报表生成、报告数据分析需求的同时,也为催生业务创新提供了坚实的基础。数据中台是阿里巴巴公司在2015年根据自身业务需要提出来的概念,随着2018年各大互联网公司纷纷提出中台战略并随之进行组织架构的调整,将“中台”的概念推向了高潮,各类公司纷纷效仿跟进,一时各种“中台”喷薄而出,技术中台、业务中台、AI中台、算法中台、研发中台、组织中台、服务中台、数据中台……各种“中台”让人眼花缭乱,应接不暇。不论何种中台,核心是抽象、组件化共性的能力,以降低成本、避免重复建设浪费资源。
本文主要以数据中台展开描述。数据中台并不是一个具体的产品或技术架构,而是一种综合解决方案或是一种运营理念,在业界还没有清晰明确的定义。我们认为数据中台的核心在于构建标准的数据体系和快速支撑前端应用的能力,通过数据来驱动业务的创新和变革。而要构建标准数据体系并达到相应能力,必须结合产品、技术、数据、业务及组织力量来保障企业的综合运转和长期运营,这样数据中台才能发挥出巨大的价值。
1 研究背景
目前国内对于数据中台的研究趋于成熟,数据中台在互联网、金融[1]、电力[2]、媒体[3]等多个行业被广泛应用,其中以阿里巴巴的数据中台最具代表性并被大家所熟知。为了更快地响应前台业务,以此应对多变的市场需求及外部竞争压力,2015年阿里巴巴正式宣布:“构建符合DT时代的更创新、更灵活的‘大中台小前台’组织机制和业务机制。”[4]构建 OneData体系实现既“准”且“快”的“全”“统” “通”的智能大数据体系。通过OneModel、OneID、OneService完成数据中台落地,OneModel实现数据构建及管理;OneID完成核心商业实体识别;OneService通过主题式数据开放服务支撑最终的统一数据开放服务[4]。同时,利用计算后台的离线计算能力、实时计算能力和在线分析能力支撑中台运算。电力行业作为应用数据中台较早的行业,提出采用分布式微服务技术架构的方案,通过应用分布式服务治理、分布式数据库、消息队列等成熟互联网技术,保障共享服务中心快速建设与稳定运行,最终为中台赋能[2]。金融行业提出了核心包括数据平台、数据资产、数据治理、数据服务的数据中台建设方案[1]。在数据标准研究方面,国内研究范围覆盖监管政策、存储规范和传播交流机制[5,6],以及数据质量标准、元数据标准等[7,8]。在数据平台和数据资产部分的底层数据处理与分析也有较多研究,如实时数据处理决策[9]、图像内容检索[10]、可解释NLP[11],以及降维、分类、数据挖掘应用等内容[12]。在数据服务方面,国内开源的微服务框架Duboo提供了一系列可进行微服务治理的开源组件[13]。另外,针对微服务框架组件维护成本高等问题而推出的服务网格(Service Mesh),对其运行操作进行了标准化,开发者或运维人员可以编写策略来执行运行操作,而无需开发任何代码,同时国内对其使用声明性方法也进行了相关研究[14]。另外针对物联网数据分析而提出的面向微服务的互联网大数据分析平台的概念验证也已经完成[15]。
相比国内的研究,国际上虽然尚未推出数据中台的概念,但针对具体的数据治理、数据处理和数据服务等方面的研究已经比较成熟。其中数据治理相关研究已经比较成熟,DGI从规则、组织和过程三个方面提出了10个通用过程,进而推出了DGI《数据治理框架》[16]。并且,IBM、Gartner分别提出了数据成熟度模型[17,18],用于指导数据治理工作的顺利开展。根据DAMA的定义,数据治理是指对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。数据治理涵盖的范围一般以Khatri和Brown提出的数据治理决策模型为准,包含了数据准则、数据质量、元数据、数据访问、数据生命周期管理5个决策域[19]。
在数据质量方面,研究主要包含数据质量检测、错误数据修正和劣质数据查询处理等[20]。近年来的研究包括对包含数据质量定义、评估和改进的多种数据质量框架的研究[21]以及通过计量方法验证数据可靠性的研究等[22]。Apache Griffin[23]为大数据数据质量管理提供了解决方案。元数据管理包括元数据存储库、业务术语表、血缘关系、影响性分析、规则管理、元数据获取与转换几大功能[24]。通过ML和语义搜索功能自动化构建元数据知识库,以及NLP来改进交互操作[24]的研究也在进行中。Apache Atlas[25]为Hadoop生态系统元数据治理提供了解决方案。数据生命周期管理包括数据采集、数据处理和数据存储,分别负责数据采集、数据加工处理和数据存储、归档备份和销毁[26]。Apache Falcon[27]为数据生命周期管理提供了解决方案。
数据处理的相关研究包括数据的存储、访问、处理等内容,具备传统数据仓库、实时数据仓库、上下文无关数据仓库、逻辑数据仓库四部分能力[28]。数据存储方式主要有传统关系型数据库、全文检索、分布式大数据存储。传统关系型数据库包括关系型数据库和并行数据库集群。全文检索如ElasticSearch等,分布式存储包括Key-Value存储系统、列存储系统,以及文档存储系统如HBase、Hive、MongoDB等。同时数据处理中的粒度计算研究也在逐步深入,如Beliakov,et al.的图像缩小算法等[12]。
数据开放服务的研究主要集中于基于微服务架构(Microservice Architecture),比如Spring Cloud的领域。微服务架构通过组合预定义服务组成应用,满足系统业务需求的分布式体系结构[29]。各微服务独立部署,通过暴露REST API对外提供服务,服务间可以自由组合和调用,由API网关提供权限验证、负载均衡、压力检测与智能路由等功能[30]。Istio作为服务网格架构的一种实现,为整个服务网格提供行为洞察和操作控制的完整的解决方案,满足应用程序的多样化需求[31],另外提供自动语意功能也是目前数据服务平台研究的方向之一[32]。
基于以上国内外的相关研究成果,综合业界各行业广泛应用的实践可以看出,数据在企业数字化转型的历程中成为了最核心、最重要的生产资料已经成为共识,甚至有人预言,数据将会写进企业的资产负债表中。在企业重塑业务,通过数据驱动业务转型和业务创新这个数字化转型的背景下,企业需要一个源源不断的输出数据服务,数据预见洞察的能力源泉,数据中台的出现就成了顺理成章的事情。但不同行业、不同企业的业务千差万别,具有很大的差异性,很难提炼出数据驱动业务的共性之处,我们由此提出数据中台构建过程中相对通用的技术架构,并在下文进行详细阐述,希望能够为企业在数字化转型过程中提供参考和借鉴。
2 技术架构
2.1 数据中台总体架构
数据中台可定义为一个集数据采集、融合、治理、组织管理、智能分析为一体,将数据以服务方式提供给前台应用,以提升业务运行效率、持续促进业务创新为目标的整体平台。从业内较为通用的架构来看,数据中台一般可分为四层:大数据技术平台、数据资产管理平台、数据分析挖掘平台、面向应用的主题式数据开放服务平台,总体架构图如图1所示。本章节针对数据中台每个层次单独进行阐述。图 1
新窗口打开|下载原图ZIP|生成PPT图 1数据中台总体架构图
Fig.1Overall architecture of Data Mid-End
我们认为数据中台其整体架构可以分为四层:
(1)大数据技术平台,为数据资产管理平台提供技术支撑,基于hadoop生态体系构建,包含多个数据存储、计算框架,解决多源异构的海量数据采集、存储、计算等问题。
(2)数据资产管理平台,基于大数据技术平台之上的数据管理中间件,用于盘点数据家底、构建统一的数据标准体系、构建行业化主题式数据仓库,以实现数据资产化为主要目的。数据资产管理平台通过数据开发引擎与底层大数据技术平台进行数据交互。
(3)数据分析挖掘平台,架构在数据资产管理平台之上,为数据科学家、数据分析师提供稳定、高质量的跨主题数据资源。同时支持自然语言处理、机器学习建模平台、智能标签+动态知识图谱等多个易用的数据挖掘工具集。
(4)统一数据服务总线,提供统一的、面向应用的、主题式的数据服务,将数据资产管理平台、数据分析挖掘平台的数据处理和分析结果以数据服务形式对外提供,同时生成以业务为导向的服务资源目录,让前台应用更清晰的使用数据中台里的各类数据,实现以数据驱动业务,促进前台业务。
2.2 大数据技术平台
大数据技术平台为数据中台提供技术支撑,包括数据采集、数据存储、数据处理、数据分析等计算组件。一般基于开源Hadoop生态体系构建,数据中台使用的大数据技术架构不应该限定为单一架构,而是复杂多样的,要求上层资产管理平台具有较高的兼容性,能适配国际、国内多种主流大数据技术平台。2.2.1多源异构数据采集与存储技术
数据中台面向的业务较为复杂,涉及的数据种类繁多、容量巨大,常规技术无法满足如此复杂的海量数据进行采集、处理与分析,所以需要研究不同行业多源异构数据的特征,定义数据采集标准、技术方式,并将之产品化,用简单配置的方式实现多源异构数据自动接入到数据中台。同时,需要构建一套通用的、基于本体论的数据语义描述模型,包括:模型中的基本元素、基本类型、基本关系、基本函数和用于推理的逻辑内核,用于存储和表达异构数据,让数据更容易被使用。
2.2.2 基于统一模型和pipeline的数据融合引擎
数据融合引擎的底层技术一般基于Spark RDD的全内存并行计算,支持跨源数据融合分析处理。上层提供简洁易用的交互界面,通过简单的拖拽配置就可以完成多源数据的输入、处理、融合和输出操作。该引擎需支持多数据源、跨数据源的数据接入与融合,数据源一键式配置,数据全自动化拉取,并且支持毫秒级预览查看,适用于数据探索与挖掘分析场景。数据融合引擎基于Pipeline式数据流的方式将ETL流程拆分成多个中间节点,每一个节点完成一项数据处理工作,并且是交互式响应操作,用户在使用过程中只关心一进一出,使用简单、无需技术功底,执行流程通过简单的连线做到了充分的自定义,并且提供多种执行计划,可以对数据进行各种实验,更富有探索性。
2.2.3 与底层解耦的异构任务执行引擎
对数据中台来说,异构任务执行引擎可以起到承上启下的作用,它连接底层大数据技术平台与数据资产管理平台,负责数据计算任务提交、分发与管理,同时也是维护大数据技术平台稳定运行的关键服务。任务执行根据大数据平台集群状况决定计算任务是提交或是在队列中等待,在集群任务负载较高的情况下,保障高优先级的任务优先被执行。同时,任务执行引擎支持多种异构任务,如MapReduce、Spark、R、Python等,以适应不同技术团队的数据开发需求。
2.2.4 基于多租户的异构工作流调度引擎
数据中台管理整个企业或机构的全域数据和业务流程,从工作流调度的角度来讲,单个业务流程是一个向无环图DAG(directed acyclic graph),这些业务流程往往由不同的业务部门(租户)负责,每个业务部门的业务流程都有自己的优先级配置,所以多租户模式下的多DAG调度技术在多工种协同场景下显得尤为重要。多个租户存在资源共享的情况下,异构工作流调度引擎需要兼顾不同租户之间及租户内部的多个DAG之间调度的公平性,通过异构任务执行引擎提交和获取任务执行状态,以最大限度地提升技术平台资源利用率为主要目标。
随着大数据采集、存储、计算能力的逐渐成熟,可获取的数据种类越来越多,用户对从数据中挖掘出商业价值的需求也越来越迫切。未来几年内,实时数据处理技术在解决现有实时分析场景的前提下,还将与复杂的业务场景结合,进一步加快复杂关联计算分析的处理速度,在人类决策的任何一个时间点都能让数据参与进来。同时结构化数据与非结构化数据的融合处理也是一个重要的技术趋势,通过元数据信息实现异构数据的整合拉通是大数据技术领域的一个关键挑战。
2.3 基于大数据技术的数据资产管理平台
2.3.1 统一标准的数据治理体系数据治理是数据中台建设过程中基础且重要的环节,数据治理三个核心要素包括数据标准管理、数据质量稽核、元数据管理。
(1)数据标准管理一般基于国标数据元与编码标准建设,包括数据接入标准、命名标准、数据格式标准、数据安全标准、资源管理标签等多个方面。
(2)数据质量稽核,通过数据质量管理工具从数据的完整性、一致性、唯一性等多个层面轻松实现对数据的全面稽核和预警。做到事前质量检查、事中运行监控、事后归纳总结,结合系统提供的全方位评估并提高数据质量,为决策者的提供参考并辅助决策。
(3)元数据管理将数据资产用清晰直观的方式进行呈现,让数据资产真正被读懂、能利用,通过血缘分析和影响性分析,可以直观地了解到数据的来源、数据之间的关系、数据流向、数据被引用次数等重要信息,便于用户直观地把握数据资产状况。同时,提供全域数据的检索功能,让用户能快速找到、理解、应用数据,利用数据驱动业务。
2.3.2 全链路数据生命周期管理
数据生命周期管理是数据中台的核心步骤,所有的数据都应该经过一条标准的处理流程:采集、清洗、融合、分析挖掘、应用、归档、销毁等。流程中每个步骤都要有对应的工具,帮助数据开发者快速上手,这些工具包括:数据模型设计与开发、数据ETL(包括可视化工具与脚本工具)、工作流调度等,并通过一些智能化的方式帮助数据开发人员快捷地完成数据开发任务,进一步降低数据开发成本。
2.3.3 面向分析挖掘的新型数据仓库
数据中台需要的新型数据仓库不仅仅是结构化的、离线数据,还包括非结构化的、实时的业务数据。因此,还需要借鉴传统数据仓库的设计理念,构建一套既能管理全域业务数据、又能支撑上层应用需求的新型数据仓库。基于这套数据仓库,数据科学家可以方便地查找并使用各类业务数据,进行深层次的数据分析与挖掘。
数据资产管理平台在数据中台中解决的关键问题就是实现数据资产化,也是现在数据中台建设过程中周期最长的一个环节,如何通过人工智能降低数据开发团队的人工成本,借助机器学习实现自动化、智能化的数据加工、挖掘也将是未来大数据领域最值得期待的新技术方向,也是数据中台发展过程中面临的最大挑战。
2.4 成熟易用的数据挖掘分析平台
数据挖掘分析平台架构在数据资产管理平台之上,可以为数据科学家、数据分析师提供稳定、高质量的跨主题数据资源、易用的分析工具集。数据挖掘分析平台可以支撑在大数据时代企业和政府在业务中的各种数据挖掘需求,例如以下几类。2.4.1 自然语言理解与处理
利用机器学习、深度学习、深度迁移学习等技术,实现对分词词性标注、命名实体、情感分析、文本分类等。可快速从文档中抽取出知识,构建各种实体、映射关系,实现基于语义的深度理解并将信息知识化,支撑机器智能决策。
2.4.2 基于动态知识图谱的智能标签管理
动态知识图谱,是以本体论为方法论,对所属业务领域的数据进行分类、关联而构成的知识网络,用于支撑复杂的分析场景、知识发现与知识挖掘。其核心是构建了“实体-关系-标签”三个业务要素,其中实体包括:人、事、地、物、组织等。复杂业务场景下的的知识图谱,应用不同的存储介质存储多种不同类型数据,并且在数据融合之后还能将不同介质中的数据进行连接与关联,实现关联访问与挖掘的效果。
2.4.3 交互式机器学习
交互式机器学习包含数据导入、数据预处理、模型训练、模型评估、模型预测、模型发布、模型管理、任务管理,以及任务监控等一站式、全方位的从建模到上线的流程。内置丰富的算法模型,通过拖拽组件可视化建模的方式,降低科学建模的技术门槛,让数据科学家充分利用数据中台的数据资源快速打造智能业务。
相较于大数据来说,基于机器学习的数据分析挖掘是个相对较新的领域,其面临的直接挑战则是场景化的业务落地,近几年是人工智能概念的热潮,用户要从热潮中冷静下来,分析自己的业务需求,再结合机器学习、深度学习方法来逐步解决业务问题,让人工智能真正的场景化、业务化。
2.5 面向应用的主题式数据开放服务平台
数据开放服务平台,目的在于打通数据中台与数据使用者(前台)间的数据通道,通过可视化方式实现数据API的创建、注册、发布、管理与运维。利用数据服务网关提供安全、高效、稳定的数据通道,包括服务监控、流量控制、用户鉴权、黑白名单等多个功能,并且提供负载均衡能力、多协议转换能力,加强原有API的服务能力。最后,按业务梳理数据资源目录结构,在资源目录中分类展示数据中台中可用的数据服务,让数据使用者可以有序的、清晰的浏览数据服务目录与详情,并申请与订阅数据资源。数据开放服务是数据资产对外输出的唯一出口,是数据驱动业务的直接通道。支撑内部、外部多个核心业务系统,其安全性是数据中台的核心任务。数据服务的安全机制包括:数据开放是否合法合规、服务访问认证体系、服务访问审计与访问追溯、数据泄漏应急机制等。
综上所述,数据中台不仅仅是一套产品或者工具,数据生态的打造也不是短期就能完成的目标,须结合企业的自身业务实际情况来做整体规划,并按通用步骤依次建设。下文将具体介绍数据中台在企业和政府中的落地应用,以帮助读者了解数据中台在我国的实践情况。
3 行业应用
3.1 数据中台在互联网落地情况
阿里巴巴集团于2015开始实施数据中台战略后,据2015财年统计,阿里集团批量数据计算总时长减少50%,数据存储节约上百PB空间,直接降低成本数亿元。而通过中台面向应用提供的数据服务方面,更是对营业额的大幅增长起到了直接的促进作用,仅2015年双11当天通过对淘宝搜索排序中引入实时数据影响因子这一做法就带来了数十亿元人民币的增收[33]。如今阿里正在打造云数据中台,融通多元化、复杂化、丰富化的业务数据,建设统一标准,以达到技术降本、应用提效、业务赋能的目标。美团涉及外卖、酒店、旅游、娱乐、出行等多项业务领域,同时还并购了大众点评、摩拜单车等应用,众多业务和应用背后庞大的数据急迫需要集团层面实施数据中台战略。近年来美团数据中台紧紧围绕业务开展建设,其中核心的一项业务场景即是建立集团统一的会员服务。美团获客渠道广,用户数量庞大,其中摩拜单车还涉及大量的境外用户,但缺乏用户在体系内转换的有力推手,通过数据中台将不同应用中的用户数据标准统一、打通融合后,可精准刻画用户画像,为用户提供更好的生活体验。对美团来说,用会员打通各业务,使得各高频业务能够作为拉新手段让会员关注到并尝试其它低频业务,可从会员和业务双通道获取直接的价值收益。
2018年腾讯、京东都对各自企业组织架构进行了调整,其中相同的一点是都对企业中台业务的战略发展做出了重要部署,强化数据中台的建设。如今,更多的互联网企业正抓紧建设符合自身业务发展的数据中台,通过数据中台实现一切数据业务化、一切业务数据化,驱动企业业务精细化管理,带动产业数字化转型。
3.2 数据中台在传统行业落地情况
2012年左右,中国传统行业开始进入数字化转型的道路,不同行业拥抱大数据技术的维度和速度略有差异,但基本都会结合自己的数据状况、需求优先级选择构建适合于公司发展的大数据底层平台。随着企业能获取到的数据量级和结构的多样化,企业急需一套适用于不同治理类型数据的数据平台。另一方面,随着企业内外部不同部门的需求进一步增加,如何更好地将企业的数据资源盘点清楚并高效地支撑这些需求,就成为企业IT负责人考虑的首要问题。在这样的背景下,企业数据中台也逐渐在各行业应用起来。金融行业是较早开始构建数据中台的行业。商业银行、证券公司和保险公司等,在互联网和大数据的技术推进下,业务不断转向线上,急需将线上产生的海量消费者行为数据与线下网点的数据结合起来,对客户进行综合的分析。多家金融企业发现,传统的Oracle、SAP数据库已经不能支撑大数据环境下的内部分析、营销和服务的需求,纷纷转向搭建基于大数据的数据中台,从而更好地支持业务需要的海量数据挖掘、搜索等服务。中信集团、招商证券、光大集团等金融企业在构建数据中台和业务中台方面已经走在前列。
在零售行业,百货公司、商超、品牌商也在模仿阿里、腾讯等互联网巨头,开始布局全渠道战略和数字化转型,而搭建底层数据中台和业务中台是他们的首要选择。王府井集团搭建了集团大数据资产管理平台,完成集团线上线下用户、商品、交易层面的数据资产化。在数据中台支撑下,集团上线的智能营销系统覆盖了全国30多家门店,智能营销系统内嵌11个模型,完成潜客营销、大促营销、RFV精准营销、广告投放四大场景设计,促进营销更加智能精准,实现营销活动数字化运营,有效提升活动业绩。在降低拉新成本方面,平均获客成本减少70%以上;在短信转化率方面(领取人数/推送人数)提升70%以上。中国免税品集团以消费者为中心,通过数字技术补捉消费者全域信息,将数据流转到中台,经过计算、分析、挖掘,感知消费者即时需求后,基于数据中台将满足业务场景的数据再流转到前台系统,完成供需评估和及时互动,激发消费者潜在的消费需求,尽可能地为消费者提供个性化差异服务,打造极致的消费者体验。
碧桂园、龙湖、新城等多业态(如住宅地产、商业地产、物业集团、酒店和装修)地产公司纷纷构建集团的数据中台,将住宅地产的业主数据、商业地产的会员数据和物业数据等进行拉通,从而形成全面的用户画像和动态的标签体系,并进行跨业态的数据分析和精细化运营,均取得了不错的成绩。
3.3 数据中台在政府落地情况
2015年国务院印发了《促进大数据发展行动纲要》,发展大数据已然成为国家级战略规划,行动纲要中对政府在大数据方面的工作提出了更新、更高的要求。经过几年的发展,政务网络基本建成,政务外网已覆盖大多数业务部门;数据中心已初具规模,各业务部门应用数据已基本集中。“数据孤岛”现象正逐步打破,信息共享开放正逐步展开。但是,政府在建设大数据的过程中仍然存在很多不足,一是政府数据资源开放程度不足,受制于不同部门的不同管理制度和信息化技术的壁垒,政府的很多数据资源仍未对社会机构和企业完全开放;二是对数据的融合和创新应用能力不足,目前政府数据资源还停留在数据集中存储、多部门简单共享的层面,对数据的集中融合、再加工等综合创新应用不足。针对当前现状,各地政府开始借助数据中台的方法论和相关成熟配套产品实施政务数据中台,梳理数据标准体系,融合公安、民政、教育、工商、税务等众多部分数据,建立人口库、法人库、地理库、电子证照库等基础数据库,依托基础数据库结合各业务应用建立征信、城管、交通、教育、医疗等一系列专题数据库。
某东部省份应用大数据、云计算技术,推进“互联网+政务”建设,人口、法人、信用库归集超60亿条数据,在全国率先出台首个省级公共数据和电子政务管理办法,让老百姓到政府办事只跑一次成为常态,真正实现了“数据多跑路,群众少跑腿”。其省会城市不动产登记服务中心开发微信导航功能,群众可实时查询市区内10个办事网点的排队情况,选择空闲网点前往办理;其省会城市通过对交通数据实时采集、融合、挖掘分析,创新应用AI智能技术,打造智慧化交通,可实现红绿灯信号灯自动配时,根据各路口交通流量和拥堵情况,灵活调整红绿灯时长,有效地提高了道路通行效率,降低道路拥堵程度[34]。
某直辖市推进电子证照库的建设和应用,综合运用基于互联网+技术应用、数据资源共享、人工智能辅助等手段,实现了包括营业执照、身份证、居住证、出生证明、结婚证、离婚证、食品经营许可证等20余种证照221个事项的场景应用[35]。企业和市民在办理相关业务时,不再需要提交多样繁琐的纸质证件信息,系统可从电子证照库调取材料,节约办事时间,提高工作效率,为人民群众提供便利。
4 未来趋势与展望
数据中台的建设,除了要有具备丰富行业经验的技术团队之外,还要有一套健全的、经受过大量项目的沉淀与检验的产品与工具,数据中台的最终效果和建设成本将取决于这套产品工具的自动化、智能化程度。所以通过人工智能技术来优化和改造数据中台也将成为重要的趋势。人工智能技术可以让数据中台更加敏捷和高效,未来在数据中台的底层工具和产品层面融入人工智能技术,可以自动分析源业务系统间的数据依赖关系、智能推荐主数据、数据标准、数据治理建议,还可以自动生成脚本等。除了数据中台的构建过程智能化之外,上层业务也会有沉淀出一批人工智能相关的产品,比如自然语言生成、问答机器人、自动翻译等等。当前人工智能应用开始逐渐进入到各行各业之中,数据中台的建立有利于人工智能模型的训练和应用的创新。企业的数据科学家可以根据自身业务发展需求,依托数据中台构建行业人工智能应用,如生产制造业的智能供应链调拨、房地产行业的智能选址等智能化应用。
同时,随着5G网络的发展与普及应用,人类生活场所的智能设备越来越多(如城市的房屋建筑、路灯、垃圾桶,车辆的轮胎、刹车、方向盘以及各类穿戴设备),物联网智能数据数据采集成本也将大大降低,这些智能设备的数据可以通过IOT传感器将数据上传到数据中台。随着业务数据化程度越来越高、数据处理与分析技术越来越成熟,各行各业将逐步实现一切业务数据化,利用各类感知数据来描述物理世界,构建智能认知引擎,并形成决策辅助工具。不远的将来,很多执行环节将由机器进行决策与执行,人类和机器共同协作能力将得到高速发展。
总体而言,数据中台将会朝着数据更多样、底层更智能、上层使用更加简单、应用更丰富的方向发展,在不远的将来,中国将迎来各行业与政府依托数据中台进行数字化转型和构建数据智能应用的热潮,而蓬勃发展的相关技术也将为数据中台功能的完善与升级提供更多的可能性。
利益冲突声明
所有作者声明不存在利益冲突关系。参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
[J]. ,
[本文引用: 2]
[J]. ,
[本文引用: 2]
[J]. ,
[本文引用: 1]
[本文引用: 2]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 2]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
, 19(
[本文引用: 1]
,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[EB/OL].[2008-08]. http://www.gartner.com/technology/about/policies/correction_2008.jsp.
URL [本文引用: 1]
[J]. ,
[本文引用: 1]
.
[本文引用: 1]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
URL [本文引用: 1]
URL [本文引用: 2]
URL [本文引用: 1]
[C] . ,
[本文引用: 1]
URL [本文引用: 1]
URL [本文引用: 1]
[M] ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[M]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[EB/OL]. http://www.sohu.com/a/70801979_222493.
URL [本文引用: 1]
[EB/OL]. http://cpc.people.com.cn/n1/2018/0530/c162854-30024075.html.
URL [本文引用: 1]
[EB/OL]. http://www.sohu.com/a/284171537_170632.
URL [本文引用: 1]