<rp id="9si64"><object id="9si64"></object></rp>
  • <button id="9si64"></button>
    <button id="9si64"><object id="9si64"></object></button>
    <th id="9si64"><track id="9si64"><rt id="9si64"></rt></track></th>

        1. 行业观点 / Solution Information

          “机场交通大脑”数据集成浅析

          2020-07-22

          机场现场交通数据的准确、及时采集是“机场交通大脑”发挥“大脑”能力的基础,是系统建设内容的核心内容之一。在明确横向联通、纵向贯通的数据采集范围后,本文通过探讨数据采集的来源和可行方式,尝试探讨明确各数据采集的技术方案和实施路线。


          图 1 数据是机场交通大脑发挥效能的基础

          一、需要关注的问题

          数据治理是数据集成的基础,其通过组织和系统现状调研,提供一系列规章、流程来明确数据管理责任和数据集成方案,确保数据集成的安全可靠,并构建完善的组织保障体系,构建数据质量的长效机制。

          技术上的暂时成功不等于数据集成成功,安全、可靠、长久的数据集成必须借助完善的数据治理过程提供保障和支持。


          图 2 数据治理是数据集成长效机制的保证

          二、数据集成方案设计

          数据来自组织内部和外部协调,逻辑上划分为内部数据采集和外部数据采集。基于华东地区几个典型机场的调研和分析,数据分布大概如下:


          图 3 数据采集来源

          1、内部数据采集包括:


          图 4 内部数据采集

          2、外部数据采集包括:


          图 5 外部数据采集

          数据主要呈现为四种形态,包括关系数据、文本数据(通知通告、宣传语等)、图片数据(卡口照片等)和流数据(卡口视频等)。

          异步批量采集、同步流式采集和流批一体采集是当下最为流行的三种数据采集方式。对业务需求、系统现状和投资成本综合评估后,建议机场交通大脑采用异步批量数据采集方式:

          1、机场交通大脑并不是实时交易系统,批量数据采集(合理的采集周期设计)能够满足其数据新鲜度的需求。

          2、批量数据采集不需要业务系统改造,通过受限的ETL外挂脚本实现数据采集,因此业务稳定性高、实现成本低。

          2、批量数据采集不需要业务系统改造,通过受限的ETL外挂脚本实现数据采集,因此业务稳定性高、实现成本低。

          3、外部协调的数据,不能要求外部组织系统对接和改造,通过受限的文件交换,是目前最为可行的方式。

          因此,“机场交通大脑”数据采集整体技术方案如下:


          图 6 机场交通大脑数据采集方案

          三、集成开发和监测

          推荐采用Kettle完成机场交通大脑数据采集,其对关系数据、文本数据和图片数据的异步批量ETL支持非常稳定,实施成本低廉,并且Kettle具备完善的监控工具。


          图 7 Kettle优势对比

          Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。支持管理来自不同数据库的数据,包括国内达梦数据库,通过图形化的用户环境来支持脚本编写和数据监控。Kettle中有两种脚本文件,Transformation完成针对数据的基础转换,Job则完成整个工作流的控制,在国内项目应用日趋广泛。


          图 8 Kettle六大优势

          以下分别给出关系数据ETL和文本文件ETL,进一步探讨Kettle的适用性。

          1、关系数据ETL

          内部数据采集建议采用可控数据表ETL的方式进行采集,通过Kettle实现增量、周期(秒级)数据采集。


          图 9 内部数据采集

          2、文本文件ETL

          外部数据通常采用文件交互方式,通过Kettle可以方便对文本文件进行增量、周期(秒级)数据采集,并转换到数据表中。


          图 10 外部数据采集

          另外,Kettle通过JS脚本、Java脚本来支持数据转换扩展,数据源上支持消息总线、HTTP协议对接、FTP协议对接,转换目标支持图片入库、索引入库等,并且新版增强了对BIG DATA的支持。Kettle逐渐成为大数据平台的必要技术组件。

          四、陷阱和问题规避

          四、陷阱和问题规避 数据集成不仅仅是技术问题,因此仅仅靠构建一套ETL工具并不能实现完善的数据集成,有效的数据集成必须解决数据标准、数据责任、数据质量三个重点问题,解决这些问题的核心过程是数据治理。解决好这三个问题后,即使没有成套ETL工具支撑,依靠定制化数据接口采集对接开发也能达到数据集成目标。

          通过ETL成套工具,可以大大提升数据集成效能和集成监控,能够实现数据集成的持续,稳固数据集成的长效成果。


          图 10 数据集成的长效机制离不开数据治理和ETL工具

          <全文完>

          返 回
          亚洲中文字幕一区精品自拍_欧美v日韩v亚洲v最新在线观看_日产日韩亚洲欧美综合在线_精品国产自在在线午夜精品