2014年,马云提出:“人类正在从IT时代走向DT时代”。如果说在IT(互联网技术)时代是以自我控制、自我管理为主,那么到了DT(大数据技术)时代,则是以服务大众、激发生产力为主。在DT时代,人们比以往任何时候更能收集到更丰富的数据,数据也正在丰富着我们的生活,高效有价值的数据使我们的生活更便捷。

一、安防行业对于大数据技术的需求

起初我们对于大数据的定义是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。一般不用随机分析法而采用所有数据进行分析处理,使其分析结果更加具有普遍性和准确性。大数据正是运用数据驱动的思想,结合大数据处理、数据挖掘、机器学习、知识图谱等多种技术,从数据中挖掘、提炼、获取有价值的信息,从而为管理者制定决策提供有效的数据支持。将研究成果在公安、交警、医疗、教育、社会治理等行业落地推广,助力政府、企业数字化转型。

目前安防行业对于大数据种类的需求主要体现在过人、过车、MAC、RFID等多维数据:

(1)过人:人像采集设备采集到人像之后,经过智能服务器分析,将人脸图片数据解析成半结构化数据入库,如性别、体貌特征等半结构化特征值,可以用来做人员管控、人脸比对、研判等当面的应用。

(2)过车:通常在卡口控制进行抓拍,或者是实况或者回放流经过智能服务器分析之后入库的结构化和半结构化信息,如车牌号、车牌颜色和车声颜色等半结构化特征值,可以用来做车辆管控、车辆研判等方面的应用。

(3)MAC地址:Wifi Sniffer设备搜集到的经过这个AP范围内的手机端MAC地址及信号强度等信息,可以用来做大数据挖掘、探测人流量、公共安全等方面的应用。

(4)RFID:超感采集设备通过射频技术采集到的RFID卡信息,可以用来做老人防走失、电瓶车防盗等方面的应用。

现如今伴随着多元化的数据量以爆炸式的速度增长,大数据需求持续攀升,并呈现多样化趋势,需要满足海量数据的安全存储、多种数据类型的快速检索和丰富的可定制化的业务研判需求。在设备上要求使用集群化技术、易部署、可扩展,并可在现有架构上扩展其他行业业务,实现丰富的行业业务模式,持续提升竞争力。这就要求大数据技术能对这些海量的数据进行快速挖掘、深度分析高效获取有价值的数据,通过运用深度学习技术实现智能比对、人员车辆管控、多维数据碰撞、事前预警等丰富的行业应用。

二、大数据架构分析

大数据解决方案是一个贯穿整个数据处理层面的整体解决方案,其实包括数据采集、数据应用服务、数据可视化技术,我们可以先来了解下其内部实现架构:

1.大数据架构组成

基于HDFS的数据存储层、基于SPARK框架的计算及基于ES的搜索的计算层、基于知识库的技战法等应用层、基于数据访问的接口层、基于GIS平台的可视化展示层。它运用的组件如下:

(1)Hdfs:分布式文件系统,它其实跟linux的EXT4文件系统类似,差异就是HDFS是分布式的,且能保存多个副本且提供容错机制。

(2)Yarn:资源管理调度系统,将各个资源部分(CPU、内存、带宽等)精心安排给需要的节点。

(3)Hbase:分布式的、面向列的开源分布式的非关系型数据库,关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。相反,HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的,能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩。

(4)Zookeeper:是一个分布式、开源的式应用程序协调服务集,是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作,比如同步、配置管理、集群管理、命名空间。

(5)SPARK:是专为大规模数据处理而设计的快速通用的计算引擎,可用于实时计算,,Spark具有运行速度快、易用性好、通用性强和随处运行等特点。

(6)Spark streaming/Flume/flink/:流式处理框架,处理实时数据,实时数据计算研判等。

(7)ES:ElasticSearch是一个分布式搜索引擎,提供全文搜索和实时分析的结构化和非结构化的数据。

2.数据流向

数据由Producer送入Kafka消息队列中,由Flume拉取文件数据到Kafka消费,存储入Hbase或搜索索引中,通过基于知识库的建模对外提供数据服务,平台/客户端通过调用大数据的服务,返回数据后以可视化的形式呈现给用户。大数据基于SPARK计算框架及ES搜索引擎,基于对行业的理解及知识库积累,目前已经开发了许多高通用性的数据服务供业务平台调用。

图1大数据组网图

3.分布式架构概念

大规模分布式计算环境需要多个计算单元(节点或电脑主机)集群计算,势必需要组织和协调,就如部队编制,由长官和士兵组成,各谋其位各司其职。在集群中,服务器的工作类型分为两种:一为管理节点,用于管理整个集群的服务,并提供对外服务的统一管理和调度,一般部署两台以提升高可用性;二为数据节点,用作数据存储和计算,通过数据备份机制保证数据节点无单点故障。

管理节点(MARST NODE或叫NAME NODE):类似部队的指挥官,他熟悉手下各个士兵的能力,给他们调配任务,监测作战状态、检查打仗情况等。这个节点很重要,如果这个节点失效,计算节点便没有头绪,肯能会导致整体计算流程处于瘫痪状态。所以在管理节点安排上会做2个考虑:小股部队他带兵也冲锋作战如排长,到师团长就可以独立,可以不上前线在后方指挥,如果有其中一个管理节点失效,后备管理节点便可以替补上,避免整个流程阻断。

计算节(SLAVE NODE或DATA NODE):具有领头羊的作用,要求机灵,勇敢,不怕苦不怕累。有作战命令下达就迅速冲锋上前,勇猛杀敌。一个士兵倒下了,会有其他兄弟顶上。如果是个狙击大队,那每个狙击手就要考虑多个备份,但是只要超出PLAN B/C后,那这个狙击点就失败了。

三、大数据与人工智能融合

1.结构化数据与非结构化数据介绍

人工智能时代来临,大数据和人工智能结合,会释放出更大的能量同时人工智能也需要有大数据支撑。对于一段视频或一张图片,用文字描述的语义化就是结构化数据,用特征码描述的就是半结构化数据,图片或视频就是非结构化数据。

2.大数据的分层存储技术

数据分层:大数据将数据按应用时效性分成热、温、冷三种数据,并针对其不同应用特征存储在不同的存储器中,其中热数据(如最近1个月的数据)存储在内存中以实现最快响应;温数据(如最近3个月的数据)存储在SSD固体硬盘中以实现快速调用及加载使用;而冷数据(大量的全量数据)均存储在HDD硬盘中,在保证一定的响应速度上保证留存期。利用数据聚类、标签化分组等辅助措施,大数据可以实现海量半结构化数据的秒级检索。大数据基于这些半结构化的数据存储,以及前沿的聚类算法,支持大部分人脸研判业务,比如同行分析、落脚点分析等。

3.业务融合

在人工智能业务方面,针对开源的分布式大数据技术进行具有专利的技术改造和优化,实现了大数据独有的分布式流式内存计算,实现以图搜图的业内最快响应。通俗的说就是你希望认识这个人脸是谁,或者像谁。利用大数据融合了过人、过车、MAC、RFID等多维数据这一优势,可以快捷地实现多维数据的轨迹碰撞。多维轨迹碰撞就是利用大数据对具有相同时序轨迹的多种维度数据进行碰撞比对的一种大数据研判分析模型。他的核心技术原理就是两个或多个对象的活动轨迹具有高度相似性。利用这个业务模型可以非常方便地实现跨镜追踪(REID)。

随着各行各业产生的海量数据膨胀增长,数据智能研究越来越契合大数据时代各领域、各行业从数据中挖掘、实现价值,进行数字化转型的迫切需要。随着数据智能在更多领域的落地和发展,数据智能将朝着更自动、更智能、更高效、更普适的方向继续发展。

四、结语

本文从大数据的基本概念到阐述大数据的框架技术以及集群下的不同节点的工作模式,最后通过人工智能技术与大数据技术融合的想法介绍大数据当前的业务模式。大数据技术的蓬勃发展无疑对于整个安防行业的发展汇聚了巨大的能量,“融合”的想法为大数据技术的发展提供了新鲜的力量,同时也逐渐成为其他高新技术发展的新方向和新趋势。

信息化和软件服务网 - 助力数字中国建设 | 责编:莎莉