核格Hearken™大数据分析开发平台是在Hearken™软件开发平台的技术基础上衍生的,可与行业深度结合的大数据分析开发平台。核格Hearken™大数据分析开发平台采用SOA架构,利用分布式计算、数据挖掘、人工智能等技术有效整合分散异构数据资源,自组织自学习发掘数据价值,能实现辅助决策支持、高效指导生产、降低运营成本、增强核心竞争力的目标。
平台提供界面友好的可视化配置开发环境,大幅度降低大数据开发人员的技术门槛,服务可用性高,可以以分钟级可视化拖拽的配置方式实现数据处理、挖掘、分析及基于规则的知识表达的结果展示;为生产制造、气象、医疗、销售等行业打造专业、精确、知识可复用的大数据行业应用解决方案。
平台主要功能包括多源异构数据采集、数据ETL处理、分布式海量数据存储、实时分布式计算、以及行业分析算法库搭建。其中核格大数据采集系统、核格大数据处理系统、核格大数据管理系统均获得计算机软件著作权。


数据接入子系统主要实现多种数据源、数据类型的接入、融合,数据形态主要包括:结构化数据和非结构化数据。该子系统为大数据平台提供原始数据支撑,为数据清洗转换、数据脱敏脱密、大数据分析、存储工作提供源数据。
支持Oracle、SQL Server、My SQL、DB2、SyBase、Informix、PostgreSQL、Access、人大金仓、达梦等数据库直接抽取数据;支持Web Service、REST、RPC等数据接口方式;支持在线填报及批量导入方式;支持FTP文件传输导入方式;支持采用网络爬虫工具接入互联网数据。
数据存储子系统通过对海量数据进行清洗、转换、形成统一格式、标准规范的数据结构,并针对数据不同特性,采用HDFS、WeedFS分布式文件系统、关系型数据库和NoSQL数据库相结合的方式实现PB级海量数据存储,同时结合资源目录和分析主题完成数据加载。
系统架构具有多级热备、快速存取、节点动态伸缩等特性,能够提供稳定高效的数据存取服务。存储中所有的数据传输均通过多级安全保障,同时对采集的数据加以清洗,控制数据的合法性,保证数据的完整性和有效性。数据服务全过程受数据监控模块监督,及时发现突发异常情况,以便采取对应补救措施。
数据清洗模块主要是将数据接入系统采集的数据进行过滤、清洗、转换格式后集成到大数据平台中。同时,对敏感和保密数据在集成到平台上进行脱敏和脱密处理。充分利用系统提供的数据清理策略与算法,对接入数据进行清洗、转换、去重和编目,将接入数据中包含的残缺数据、错误数据、重复数据等脏数据、废数据进行过滤。对接入数据的数据定义、数据结构、数据标识、数据编码、数据编目、来源、转换关系、质量等级、依赖关系、安全权限内容进行管理,最终形成符合统一标准的数据模型。最终通过加载模块加载到数据资源库和计算数据集,为数据共享与交换和主题计算提供合法数据内容。


数据分析子系统作为大数据平台提供数据深度挖掘和分析服务的核心系统,利用MapReduce、Spark和Storm三种分布式计算框架,结合多种分布式计算引擎,对各类结构化、半结构化及非结构化的数据资源进行快速的分布式与并行计算处理,并提供计算服务调用与计算SDK工具箱。系统内置气象、农业、公共安全、环境保护、工业制造、医疗、零售等行业数据挖掘与人工智能算法工具库,为应用提供大数据分布式计算服务。
数据分析子系统包括三部分:分布式计算引擎、数据仓库和数据挖掘模块库。
分布式计算引擎提供对分布式存储中结构化和非结构化数据进行集群并行计算的能力,通过对外提供计算构件SDK的方式,服务于数据分析挖掘系统的算法模型。同时提供任务调度、执行、结果、资源分配、异常、消息通知的监控功能。
数据仓库系统作为气象大数据平台的核心模块之一,主要实现对分布式存储子系统及其他来源数据进行面向主题存储。数据仓库为决策制定和计算分析任务提供数据集支持,是一种信息提供平台,从数据存储系统获取数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
数据挖掘模型库主要为气象大数据平台的搭建提供理论依据和智力支持,为气象大数据平台数据挖掘子系统的研制开发提供重要的数学模型和方法手段,为实现气象管理决策智能化、科学化创造理论先决条件。
数据挖掘模型库提供基于分布式计算引擎的大数据分析挖掘和处理技术,为使数据分析师和开发者能够在日常的数据分析过程中方便、快捷的进行一般的数据分析任务,数据分析挖掘系统通过将建立模型库的方式向数据分析师和开发者提供常见的分布式算法构件,如聚类算法、分类算法、关联规则挖掘算法、时间序列分析算法、文本挖掘算法和图像挖掘算法等,从而实现快速获取指定类型数据分析业务结果或开发具体分析业务应用的目标。
在气象大数据平台体系中,互联互通的数据交换是各级气象部门实现全面、协调、高效信息共享的关键环节。通过数据接入子系统、数据清洗子系统、数据分析挖掘子系统对气象数据进行加工处理后,只有实现基础性数据和价值数据在各部门间充分共享,才能发挥大数据平台价值。
数据共享与交换子系统实现各级部门业务应用与数据的互联互通、共享交换、业务协同、监管治理等功能。主要包括:
统一标准、服务共享,实现基于ESB的应用系统一体化
采用SOA架构,以ESB产品实现组织机构内部各厂商不同时期开发应用系统、异构数据源集成,实现应用系统一体化,解决内部信息孤岛,并按照统一规划、统一标准实现跨部门的数据互联互通和服务共享。
● 跨部门业务协同
数据共享与交换平台支持不同部门间业务协同,提供快捷业务通道,简化工作流程,提供优质、高效的公共服务。仅需提供标准接口即可实现与同级业务服务外接,实现数据交换互访与业务有机结合,提供一体化便捷服务。
● 跨地域(级别)的多级数据汇总及垂直共享与交换
实现多级平台数据连通,进行数据资源向上整合、共享、汇总与信息交换,供上级部门进行统计分析、辅助决策,优化资源调度与行为监管。同时,对汇总数据进行加工处理和利用,以标准、安全、稳定的方式提供数据共享服务。


数据可视化与可视分析能够迅速和有效地简化与提炼数据交流,帮助用户交互筛选大量的数据,有助于使用者更快更好地从复杂数据中得到新的发现,是人了解复杂数据、开展深入分析不可或缺的重要手段,数据展示系统通过多种数据可视化展现工具,使每一个应用都可以利用各种类型的可视化元素为载体进行满足业务需求的复杂数据结果展示。
支持直接从数据生成二维和三维的图形图表,类型包括:饼图,柱状图,线图,散点图,条形图,区域图,地图,气泡图,漏斗图,树状图,图状态,仪表盘,混合图等。
可视化展示SDK开发套件将按数据类型的不同对可视化图形进行划分,图形不仅将包含基本的统计类型的可视化图形,如饼图、柱状图、线图、散点图等,还将包含专用于文本数据可视化、网络(或图)数据可视化、时空数据可视化和多维数据可视化图形工具SDK等五大类可视化展示套件。
为保证整个平台稳定、高效、安全运行,对系统用户组织机构、角色、资源进行统一管理。利用WebService技术获取各子系统运行情况信息,利用基于策略的定时统计和基于用户自定义的实时统计功能提供数据统计服务,并提供图形化的统计分析和查询功能,同时,利用主成分方法对资源的数据提供量、数据更新频率、数据使用频率、数据使用反馈等指标进行建模,对各组织机构的资源数据绩效综合评估及资源数据共享绩效评估。
利用基于用户角色的控制技术,对各个子系统用户对数据的访问操作权限进行控制,利用基于数据密级的控制技术,对数据资源进行分级管理,严格控制访问权限,保证数据访问的安全性。
利用webService技术获取各子系统以及各功能模块的实时 Transaction、绑定变量的SQL、DB Connection及Connection Pool状态、文件IO状态、AVA Heap Memory使用量等相关信息,对各web服务器进行服务监控、资源监控、故障诊断及分析、实时线程监控、事务响应时间、SQL语句分析、性能分析。
