数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
下图是本文后续要介绍的认识数据仓库的相关内容。
大数据相关岗位包括数据仓库,数据平台,数据分析,数据产品。各自职能不同,本文重点介绍数据仓库相关。
数据仓库作为大数据相关技术栈之一,相关岗位和工作内容可见如下:数据仓库按照技术能力划分,分为离线开发组,实时开发组,数据治理组,数据安全组。
离线开发组
实时开发组
数据治理组
数据安全组
数据仓库在大数据生态中定位:承接各种数据源,**通过采(对数据源数据采集)、建(数据资产/模型建设)、管(数据管理、数据服务)、用(如何利用数据为下游创造更多应用价值分析)**的方式实现下游需求内容为数据分析、运营、风控等业务提供数据支撑.
数据仓库演变可以分为3个时代,从2000-2013是1.0时代,从2013到现在是2.0时代(仍有很多公司使用),从2016到现在也是3.0时代。
1.0时代
2.0时代
3.0时代
组件,如下图
架构-Lambda架构
架构-Kappa架构
图1中的1.2和1.7内容,本文不做介绍