企业在构建数据仓库时,首先需要整体上对数据仓库进行规划,制定规范。数仓架构师需要对数仓分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。这样模型设计时,可以将模型关联到数仓分层、业务分类、数据域、业务过程等对所建模型进行分层化域管理。
数据引入层 ODS(Operational Data Store)
数据明细层 DWD(Data Warehouse Detail)
汇总数据层 DWS (Data Warehouse Summary)
应用数据层 ADS (Application Data Service)
公共维度层 DIM(Dimension)
贴源层 | ODS |
公共层 | DWD、DWS、DIM |
应用层 | ADS |
贴源层:用于数据库、日志、消息等基础源数据的引入。源数据经过一系列ETL操作进入贴源层。该层级有贴源表
公共层:用于加工、整合贴源层输入的公共数据,建立统一的指标维度,构建可复用面相分析和统计的明细事实数据和汇总数据。该层级有明细表、维度表、汇总表。
应用层:基于实际应用需求、获取公共层加工整合后的数据,面向具体应用场景或指定产品进行的个性化数据统计。该层级有应用表、维度表。
当企业业务比较复杂,不同类型业务彼此间需要共享数据域,但是又希望能在模型设计和应用过程中快速定位本业务的数据时,可结合真实业务情况,规划不同的业务分类,在后续建模的维度表和明细表中,将其关联到对应的业务分类中。
数据域:数据域是一个较高层次的数据归类标准,是对企业业务过程进行抽象、提炼、组合的集合,是企业业务人员在使用数据时第一个分组入口,可以帮助企业业务人员快速的从海量的数据中快速圈定到自己的业务数据。
业务过程:业务过程是对业务活动流程的描述,例如在电商领域,加购、下单、支付等都可以是一个业务过程。
数据集市:数据集市是对某个业务分类制定细化的业务主题,并通过主题域,基于不同分析视角对目标集市中的数据进行主题划分,最终面向业务应用统计分析数据。例如,运营平台数据集市。
主题域:主题域用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分至不同的主题域。例如,电商行业通常分为交易域、会员域、商品域等。
维度管理用于标准化定义维度,帮助数据建模过程中产生的维度进行统一建设和管理,保证维度唯一,避免重复建设。后续创建维度表时可关联相应维度,关联后即可通过不同维度分析呈现不同视角的业务数据状况。