总体而言题量较少,但记忆负担繁重,主观题尽量多写字
数据是信息的载体,信息是对数据的解释。
对信息内容进行的提炼、比较、挖掘、分析、概括、判断和推论。
商务智能可以使企业全面了解业务运营中的关键环节,准确获悉"过去发生了什么事情",“为什么发生这种事情”,"正在发生什么事情"以及"未来将如何发展"等信息。
怎样把积累下来的数据转变为企业经营者最需要的信息和知识,从而辅助决策
业务系统的操作和日志数据→ETL抽取、转化、加载→ODS层→数据仓库→反哺业务
是数据仓库中的关键层,负责将数据从各种业务系统中提取出来,并进行初步的清洗和转换。
ETL:抽取(extrat)、转换(transform)、装载(load)
在ETL过程中,数据会被抽取出来,去除重复、缺失或错误的数据,并进行格式化和统一处理。然后,数据会被装载到ODS层。
是操作数据存储层,它是ETL层的下一个层次。
将ETL层处理过的数据存储在一个可更新的位置,供其他层次使用。
是数据仓库的核心,它是数据在数据仓库中的最终目的地。
将ODS层中的数据整合到一个集中的位置,并进行更深入的数据分析和汇总。
星形模型或雪花模型
是应用层,它是数据仓库的顶层。
将数据提供给最终用户使用。
APP层的数据通常是干净、一致和可用的,它可以帮助用户更好地理解企业的业务情况,并做出更好的决策。
是维度表的层次。
为DW层提供维度信息。
DIM层的数据通常是静态的,它可以帮助DW层更好地理解业务情况,并提供更准确的数据分析结果。
企业的子公司、各部门往往各自负责局部的信息系统选型、建设和维护,导致大量的信息孤岛。
不同的用户提供的数据可能来自不同的数据源,数据内容、数据格式和质量千差万别,数据的准确性、真实性和完整性都不同,实施数据共享和数据分析就需要对数据进行整理。
运用一定的技术手段把分布在异构系统中的数据按一定的规则组织成一个整体,使用户能有效地对其进行共享、分析。
数据依然保留在原来的存储位置,不必构建一个集中式数据仓库。
查询反应慢,不适合频繁查询,容易出现锁争用和资源冲突问题。
在一个组织内部跨多个系统、应用程序和业务过程中共享、使用和维护的关键业务实体的核心数据。
确保数据在组织内的一致性、准确性和可靠性。
主数据管理是通过ETL、企业信息集成(EII)等技术,从企业的多个业务系统中整合需要共享的主数据,集中进行数据的清洗,维护主数据的完整性、一致性和准确性的一整套规范、技术和方案,以便为业务应用系统和分析型应用提供可靠的数据源。主数据管理能够较好解决数据仓库中数据不准确的问题。
数据仓库(Data Warehouse)是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。
数据仓库中的数据是从原有分散的源数据库中提取出来,将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。
数据仓库中的的数据操作主要是查询,一般情况下并不进行修改操作。
数据仓库主要包括数据的提取、转换与装载(ETL)、元数据、数据集市和操作数据存储(ODS)等部分,常用的数据仓库结构如下图。
独立的数据集市和从属的数据集市。
数据仓库中的元数据是关于数据仓库中数据的数据,作用类似于数据库管理系统的数据字典,用于保存逻辑数据结构、文件、地址和索引等信息。
技术元数据为开发和管理数据仓库的IT人员使用,描述与数据仓库开发、管理和维护相关的数据。
业务元数据为管理层和业务分析人员服务,从业务角度描述数据。使业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用它们。
对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。
粒度越小,数据越细,查询的范围就越广;粒度越高,细节程度越低,查询的范围就越小。
根据粒度的不同,可以把数据划分为早期细节级、当前细节级、轻度综合级和高度综合级等。
数据精度:数据粒度越小,表示数据越细致,精度越高。例如,在分析产品销售情况时,如果数据粒度达到单个产品的级别,就可以分析出每个产品的详细销售情况,从而提高数据的精度。
处理速度:数据粒度越小,表示数据处理的速度越慢。这是因为,数据粒度小意味着需要处理的数据量更大,从而会导致数据处理速度变慢。
可扩展性:数据粒度越大,表示数据的可扩展性越好。这是因为,数据粒度越大意味着数据处理的速度更快,从而可以处理更多的数据,提高数据的可扩展性。
确认数据源的数据及其含义。
数据不一致包括数据源内部的不一致和多个数据源之间的数据不一致等。不同业务系统的数量单位、编码、值域或语义等都需要统一。
业务系统一般存储细粒度的事务型数据,而数据仓库中的数据是用于查询、分析。因此需要多种不同粒度的数据。这些不同粒度的数据可以通过对细粒度的事务型数据进行聚合(aggregation)而产生。
数据清洗(datacleaning)是数据转换的一个子集,主要是对原始数据进行清理、过滤、去重、处理异常数据等操作,以消除数据中的问题,如数据重复、二义性、不完整、违反业务或逻辑规则等,保证数据的准确性和稳定性。
数据加载主要是将清洗、转换后的数据导入到目标数据源中,为企业业务提供数据支持。
将所有数据都导入目标数据源中,适用于首次加载或者数据量较小的情况。
将新增或修改的数据导入目标数据源中,以节省加载时间和系统资源,适用于数据量较大的情况。
周期性地重写整个数据仓库,有时也可能只对一些特定的数据进行刷新。
概念模型用来表达信息世界中的信息结构,关系数据库一般采用实体-关系(E-R)图来作为概念模型的表示方法。
星型模型的核心是事实表,事实表把各种不同的维表连接起来。与传统的关系模型相比,星型模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。
星型图包括了三种逻辑实体:指标、维度和详细类别。
维表的本质是多维分析空间在某个角度上的投影,多个维表共同建立一个多维分析空间。
雪花模型是星型模型的扩展,某些维表中的数据可以进一步分解到附加的表中,以便减少冗余,节省存储空间。
雪花模型对星型模型中的维表进行进一步标准化、规范化处理。
数据仓库的物理模型是逻辑模型在数据仓库中的实现,主要包含数据仓库的软硬件配置、数据的存储结构与索引、数据存储位置和存储分配等。
在线事务处理通常是一个或一组记录的查询和修改,用于处理短暂的交易事务,例如银行账目更新、实时库存变化、顾客的订单与发货情况的更新以及病人健康状况的更新等。
OLAP Cube。OLAP 多维数据集是一种为非常快速的数据分析而优化的数据结构。
OLAP Cube 由按维度分类的称为度量的数字事实组成。OLAP Cube 也称为超立方体。
接下来的这些我赌它不考主观题,列出以便于理解相关概念
变量是数据度量的指标,是数据的实际意义。通常也把变量称为度量。
图中的数据“560”本身并没有意义,但如果描述2007年第一季度大中华区 LCD 的销售量是560 万台,则数据"560"就有了实际意义,代表了产品销售量的度量。年、季度和月份是描述时间的三个层次,10万是变量"销售额"的值。
维是与业务主题相关的一组属性,单个属性或属性集合可以构成一维。例如计算机配件销售随着时间推移而产生的变化,这是从时间的角度对产品的销售进行观察。如果把一个主题的多种属性定义为多个维,那么用户就能够从多个角度组合分析销售情况。如图所示,可以从时间维、产品维(CPU、主板、 LCD、硬盘、显卡和内存)和地区维(大中华区、北美区、拉丁美洲)分析销售量。
一个维往往可以具有多个层次,例如时间维分为年、季度、月和日等层次,地区维可以分为国家、地区、省、市等层次。这里的层次表示数据细化程度,对应概念分层。后面提到的上钻操作就是由低层概念映射到较高层概念。概念分层除了根据概念的全序和偏序关系确定外,还可以通过对数据进行离散化或分组来实现。
维是多层次的,不同层次的取值构成一个维成员,例如,“某年某季度”、"某季度某月"等都可以是时间维的成员。
多维数组用维和度量的组合表示一个多维数组,可以表示为(维1 ,维2,…,维n ,度量),例如(月份,地区,产品,销售额)组成一个多维数组。
多维数组的取值。当多维数组中每个维都有确定的取值时,就唯一确定一个变量的值。数据单元可以表示为(维1成员,维2成员,……,维n 成员,度量值),例如(2007年第一季度,大中华区,LCD,560万台)表示一个数据单元:2007 年第一季度大中华区 LCD产品销售560万台。
事实是不同维度在某一取值下的度量 。**在各维度值(客户、产品合约、账户、机构、币种、日期)的交点处就可以得到一个度量值。**例如上述2007年第一季度 LCD 在大中华区的销售额是560万台就表示在时间、产品和地区三个维度上企业销售事实的度量,同时包含时间维度的两个层次:年和季度。
懒得拍书上P58的表了
OLAP的操作是查询,也就是数据库的 SELECT 操作为主,但是查询可以很复杂,比如基于关系数据库的查询可以多表关联,可以使用COUNT、SUM、AVG 等聚合函数。
选定多维数组的1维成员做数据分割的操作称为该维上的一个切片。
在服装消费实例分析中,对“性别、年龄、月收人”三维立方体选取年龄段进行切片,可得到26~30岁年龄段不同月收入人群中男女消费者的购买信息。
把多维数组中选定一个三维子集的操作视为切块。
图所示为多维数组(a)选取年龄段21~30岁进行切块,可得到此年龄段不同月收人下男女消费者的购买情况(性别, 21~30岁,月收人,购买百分比)。类似地,多维数组(b)和多维数组(c)均对应多维立方体的切块。
钻取能够帮助用户获得更多的细节性数据。
例如,在服装购买顾客调查中,可以按月收入分段汇总数据,把较低、中档与较高归约为"有收入",便可以得到沿月收入维上钻的数据汇总;也可以按年龄分段汇总数据,把16岁以下与16~20岁归约为"青少年",21~25岁、26~30岁与 31~35 岁归约为"青年",36~40岁与40岁以上归约为"中老年",从而得到沿年龄段维上钻的数据汇总视图。
确定业务,了解需求以及问题相关背景
可视化了解数据分布与统计相关信息
删除原始数据集中的无关数据
删除重复数据
平滑噪声数据
通过聚类(K-Means,DBSCAN,EM聚类)方法,检测孤立点。将数据集合分组为若干个簇,在簇外的值即为孤立点,这些孤立点就是噪声数据,应对这些孤立点进行删除或替换。相似或相临近的数据聚合在一起形成各个聚类集合,在这些聚类集合之外的数据即为异常数据。
处理缺失值
删除记录
不处理
数据插补
处理异常值
数据集成是指将来自不同来源、不同格式和不同结构的数据整合到一个统一的数据存储库中,以实现数据的一致性、可访问性和可用性。
数据变换将数据格式统一,使得挖掘过程更有效。
数据清理在分箱之后,要对每个箱子中的数据进行平滑处理。
数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量
准确率、召回率、均方误差等
略
接下来这几章不算重点,且无PPT,见仁见智吧
考案例和应用
考案例和应用