前两天参加了一个培训机构的关于Sql Server 2008 R2 的数据仓库的设计培训,时间比较短, 只是一个大概的介绍。 这个一个以后大的发展趋势。 先做些笔记, 以后有时间了好好学习一下。
基本概念
商业智能
就是所谓的商业智能,技术体系主要有数据仓库(DW)、在线分析处理(OLAP)以及数据挖掘(DM)三部分组成。
数据仓库
数据仓库从系统角度来看,就是数据库为核心的后台系统,绝大多数项目中,它是BI/DM应用的基础数据平台,同时也是数据管理平台,于是有的企业将其功能扩大化,加入了新的技术理念,于是称之为数据中心。一般从业务角度来看,企业的数据中心不但为BI服务,还有企业数据质量管理、主数据管理、数据交互平台等多功能。
数据挖掘
DM从广义角度来看,报表分析出来的粗略结果,OLAP分析出来的结果,也可以成为数据挖掘。不过狭义的DM当然是通过专业工具用某种算法来演算出一个结论来。
数据集市
Data Mart,或者叫做"小数据仓库"。如果说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只是面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
ETL
Extracl、Transfom、Clearing、Loading的缩写。作为/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标转化的过程,是实施数据仓库的重要步骤。
OLAP
在线分析处理 ,多维数据库和多维分析的概念。
准则
准则1 OLAP模型必须提供多维概念视图
准则2 透明性准则
准则3 存取能力推测
准则4 稳定的报表能力
准则5 客户/服务器体系结构
准则6 维的等同性准则
准则7 动态的稀疏矩阵处理准则
准则8 多用户支持能力准则
准则9 非受限的跨维操作
准则10 直观的数据操纵
准则11 灵活的报表生成
准则12 不受限的维与聚集层次
常见操作
上卷、下钻、切片、旋转
完整的BI应该包含:
数据源—>ETL—>数据仓库存储—>OLAP—>BI工具
数据厂家
Oralce | 大型数据库,以写为主 |
DB2 | 后期服务费用太高 |
MySql | 小型数据库,作为嫁妆同Sun一起被Oracle收购。对大型应用支持不够 |
MS Sql Server | 以读为主,大厂商 |
好处
提高了检索性能
预处理能力
提高报表速度
整合外部数据
处理历史数据
统一的报表数据源
微软数据仓库解决方案
数据库版本
Enterprise
Fast Track
Data Center
并行数据库仓库
全新的操作界面。但是不单独发布, 由硬件厂商捆绑销售, 貌似国内还没有这个版本使用。
关系数据仓库
数据仓库设计
事实表物理设计
•在日期字段上建立Clustered Index ,支持对某一时间段的快速顺序扫描
•在每个foreign key上建立日期字段上建立Nonclustered Indexes (foreign key, Date Key)
•避免PK与FK约束
•对大型(大于50~100GB ) 事实表及其索引分区按日期字段分区
•使用有意义的 integer 类型的日期key (20060101)
•总是使用对齐的分区索引
总是保持在首尾有空的分区使增加与删除分区更高效分离与合并
维度表物理设计
总是保持在首尾有空的分区使增加与删除分区更高效分离与合并
•对Lookup Key建立索引
•对Dimension Key建立PK index
•对其他经常被查询的列建立Nonclustered indexes
•维度表通常避免使用分区
•保持一个时间段内的事实数据在线
•总为两端各保留一个空分区