楼主: kissky
1563 0

BI分析型数据库的分类 [推广有奖]

  • 4关注
  • 55粉丝

VIP

学科带头人

95%

还不是VIP/贵宾

-

威望
1
论坛币
41814 个
通用积分
4.3365
学术水平
74 点
热心指数
95 点
信用等级
53 点
经验
43965 点
帖子
1312
精华
1
在线时间
1614 小时
注册时间
2006-11-26
最后登录
2022-11-13
毕业学校
UIBE

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
                    BI分析型数据库的分类                                                        
                    
                                                                导读:本文介绍了分析型数据库的分类,几年前,数据库的分类基本就分两种,OLTP和OLAP,都是关系型数据库,各种应用的不同决定了他们优化的路线不同。
关键词:分析型数据库 数据仓库 数据集市 BI
                    
                                                                                                          在几年以前,数据库的分类基本就分两种,一种面向OLTP 的,一种面向OLAP 的,都是关系型数据库,各种应用的不同决定了他们优化的路线不同,现在随着数据量的暴增,两个世界都发生了巨变,兴起了各种面向不同方向优化的noSQL 数据库,这里介绍的就是主要面向分析型数据库的大概分类。
  1、企业级数据仓库 (EDW)
  包括的数据: 各种类型但是不包括操作的交易记录
  使用类型: 各种
  包括的数据: 各种类型但是不包括操作的交易记录
  通常例子:集中的EDW 对大企业
  鸭梨: 并发,可靠性,负载管理
  最原始的美好想法,所有支持决策的数据放一起,主要厂家是Teradata ,DB2 , Oracle Exadata . 现在看来完全不可能,数据量的增长远远超过了硬件, 软件优化和复杂度的能力. 但是在数据量容许的情况下,部分EDW 还是可能的.
  2、传统的数据集市 (Data mart)
  包括的数据: 各种数据类型,但是一般限于部门级别
  通常例子: BI 报表 , 预算预测, MOLAP 之类的
  鸭梨: 性能 , 并发, 成本
  BI 最开始的定义, 尤其像是报表这种入门级应用, 一般也是选用关系型数据库, 但是列数据库(Vertica , Sybase IQ ) 可能成本会更有优势
  3、敏捷型分析数据集市
  包括的数据: 各种数据, 尤其是客户相关的
  使用类型: 分析
  通常例子: 几TB 的面向特定分析但是不持久
  鸭梨: 容易建立,容易管理,性价比要高
  往往面向少数特定的分析而建立的非持久化的子集,比如像是客户分类之后做的营销或者广告效果之类的分析,一般网站的点击流也算,这时候InfoBright 可能是性价比极高的选择,IBM 的Netezza 低端设备也可以考虑, 或者一些内存型的前端分析工具像是QlikView 或是Tableau 都不错.
  4、大型分析数据库
  包括的数据: 各种类型 , 尤其客户相关的,财务方面的
  使用类型: 分析
  通常例子: 从20TB 到20 PB 的数据库
  鸭梨: 性能, 伸缩, 分析功能
  现在的面向分析型的数据库都可以考虑,报表,仪表盘,OLAP 往往不是他的主要应用,能够伸缩到上百到上千节点是必须的,POC 必须能够证明性能和功能能满足大多需要,还要提供面向分析的功能,不管是mapreduce , procedure 还是in-database analytics functions, Aster ,Netezza , ParAccel, Vertica , Greenplum 基本都是往这个方向发展. Teradata 更是跟SAS 合作多年,分析能力更多更强.
  5、Bit Bucket
  包括的数据: 日志
  使用类型: ETL , 中间格式
  通常例子: Hadoop 用的各种日志, GPS 生成的地理信息, 医疗仪器产生的监测数据
  鸭梨: 廉价存储,伸缩,涉及大IO的查询 , 数据一般需要经过清洗和转换
  比如监控主机产生的监控日志和程序输出的消息,大部分没有实际作用,不发生特别事件的时候都可以只保留小部分. 主要技术可以考虑的有Hadoop 和Splunk
  6、归档数据储存
  包括的数据: 历史操作记录
  使用类型: 归档, 报表
  通常例子: 电话记录,历史邮件,历史消息 , B2C 的历史购买信息
  鸭梨: 储存成本, 压缩率,伸缩,偶尔的报表查询
  银行电信一般都会保留比较长时间的各种记录,但是基本都是“冷数据”,greenplum 一开始跟Sun 合作就是做这个市场的,SAND 和Infobright 也都可以考虑. 压缩率往往是一个很重要的标准.
  7、外包数据集市
  包括的数据: 各种
  通常例子: 在线广告跟踪 , Saas CRM
  鸭梨: 性能,可靠性,并发
  广告跟踪的时候一般都没有具体的本地的数据库,另外一些Saas 厂商提供的数据服务也算,像是Amazon 和Google Appengine 提供的都是非关系数据库.
  8、操作分析混合型
  包括的数据: 客户相关的,财务交易相关的
  使用类型: 网页个性化,反欺诈,风险控制
  鸭梨: 性能,可靠性,分析功能
  yahoo 和amazon 的首页你登录进去每个人都是不一样的,显示的广告也是不一样 . 复杂事件管理比如信用卡短期大量提款冻结,零售分析你买了什么东西推荐你买另一些东西。 这种应用都是在传统的操作性流程里面加入分析特性,但是马上把给过返回给操作流程的. 个性化搜索或者社交里面的People You May Know 都算.



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据库 Procedure Functions MapReduce Analytics 关键词 Oracle 数据库 可靠性 仓库

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 04:57