请选择 进入手机版 | 继续访问电脑版
楼主: chenyi112982
25197 171

晒出你见过最好的“EDW企业数据仓库”资源|厉害了!1个资源换100个   [推广有奖]

回帖奖励 280 个论坛币 回复本帖可获得 5 个论坛币奖励! 每人限 1 次

编辑管理员

大师

74%

还不是VIP/贵宾

-

TA的文库  其他...

《经管人》精品-邂逅经管大牛

会计与财务学习答疑文库

经管类求职招聘答疑与咨询文库

威望
16
论坛币
40333 个
通用积分
47426.0346
学术水平
4872 点
热心指数
5237 点
信用等级
4486 点
经验
1865816 点
帖子
2249
精华
90
在线时间
5182 小时
注册时间
2006-5-25
最后登录
2023-7-10

初级学术勋章 中级学术勋章 高级热心勋章 高级信用勋章

chenyi112982 发表于 2016-11-29 10:30:04 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  • 晒出你心中最好的经管学习资源!
  • 第二波强势来袭!
  • 快向我们推荐你心中最好、最优秀的经管资源
  • 1+1>2,每人1个,汇聚成资源的海洋
  • 让每个人用最短的时间掌控最优秀、最牛逼、最好用的经管资源
  • 什么?你还不知道?快来这里猛戳!经管之家经管资源推荐学习大餐
  • 第一期:晒出你见过最好的”机器学习“资源!有没有优秀经管资源,是牛人和弱逼的最大区别!https://bbs.pinggu.org/forum.php?mod=viewthread&tid=4966201&from^^uid=153990


                   1..jpg

           

今天是经管资源推荐第二期,

我们的主题是晒出你心中最好的“EDW企业数据仓库”资源,可以是优秀的图书、公开课、网址、研报、数据、讲义、笔记、文字资料、视频资料等等。

5.jpg

首先小小的插曲一下,何为“EDW企业数据仓库”,戳这儿小撩一下


qxsjck.png

------企业级数据仓库是跨整个企业使用的决策支持系统,将支持整个企业业务的数据仓库,是集成的、跨部门和业务职能的数据仓库,具有较高的数据访问和使用率。  企业级数据仓库是从建立一个企业级的中央数据仓库开始还是根据各个部门的需求,建立解决部分业务问题的数据集市,这是企业级数据仓库建设的首要问题。  
------企业级的数据仓库构建的理论可分为两大流派,其一是以Inmon为代表的企业中央数据仓库的思想,主张构建数据驱动的、采用实体关系建模的、集成的数据仓库,另一流派则是以Kimball为代表的互联的数据集市的思想,主张多个互联的、松度耦合的数据集市共同组成数据仓库,是面向业务驱动的、采用多维建模的、分布式的数据仓库。这两大理论流派对于数据仓库相关概念的定义和理解存在差异,这些差异性也带来了其建模方法和建模结构的差异性,探讨这两者之间的差异和主张,有助于博采众长,指导项目实施。

大福利:

每期将视资源的质量与评价,开出一等奖1名(500论坛币)+二等奖2名(300论坛币)+三等奖3名(300论坛币)+加入“优秀经管学习资源共享”群180710949,每周群分享不少于15个优秀经管资源+每个月我们会发布“优秀经管资源月报“,分享不少于30个优秀经管资源

________________________________________________________________________________________

接下来!上干货时间到了!

以下是我们组织的第一期“机器学习“优秀资源,由8位热心资源达人分享的资源,高达52个哦,

8.jpg

第一批“机器学习“资源清单如下

1. 坛友 lzguo568推荐图书资源9个

2. wwqqer版主推荐的自己整理的学习资源专题,资源约20个

3. 坛友 lzguo568推荐公开课资源2个

4. 我的素质低版主推荐网课4项,斯坦福公开课1个,博客2个,共7个

5. 坛友“东方祥 “推荐图书2本

6.坛友“南合季“推荐图书5本

7.坛友“数术“推荐图书5本

8. 坛友“桐叶“推荐两个免费的机器学习视频课程


第一批“机器学习“资源52个具体好货在这儿(还在陆续推荐增加中哦......)


  • (1)坛友 lzguo568推荐图书资源9个

介绍几本经典图书
1,Tom M Mitchell - Machine Learning
2、Introduction_to_Machine_Learning(Ethem_Alpaydin).pdf
3、Pattern Recognition and MachineLearning.pdf
4、MIT.Fundamentals.of.Machine.Learning.for.Predictive.Data.Analytics
5、Foundations_of_Machine_Learning.pdf
6、Learning from data.pdf
7、机器学习系统设计.Python.2014.pdf
8、数据挖掘:概念与技术(中文第三版).pdf
9、Machine Learning and Data Science - AnIntroduction to Statistical Learning Methods with R.pdf


  • (2)wwqqer版主推荐的自己整理的学习资源专题,资源约20个

机器学习在这里:机器学习 (Machine Learning)
【经典教材系列】An Introduction to Machine Learning
【经典教材系列】Machine Learning: An Algorithmic Perspective (第二版)
【经典教材系列】Introduction To Pattern Recognition And Machine Learning
【经典教材系列】Compression Schemes for Mining Large Datasets: A MachineLearning Perspective
【经典教材系列】Unsupervised Process Monitoring and Fault Diagnosis withMachine Learning Methods
【大数据系列】Rule Based Systems for Big Data: A Machine Learning Approach
【大数据系列】Machine Learning Models and Algorithms for Big DataClassification
【经典教材系列】Modeling and Stochastic Learning for Forecasting in HighDimensions
【经典教材系列】Fundamentals of Machine Learning for Predictive DataAnalytics
【经典教材系列】Numerical Algorithms: Methods for Computer Vision, MachineLearning, and Graphics
【经典教材系列】Machine Learning in Complex Networks
【经典教材系列】Semisupervised Learning for Computational Linguistics
【经典教材系列】Practical Machine Learning (2016)
【经典教材系列】Teaching Learning Based Optimization Algorithm: And ItsEngineering Application
【经典教材系列】统计机器翻译 Linguistically Motivated StatisticalMachine Translation: Models and Algorithms
【经典教材系列】From Curve Fitting to Machine Learning (第二版)
【大数据系列】Machine Learning in Evolution Strategies
【大数据系列】Statistical Reinforcement Learning: Modern Machine LearningApproaches
【经典教材系列】Machine Learning for Microbial Phenotype Prediction
【经典教材系列】Hybrid Approaches to Machine Translation


  • (3)坛友 lzguo568推荐公开课资源2个

分享一下加州理工学院公开课

http://open.163.com/movie/2012/2/3/C/M8FH262HJ_M8FTVDQ3C.html

https://www.coursera.org/learn/ml-foundations 机器学习基础:案例研究


  • (4)我的素质低版主推荐网课4项,斯坦福公开课1个,博客2个,共7个

第一期资源分享的主题是我心中”机器学习“、”EDW企业数据仓库“、”风险建模“,这三个方面都是偏向技术的,相对来说,风险建模可能资料较多,但是练习数据却不多,风险数据比较敏感嘛。相对来说机器学习的话,资料多,练习数据也多。

      如果是新手,想学机器学习之一类的,我觉得可以直接看书,里面的复杂符号可以让你马上想睡...  可以报个网课学一下,现在网课很多,譬如CDA、小象学院、七月在线、天善智能等机构,当然CDA在这块经验丰富;

      如果你有底子,直接去斯坦福公开课,吴恩达老师的中文版也有,http://open.163.com/special/opencourse/machinelearning.html

      机器学习理论内容学起来不复杂,但是如何实现这个需要更多练习,挑一款实现软件,网上搜一下实现博客就行。网上不同软件不同实现的博客很多很多,当然还有推荐我自己的小博客啦~  :http://blog.csdn.net/sinat_26917383/article/category/6093536


  • (5)坛友“东方祥 “推荐图书2本

数据挖掘:概念与技术(原书第3版)

本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。

本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书,是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。

机器学习周志华

它是一本和Tom M. Mitchell那本Machine Learning具有一样重大意义的书。很有可能,它会成为一本中国无数Machine Learning热爱者的启蒙教材。


  • (6)坛友“南合季“推荐图书5本

我也来说一个吧!我心中最好的”机器学习“的图书,有这么几本,另外,期待楼主赶紧凑到100个经管资源,分享给大伙儿吧

《Mining of Massive Datasets》(《大数据》)
作 者Anand Rajaraman[3]、Jeffrey David Ullman,Anand是Stanford的PhD。这本书介绍了很多算法,也介绍了这些算法在数据规模比较大的时候的变形。但是限于篇幅,每种算法都没有展开讲的感觉,如果想深入了解需要查其他的资料,不过这样的话对算法进行了解也足够了。还有一点不足的地方就是本书原文和翻译都有许多错误,勘误表比 较长,读者要用心了。
《DataMining: Practical Machine Learning Tools and Techniques》(《数据挖掘:实用机器学习技术》)
作者IanH. Witten 、Eibe Frank是weka的作者、新西兰怀卡托大学教授。他们的《ManagingGigabytes》[4]也是信息检索方面的经典书籍。这本书最大的特点是对weka的使用进行了介绍,但是其理论部分太单薄,作为入门书籍还可,但是,经典的入门书籍如《集体智慧编程》、《智能web算法》已经很经典,学习 的话不宜读太多的入门书籍,建议只看一些上述两本书没讲到的算法。
《机器学习及其应用》
周志华、杨强主编。来源于“机器学习及其应用研讨会”的文集。该研讨会由复旦大学智能信息处理实验室发起,目前已举办了十届,国内的大牛如李航、项亮、王海峰、刘铁岩、余凯等都曾在该会议上做过讲座。这本书讲了很多机器学习前沿的具体的应用,需要有基础的才能看 懂。如果想了解机器学习研究趋势的可以浏览一下这本书。关注领域内的学术会议是发现研究趋势的方法嘛。
《ManagingGigabytes》(深入搜索引擎)
信息检索不错的书。
《ModernInformation Retrieval》
Ricardo Baeza-Yates et al. 1999。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛,这本书略有些过时了。翻翻做参考还是不错的。另外,Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。


  • (7)坛友“数术“推荐图书5本

造福坛友的好活动,我推荐的是机器学习方面的几本书,供大家参考。
1.《数学之美》  
作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。
2.《Programming Collective Intelligence》(《集体智慧编程》)        
这本书最大的优势就是里面没有理论推导和复杂的数学公式,是很不错的入门书。目前中文版已经脱销,对于有志于这个领域的人来说,英文的pdf是个不错的选择,因为后面有很多经典书的翻译都较差,只能看英文版,不如从这个入手。还有,这本书适合于快速看完,因为据评论,看完一些经典的带有数学推导的书后会发现这本书什么都没讲,只是举了很多例子而已。
3.《Algorithms of the Intelligent Web》(《智能web算法》)
作者HaralambosMarmanis、Dmitry Babenko。这本书中的公式比《集体智慧编程》要略多一点,里面的例子多是互联网上的应用,看名字就知道。不足的地方在于里面的配套代码是 BeanShell而不是python或其他。总起来说,这本书还是适合初学者,与上一本一样需要快速读完,如果读完上一本的话,这一本可以不必细看代码,了解算法主要思想就行了。
4.《统计学习方法》
作者李航,是国内机器学习领域的几个大家之一,曾在MSRA任高级研究员,现在华为诺亚方舟实验室。书中写了十个算法,每个算法的介绍都很干脆,直接上公 式,是彻头彻尾的“干货书”。每章末尾的参考文献也方便了想深入理解算法的童鞋直接查到经典论文;本书可以与上面两本书互为辅助阅读。
5.《Machine Learning》(《机器学习》)作 者Tom Mitchell是CMU的大师,有机器学习和半监督学习的网络课程视频。这本书是领域内翻译的较好的书籍,讲述的算法也比《统计学习方法》的范围要大很多。据评论这本书主要在于启发,讲述公式为什么成立而不是推导;不足的地方在于出版年限较早,时效性不如PRML。但有些基础的经典还是不会过时的,所以这本书现在几乎是机器学习的必读书目。


  • (8)坛友“桐叶“推荐两个免费的机器学习视频课程

斯坦福大学公开课:机器学习课程
http://open.163.com/special/opencourse/machinelearning.html

加州理工学院公开课:机器学习与数据挖掘
http://open.163.com/special/opencourse/learningfromdata.html

share.jpg

第二期经管资源嘉年华,狂欢继续

有品质的学习,一定是伴随着最好、最优质的资源的

快把你知道的“EDW企业数据仓库”好资源丢到碗里!用你的一个资源,换来你的100个和1000个吧!



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据仓库 企业数据 EDW 最好的 introduction 仓库 资源 最好

回帖推荐

zhengjiale 发表于66楼  查看完整内容

Two books may be helpful: Ramakrishnan & Gehrke, "Database Management Systems" Silberschatz, Korth & Sudarshan "Database System Concepts"

franky_sas 发表于48楼  查看完整内容

Data Warehousing Architecture and Implementation https://bbs.pinggu.org/thread-4985412-1-1.html

我的素质低 发表于6楼  查看完整内容

企业级数据仓库我知道的有teradata,之前看到teradata李鹏老师的一个访谈,觉得挺好的: 数据仓库和商业智能系统的演进分为五个阶段,第一阶段是报表;第二阶段是分析;第三阶段是预测;第四阶段是连续的更新和流程的互动;第五阶段是主动的事件。现以税务为例说明每个阶段做什么事情。 第一阶段,报表,例如会计核算属于第一个阶段。第二个阶段是分析,分析发生的事情,比如征管状况分析,属于典型的分析阶段。第三阶段是 ...

数术 发表于5楼  查看完整内容

数据仓库类项目,主要建设基于老数据仓库(核算数据库)为基础上层一层建筑Data Mart。 什么意思,通俗说就是针 对各大分支业务需求,分维度抽取相应数据到几个小的数据仓库中,供他们做BI展现分析使用。就是书上说的subject oriented,有一本《数据挖掘概念与技术》的书对初学者很好。还有就是使用sql server 2005 的数据挖掘工具结合测 试应用。对这个工具有很多webcast的视频教程可以在线收看和同时测试。 如果参加考试,有微 ...

梧叶 发表于4楼  查看完整内容

企业级数据仓库当中,关于数据挖掘和数据分析方面有四本经典书籍,挺不错的: (1) J. Han and M. Kamber, Data Mining: Concepts and Techniques. 本书从数据库角度看待数据挖掘,强调效率(Efficiency)。按照本书观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。 (2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques. 本书从机器学习角度 ...

南合季 发表于3楼  查看完整内容

这个活动很有意思,顶一个楼主吧!从2000年开始接触数据仓库,中间也对Hadoop,数据模型,SQL,R非常感兴趣,现在很热的互联网金融也非常有意思.数据挖掘技术融合了统计学、数据库和机器学习等学科,不算是新技术,但是非常前沿,个人觉得学一门技术要和行业靠拢,没有行业背景的技术如空中楼阁,最好能够熟悉使用一些主流的数据工具,像SAS,SPSS等等,分享一下 (1)我心中”EDW企业数据仓库“最好的图书/教材是:《业务建模与数据挖 ...
已有 6 人评分经验 学术水平 热心指数 信用等级 收起 理由
qimingxingwen + 1 + 1 + 1 了不起的楼主
2010517155lpq + 100 + 2 + 2 + 2 精彩帖子
日新少年 + 3 + 3 + 3 精彩帖子
狂热的爱好者 + 100 + 5 精彩帖子
离歌レ笑 + 100 + 5 + 5 + 5 精彩帖子
xddlovejiao1314 + 100 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 400  学术水平 + 16  热心指数 + 21  信用等级 + 16   查看全部评分

任何一种学习,就其本质而言,都是从提问开始的
爱问就有答案,酝酿好答案的感觉就像千年狐狸吐出内丹......
南合季 发表于 2016-11-29 10:32:15 |显示全部楼层 |坛友微信交流群
这个活动很有意思,顶一个楼主吧!从2000年开始接触数据仓库,中间也对Hadoop,数据模型,SQL,R非常感兴趣,现在很热的互联网金融也非常有意思.数据挖掘技术融合了统计学、数据库和机器学习等学科,不算是新技术,但是非常前沿,个人觉得学一门技术要和行业靠拢,没有行业背景的技术如空中楼阁,最好能够熟悉使用一些主流的数据工具,像SAS,SPSS等等,分享一下
(1)我心中”EDW企业数据仓库“最好的图书/教材是:《业务建模与数据挖掘》、《SAS编程与数据挖掘商业案例》、《IBM Spss Statistics 19 Statistical Procedures Companion》等;
(2)对我帮助最大的” EDW企业数据仓库“视频类/公开课类学习资源是
Coursera
1.  Johns Hopkins University的Data Analysis 该课通过R语言讲授数据分析的技巧:
很好的一门课程,用R为工具讲了数据分析挖掘的一些算法和实例。
2. University of Washington的Computational Methods for Data Analysis 该课为课堂录像,通过MOOC的形式进行组织,讲师Nathan Kutz讲课生动、幽默,但是该课不足之处是课程不提供证书激励且几乎没有课程工作人员参与讨论,属于自助性质的课程。
3. University of Washington的Scientific Computing:科学计算是很多工程应用领域的基础课程,该课的讲师同样为Nathan Kutz,课程形式与上一门Computational Methods for Data Analysis基本一致。
4. University of Toronto的Statistics: Making Sense of Data:
就像这门课的标题“making sense”一样,这门课最好的地方就是让你对统计有”感觉”。虽然讲的比较简单,但是对于理解这些概念非常有用。 最后那个大胡子还自弹自唱一首他自创的有关这门课的歌,也很有意思。
5. University of Washington的Introduction to Data Science:
很好的一门课,尤其对于我这种初学者,老师讲的面很广,涉及了数据科学的很多方面。
不足之处是课程内容过多有些内容讲的很匆忙,比如数据可视化这个部分,大家普遍反馈讲的有点水,Graph那部分也有点水。
比较好玩的是,课程结束后Bill好像有些事情,拖了一段时间才给出分数,大家在课程论坛上各种吐槽,无比欢乐。
正如老师开始所讲的,这门课的目的只是让你成为advanced beginer,课程内容涵盖了数据库(SQL,NoSQL),MapReduce,基本的数值分析,机器学习,数据可视化。类似于另外一门课Web intelligence and big data,两者都应该算是入门型课程,学生想要深入学习的话可以选择其他专门的课程。
有人认为老师讲课枯燥,你总不能指望每个老师把数学课讲的有历史课那么有趣吧~。课程内容结构很好,讲的不好;作业很赞,对有一定基础的人不难,但入门的同学可能还是有困难。如果只是想粗浅了解课程各个topic的,跟着做作业就不错,想深入还需自学
6. Columbia University的Big Data in Education:该课讨论的是将数据分析的技巧运用于教育领域
Noah Iliinsky的数据可视化设计;
(3)我看过关于“EDW企业数据仓库”最好的文献、论文是《Stanford - Mining of Massive Datasets.(海量数据集挖掘》
(4)我知道的关于“EDW企业数据仓库“最牛的牛人有:
1.牛新庄博士,研究方向为数据仓库和数据挖掘。是IBM官方资深培训讲师(培训DB2,AIX,MQ,WebSphere和CICS)。2002年获IBM 杰出软件专家奖,2006年获“首届中国杰出数据库工程师奖”
2.清华计算机系的唐杰,做数据挖掘,社会网络分析的,
已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
2010517155lpq + 50 精彩帖子
我的素质低 + 100 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 150  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

使用道具

梧叶 发表于 2016-11-29 10:43:30 |显示全部楼层 |坛友微信交流群

回帖奖励 +5 个论坛币

企业级数据仓库当中,关于数据挖掘和数据分析方面有四本经典书籍,挺不错的:
(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques.
  本书从数据库角度看待数据挖掘,强调效率(Efficiency)。按照本书观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。


(2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques.
  本书从机器学习角度看待数据挖掘,强调有效(Effectiveness)。按照这本书的观点,数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。


(3) D. Hand, H.Mannila and P. Smith, Principle of Data Mining.
  本书从统计学的角度看待数据挖掘,因为统计学是一门数学,所以本书强调数学上的正确性(Validity)。按照本书观点,数据挖掘是分析(往往是大量的)数据集以找到未曾预料的关系,并以可理解又有用的新颖方式呈现给数据用户的过程。


    这几年实际做数据挖掘,补充基础知识时也主要以这几本书为指导。然后最后自己用来研读的书却是以下这本:

(4) Pang-Ning Tan, Vipin Kumar etc. Introduction to Data Mining
    国内目前有翻译版
,这是我现在觉得最好的数据挖掘教材。关于分类、关联规则、聚类每一主题都分两章来讲述:第一章讲基本部分,第二章讲高级部分,让人由浅入深。另有单独的一章介绍异常检测。本书的第一作者是物理背景出身,所以讲解很重视对于算法的理解(优缺点与适用范围等)。本书能找到PDF版完整的习题答案,非常适合于自学。

    若要从以上几本书再推荐另一本入门书,我会推荐I.H. Written的那本,这本书第I部分以输入、输出、算法、评估的脉络来讲解数据挖掘;第II部分介绍Weka软件使用。读这本书的好处读了之后马上可以用Weka来实验各种数据挖掘算法。


    其次推荐的是David Hand的《数据挖掘原理》



已有 1 人评分经验 学术水平 热心指数 信用等级 收起 理由
我的素质低 + 100 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 100  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

使用道具

数术 在职认证  发表于 2016-11-29 10:55:10 |显示全部楼层 |坛友微信交流群

回帖奖励 +5 个论坛币

数据仓库类项目,主要建设基于老数据仓库(核算数据库)为基础上层一层建筑Data Mart。
什么意思,通俗说就是针 对各大分支业务需求,分维度抽取相应数据到几个小的数据仓库中,供他们做BI展现分析使用。就是书上说的subject  oriented,有一本《数据挖掘概念与技术》的书对初学者很好。还有就是使用sql server 2005 的数据挖掘工具结合测 试应用。对这个工具有很多webcast的视频教程可以在线收看和同时测试。
如果参加考试,有微软的考试,还有CDA数据分析师的考试可以。


使用道具

我的素质低 学生认证  发表于 2016-11-29 11:19:27 |显示全部楼层 |坛友微信交流群

回帖奖励 +5 个论坛币

企业级数据仓库我知道的有teradata,之前看到teradata李鹏老师的一个访谈,觉得挺好的:
数据仓库和商业智能系统的演进分为五个阶段,第一阶段是报表;第二阶段是分析;第三阶段是预测;第四阶段是连续的更新和流程的互动;第五阶段是主动的事件。现以税务为例说明每个阶段做什么事情。


    第一阶段,报表,例如会计核算属于第一个阶段。第二个阶段是分析,分析发生的事情,比如征管状况分析,属于典型的分析阶段。第三阶段是预测,例如税收收入预测,明年的税收收入计划,预测明年税收收入是多少。第四个阶段是运营的支撑,特别强调一下,说到管理决策和商业智能系统,通常意义被认为是服务管理层,或者后台分析人员。实际上商业智能应用于一线的业务人员时,会产生更大的价值。税管员如果给出一个正确的建议,起到什么效果?最后一个是事件,比如发生的增值税抵扣事件,会不会有欺诈?如果有欺诈数据仓库平台会给出什么建议?这是典型的按照不同税务应用场景描述整体的数据仓库,在商业智能应用发展的五个阶段。




    按照这五个阶段,对于数据仓库的平台需要提出什么要求?归纳一下分别是数据量和查询效率。或许有时不到1T的时候速度很快,但容量上到10T时就跟牛车一样,跑不出任何数据来,数据量和查询效率有兼容性问题。另外一个是并行处理能力,税务将来会有很大的数据量,什么样的后台数据仓库平台足以支撑?全国税务干部有70万人,这么大的范围做一个商业智能支撑对能力的要求是什么?再者,因为商业智能会回答随机性的问题,也许会做征管分析,也许要做挖掘,这种随机查询跟通常的税务系统不同,它的数据吞吐量是不透明的。
    下面就是管理成本,到底需要多少DBA可以把数据仓库平台管理起来呢?这是第三点。


    另外就是混合负载。基于这样一个税务平台,用户这么多,核心业务怎么保证?领导去查一个关键点的业务,怎么保证它的效率和其他任务有优先级的管理。
    最后一个环节就是数据温度的管理,大家可能对这个词很陌生,这里先埋一个伏笔。
    按照数据仓库和商业智能发展的五个阶段对数据仓库平台提出了若干项要求。Teradata数据仓库平台是怎样以其独有的特点和优势连续蝉联了13年的Gartner评比的第一名?


    第一个优势,就是数据及时性的保障能力。给大家举个例子,现在这个动画是一个典型的战略型的管理决策分析系统,特点是什么呢?核心系统负责工数,通过数据的整合过程,数据会被整合到数据仓库的平台里,传统意义上会服务于管理层的战略用户,按照Teradata的提法,我们倡导“动态企业级数据仓库”的概念,要让一线的业务人员也能享受到数据仓库带来的好处和优势。


    第二,Teradata平台的并行处理能力。上面这个系统是传统意义上的数据库,中间有一个瓶颈,在这个横线上就是瓶颈。Teradata运行运算平台是完全并行的,下面有四条线,每条线的执行过程是平行的。靠这样的机制最大化系统的吞吐量,这里指数据的IO吞吐量,使整个系统的资源占用最小。这样会使整个数据仓库的运算能力最大程度的并行,而不至于因为某个硬盘,或者某一个网络带宽不够而导致出现一个瓶颈的情况。


    第三,我们倡导(斜率为一的线性扩展能力)。重点解释一下,第一点,现在Teradata平台的体系,最大集群可以扩展到4096个节点,大家可以想象4096个服务器会是什么样的状况。这个线性为一的扩展能力表现在哪里?第一是硬件平台的扩展线性度,同一个数据库的查询,数据库硬件增加一倍时,响应时间减少一半,硬件的扩展会明显减少响应的时间。第二点,数据量增长线性度,数据量增长一倍时,性能会下降一半。第三点,并发用户的增长线性度,当整个用户的并发度增加一倍时,响应时间也随之下降。




    整个Teradata表现出来的是“跑不死”,在用户量比较少的情况下,CPU可以利用到100%,用户变化上来之后它会均分CPU资源和吞吐资源。
    第四,混合负载的管理能力。可以这样理解,随着业务系统和业务用户的增多,不同的系统的优先级不一样。例如税管员,税管员用数据仓库的数据来识别是否有欺诈时,我们称之为关键业务。保证关键业务的正常运行要有一个混合负载的管理能力。
    第五,整个低成本的管理,你把通常传统意义上的数据库管理忘掉80%以后再去做Teradata的数据库的管理员就足够了,可见管理性是很高的。




    最后一点,数据温度的管理。Teradata数据库根据进行的数据访问频度不同,会存储在不同的物理资源上。举个例子,比如经常访问的会放在硬盘的外道,长期不访的放在磁盘的里道,这是一种模式。另外一种模式,就是跨物理存储设备的数据温度的管理。大家可能听说过类似的快设备叫固态硬盘,SSB,高速硬盘,还有低速硬盘。Teradata能做到什么程度?大家可以看这个例子,我们把12个月的申报数据放在固态硬盘里,每秒钟吞吐可以达到近半个G;对1-2年的申报数据,我们把它放在高速硬盘里,而长期不用的数据放在大容量的低速硬盘上。

使用道具

cpamodeler 发表于 2016-11-29 11:59:28 |显示全部楼层 |坛友微信交流群

回帖奖励 +5 个论坛币

Great! thank you so much.

使用道具

河岸栏杆 发表于 2016-11-29 12:33:34 |显示全部楼层 |坛友微信交流群

回帖奖励 +5 个论坛币

感谢楼主

使用道具

狂热的爱好者 学生认证  发表于 2016-11-29 12:33:55 |显示全部楼层 |坛友微信交流群

回帖奖励 +5 个论坛币

使用道具

joshwa001 发表于 2016-11-29 13:30:34 |显示全部楼层 |坛友微信交流群

回帖奖励 +5 个论坛币

强力顶起

使用道具

rossrachel 发表于 2016-11-29 13:55:28 |显示全部楼层 |坛友微信交流群

回帖奖励 +5 个论坛币

支持一下!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 06:26