搜索
人大经济论坛 附件下载

附件下载

所在主题:
文件名:  Apache Kylin权威指南.rar
资料下载链接地址: https://bbs.pinggu.org/a-2356063.html
本附件包括:
  • Apache Kylin权威指南.pdf
附件大小:
15.22 MB   举报本内容

【阅读推荐】《Apache Kylin权威指南》高清PDF下载



作者: Apache Kylin核心团队 著
出版年: 2017-1



内容简介

Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。

第1章和第2章是基本概念和快速入门,为初学者打下坚实基矗第3章和第4章介绍增量构建和进阶的流式构建,应对数据的持续增长。第5章展示丰富的查询接口和其上的可视化能力。第6章则重点讲解了Cube模型和调优,它们是用好Apache Kylin,提升百倍性能的关键。第7章通过一系列有行业特点的具体案例分析,贯穿之前的所有概念,温故知新。第8章介绍可扩展架构和二次开发接口,适合开发者。第9章则介绍企业级功能、用户的认证和授权相关知识。第10章着重于安装和企业级部署、运维管理等内容。第11章和第12章分别说明如何参与和贡献到开源,以及Apache Kylin的未来


作者简介

本书由李扬为首的麒麟技术团队撰写。团队是ApacheKylin的主创团队。李扬是大数据架构师和工程师,专注大数据分析技术。他是Apache Kylin管理委员会成员,也是Kyligence Inc.(一家专业提供大数据商务智能服务的创业公司)创始人之一。李扬是Apache Kylin主创团队的架构师和技术负责人,在eBay期间从2014年开始开发Kylin项目。之前,李扬在IBM工作8年,在摩根士丹利工作2年。在IBM期间,他是“杰出技术贡献奖”的获奖者,曾担任InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构。在摩根士丹利期间,李扬担任副总裁,负责全球监管报表基础架构。



目录
目录
推荐序一
推荐序二
推荐序三
推荐序四
前言
第1章Apache Kylin概述 1
1.1背景和历史 1
1.2Apache Kylin的使命 3
1.2.1为什么要使用ApacheKylin 3
1.2.2Apache Kylin怎样解决关键问题 4
1.3Apache Kylin的工作原理 5
1.3.1维度和度量简介 5
1.3.2Cube和Cuboid 5
1.3.3工作原理 6
1.4Apache Kylin的技术架构 7
1.5Apache Kylin的主要特点 9
1.5.1标准SQL接口 9
1.5.2支持超大数据集 9
1.5.3亚秒级响应 10
1.5.4可伸缩性和高吞吐率 10
1.5.5BI及可视化工具集成 11
1.6与其他开源产品比较 11
1.7小结 12
第2章快速入门 13
2.1核心概念 13
2.1.1数据仓库、OLAP与BI 13
2.1.2维度和度量 14
2.1.3事实表和维度表 14
2.1.4Cube、Cuboid和Cube Segment 15
2.2在Hive中准备数据 15
2.2.1星形模型 15
2.2.2维度表的设计 16
2.2.3Hive表分区 16
2.2.4了解维度的基数 17
2.2.5Sample Data17
2.3设计Cube 17
2.3.1导入Hive表定义 18
2.3.2创建数据模型 18
2.3.3创建Cube 21
2.4构建Cube 25
2.4.1全量构建和增量构建 27
2.4.2历史数据刷新 28
2.4.3合并 29
2.5查询Cube 30
2.6SQL参考 31
2.7小结 32
第3章增量构建 33
3.1为什么要增量构建 33
3.2设计增量Cube 35
3.2.1设计增量Cube的前提 35
3.2.2增量Cube的创建 36
3.3触发增量构建 37
3.3.1Web GUI触发 37
3.3.2构建相关的Rest API39
3.4管理Cube碎片 45
3.4.1合并Segment 46
3.4.2自动合并 47
3.4.3保留Segment 48
3.4.4数据持续更新 49
3.5小结 50
第4章流式构建 51
4.1为什么要流式构建 51
4.2准备流式数据 52
4.2.1数据格式 52
4.2.2消息队列 53
4.2.3创建Schema 53
4.3设计流式Cube 56
4.3.1创建Model 56
4.3.2创建Cube 57
4.4流式构建原理 59
4.5触发流式构建 61
4.5.1单次触发 61
4.5.2自动化多次触发 61
4.5.3出错处理 62
4.6小结 63
第5章查询和可视化 64
5.1Web GUI 64
5.1.1查询 64
5.1.2显示结果 65
5.2Rest API 67
5.2.1查询认证 67
5.2.2查询请求参数 67
5.2.3查询返回结果 68
5.3ODBC 69
5.4JDBC 71
5.4.1获得驱动包 71
5.4.2认证 71
5.4.3URL格式 71
5.4.4获取元数据信息 72
5.5通过Tableau访问Kylin 72
5.5.1连接Kylin数据源 73
5.5.2设计数据模型 73
5.5.3通过Live方式连接 73
5.5.4自定义SQL 75
5.5.5可视化 75
5.5.6发布到TableauServer 76
5.6Zeppelin集成 77
5.6.1Zeppelin架构简介 77
5.6.2KylinInterpreter的工作原理 77
5.6.3如何使用Zeppelin访问Kylin 78
5.7小结 80
第6章Cube优化 81
6.1Cuboid剪枝优化 81
6.1.1维度的诅咒 81
6.1.2检查Cuboid数量 82
6.1.3检查Cube大小 83
6.1.4空间与时间的平衡 84
6.2剪枝优化的工具 85
6.2.1使用衍生维度 85
6.2.2使用聚合组 87
6.3并发粒度优化 89
6.4Rowkeys优化 90
6.4.1编码 90
6.4.2按维度分片 91
6.4.3调整Rowkeys顺序 92
6.5其他优化 93
6.5.1降低度量精度 93
6.5.2及时清理无用的Segment94
6.6小结 94
第7章应用案例分析 95
7.1基本多维分析 95
7.1.1数据集 95
7.1.2数据导入 97
7.1.3创建数据模型 99
7.1.4创建Cube 102
7.1.5构建Cube 108
7.1.6SQL查询 110
7.2流式分析 112
7.2.1Kafka数据源 112
7.2.2创建数据表 113
7.2.3创建数据模型 115
7.2.4创建Cube 117
7.2.5构建Cube 118
7.2.6SQL查询 119
7.3小结 119
第8章扩展Apache Kylin120
8.1可扩展式架构 120
8.1.1工作原理 121
8.1.2三大主要接口 122
8.2计算引擎扩展 124
8.2.1EngineFactory124
8.2.2MRBatchCubingEngine2125
8.2.3BatchCubingJobBuilder2126
8.2.4IMRInput 128
8.2.5IMROutput2129
8.3数据源扩展 130
8.4存储扩展 132
8.5聚合类型扩展 134
8.5.1聚合的JSON定义 134
8.5.2聚合类型工厂 135
8.5.3聚合类型的实现 136
8.6维度编码扩展 140
8.6.1维度编码的JSON定义 140
8.6.2维度编码工厂 141
8.6.3维度编码的实现 142
8.7小结 143
第9章Apache Kylin的企业级功能 144
9.1身份验证 144
9.1.1自定义验证 145
9.1.2LDAP验证 146
9.1.3单点登录 150
9.2授权 151
9.3小结 153
第10章运维管理 154
10.1安装和配置 154
10.1.1必备条件 154
10.1.2快速启动ApacheKylin 157
10.1.3配置ApacheKylin 160
10.1.4企业部署 162
10.2监控和诊断 165
10.2.1日志 165
10.2.2任务报警 167
10.2.3诊断工具 169
10.3日常维护 170
10.3.1基本运维 170
10.3.2元数据备份 170
10.3.3元数据恢复 171
10.3.4系统升级 172
10.3.5垃圾清理 174
10.4常见问题和修复 175
10.5获得社区帮助 176
10.5.1邮件列表 177
10.5.2JIRA 177
10.6小结 177
第11章参与开源 178
11.1Apache Kylin的开源历程 178
11.2为什么参与开源 179
11.3Apache开源社区简介 179
11.3.1简介 179
11.3.2组织构成与运作模式180
11.3.3项目角色 181
11.3.4孵化项目及顶级项目182
11.4如何贡献到开源社区 183
11.4.1什么是贡献 183
11.4.2如何贡献 183
11.5礼仪与文化 184
11.6如何参与ApacheKylin 185
11.7小结 185
第12章Apache Kylin的未来 186
12.1大规模流式构建 186
12.2拥抱Spark技术栈 187
12.3更快的存储和查询 187
12.4前端展现及与BI工具的整合 187
12.5高级OLAP函数 188
12.6展望 188

觉得可以就回复一下吧,让更多的人看见优秀的资料!!




    熟悉论坛请点击新手指南
下载说明
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。
2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。
3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。
(如有侵权,欢迎举报)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

GMT+8, 2026-2-7 15:46