楼主: 飞天玄舞6
1022 1

[数据挖掘理论与案例] 【独家发布】Big data Integration [推广有奖]

  • 3关注
  • 31粉丝

VIP1

学科带头人

12%

(VIP/贵宾)九级

72%

TA的文库  其他...

综合文库

威望
0
论坛币
154039 个
通用积分
4221.5795
学术水平
128 点
热心指数
148 点
信用等级
102 点
经验
76624 点
帖子
1503
精华
0
在线时间
1509 小时
注册时间
2013-12-2
最后登录
2021-10-20

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

Big data Integration
QQ截图20170101132456.png
List of Figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv
List of Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii
Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xix
Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . xix
1. Motivation: Challenges and Opportunities for BDI . . . . . . . . . . . . . . . 1
1.1 Traditional Data Integration . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 The Flights Example: Data Sources . . . . . . . . . . . . . . . . 2
1.1.2 The Flights Example: Data Integration . . . . . . . . . . . . . . 6
1.1.3 Data Integration: Architecture & Three Major Steps . . . . . . . . . 9
1.2 BDI: Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 The “V” Dimensions . . . . . . . . . . . . . . . . . . . . . 11
1.2.2 Case Study: Quantity of DeepWeb Data . . . . . . . . . . . . . 13
1.2.3 Case Study: Extracted Domain-Specific Data . . . . . . . . . . . . 15
1.2.4 Case Study: Quality of DeepWeb Data . . . . . . . . . . . . . . 20
1.2.5 Case Study: SurfaceWeb Structured Data . . . . . . . . . . . . . 23
1.2.6 Case Study: Extracted Knowledge Triples . . . . . . . . . . . . . 26
1.3 BDI: Opportunities . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3.1 Data Redundancy . . . . . . . . . . . . . . . . . . . . . . . 27
1.3.2 Long Data . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.3 Big Data Platforms . . . . . . . . . . . . . . . . . . . . . . 29
1.4 Outline of Book . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2. Schema Alignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1 Traditional Schema Alignment: A Quick Tour . . . . . . . . . . . . . . . 32
2.1.1 Mediated Schema . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.2 Attribute Matching . . . . . . . . . . . . . . . . . . . . . . 32
2.1.3 Schema Mapping . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.4 Query Answering . . . . . . . . . . . . . . . . . . . . . . . 34
2.2 Addressing the Variety and Velocity Challenges . . . . . . . . . . . . . . 35
2.2.1 Probabilistic Schema Alignment . . . . . . . . . . . . . . . . . 36
2.2.2 Pay-As-You-Go User Feedback . . . . . . . . . . . . . . . . . 47
xii CONTENTS
2.3 Addressing the Variety and Volume Challenges . . . . . . . . . . . . . . . 49
2.3.1 Integrating DeepWeb Data . . . . . . . . . . . . . . . . . . . 49
2.3.2 IntegratingWeb Tables . . . . . . . . . . . . . . . . . . . . 54
3. Record Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.1 Traditional Record Linkage: A Quick Tour . . . . . . . . . . . . . . . . 64
3.1.1 Pairwise Matching . . . . . . . . . . . . . . . . . . . . . . 65
3.1.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.1.3 Blocking . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2 Addressing the Volume Challenge . . . . . . . . . . . . . . . . . . . . 71
3.2.1 Using MapReduce to Parallelize Blocking . . . . . . . . . . . . . 71
3.2.2 Meta-blocking: Pruning Pairwise Matchings . . . . . . . . . . . . 77
3.3 Addressing the Velocity Challenge . . . . . . . . . . . . . . . . . . . . 82
3.3.1 Incremental Record Linkage . . . . . . . . . . . . . . . . . . 82
3.4 Addressing the Variety Challenge . . . . . . . . . . . . . . . . . . . . 88
3.4.1 Linking Text Snippets to Structured Data . . . . . . . . . . . . . 89
3.5 Addressing the Veracity Challenge . . . . . . . . . . . . . . . . . . . . 94
3.5.1 Temporal Record Linkage . . . . . . . . . . . . . . . . . . . 94
3.5.2 Record Linkage with Uniqueness Constraints . . . . . . . . . . . 100
4. BDI: Data Fusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.1 Traditional Data Fusion: A Quick Tour . . . . . . . . . . . . . . . . . 108
4.2 Addressing the Veracity Challenge . . . . . . . . . . . . . . . . . . . 109
4.2.1 Accuracy of a Source . . . . . . . . . . . . . . . . . . . . 111
4.2.2 Probability of a Value Being True . . . . . . . . . . . . . . . 111
4.2.3 Copying Between Sources . . . . . . . . . . . . . . . . . . 114
4.2.4 The End-to-End Solution . . . . . . . . . . . . . . . . . . 120
4.2.5 Extensions and Alternatives . . . . . . . . . . . . . . . . . . 123
4.3 Addressing the Volume Challenge . . . . . . . . . . . . . . . . . . . 126
4.3.1 A MapReduce-Based Framework for Offline Fusion . . . . . . . . 126
4.3.2 Online Data Fusion . . . . . . . . . . . . . . . . . . . . . 127
4.4 Addressing the Velocity Challenge . . . . . . . . . . . . . . . . . . . 133
4.5 Addressing the Variety Challenge . . . . . . . . . . . . . . . . . . . 136
5. BDI: Emerging Topics . . . . . . . . . . . . . . . . . . . . . . . . . . 139
5.1 Role of Crowdsourcing . . . . . . . . . . . . . . . . . . . . . . . 139
5.1.1 Leveraging Transitive Relations . . . . . . . . . . . . . . . . 140
5.1.2 Crowdsourcing the End-to-EndWorkflow . . . . . . . . . . . . 144
CONTENTS xiii
5.1.3 FutureWork . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2 Source Selection . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2.1 Static Sources . . . . . . . . . . . . . . . . . . . . . . . 148
5.2.2 Dynamic Sources . . . . . . . . . . . . . . . . . . . . . . 150
5.2.3 FutureWork . . . . . . . . . . . . . . . . . . . . . . . . 153
5.3 Source Profiling . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.3.1 The Bellman System . . . . . . . . . . . . . . . . . . . . 155
5.3.2 Summarizing Sources . . . . . . . . . . . . . . . . . . . . 157
5.3.3 FutureWork . . . . . . . . . . . . . . . . . . . . . . . . 160
6. Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Authors’ Biographies . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Integration Big data ration ratio ATION

Big ata Integration.pdf

3.66 MB

需要: 5 个论坛币  [购买]

已有 1 人评分经验 学术水平 热心指数 信用等级 收起 理由
cmwei333 + 100 + 2 + 2 + 2 奖励积极上传好的资料

总评分: 经验 + 100  学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

本帖被以下文库推荐

strive for the best, prepare for the worst.
沙发
cmwei333 发表于 2017-1-1 13:41:18 |只看作者 |坛友微信交流群
看过这本书,了解大数据的好书
bbs.pinggu.org/forum.php?mod=collection&action=view&ctid=3257
bbs.pinggu.org/forum.php?mod=collection&action=view&ctid=3258
bbs.pinggu.org/forum.php?mod=collection&action=view&ctid=3259

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 11:47