Introduction to Data Mining and its Applications
Dr. S. Sumathi
Dr. S.N. Sivanandam
Contents
1 Introduction to Data Mining Principles .................... 1
1.1 Data Mining and Knowledge Discovery.................... 2
1.2 Data Warehousing and Data Mining - Overview . . . . . . . . . . . . 5
1.2.1 Data Warehousing Overview . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Concept of Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Data Warehousing, Data Mining, and OLAP ............... 21
2.1 Data Mining Research Opportunities and Challenges . . . . . . . . 23
2.1.1 Recent Research Achievements . . . . . . . . . . . . . . . . . . . 25
2.1.2 Data Mining Application Areas . . . . . . . . . . . . . . . . . . . 27
2.1.3 Success Stories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.4 Trends that Affect Data Mining . . . . . . . . . . . . . . . . . . 30
2.1.5 Research Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.6 Test Beds and Infrastructure . . . . . . . . . . . . . . . . . . . . . 33
2.1.7 Findings and Recommendations . . . . . . . . . . . . . . . . . . 33
2.2 Evolving Data Mining into Solutions for Insights . . . . . . . . . . . 35
2.2.1 Trends and Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3 Knowledge Extraction Through Data Mining . . . . . . . . . . . . . . 37
2.3.1 Data Mining Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.2 Operational Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.3 The Need and Opportunity for Data Mining . . . . . . . 51
2.3.4 Data Mining Tools and Techniques . . . . . . . . . . . . . . . . 52
2.3.5 Common Applications of Data Mining . . . . . . . . . . . . . 55
2.3.6 What about Data Mining in Power Systems? . . . . . . . 56
2.4 Data Warehousing and OLAP ........................... 57
2.4.1 Data Warehousing for Actuaries . . . . . . . . . . . . . . . . . . 57
2.4.2 Data Warehouse Components . . . . . . . . . . . . . . . . . . . . 58
2.4.3 Management Information . . . . . . . . . . . . . . . . . . . . . . . . 59
2.4.4 Profit Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
VI Contents
2.4.5 Asset Liability Management . . . . . . . . . . . . . . . . . . . . . . 60
2.5 Data Mining and OLAP ................................ 61
2.5.1 Research . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.5.2 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.7 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3 Data Marts and Data Warehouse .......................... 75
3.1 Data Marts, Data Warehouse,and OLAP ................. 77
3.1.1 Business Process Re-engineering . . . . . . . . . . . . . . . . . . 77
3.1.2 Real-World Usage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.1.3 Business Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.1.4 Different Data Structures . . . . . . . . . . . . . . . . . . . . . . . . 82
3.1.5 Different Users . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.1.6 Technological Foundation . . . . . . . . . . . . . . . . . . . . . . . . 86
3.1.7 Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.1.8 Informix Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.1.9 Building the Data Warehouse/Data Mart
Environment................................... 88
3.1.10 History . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.1.11 Nondetailed Data in the Enterprise Data Warehouse 92
3.1.12 Sharing Data Among Data Marts . . . . . . . . . . . . . . . . . 93
3.1.13 The Manufacturing Process . . . . . . . . . . . . . . . . . . . . . . 93
3.1.14 Subdata Marts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.1.15 Refreshment Cycles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.1.16 External Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.1.17 Operational Data Stores (ODS) and Data Marts . . . . 97
3.1.18 Distributed Metadata . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.1.19 Managing the Warehouse Environment . . . . . . . . . . . . 100
3.1.20 OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.2 Data Warehousing for Healthcare ........................107
3.2.1 A Data Warehousing Perspective for Healthcare . . . . 107
3.2.2 Adding Value to your Current Data . . . . . . . . . . . . . . . 107
3.2.3 Enhance Customer Relationship Management . . . . . . 108
3.2.4 Improve Provider Management . . . . . . . . . . . . . . . . . . . 109
3.2.5 Reduce Fraud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
3.2.6 Prepare for HEDIS Reporting . . . . . . . . . . . . . . . . . . . . 110
3.2.7 Disease Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.2.8 What to Expect When Beginning a Data
Warehouse Implementation . . . . . . . . . . . . . . . . . . . . . . 110
3.2.9 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.3 Data Warehousing in the Telecommunications Industry . . . . . 112
3.3.1 Implementing One View . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.3.2 Business Benefit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
3.3.3 A Holistic Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Contents VII
3.4 The Telecommunications Lifecycle . . . . . . . . . . . . . . . . . . . . . . . . 122
3.4.1 Current Enterprise Environment . . . . . . . . . . . . . . . . . . 122
3.4.2 Getting to the Root of the Problem . . . . . . . . . . . . . . . 123
3.4.3 The Telecommunications Lifecycle . . . . . . . . . . . . . . . . 125
3.4.4 Telecom Administrative Outsourcing . . . . . . . . . . . . . . 127
3.4.5 Choose your Outsourcing Partner Wisely . . . . . . . . . . 127
3.4.6 Security in Web-Enabled Data Warehouse . . . . . . . . . 128
3.5 Security Issues in Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . 129
3.5.1 Performance vs Security . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.5.2 An Ideal Security Model . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.5.3 Real-World Implementation . . . . . . . . . . . . . . . . . . . . . . 131
3.5.4 Proposed Security Model . . . . . . . . . . . . . . . . . . . . . . . . 136
3.6 Data Warehousing: To Buy or To Build a Fundamental
Choice for Insurers .....................................140
3.6.1 Executive Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
3.6.2 The Fundamental Choice . . . . . . . . . . . . . . . . . . . . . . . . 140
3.6.3 Analyzing the Strategic Value of Data Warehousing . 141
3.6.4 Addressing your Concerns . . . . . . . . . . . . . . . . . . . . . . . 142
3.6.5 Introducing FellowDSS
TM
.......................146
3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
3.8 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4 Evolution and Scaling of Data Mining Algorithms ..........151
4.1 Data-Driven Evolution of Data Mining Algorithms . . . . . . . . . 152
4.1.1 Transaction Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
4.1.2 Data Streams . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
4.1.3 Graph and Text-Based data . . . . . . . . . . . . . . . . . . . . . . 155
4.1.4 Scientific Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
4.2 Scaling Mining Algorithms to Large DataBases . . . . . . . . . . . . 157
4.2.1 Prediction Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.2.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
4.2.3 Association Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
4.2.4 From Incremental Model Maintenance to Streaming
Data..........................................162
4.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.4 Review Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
..........