齣版者的話
中文版序
譯者序
譯者簡介
第3版序
第2版序
前言
緻謝
作者簡介
第1章 引論1
1.1 為什麼進行數據挖掘1
1.1.1 邁嚮信息時代1
1.1.2 數據挖掘是信息技術的進化2
1.2 什麼是數據挖掘4
1.3 可以挖掘什麼類型的數據6
1.3.1 數據庫數據6
1.3.2 數據倉庫7
1.3.3 事務數據9
1.3.4 其他類型的數據9
1.4 可以挖掘什麼類型的模式10
1.4.1 類/概念描述:特徵化與區分10
1.4.2 挖掘頻繁模式、關聯和相關性11
1.4.3 用於預測分析的分類與迴歸12
1.4.4 聚類分析13
1.4.5 離群點分析14
1.4.6 所有模式都是有趣的嗎14
1.5 使用什麼技術15
1.5.1 統計學15
1.5.2 機器學習16
1.5.3 數據庫係統與數據倉庫17
1.5.4 信息檢索17
1.6 麵嚮什麼類型的應用18
1.6.1 商務智能18
1.6.2 Web搜索引擎18
1.7 數據挖掘的主要問題19
1.7.1 挖掘方法19
1.7.2 用戶界麵20
1.7.3 有效性和可伸縮性21
1.7.4 數據庫類型的多樣性21
1.7.5 數據挖掘與社會21
1.8 小結22
1.9 習題23
1.10 文獻注釋23
第2章 認識數據26
2.1 數據對象與屬性類型26
2.1.1 什麼是屬性27
2.1.2 標稱屬性27
2.1.3 二元屬性27
2.1.4 序數屬性28
2.1.5 數值屬性28
2.1.6 離散屬性與連續屬性29
2.2 數據的基本統計描述29
2.2.1 中心趨勢度量:均值、中位數和眾數30
2.2.2 度量數據散布:極差、四分位數、方差、標準差和四分位數極差32
2.2.3 數據的基本統計描述的圖形顯示34
2.3 數據可視化37
2.3.1 基於像素的可視化技術37
2.3.2 幾何投影可視化技術38
2.3.3 基於圖符的可視化技術40
2.3.4 層次可視化技術42
2.3.5 可視化復雜對象和關係42
2.4 度量數據的相似性和相異性44
2.4.1 數據矩陣與相異性矩陣45
2.4.2 標稱屬性的鄰近性度量46
2.4.3 二元屬性的鄰近性度量46
2.4.4 數值屬性的相異性:閔可夫斯基距離48
2.4.5 序數屬性的鄰近性度量49
2.4.6 混閤類型屬性的相異性50
2.4.7 餘弦相似性51
2.5 小結52
2.6 習題53
2.7 文獻注釋54
第3章 數據預處理55
3.1 數據預處理:概述55
3.1.1 數據質量:為什麼要對數據預處理55
3.1.2 數據預處理的主要任務56
3.2 數據清理58
3.2.1 缺失值58
3.2.2 噪聲數據59
3.2.3 數據清理作為一個過程60
3.3 數據集成61
3.3.1 實體識彆問題62
3.3.2 冗餘和相關分析62
3.3.3 元組重復65
3.3.4 數據值衝突的檢測與處理65
3.4 數據歸約65
3.4.1 數據歸約策略概述66
3.4.2 小波變換66
3.4.3 主成分分析67
3.4.4 屬性子集選擇68
3.4.5 迴歸和對數綫性模型:參數化數據歸約69
3.4.6 直方圖70
3.4.7 聚類71
3.4.8 抽樣71
3.4.9 數據立方體聚集72
3.5 數據變換與數據離散化73
3.5.1 數據變換策略概述73
3.5.2 通過規範化變換數據74
3.5.3 通過分箱離散化76
3.5.4 通過直方圖分析離散化76
3.5.5 通過聚類、決策樹和相關分析離散化76
3.5.6 標稱數據的概念分層産生77
3.6 小結79
3.7 習題79
3.8 文獻注釋80
第4章 數據倉庫與聯機分析處理82
4.1 數據倉庫:基本概念82
4.1.1 什麼是數據倉庫82
4.1.2 操作數據庫係統與數據倉庫的區彆84
4.1.3 為什麼需要分離的數據倉庫85
4.1.4 數據倉庫:一種多層體係結構85
4.1.5 數據倉庫模型:企業倉庫、數據集市和虛擬倉庫87
4.1.6 數據提取、變換和裝入88
4.1.7 元數據庫88
4.2 數據倉庫建模:數據立方體與OLAP89
4.2.1 數據立方體:一種多維數據模型89
4.2.2 星形、雪花形和事實星座:多維數據模型的模式91
4.2.3 維:概念分層的作用94
4.2.4 度量的分類和計算95
4.2.5 典型的OLAP操作96
4.2.6 查詢多維數據庫的星網查詢模型98
4.3 數據倉庫的設計與使用99
4.3.1 數據倉庫的設計的商務分析框架99
4.3.2 數據倉庫的設計過程100
4.3.3 數據倉庫用於信息處理101
4.3.4 從聯機分析處理到多維數據挖掘102
4.4 數據倉庫的實現103
4.4.1 數據立方體的有效計算:概述103
4.4.2 索引OLAP數據:位圖索引和連接索引105
4.4.3 OLAP查詢的有效處理107
4.4.4 OLAP服務器結構:ROLAP、MOLAP、HOLAP的比較107
4.5 數據泛化:麵嚮屬性的歸納109
4.5.1 數據特徵的麵嚮屬性的歸納109
4.5.2 麵嚮屬性歸納的有效實現113
4.5.3 類比較的麵嚮屬性歸納114
4.6 小結116
4.7 習題117
4.8 文獻注釋119
第5章 數據立方體技術121
5.1 數據立方體計算:基本概念121
5.1.1 立方體物化:完全立方體、冰山立方體、閉立方體和立方體外殼122
5.1.2 數據立方體計算的一般策略124
5.2 數據立方體計算方法126
5.2.1 完全立方體計算的多路數組聚集126
5.2.2 BUC:從頂點方體嚮下計算冰山立方體129
5.2.3 Star-Cubing:使用動態星樹結構計算冰山立方體132
5.2.4 為快速高維OLAP預計算殼片段136
5.3 使用探索立方體技術處理高級查詢141
5.3.1 抽樣立方體:樣本數據上基於OLAP的挖掘141
5.3.2 排序立方體:top-k查詢的有效計算145
5.4 數據立方體空間的多維數據分析147
5.4.1 預測立方體:立方體空間的預測挖掘147
5.4.2 多特徵立方體:多粒度上的復雜聚集149
5.4.3 基於異常的、發現驅動的立方體空間探查149
5.5 小結152
5.6 習題152
5.7 文獻注釋155
第6章 挖掘頻繁模式、關聯和相關性:基本概念和方法157
6.1 基本概念157
6.1.1 購物籃分析:一個誘發例子157
6.1.2 頻繁項集、閉項集和關聯規則158
6.2 頻繁項集挖掘方法160
6.2.1 Apriori算法:通過限製候選産生發現頻繁項集160
6.2.2 由頻繁項集産生關聯規則164
6.2.3 提高Apriori算法的效率165
6.2.4 挖掘頻繁項集的模式增長方法166
6.2.5 使用垂直數據格式挖掘頻繁項集169
6.2.6 挖掘閉模式和極大模式170
6.3 哪些模式是有趣的:模式評估方法171
6.3.1 強規則不一定是有趣的172
6.3.2 從關聯分析到相關分析172
6.3.3 模式評估度量比較173
6.4 小結176
6.5 習題177
6.6 文獻注釋179
第7章 高級模式挖掘180
7.1 模式挖掘:一個路綫圖180
7.2 多層、多維空間中的模式挖掘182
7.2.1 挖掘多層關聯規則182
7.2.2 挖掘多維關聯規則185
7.2.3 挖掘量化關聯規則186
7.2.4 挖掘稀有模式和負模式188
7.3 基於約束的頻繁模式挖掘190
7.3.1 關聯規則的元規則製導挖掘190
7.3.2 基於約束的模式産生:模式空間剪枝和數據空間剪枝191
7.4 挖掘高維數據和巨型模式195
7.5 挖掘壓縮或近似模式198
7.5.1 通過模式聚類挖掘壓縮模式199
7.5.2 提取感知冗餘的top-k模式200
7.6 模式探索與應用202
7.6.1 頻繁模式的語義注解202
7.6.2 模式挖掘的應用205
7.7 小結206
7.8 習題207
7.9 文獻注釋208
第8章 分類:基本概念211
8.1 基本概念211
8.1.1 什麼是分類211
8.1.2 分類的一般方法211
8.2 決策樹歸納213
8.2.1 決策樹歸納214
8.2.2 屬性選擇度量217
8.2.3 樹剪枝222
8.2.4 可伸縮性與決策樹歸納224
8.2.5 決策樹歸納的可視化挖掘225
8.3 貝葉斯分類方法226
8.3.1 貝葉斯定理227
8.3.2 樸素貝葉斯分類227
8.4 基於規則的分類230
8.4.1 使用IF-THEN規則分類230
8.4.2 由決策樹提取規則231
8.4.3 使用順序覆蓋算法的規則歸納232
8.5 模型評估與選擇236
8.5.1 評估分類器性能的度量236
8.5.2 保持方法和隨機二次抽樣240
8.5.3 交叉驗證240
8.5.4 自助法241
8.5.5 使用統計顯著性檢驗選擇模型241
8.5.6 基於成本效益和ROC麯綫比較分類器243
8.6 提高分類準確率的技術245
8.6.1 組閤分類方法簡介245
8.6.2 裝袋246
8.6.3 提升和AdaBoost247
8.6.4 隨機森林249
8.6.5 提高類不平衡數據的分類準確率250
8.7 小結251
8.8 習題251
8.9 文獻注釋253
第9章 分類:高級方法255
9.1 貝葉斯信念網絡255
9.1.1 概念和機製255
9.1.2 訓練貝葉斯信念網絡257
9.2 用後嚮傳播分類258
9.2.1 多層前饋神經網絡258
9.2.2 定義網絡拓撲259
9.2.3 後嚮傳播260
9.2.4 黑盒內部:後嚮傳播和可解釋性263
9.3 支持嚮量機265
9.3.1 數據綫性可分的情況265
9.3.2 數據非綫性可分的情況268
9.4 使用頻繁模式分類270
9.4.1 關聯分類270
9.4.2 基於有區彆力的頻繁模式分類272
9.5 惰性學習法(或從近鄰學習)275
9.5.1 k-最近鄰分類275
9.5.2 基於案例的推理277
9.6 其他分類方法277
9.6.1 遺傳算法277
9.6.2 粗糙集方法278
9.6.3 模糊集方法278
9.7 關於分類的其他問題280
9.7.1 多類分類280
9.7.2 半監督分類281
9.7.3 主動學習282
9.7.4 遷移學習283
9.8 小結284
9.9 習題285
9.10 文獻注釋286
第10章 聚類分析:基本概念和方法288
10.1 聚類分析288
10.1.1 什麼是聚類分析288
10.1.2 對聚類分析的要求289
10.1.3 基本聚類方法概述291
10.2 劃分方法293
10.2.1 k-均值:一種基於形心的技術293
10.2.2 k-中心點:一種基於代錶對象的技術295
10.3 層次方法297
10.3.1 凝聚的與分裂的層次聚類298
10.3.2 算法方法的距離度量300
10.3.3 BIRCH:使用聚類特徵樹的多階段聚類301
10.3.4 Chameleon:使用動態建模的多階段層次聚類303
10.3.5 概率層次聚類304
10.4 基於密度的方法306
10.4.1 DBSCAN:一種基於高密度連通區域的基於密度的聚類307
10.4.2 OPTICS:通過點排序識彆聚類結構309
10.4.3 DENCLUE:基於密度分布函數的聚類311
10.5 基於網格的方法312
10.5.1 STING:統計信息網格312
10.5.2 CLIQUE:一種類似於Apriori的子空間聚類方法314
10.6 聚類評估315
10.6.1 估計聚類趨勢316
10.6.2 確定簇數317
10.6.3 測定聚類質量317
10.7 小結319
10.8 習題320
10.9 文獻注釋321
第11章 高級聚類分析323
11.1 基於概率模型的聚類323
11.1.1 模糊簇324
11.1.2 基於概率模型的聚類326
11.1.3 期望最大化算法328
11.2 聚類高維數據330
11.2.1 聚類高維數據:問題、挑戰和主要方法330
11.2.2 子空間聚類方法331
11.2.3 雙聚類332
11.2.4 維歸約方法和譜聚類337
11.3 聚類圖和網絡數據339
11.3.1 應用與挑戰339
11.3.2 相似性度量340
11.3.3 圖聚類方法343
11.4 具有約束的聚類345
11.4.1 約束的分類345
11.4.2 具有約束的聚類方法347
11.5 小結349
11.6 習題349
11.7 文獻注釋350
第12章 離群點檢測351
12.1 離群點和離群點分析351
12.1.1 什麼是離群點351
12.1.2 離群點的類型352
12.1.3 離群點檢測的挑戰354
12.2 離群點檢測方法354
12.2.1 監督、半監督和無監督方法355
12.2.2 統計方法、基於鄰近性的方法和基於聚類的方法356
12.3 統計學方法357
12.3.1 參數方法357
12.3.2 非參數方法360
12.4 基於鄰近性的方法361
12.4.1 基於距離的離群點檢測和嵌套循環方法361
12.4.2 基於網格的方法363
12.4.3 基於密度的離群點檢測364
12.5 基於聚類的方法366
12.6 基於分類的方法368
12.7 挖掘情境離群點和集體離群點369
12.7.1 把情境離群點檢測轉換成傳統的離群點檢測369
12.7.2 關於情境對正常行為建模370
12.7.3 挖掘集體離群點371
12.8 高維數據中的離群點檢測371
12.8.1 擴充的傳統離群點檢測372
12.8.2 發現子空間中的離群點373
12.8.3 高維離群點建模373
12.9 小結374
12.10 習題375
12.11 文獻注釋375
第13章 數據挖掘的發展趨勢和研究前沿377
13.1 挖掘復雜的數據類型377
13.1.1 挖掘序列數據:時間序列、符號序列和生物學序列377
13.1.2 挖掘圖和網絡381
13.1.3 挖掘其他類型的數據383
13.2 數據挖掘的其他方法385
13.2.1 統計學數據挖掘385
13.2.2 關於數據挖掘基礎的觀點386
13.2.3 可視和聽覺數據挖掘387
13.3 數據挖掘應用391
13.3.1 金融數據分析的數據挖掘391
13.3.2 零售和電信業的數據挖掘392
13.3.3 科學與工程數據挖掘393
13.3.4 入侵檢測和預防數據挖掘395
13.3.5 數據挖掘與推薦係統396
13.4 數據挖掘與社會397
13.4.1 普適的和無形的數據挖掘397
13.4.2 數據挖掘的隱私、安全和社會影響399
13.5 數據挖掘的發展趨勢400
13.6 小結402
13.7 習題402
13.8 文獻注釋403
參考文獻406
索引435
· · · · · · (
收起)