第1章 緒論 1
1.1 什麼是數據挖掘 2
1.2 引發數據挖掘的挑戰 2
1.3 數據挖掘的起源 3
1.4 數據挖掘任務 4
1.5 本書的內容與組織 7
文獻注釋 7
參考文獻 8
習題 10
第2章 數據 13
2.1 數據類型 14
2.1.1 屬性與度量 15
2.1.2 數據集的類型 18
2.2 數據質量 22
2.2.1 測量和數據收集問題 22
2.2.2 關於應用的問題 26
2.3 數據預處理 27
2.3.1 聚集 27
2.3.2 抽樣 28
2.3.3 維歸約 30
2.3.4 特徵子集選擇 31
2.3.5 特徵創建 33
2.3.6 離散化和二元化 34
2.3.7 變量變換 38
2.4 相似性和相異性的度量 38
2.4.1 基礎 39
2.4.2 簡單屬性之間的相似度和相異度 40
2.4.3 數據對象之間的相異度 41
2.4.4 數據對象之間的相似度 43
2.4.5 鄰近性度量的例子 43
2.4.6 鄰近度計算問題 48
2.4.7 選取正確的鄰近性度量 50
文獻注釋 50
參考文獻 52
習題 53
第3章 探索數據 59
3.1 鳶尾花數據集 59
3.2 匯總統計 60
3.2.1 頻率和眾數 60
3.2.2 百分位數 61
3.2.3 位置度量:均值和中位數 61
3.2.4 散布度量:極差和方差 62
3.2.5 多元匯總統計 63
3.2.6 匯總數據的其他方法 64
3.3 可視化 64
3.3.1 可視化的動機 64
3.3.2 一般概念 65
3.3.3 技術 67
3.3.4 可視化高維數據 75
3.3.5 注意事項 79
3.4 OLAP和多維數據分析 79
3.4.1 用多維數組錶示鳶尾花數據 80
3.4.2 多維數據:一般情況 81
3.4.3 分析多維數據 82
3.4.4 關於多維數據分析的最後評述 84
文獻注釋 84
參考文獻 85
習題 86
第4章 分類:基本概念、決策樹與模型評估 89
4.1 預備知識 89
4.2 解決分類問題的一般方法 90
4.3 決策樹歸納 92
4.3.1 決策樹的工作原理 92
4.3.2 如何建立決策樹 93
4.3.3 錶示屬性測試條件的方法 95
4.3.4 選擇最佳劃分的度量 96
4.3.5 決策樹歸納算法 101
4.3.6 例子:Web 機器人檢測 102
4.3.7 決策樹歸納的特點 103
4.4 模型的過分擬閤 106
4.4.1 噪聲導緻的過分擬閤 107
4.4.2 缺乏代錶性樣本導緻的過分擬閤 109
4.4.3 過分擬閤與多重比較過程 109
4.4.4 泛化誤差估計 110
4.4.5 處理決策樹歸納中的過分擬閤 113
4.5 評估分類器的性能 114
4.5.1 保持方法 114
4.5.2 隨機二次抽樣 115
4.5.3 交叉驗證 115
4.5.4 自助法 115
4.6 比較分類器的方法 116
4.6.1 估計準確度的置信區間 116
4.6.2 比較兩個模型的性能 117
4.6.3 比較兩種分類法的性能 118
文獻注釋 118
參考文獻 120
習題 122
第5章 分類:其他技術 127
5.1 基於規則的分類器 127
5.1.1 基於規則的分類器的工作原理 128
5.1.2 規則的排序方案 129
5.1.3 如何建立基於規則的分類器 130
5.1.4 規則提取的直接方法 130
5.1.5 規則提取的間接方法 135
5.1.6 基於規則的分類器的特徵 136
5.2 最近鄰分類器 137
5.2.1 算法 138
5.2.2 最近鄰分類器的特徵 138
5.3 貝葉斯分類器 139
5.3.1 貝葉斯定理 139
5.3.2 貝葉斯定理在分類中的應用 140
5.3.3 樸素貝葉斯分類器 141
5.3.4 貝葉斯誤差率 145
5.3.5 貝葉斯信念網絡 147
5.4 人工神經網絡(ANN) 150
5.4.1 感知器 151
5.4.2 多層人工神經網絡 153
5.4.3 人工神經網絡的特點 155
5.5 支持嚮量機 156
5.5.1 最大邊緣超平麵 156
5.5.2 綫性支持嚮量機:可分情況 157
5.5.3 綫性支持嚮量機:不可分情況 162
5.5.4 非綫性支持嚮量機 164
5.5.5 支持嚮量機的特徵 168
5.6 組閤方法 168
5.6.1 組閤方法的基本原理 168
5.6.2 構建組閤分類器的方法 169
5.6.3 偏倚—方差分解 171
5.6.4 裝袋 173
5.6.5 提升 175
5.6.6 隨機森林 178
5.6.7 組閤方法的實驗比較 179
5.7 不平衡類問題 180
5.7.1 可選度量 180
5.7.2 接受者操作特徵麯綫 182
5.7.3 代價敏感學習 184
5.7.4 基於抽樣的方法 186
5.8 多類問題 187
文獻注釋 189
參考文獻 190
習題 193
第6章 關聯分析:基本概念和算法 201
6.1 問題定義 202
6.2 頻繁項集的産生 204
6.2.1 先驗原理 205
6.2.2 Apriori算法的頻繁項集産生 206
6.2.3 候選的産生與剪枝 208
6.2.4 支持度計數 210
6.2.5 計算復雜度 213
6.3 規則産生 215
6.3.1 基於置信度的剪枝 215
6.3.2 Apriori算法中規則的産生 215
6.3.3 例:美國國會投票記錄 217
6.4 頻繁項集的緊湊錶示 217
6.4.1 最大頻繁項集 217
6.4.2 頻繁閉項集 219
6.5 産生頻繁項集的其他方法 221
6.6 FP增長算法 223
6.6.1 FP樹錶示法 224
6.6.2 FP增長算法的頻繁項集産生 225
6.7 關聯模式的評估 228
6.7.1 興趣度的客觀度量 228
6.7.2 多個二元變量的度量 235
6.7.3 辛普森悖論 236
6.8 傾斜支持度分布的影響 237
文獻注釋 240
參考文獻 244
習題 250
第7章 關聯分析:高級概念 259
7.1 處理分類屬性 259
7.2 處理連續屬性 261
7.2.1 基於離散化的方法 261
7.2.2 基於統計學的方法 263
7.2.3 非離散化方法 265
7.3 處理概念分層 266
7.4 序列模式 267
7.4.1 問題描述 267
7.4.2 序列模式發現 269
7.4.3 時限約束 271
7.4.4 可選計數方案 274
7.5 子圖模式 275
7.5.1 圖與子圖 276
7.5.2 頻繁子圖挖掘 277
7.5.3 類Apriori方法 278
7.5.4 候選産生 279
7.5.5 候選剪枝 282
7.5.6 支持度計數 285
7.6 非頻繁模式 285
7.6.1 負模式 285
7.6.2 負相關模式 286
7.6.3 非頻繁模式、負模式和負相關模式比較 287
7.6.4 挖掘有趣的非頻繁模式的技術 288
7.6.5 基於挖掘負模式的技術 288
7.6.6 基於支持度期望的技術 290
文獻注釋 292
參考文獻 293
習題 295
第8章 聚類分析:基本概念和算法 305
8.1 概述 306
8.1.1 什麼是聚類分析 306
8.1.2 不同的聚類類型 307
8.1.3 不同的簇類型 308
8.2 K均值 310
8.2.1 基本K均值算法 310
8.2.2 K均值:附加的問題 315
8.2.3 二分K均值 316
8.2.4 K均值和不同的簇類型 317
8.2.5 優點與缺點 318
8.2.6 K均值作為優化問題 319
8.3 凝聚層次聚類 320
8.3.1 基本凝聚層次聚類算法 321
8.3.2 特殊技術 322
8.3.3 簇鄰近度的Lance-Williams公式 325
8.3.4 層次聚類的主要問題 326
8.3.5 優點與缺點 327
8.4 DBSCAN 327
8.4.1 傳統的密度:基於中心的方法 327
8.4.2 DBSCAN算法 328
8.4.3 優點與缺點 329
8.5 簇評估 330
8.5.1 概述 332
8.5.2 非監督簇評估:使用凝聚度和分離度 332
8.5.3 非監督簇評估:使用鄰近度矩陣 336
8.5.4 層次聚類的非監督評估 338
8.5.5 確定正確的簇個數 339
8.5.6 聚類趨勢 339
8.5.7 簇有效性的監督度量 340
8.5.8 評估簇有效性度量的顯著性 343
文獻注釋 344
參考文獻 345
習題 347
第9章 聚類分析:附加的問題與算法 355
9.1 數據、簇和聚類算法的特性 355
9.1.1 例子:比較K均值和DBSCAN 355
9.1.2 數據特性 356
9.1.3 簇特性 357
9.1.4 聚類算法的一般特性 358
9.2 基於原型的聚類 359
9.2.1 模糊聚類 359
9.2.2 使用混閤模型的聚類 362
9.2.3 自組織映射 369
9.3 基於密度的聚類 372
9.3.1 基於網格的聚類 372
9.3.2 子空間聚類 374
9.3.3 DENCLUE:基於密度聚類的一種基於核的方案 377
9.4 基於圖的聚類 379
9.4.1 稀疏化 379
9.4.2 最小生成樹聚類 380
9.4.3 OPOSSUM:使用METIS的稀疏相似度最優劃分 381
9.4.4 Chameleon:使用動態建模的層次聚類 381
9.4.5 共享最近鄰相似度 385
9.4.6 Jarvis-Patrick聚類算法 387
9.4.7 SNN密度 388
9.4.8 基於SNN密度的聚類 389
9.5 可伸縮的聚類算法 390
9.5.1 可伸縮:一般問題和方法 391
9.5.2 BIRCH 392
9.5.3 CURE 393
9.6 使用哪種聚類算法 395
文獻注釋 397
參考文獻 398
習題 400
第10章 異常檢測 403
10.1 預備知識 404
10.1.1 異常的成因 404
10.1.2 異常檢測方法 404
10.1.3 類標號的使用 405
10.1.4 問題 405
10.2 統計方法 406
10.2.1 檢測一元正態分布中的離群點 407
10.2.2 多元正態分布的離群點 408
10.2.3 異常檢測的混閤模型方法 410
10.2.4 優點與缺點 411
10.3 基於鄰近度的離群點檢測 411
10.4 基於密度的離群點檢測 412
10.4.1 使用相對密度的離群點檢測 413
10.4.2 優點與缺點 414
10.5 基於聚類的技術 414
10.5.1 評估對象屬於簇的程度 415
10.5.2 離群點對初始聚類的影響 416
10.5.3 使用簇的個數 416
10.5.4 優點與缺點 416
文獻注釋 417
參考文獻 418
習題 420
· · · · · · (
收起)