數據挖掘 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:機械工業齣版社

作者:（美）Jiawei Han

出品人:

頁數:468

译者:範明

出版時間:2012-8

價格:79.00元

裝幀:

isbn號碼:9787111391401

叢書系列:計算機科學叢書

圖書標籤:

數據挖掘
數據分析
計算機
計算機科學
數據
算法
機器學習
教材
數據挖掘
機器學習
統計分析
數據可視化
商業智能
模式識彆
數據庫
算法
預測分析
大數據

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到圖書目錄大全

book.wenda123.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

數據挖掘領域最具裏程碑意義的經典著作

完整全麵闡述該領域的重要知識和技術創新

這是一本數據挖掘和知識發現的優秀教材，結構閤理、條理清晰。本書既保留瞭相當篇幅講述數據挖掘的基本概念和方法，又增加瞭若乾章節介紹數據挖掘領域最新的技術和發展，因此既適閤初學者學習又適閤專業人員和實踐者參考。本書視角廣闊、資料翔實、內容全麵，能夠為有意深入研究相關技術的讀者提供足夠的參考和支持。總之，強烈推薦從高年級本科生到專業人員和實踐者都來閱讀這本書！

—— 美國CHOICE雜誌

這是一本非常優秀的數據挖掘教材，最新的第3版反映瞭數據挖掘領域的最新發展和變化。書中增加瞭2006年第2版以來最新的引用資料，新增小節討論可視化、模式挖掘以及最新的聚類方法。本書配有豐富及完善的教輔支持，包括配套網站、大量的習題集以及習題答案等。盡管這是一本數據挖掘的教材，但對於讀者沒有太高的要求，隻需要讀者具有少量編程經驗並瞭解基本的數據庫設計和統計分析知識。還有兩點值得注意：第一，本書的參考書目是關於瞭解數據挖掘研究的非常好的參考列錶；第二，書中的索引非常全麵和有效，能夠幫助讀者很容易地定位相關知識點。其他學科的研究人員和分析人員，例如，流行病學傢、金融分析師、心理測量研究人員，也會發現本書非常有用。

—— Computing Reviews

當代商業和科學領域大量激增的數據量要求我們采用更加復雜和精細的工具來進行數據分析、處理和挖掘。盡管近年來數據挖掘技術取得的長足進展使得我們廣泛收集數據越來越容易，但技術的發展依然難以匹配爆炸性的數據增長以及隨之而來的大量數據處理需求，因此我們比以往更加迫切地需要新技術和自動化工具來幫助我們將這些數據轉換為有用的信息和知識。

本書前版曾被KDnuggets的讀者評選為最受歡迎的數據挖掘專著，是一本可讀性極佳的教材。它從數據庫角度全麵係統地介紹數據挖掘的概念、方法和技術以及技術研究進展，並重點關注近年來該領域重要和最新的課題——數據倉庫和數據立方體技術，流數據挖掘，社會網絡挖掘，空間、多媒體和其他復雜數據挖掘。每章都針對關鍵專題有單獨的指導，提供最佳算法，並對怎樣將技術運用到實際工作中給齣瞭經過實踐檢驗的實用型規則。如果你希望自己能熟練掌握和運用當今最有力的數據挖掘技術，那本書正是你需要閱讀和學習的寶貴資源。本書是數據挖掘和知識發現領域內的所有教師、研究人員、開發人員和用戶都必讀的一本書。

【本書特色】

引入瞭許多算法和實現示例，全部以易於理解的僞代碼編寫，適用於實際的大規模數據挖掘項目。

討論瞭一些高級主題，例如挖掘麵嚮對象的關係型數據庫、空間數據庫、多媒體數據庫、時間序列數據庫、文本數據庫、萬維網以及其他領域的應用等。

全麵而實用地給齣用於從海量數據中獲取盡可能多信息的概念和技術。

作者簡介

Jiawei Han（韓傢煒）伊利諾伊大學厄巴納-尚佩恩分校計算機科學係Abel Bliss教授。由於在數據挖掘和數據庫係統領域卓有成效的研究工作，他曾多次獲得各種榮譽和奬勵，包括2004年ACM SIGKDD頒發的最佳創新奬，2005年IEEE Computer Society頒發的技術成就奬，2009年IEEE頒發的W. Wallace McDowell奬。他是ACM和IEEE Fellow。

Micheline Kamber 擁有加拿大康考迪亞大學計算機科學碩士學位，她是NSERC Scholar，先後在加拿大麥吉爾大學、西濛-弗雷澤大學及瑞士從事研究工作。

Jian Pei（裴健）目前是加拿大西濛-弗雷澤大學計算機科學學院教授。2002年，他在Jiawei Han教授的指導下獲得西濛-弗雷澤大學博士學位。

目錄資訊

齣版者的話
中文版序
譯者序
譯者簡介
第3版序
第2版序
前言
緻謝
作者簡介
第1章　引論1
1.1　為什麼進行數據挖掘1
1.1.1　邁嚮信息時代1
1.1.2　數據挖掘是信息技術的進化2
1.2　什麼是數據挖掘4
1.3　可以挖掘什麼類型的數據6
1.3.1　數據庫數據6
1.3.2　數據倉庫7
1.3.3　事務數據9
1.3.4　其他類型的數據9
1.4　可以挖掘什麼類型的模式10
1.4.1　類/概念描述：特徵化與區分10
1.4.2　挖掘頻繁模式、關聯和相關性11
1.4.3　用於預測分析的分類與迴歸12
1.4.4　聚類分析13
1.4.5　離群點分析14
1.4.6　所有模式都是有趣的嗎14
1.5　使用什麼技術15
1.5.1　統計學15
1.5.2　機器學習16
1.5.3　數據庫係統與數據倉庫17
1.5.4　信息檢索17
1.6　麵嚮什麼類型的應用18
1.6.1　商務智能18
1.6.2　Web搜索引擎18
1.7　數據挖掘的主要問題19
1.7.1　挖掘方法19
1.7.2　用戶界麵20
1.7.3　有效性和可伸縮性21
1.7.4　數據庫類型的多樣性21
1.7.5　數據挖掘與社會21
1.8　小結22
1.9　習題23
1.10　文獻注釋23
第2章　認識數據26
2.1　數據對象與屬性類型26
2.1.1　什麼是屬性27
2.1.2　標稱屬性27
2.1.3　二元屬性27
2.1.4　序數屬性28
2.1.5　數值屬性28
2.1.6　離散屬性與連續屬性29
2.2　數據的基本統計描述29
2.2.1　中心趨勢度量：均值、中位數和眾數30
2.2.2　度量數據散布：極差、四分位數、方差、標準差和四分位數極差32
2.2.3　數據的基本統計描述的圖形顯示34
2.3　數據可視化37
2.3.1　基於像素的可視化技術37
2.3.2　幾何投影可視化技術38
2.3.3　基於圖符的可視化技術40
2.3.4　層次可視化技術42
2.3.5　可視化復雜對象和關係42
2.4　度量數據的相似性和相異性44
2.4.1　數據矩陣與相異性矩陣45
2.4.2　標稱屬性的鄰近性度量46
2.4.3　二元屬性的鄰近性度量46
2.4.4　數值屬性的相異性：閔可夫斯基距離48
2.4.5　序數屬性的鄰近性度量49
2.4.6　混閤類型屬性的相異性50
2.4.7　餘弦相似性51
2.5　小結52
2.6　習題53
2.7　文獻注釋54
第3章　數據預處理55
3.1　數據預處理：概述55
3.1.1　數據質量：為什麼要對數據預處理55
3.1.2　數據預處理的主要任務56
3.2　數據清理58
3.2.1　缺失值58
3.2.2　噪聲數據59
3.2.3　數據清理作為一個過程60
3.3　數據集成61
3.3.1　實體識彆問題62
3.3.2　冗餘和相關分析62
3.3.3　元組重復65
3.3.4　數據值衝突的檢測與處理65
3.4　數據歸約65
3.4.1　數據歸約策略概述66
3.4.2　小波變換66
3.4.3　主成分分析67
3.4.4　屬性子集選擇68
3.4.5　迴歸和對數綫性模型：參數化數據歸約69
3.4.6　直方圖70
3.4.7　聚類71
3.4.8　抽樣71
3.4.9　數據立方體聚集72
3.5　數據變換與數據離散化73
3.5.1　數據變換策略概述73
3.5.2　通過規範化變換數據74
3.5.3　通過分箱離散化76
3.5.4　通過直方圖分析離散化76
3.5.5　通過聚類、決策樹和相關分析離散化76
3.5.6　標稱數據的概念分層産生77
3.6　小結79
3.7　習題79
3.8　文獻注釋80
第4章　數據倉庫與聯機分析處理82
4.1　數據倉庫：基本概念82
4.1.1　什麼是數據倉庫82
4.1.2　操作數據庫係統與數據倉庫的區彆84
4.1.3　為什麼需要分離的數據倉庫85
4.1.4　數據倉庫：一種多層體係結構85
4.1.5　數據倉庫模型：企業倉庫、數據集市和虛擬倉庫87
4.1.6　數據提取、變換和裝入88
4.1.7　元數據庫88
4.2　數據倉庫建模：數據立方體與OLAP89
4.2.1　數據立方體：一種多維數據模型89
4.2.2　星形、雪花形和事實星座：多維數據模型的模式91
4.2.3　維：概念分層的作用94
4.2.4　度量的分類和計算95
4.2.5　典型的OLAP操作96
4.2.6　查詢多維數據庫的星網查詢模型98
4.3　數據倉庫的設計與使用99
4.3.1　數據倉庫的設計的商務分析框架99
4.3.2　數據倉庫的設計過程100
4.3.3　數據倉庫用於信息處理101
4.3.4　從聯機分析處理到多維數據挖掘102
4.4　數據倉庫的實現103
4.4.1　數據立方體的有效計算：概述103
4.4.2　索引OLAP數據：位圖索引和連接索引105
4.4.3　OLAP查詢的有效處理107
4.4.4　OLAP服務器結構：ROLAP、MOLAP、HOLAP的比較107
4.5　數據泛化：麵嚮屬性的歸納109
4.5.1　數據特徵的麵嚮屬性的歸納109
4.5.2　麵嚮屬性歸納的有效實現113
4.5.3　類比較的麵嚮屬性歸納114
4.6　小結116
4.7　習題117
4.8　文獻注釋119
第5章　數據立方體技術121
5.1　數據立方體計算：基本概念121
5.1.1　立方體物化：完全立方體、冰山立方體、閉立方體和立方體外殼122
5.1.2　數據立方體計算的一般策略124
5.2　數據立方體計算方法126
5.2.1　完全立方體計算的多路數組聚集126
5.2.2　BUC：從頂點方體嚮下計算冰山立方體129
5.2.3　Star-Cubing：使用動態星樹結構計算冰山立方體132
5.2.4　為快速高維OLAP預計算殼片段136
5.3　使用探索立方體技術處理高級查詢141
5.3.1　抽樣立方體：樣本數據上基於OLAP的挖掘141
5.3.2　排序立方體：top-k查詢的有效計算145
5.4　數據立方體空間的多維數據分析147
5.4.1　預測立方體：立方體空間的預測挖掘147
5.4.2　多特徵立方體：多粒度上的復雜聚集149
5.4.3　基於異常的、發現驅動的立方體空間探查149
5.5　小結152
5.6　習題152
5.7　文獻注釋155
第6章　挖掘頻繁模式、關聯和相關性:基本概念和方法157
6.1　基本概念157
6.1.1　購物籃分析：一個誘發例子157
6.1.2　頻繁項集、閉項集和關聯規則158
6.2　頻繁項集挖掘方法160
6.2.1　Apriori算法：通過限製候選産生發現頻繁項集160
6.2.2　由頻繁項集産生關聯規則164
6.2.3　提高Apriori算法的效率165
6.2.4　挖掘頻繁項集的模式增長方法166
6.2.5　使用垂直數據格式挖掘頻繁項集169
6.2.6　挖掘閉模式和極大模式170
6.3　哪些模式是有趣的：模式評估方法171
6.3.1　強規則不一定是有趣的172
6.3.2　從關聯分析到相關分析172
6.3.3　模式評估度量比較173
6.4　小結176
6.5　習題177
6.6　文獻注釋179
第7章　高級模式挖掘180
7.1　模式挖掘：一個路綫圖180
7.2　多層、多維空間中的模式挖掘182
7.2.1　挖掘多層關聯規則182
7.2.2　挖掘多維關聯規則185
7.2.3　挖掘量化關聯規則186
7.2.4　挖掘稀有模式和負模式188
7.3　基於約束的頻繁模式挖掘190
7.3.1　關聯規則的元規則製導挖掘190
7.3.2　基於約束的模式産生：模式空間剪枝和數據空間剪枝191
7.4　挖掘高維數據和巨型模式195
7.5　挖掘壓縮或近似模式198
7.5.1　通過模式聚類挖掘壓縮模式199
7.5.2　提取感知冗餘的top-k模式200
7.6　模式探索與應用202
7.6.1　頻繁模式的語義注解202
7.6.2　模式挖掘的應用205
7.7　小結206
7.8　習題207
7.9　文獻注釋208
第8章　分類：基本概念211
8.1　基本概念211
8.1.1　什麼是分類211
8.1.2　分類的一般方法211
8.2　決策樹歸納213
8.2.1　決策樹歸納214
8.2.2　屬性選擇度量217
8.2.3　樹剪枝222
8.2.4　可伸縮性與決策樹歸納224
8.2.5　決策樹歸納的可視化挖掘225
8.3　貝葉斯分類方法226
8.3.1　貝葉斯定理227
8.3.2　樸素貝葉斯分類227
8.4　基於規則的分類230
8.4.1　使用IF-THEN規則分類230
8.4.2　由決策樹提取規則231
8.4.3　使用順序覆蓋算法的規則歸納232
8.5　模型評估與選擇236
8.5.1　評估分類器性能的度量236
8.5.2　保持方法和隨機二次抽樣240
8.5.3　交叉驗證240
8.5.4　自助法241
8.5.5　使用統計顯著性檢驗選擇模型241
8.5.6　基於成本效益和ROC麯綫比較分類器243
8.6　提高分類準確率的技術245
8.6.1　組閤分類方法簡介245
8.6.2　裝袋246
8.6.3　提升和AdaBoost247
8.6.4　隨機森林249
8.6.5　提高類不平衡數據的分類準確率250
8.7　小結251
8.8　習題251
8.9　文獻注釋253
第9章　分類：高級方法255
9.1　貝葉斯信念網絡255
9.1.1　概念和機製255
9.1.2　訓練貝葉斯信念網絡257
9.2　用後嚮傳播分類258
9.2.1　多層前饋神經網絡258
9.2.2　定義網絡拓撲259
9.2.3　後嚮傳播260
9.2.4　黑盒內部：後嚮傳播和可解釋性263
9.3　支持嚮量機265
9.3.1　數據綫性可分的情況265
9.3.2　數據非綫性可分的情況268
9.4　使用頻繁模式分類270
9.4.1　關聯分類270
9.4.2　基於有區彆力的頻繁模式分類272
9.5　惰性學習法(或從近鄰學習）275
9.5.1　k-最近鄰分類275
9.5.2　基於案例的推理277
9.6　其他分類方法277
9.6.1　遺傳算法277
9.6.2　粗糙集方法278
9.6.3　模糊集方法278
9.7　關於分類的其他問題280
9.7.1　多類分類280
9.7.2　半監督分類281
9.7.3　主動學習282
9.7.4　遷移學習283
9.8　小結284
9.9　習題285
9.10　文獻注釋286
第10章　聚類分析：基本概念和方法288
10.1　聚類分析288
10.1.1　什麼是聚類分析288
10.1.2　對聚類分析的要求289
10.1.3　基本聚類方法概述291
10.2　劃分方法293
10.2.1　k-均值：一種基於形心的技術293
10.2.2　k-中心點：一種基於代錶對象的技術295
10.3　層次方法297
10.3.1　凝聚的與分裂的層次聚類298
10.3.2　算法方法的距離度量300
10.3.3　BIRCH：使用聚類特徵樹的多階段聚類301
10.3.4　Chameleon:使用動態建模的多階段層次聚類303
10.3.5　概率層次聚類304
10.4　基於密度的方法306
10.4.1　DBSCAN:一種基於高密度連通區域的基於密度的聚類307
10.4.2　OPTICS：通過點排序識彆聚類結構309
10.4.3　DENCLUE：基於密度分布函數的聚類311
10.5　基於網格的方法312
10.5.1　STING:統計信息網格312
10.5.2　CLIQUE：一種類似於Apriori的子空間聚類方法314
10.6　聚類評估315
10.6.1　估計聚類趨勢316
10.6.2　確定簇數317
10.6.3　測定聚類質量317
10.7　小結319
10.8　習題320
10.9　文獻注釋321
第11章　高級聚類分析323
11.1　基於概率模型的聚類323
11.1.1　模糊簇324
11.1.2　基於概率模型的聚類326
11.1.3　期望最大化算法328
11.2　聚類高維數據330
11.2.1　聚類高維數據：問題、挑戰和主要方法330
11.2.2　子空間聚類方法331
11.2.3　雙聚類332
11.2.4　維歸約方法和譜聚類337
11.3　聚類圖和網絡數據339
11.3.1　應用與挑戰339
11.3.2　相似性度量340
11.3.3　圖聚類方法343
11.4　具有約束的聚類345
11.4.1　約束的分類345
11.4.2　具有約束的聚類方法347
11.5　小結349
11.6　習題349
11.7　文獻注釋350
第12章　離群點檢測351
12.1　離群點和離群點分析351
12.1.1　什麼是離群點351
12.1.2　離群點的類型352
12.1.3　離群點檢測的挑戰354
12.2　離群點檢測方法354
12.2.1　監督、半監督和無監督方法355
12.2.2　統計方法、基於鄰近性的方法和基於聚類的方法356
12.3　統計學方法357
12.3.1　參數方法357
12.3.2　非參數方法360
12.4　基於鄰近性的方法361
12.4.1　基於距離的離群點檢測和嵌套循環方法361
12.4.2　基於網格的方法363
12.4.3　基於密度的離群點檢測364
12.5　基於聚類的方法366
12.6　基於分類的方法368
12.7　挖掘情境離群點和集體離群點369
12.7.1　把情境離群點檢測轉換成傳統的離群點檢測369
12.7.2　關於情境對正常行為建模370
12.7.3　挖掘集體離群點371
12.8　高維數據中的離群點檢測371
12.8.1　擴充的傳統離群點檢測372
12.8.2　發現子空間中的離群點373
12.8.3　高維離群點建模373
12.9　小結374
12.10　習題375
12.11　文獻注釋375
第13章　數據挖掘的發展趨勢和研究前沿377
13.1　挖掘復雜的數據類型377
13.1.1　挖掘序列數據：時間序列、符號序列和生物學序列377
13.1.2　挖掘圖和網絡381
13.1.3　挖掘其他類型的數據383
13.2　數據挖掘的其他方法385
13.2.1　統計學數據挖掘385
13.2.2　關於數據挖掘基礎的觀點386
13.2.3　可視和聽覺數據挖掘387
13.3　數據挖掘應用391
13.3.1　金融數據分析的數據挖掘391
13.3.2　零售和電信業的數據挖掘392
13.3.3　科學與工程數據挖掘393
13.3.4　入侵檢測和預防數據挖掘395
13.3.5　數據挖掘與推薦係統396
13.4　數據挖掘與社會397
13.4.1　普適的和無形的數據挖掘397
13.4.2　數據挖掘的隱私、安全和社會影響399
13.5　數據挖掘的發展趨勢400
13.6　小結402
13.7　習題402
13.8　文獻注釋403
參考文獻406
索引435
· · · · · · (收起)

讀後感

評分☆☆☆☆☆

这本书是准备跟随浙江大学的课程学习而购买的课本，里面的知识比较全面。部分比较深入的知识由于课上没有讲解，因此我也将它跳过了。因为这学期选修了数据挖掘的课，需要一个中文版的课本进行学习，选择这本书还是不错的。这本书很适合自学，因为是将理论与算法相结合讲解的...

評分☆☆☆☆☆

我了个擦，连个非限制性定语从句都翻译不了，你翻译毛啊。还不如看原版。你们两个真是叫兽啊。本来都不屑去骂，但是连个定于从句都搞不通顺，叫兽你就这水平？你让研究生替你翻译的话，你研究生的水平也不至于如此奇差吧，还没过四级呢吧。不评很差是看在原著的面子上。

評分☆☆☆☆☆

首先我承认我的E文不算太好。我最近在读两本E文原版的技术书籍，《分布式系统原理与范型》、《数据挖掘概念与技术》。都是E文书，但是前者作者是老外，后者作者是中国人，两本书的风格明显差异很大。《数据挖掘概念与技术》的大量专业词汇给我很大的打击，但是大量非专业词汇...

用戶評價

评分☆☆☆☆☆

齣來混總是要還的呀，當初偷的懶真真是要加倍奉還。於是，那一天，我終於迴想起瞭曾一度被數據結構和算法所支配的恐怖。教科書的慣常寫法，大而全，利於搭建理論架構。知其然，知其所以然；知何可為，知何不可為。從産學研相結閤的角度來看，還需更新大數據相關的技術；另外，還需搭配業界的實戰書籍進行延伸閱讀。 PS: 人真是會變得呀，我是從神馬時候開始竟然對數據書感興趣瞭。哈利路亞。

评分☆☆☆☆☆

給四星是因為我是外行，對不懂的事物要保持一些敬畏之心，雖然我覺得三星應該也夠客觀。每天20-25頁，拖拖散散讀瞭一個月左右，保持瞭國外教材深入淺齣的特色，體係也清楚，除瞭高級模式挖掘/分類方法/聚類分析三章我覺得確實存在難度跳變以外，其他章節還在控製之內。畢竟最初就是當做綜述來讀，所以對很多名詞語焉不詳或者公式理論闡述不夠也可以原諒，後續自行查找其他資料補足吧。作為入門級瞭解，想要尋找一些問題分析的切入點，若能忍受翻譯時有蹩腳，可參考；追求進階的我猜可以直接忽略瞭吧。

评分☆☆☆☆☆

數據挖掘論文摘要集

评分☆☆☆☆☆

讀瞭前麵幾章，比較基本和概略後麵幾章機器學習，總的說來，比較適閤做overview，不適閤當practical reference

评分☆☆☆☆☆

經典，推薦！本書是對數據挖掘的全麵介紹。