第1 章 大數據的概念和發展背景..........................................................................1
1.1 大數據的發展背景..................................................................................................1
1.2 大數據的概念和特徵..............................................................................................4
1.2.1 大數據的概念.................................................................................................4
1.2.2 大數據的特徵.................................................................................................4
1.3 大數據的産生..........................................................................................................5
1.3.1 數據産生由企業內部嚮企業外部擴展...........................................................5
1.3.2 數據産生從Web 1.0 嚮Web 2.0、從互聯網嚮移動互聯網擴展.....................6
1.3.3 數據産生從計算機/互聯網(IT)嚮物聯網(IOT)擴展..............................7
1.4 數據的量級..............................................................................................................7
1.4.1 數據大小的量級.............................................................................................7
1.4.2 大數據的量級.................................................................................................8
1.5 大量不同的數據類型..............................................................................................8
1.5.1 按照數據結構分類.........................................................................................9
1.5.2 按照産生主體分類....................................................................................... 12
1.5.3 按照數據作用方式分類................................................................................ 13
1.6 大數據的速度........................................................................................................ 14
1.7 大數據的潛在價值................................................................................................ 14
1.8 大數據的挑戰........................................................................................................ 15
1.8.1 業務視角不同帶來的挑戰............................................................................ 15
1.8.2 技術架構不同帶來的挑戰............................................................................ 15
1.8.3 管理策略不同帶來的挑戰............................................................................. 16
第2 章 大數據應用的業務需求................................................................. 17
2.1 大數據應用的業務流程........................................................................................ 17
2.1.1 産生數據...................................................................................................... 17
2.1.2 聚集數據...................................................................................................... 18
2.1.3 分析數據...................................................................................................... 19
2.1.4 利用數據...................................................................................................... 19
2.2 大數據應用的業務價值........................................................................................ 19
2.2.1 發現大數據的潛在價值................................................................................ 20
2.2.2 實現大數據整閤創新的價值........................................................................ 20
2.2.3 新領域再利用的價值................................................................................... 21
2.3 各行業大數據應用的個性需求............................................................................ 21
2.3.1 互聯網與電子商務行業................................................................................ 21
2.3.2 零售業.......................................................................................................... 27
2.3.3 金融業.......................................................................................................... 28
2.3.4 政府.............................................................................................................. 32
2.3.5 醫療業.......................................................................................................... 34
2.3.6 能源業.......................................................................................................... 36
2.3.7 製造業.......................................................................................................... 37
2.3.8 電信運營業.................................................................................................. 39
2.3.9 交通物流業.................................................................................................. 41
2.4 企業級大數據應用的共性需求............................................................................ 42
2.4.1 客戶分析...................................................................................................... 42
2.4.2 績效分析...................................................................................................... 46
2.4.3 欺詐和風險評估........................................................................................... 48
2.5 以銀行客戶分析為例,分析一個大數據的應用場景....................................... 49
第3 章 大數據應用的總體架構和關鍵技術.............................................................. 51
3.1 總體架構................................................................................................................. 51
3.1.1 業務目標...................................................................................................... 51
3.1.2 架構設計原則............................................................................................... 52
3.1.3 總體架構參考模型....................................................................................... 55
3.1.4 總體架構的特點........................................................................................... 58
3.2 大數據存儲和處理技術........................................................................................ 59
3.2.1 Hadoop:分布式存儲和計算平颱................................................................ 59
3.2.2 Hadoop 之HDFS:分布式文件係統............................................................. 65
3.2.3 Hadoop 之MapReduce:分布式計算框架.................................................... 72
3.2.4 Hadoop 之NoSQL:分布式數據庫.............................................................. 98
3.2.5 Hadoop 之外的大數據計算技術................................................................. 113
3.3 大數據查詢和分析技術:SQL on Hadoop ....................................................... 126
3.3.1 Hive:基本的Hadoop 查詢和分析............................................................. 127
3.3.2 Hive 2.0:Hive 的優化和升級.................................................................... 137
3.3.3 實時互動的SQL:Impala 和drill .............................................................. 140
3.3.4 基於PostgreSQL 的SQL on Hadoop........................................................... 146
3.4 大數據高級分析和可視化技術.......................................................................... 147
3.4.1 傳統數據倉庫與聯機分析處理技術........................................................... 147
3.4.2 大數據對傳統分析的挑戰.......................................................................... 150
3.4.3 大數據挖掘與高級分析.............................................................................. 150
3.4.4 大數據挖掘與高級分析庫:Mahout........................................................... 155
3.4.5 非結構化復雜數據分析.............................................................................. 156
3.4.6 實時預測分析............................................................................................. 163
3.4.7 開源可視化工具:R 語言.......................................................................... 170
3.4.8 可視化技術................................................................................................ 178
3.5 以銀行客戶分析為例的大數據的技術環境部署............................................. 187
3.5.1 銀行客戶大數據應用體係架構................................................................... 187
3.5.2 技術環境安裝與配置................................................................................. 189
第4 章 大數據與企業級應用的整閤策略............................................................... 202
4.1 大數據傳輸、整閤和流程管理平颱................................................................. 203
4.1.1 數據傳輸.................................................................................................... 203
4.1.2 數據整閤.................................................................................................... 209
4.1.3 流程管理.................................................................................................... 211
4.2 大數據與存儲架構的整閤.................................................................................. 215
4.2.1 傳統存儲架構比較..................................................................................... 215
4.2.2 大數據平颱的存儲架構的選擇................................................................... 216
4.2.3 集群存儲的發展......................................................................................... 217
4.2.4 基於HDFS 的集群存儲.............................................................................. 219
4.2.5 固態硬盤(SSD)對內存計算的支持........................................................ 221
4.3 大數據與網絡架構的發展.................................................................................. 221
4.4 大數據與虛擬化技術的整閤.............................................................................. 227
4.5 在雲計算平颱上的大數據雲.............................................................................. 229
4.6 大數據與信息安全.............................................................................................. 231
4.7 以銀行客戶分析為例,分析一個大數據的平颱整閤..................................... 234
第5 章 大數據應用的實踐方法與案例................................................................... 235
5.1 實踐方法論.......................................................................................................... 235
5.1.1 業務需求定義............................................................................................. 235
5.1.2 數據應用現狀分析與標杆比較................................................................... 237
5.1.3 大數據應用架構規劃和設計...................................................................... 238
5.1.4 大數據技術切入與實施.............................................................................. 239
5.1.5 大數據試用和評估..................................................................................... 240
5.1.6 大數據應用推廣......................................................................................... 241
5.2 應用案例............................................................................................................... 241
5.2.1 亞馬遜........................................................................................................ 241
5.2.2 雅虎............................................................................................................ 242
5.2.3 淘寶網........................................................................................................ 242
5.2.4 Facebook .................................................................................................... 243
5.3 以銀行客戶分析為例的實施案例分析............................................................. 244
5.3.1 銀行基於大數據的客戶分析的業務需求.................................................... 244
5.3.2 銀行基於大數據的客戶分析的現狀與標杆比較......................................... 245
5.3.3 銀行基於大數據的客戶分析的應用架構規劃與設計................................. 246
5.3.4 銀行基於大數據的數據分析的實施、試點和推廣..................................... 247
第6 章 大數據應用的主流解決方案...................................................................... 248
6.1 産業鏈................................................................................................................... 248
6.1.1 國際上的大數據生態環境.......................................................................... 248
6.1.2 國內産業鏈主要力量................................................................................. 251
6.2 主流廠商解決方案.............................................................................................. 252
6.2.1 Cloundera ................................................................................................... 252
6.2.2 Hortonworks ............................................................................................... 254
6.2.3 MapR.......................................................................................................... 254
6.2.4 IBM ............................................................................................................ 255
6.2.5 Oracle ......................................................................................................... 257
6.2.6 EMC ........................................................................................................... 258
6.2.7 Intel ............................................................................................................ 259
6.2.8 SAP ............................................................................................................ 260
6.2.9 Teradata ...................................................................................................... 262
第7 章 大數據應用的未來挑戰和趨勢........................................................................ 263
7.1 隱私保護............................................................................................................... 263
7.1.1 法律保護.................................................................................................... 264
7.1.2 技術保護.................................................................................................... 266
7.1.3 理念革新.................................................................................................... 267
7.2 技術標準............................................................................................................... 268
7.2.1 ISO 標準化進展......................................................................................... 268
7.2.2 評價基準和基準測試................................................................................. 269
7.2.3 標準套件.................................................................................................... 273
7.3 大數據治理.......................................................................................................... 273
7.3.1 數據治理框架............................................................................................. 274
7.3.2 數據質量管理............................................................................................. 274
7.3.3 大數據的組織、角色和責任...................................................................... 276
7.4 適應商業社會的未來趨勢.................................................................................. 277
7.4.1 從産品推銷嚮數據營銷的轉變................................................................... 277
7.4.2 從流程驅動到分析驅動的轉變................................................................... 277
7.4.3 從私有資源到公共服務的轉變................................................................... 278
· · · · · · (
收起)