第1部分 大数据概论
第1章 大数据与云计算 2
1.1 云计算概论 3
1.2 大数据概论 4
1.2.1 现代数据管理需求分析 4
1.2.2 大数据的引入 9
1.2.3 大数据的定义与特征 10
1.2.4 大数据与互联网 12
1.2.5 大数据战略、大数据与大数据技术 14
1.3 大数据的技术实现—云计算 15
1.4 本章小结 16
第2章 关系数据库的挑战与应对 17
2.1 关系数据库技术的核心特征 18
2.2 主流关系数据库的挑战 22
2.2.1 经典DBMS的挑战 22
2.2.2 Shared Disk 23
2.2.3 Shared Nothing 24
2.3 改进型关系数据库 26
2.3.1 技术改进 26
2.3.2 主要产品代表 30
2.4 本章小结 40
第3章 非SQL技术简介 41
3.1 大数据技术家族 42
3.1.1 NoSQL 42
3.1.2 关系数据库联邦NewSQL 42
3.1.3 分布式海量文件管理 43
3.1.4 Map Reduce 43
3.2 分与合—云计算的两种技术路线 44
3.3 本章小结 44
第 2部分 “分”为云—数据切分
第4章 NoSQL 46
4.1 NoSQL的引入 47
4.1.1 概念诠释与特征分析 47
4.1.2 NoSQL的本质 50
4.2 NoSQL家族 52
4.2.1 NoSQL产品目录与分类 52
4.2.2 Hadoop之HBase 54
4.2.3 Facebook之Cassandra 58
4.2.4 MongoDB与CouchDB 61
4.2.5 Oracle NoSQL DB 63
4.2.6 Memcached与Redis 65
4.2.7 图数据库Neo4J 65
4.2.8 其他NoSQL数据库 67
4.2.9 问题与疑惑 67
4.3 NoSQL技术探研 68
4.3.1 NoSQL理论基础 68
4.3.2 NoSQL技术手段 75
4.3.3 NoSQL技术解析 83
4.4 NoSQL与关系数据库 88
4.5 本章小结 89
第5章 NewSQL—关系数据库联邦 90
5.1 数据库联邦的引入 91
5.1.1 企业业务数据管理面临的问题 91
5.1.2 垂直分库 92
5.1.3 水平分表 93
5.1.4 读写分离 95
5.1.5 联邦的引入 97
5.2 “联邦”的设计与实践 99
5.2.1 企业级“联邦”架构设计 99
5.2.2 公共基础服务设计 103
5.2.3 联邦的元数据库 106
5.2.4 联邦的应用实践 107
5.3 “联邦”技术分析 108
5.3.1 关于“垂直分库” 108
5.3.2 如何“水平分表” 110
5.3.3 关于“读写分离” 112
5.3.4 基本方法—分布与聚合 114
5.3.5 关于分布式事务 116
5.3.6 关联操作 117
5.3.7 冗余策略 119
5.3.8 异步解耦策略 120
5.3.9 使用缓存 122
5.3.10 其他问题 123
5.4 数据库联邦、NoSQL与主流关系数据库 124
5.4.1 技术与应用—八仙过海,各显神通 124
5.4.2 互联网的神话 126
5.5 本章小结 128
第6章 文件系统联邦 129
6.1 问题的引入 130
6.1.1 关于几个数据概念的澄清 130
6.1.2 文件数据管理的困难 131
6.1.3 文件系统联邦的引入 133
6.2 典型开源技术介绍 135
6.2.1 MogileFS 135
6.2.2 FastDFS 136
6.2.3 MogileFS与FastDFS的对比 138
6.3 技术分析 139
6.4 本章小结 140
第7章 平民化的分布计算—MapReduce 141
7.1 分布式计算概述 142
7.1.1 几个概念的澄清 142
7.1.2 分布式计算技术综述 143
7.1.3 MapReduce的引入 147
7.2 MapReduce技术介绍 148
7.2.1 设计思想 148
7.2.2 MapReduce框架介绍 152
7.3 MapReduce技术分析 160
7.3.1 关于效率 160
7.3.2 关于扩展性 162
7.3.3 关于可靠性与可用性 163
7.3.4 关于MapReduce与关系数据库 164
7.3.5 关于适用的数据类型 167
7.3.6 关于数据存储与管理 168
7.4 MapReduce的应用实践 169
7.5 本章小结 170
第8章 后Hadoop时代 171
8.1 Hadoop体系及其困惑 172
8.2 Google的新三驾马车 173
8.2.1 新一代搜索引擎Caffeine 173
8.2.2 大规模图处理系统Pregel 174
8.2.3 Dremel—秒级实现PB级数据分析 175
8.3 Symphony MapReduce 181
8.4 后Hadoop时代即将来临 181
8.5 本章小结 183
第9章 InfiniData—一种关系型云数据库的设计与实践 184
9.1 现代企业数据管理需求再分析 185
9.1.1 新的企业数据需求—海量关系数据管理 185
9.1.2 技术分析 187
9.2 关系型云数据库架构设计 188
9.2.1 关系型云数据库的引入 188
9.2.2 技术架构设计 189
9.3 云存储层 192
9.3.1 逻辑架构 193
9.3.2 物理架构 194
9.3.3 关系模型云存储元 196
9.4 云计算层 198
9.4.1 MapReduce云计算引擎 198
9.4.2 集群式云计算引擎 200
9.4.3 两种引擎的比较 201
9.5 云存储索引层 202
9.5.1 存储索引的管理 202
9.5.2 索引云运行时动态创建 203
9.6 技术分析 203
9.7 本章小结 205
第3部分 云计算的分与合
第10章 合为“云”—数据整合 208
10.1 数据整合的需求分析 209
10.2 存储整合云 210
10.3 数据库整合云 211
10.4 本章小结 213
第11章 关于分与合的讨论 214
11.1 困惑—分与合,孰是孰非? 215
11.2 分为技,合为神 216
11.3 分为雨,合为云—大数据云 217
11.4 数据管理技术发展趋势总结 219
11.4.1 数据管理物理基础设施发展趋势 219
11.4.2 数据管理软基础设施发展趋势 220
11.5 本章小结 221
第12章 企业大数据技术体系与云计算数据基础设施 222
12.1 现代企业数据管理需求再分析 223
12.2 新一代企业数据体系建设 225
12.2.1 新一代企业数据体系建设的定义与内容 225
12.2.2 新一代企业数据分类体系 228
12.2.3 新一代企业数据分布与流转规划 230
12.3 大数据技术在企业数据架构中的定位 234
12.3.1 技术规划战略 234
12.3.2 大数据技术架构规划 235
12.3.3 典型场景—电子渠道线上行为分析 238
12.4 云计算数据基础设施概念的引入 240
12.5 本章小结 242
后记—超越技术 243
参考文献 245
· · · · · · (
收起)