目录
序 在路上,学而时习之/张玉宏
第一章 大数据简史漫谈之一——数字的来源及数据思维的发展
1.1 人类的“数觉”与计数系统
1.2 关于二进制的一点讨论
1.3 数字的诞生与广泛应用的匹配法
1.4 数学的“问世”与“算法”的祖师爷
1.5 文字的“出炉”与罗马语言的来历
1.6 古代的数据保存之道与文言文的“无奈”精简
1.7 古代的“数据中心”——图书馆
1.8 古代计算工具的诞生及其演变
1.9 统计学诞生——数据思维的渐起
1.10 美国式的人口普查——大数据催生新技术
1.11 中国式的人口统计与数目字管理
1.12 本章小结与思考
第二章 大数据简史漫谈之二——近代存储体系发展中的那些人和事
2.1 数据复制与传播中的问题及解决方案
2.2 影响人类发展进程的几次能源革命
2.3 不能遗忘的电气时代的传奇——特斯拉
2.4 霍尔瑞斯的穿孔卡
2.5 现代通用计算机的奠基者——图灵和冯•诺伊曼
2.6 波弗劳姆的磁带发明
2.7 华人王安电脑的磁芯存储器
2.8 IBM 的传奇磁存储世界
2.9 网络存储世界的兴起
2.10 本章小结与思考
第三章 大数据简史漫谈之三——数据库的发展与大数据的兴起
3.1 近代“数据中心”之梦殇
3.2“穷”则思变之网状数据库
3.3 浓墨重彩之关系数据库
3.4 突破数据共享封锁线的领头人
3.5 高手对决的数据仓库领域两侠客
3.6 向非结构化进发的数据大趋势
3.7 大数据术语的历史渊源
3.8 现代大数据的诞生
3.9 在混沌和秩序转化中螺旋上升
3.10本章小结与思考
第四章 大数据的内涵
4.1 从数据、信息到知识、智慧的飞跃
4.2 大数据的多版本定义
4.3 大数据——新时代的生产资料
4.4 信息(数据)化、第二经济与数据思维的转变
4.5 大数据——来自学术界的青睐
4.6 大数据——来自政府层面的重视
4.7 大数据——来自工商业的热捧
4.8 大数据内涵——“岂止于大”
4.8.1 大数据之“大”有不同(Volume)
4.8.2 大数据之唯“快”不破(Velocity)
4.8.3 大数据之五彩缤纷(Variety)
4.8.4 大数据之价“值”无限(Value)
4.8.5 包括但不限于 4V
4.9 本章小结与思考
第五章 大数据时代的一点哲学思考
5.1 哲学与科学的关系——为什么计算机专业博士也发个哲学文凭(Ph.D)
5.2 大、小数据的“质”不同
5.3 大数据的数理哲学基础——同构关系
5.4 大数据认识主体的变化——“替人消灾”式的认识能免责吗
5.5 波普尔的世界 3——秦始皇的长生梦,找错了空间
5.6 大数据认识对象的变化——提升普罗大众的权重 :“长尾理论”
5.7 认识论对大数据研究的指导意义
5.7.1 科学始于观察——证实主义
5.7.2 证实主义的困顿——来自波普尔的批判
5.7.3 科学始于问题——波普尔的贡献
5.7.4 科学始于数据——大数据时代的科学转机与思考
5.7.5 大数据的悲观思潮
5.8 本章小结与思考
第六章 大数据研究的第四范式
6.1 谷歌公司的“不务正业”
6.2 塞吉•布林的“秘密”病情
6.3 布林病情的“治疗”方案
6.4 詹姆斯•格雷的科学第四范式
6.5 科学研究的其他三个范式
6.6 本章小结与思考
第七章 大数据,大有为
7.1 洞察带来价值
7.2 案例 1 :谷歌是如何“越俎代庖”地预测流感的
7.2.1 流感治疗网络化
7.2.2“无意间”生产的搜索数据
7.2.3 谷歌工程师们的杰作——流感预测趋势(GFT)
7.2.4 谷歌的“越俎代庖”为何成功
7.2.5 案例小结 :数据、模型与理论
7.3 案例 2 :“全数据”是如何为叶诗文抱不平的
7.3.1 叶诗文事件的新闻背景
7.3.2 什么是性能分析法
7.3.3 质疑的合理性在哪里
7.3.4“大数据 = 全数据”的威力——为叶诗文抱不平
7.3.5 案例小结
7.4 案例 3 :大数据是如何对抗癌症的
7.4.1 癌症大数据的特征是什么
7.4.2 癌症从哪里来
7.4.3 大数据用之于癌症斗争,挑战何在
7.4.4 癌症诊疗的基础大数据——获取难
7.4.5 数据化带来的颠覆式医疗——执行难
7.4.6 哪些机构在用大数据对抗癌症
7.4.7 癌症大数据的重要源头——基因组数据
7.4.8 大数据对抗癌症,前景如何
7.4.9 案例小结
7.5 更多大数据应用案例
7.6 本章小结与思考
第八章 大数据之坑与小数据之美
8.1 引子——哪个 V 才是大数据最重要的特征
8.1.1“大”有不同——Volume(大量)
8.1.2 数据共征——Velocity(快速)与 Value(价值)
8.1.3 五彩缤“纷”——Variety(多样)
8.2 大数据的力量与陷阱
8.2.1 大数据的力量
8.2.2 大数据的陷阱
8.2.3 今日王谢堂前燕,暂未飞入百姓家——大数据还没那么普及
8.2.4 你若安好,便是晴天——小数据之美
8.3 本章小结与思考
第九章 12 个小故事,思考大数据
9.1 故事 1 :大数据都是骗人的啊——大数据预测得准吗
9.2 故事 2 :颠簸的街道——对不起,“n=all”只是一个幻觉
9.3 故事 3 :醉汉路灯下找钥匙——大数据的研究方法可笑吗
9.4 故事 4 :园中有金不在金——大数据的价值
9.5 故事 5 :盖洛普抽样的成功——大小之争,“大”数据一定胜过小抽样吗
9.6 故事 6 :点球成金——数据流 PK 球探,谁更重要
9.7 故事 7 :啤酒和尿布——经典故事是伪造的,你知道吗
9.8 故事 8 :谷歌流感预测——预测是如何失效的
9.9 故事 9 :Target 超市预测女孩怀孕——“大数据”智慧,还是愚蠢
9.10 故事 10 :你的一夜情我知道——大数据的隐私之痛
9.11 故事 11 :大数据,无须惧——比萨店员更能知道顾客所有的信息吗.
9.12 故事 12 :扑朔离迷的“因果关系”——苏格拉底的“诡辩术”
9.13 本章小结与思考
第十章 大数据技术漫谈——需要读懂的 100 篇大数据文献
10.1 大数据价值的实现
10.2 大数据分析的关键架构层
10.3 架构的演进
10.4 几个重要的概念
10.5 文件系统层
10.6 数据存储层
10.7 资源管理器层(ResourceManagers)
10.8 调度器(Schedulers)
10.9 协调器(Coordination)
10.10 计算框架(ComputationalFrameworks)
10.11 数据分析层(DataAnalysis)
10.12 数据集成层(DataIntegration)
10.13 操作框架层(OperationalFrameworks)
10.14 本章小结与思考
第十一章 牛刀小试之 Hadoop 实战
11.1 什么是 Hadoop
11.2 Hadoop 发展历程
11.3 Hadoop 集群服务器的安装与配置
11.3.1 安装 CentOS7
11.3.2 配置 Java 环境
11.3.3 启动和配置 SSH 服务
11.3.4 安装 Hadoop
11.3.5 启动 Hadoop
11.4 运行 HelloWorld 版 Hadoop 程序——WordCount
11.5 全分布模式下的 Hadoop 集群构建
11.5.1 Linux 以运行等级 3 启动
11.5.2 在 Windows 和 MacOS 环境下克隆虚拟机
11.5.3 设置静态 IP 地址
11.5.4 修改 hosts 文件
11.5.5 虚拟机的同步配置
11.5.6 SSH 的免密码登录
11.5.7 全分布模式下安装 Hadoop
11.5.8 同步配置文件
11.5.9 创建所需目录
11.5.10 关闭防火墙
11.5.11 格式化文件系统
11.5.12 启动 Hadoop 守护进程
11.5.13 验证全分布模式
11.5.14 默认配置文件所在位置
11.5.15 关闭 Hadoop
11.5.16 Hadoop 的运行错误查找
11.6 WordCount 代码详解
11.6.1 MapReduce 编程模型
11.6.2 WordCount 的 MapReduce 处理流程
11.6.3 WordCount 源码解读
11.7 本章小结与思考
后 记
· · · · · · (
收起)