数据科学与大数据分析 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:人民邮电出版社

作者:EMC教育服务团队(EMC Education Services)

出品人:

页数:356

译者:

出版时间:2016-7-1

价格:CNY 69.00

装帧:平装

isbn号码:9787115416377

丛书系列:

图书标签:

数据分析
数据科学
机器学习
数据可视化
R
统计
计算机
方法论
数据科学
大数据分析
数据挖掘
机器学习
统计学
Python
R语言
数据可视化
商业分析
人工智能

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书目录大全

book.wenda123.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

数据科学与大数据分析在当前是炙手可热的概念，关注的是如何通过分析海量数据来洞悉隐藏于数据背后的见解。本书是数据科学领域为数不多的实用性技术图书，它通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术。

《数据科学与大数据分析——数据的发现分析可视化与表示》总共分为12章，主要内容包括大数据分析的简单介绍，数据分析生命周期的各个阶段，使用R语言进行基本的数据分析，以及高级的分析理论和方法，主要涉及数据的聚类、关联规则、回归、分类、时间序列分析、文本分析等方法。此外，本书还涵盖了用来进行高级数据分析所使用的技术和工具，比如MapReduce和Hadoop、数据库内分析等。

《数据科学与大数据分析——数据的发现分析可视化与表示》内容详细，示例丰富，侧重于理论与练习的结合，因此比较适合对大数据分析、数据科学感兴趣的人员阅读，有志于成为数据科学家的读者也可以从本书中获益。

作者简介

David Dietrich是EMC Education Services的数据科学教育团队的负责人，他领导着大数据分析和数据科学相关的课程、策略和课程开发工作。他参与编写了EMC数据科学课程的首门课程，以及两门额外的EMC课程（以向领导和管理人员讲授大数据和数据科学为主），而且还是本书的作者兼编辑。他在数据科学、数据隐私和云计算领域已经申请了14项专利。

David曾指导若干所大学开设数据分析相关的课程项目，而且还经常在会议和行业活动中发表演讲。他还是波士顿地区几所大学的客座讲师。他的作品已被精选到包括福布斯杂志、哈佛商业评论以及由美国马萨诸塞州长Deval Patrick委托起草的2014 马萨诸塞大数据报告等内在的主流出版物中。

David在分析和技术领域已经浸淫了近20年。在其职业生涯中，他曾在多家财富500强公司工作过，出任多个与数据分析相关的职位，其中包括管理分析和运营团队，提供分析咨询服务，管理用于规范美国银行业的分析软件产品线，以及开发软件即服务（Software-as-a-Service）和Bl即服务（Bl-as-a-Service）的产品。此外，David还曾与美联储一起合作开发用于监控房产抵押贷款的预测模型。

Barry Heller是EMC Education Services的一名咨询技术教育顾问。Barry是大数据和数据科学新兴技术领域的课程开发人员和课程顾问。在此之前，Barry曾是一名顾问研究科学家，在EMC全面客户体验（Total Customer Experience）部门内发起并领导了许多与数据分析相关的项目。在其EMC职业生涯的早期，他负责管理统计工程团队，并负责企业资源企划（ERP）实施中的数据仓库工作。在加盟EMC之前，Barry在医疗诊断和技术公司担任过可靠性工程功能（Reliability Engineering Functions）的管理和分析角色。在此期间，他将其数量分析技能应用到了客户服务、工程、制造、销售/营销、金融和法律领域内的无数商业应用中。他强调与客户管理人员深入互动的重要性，他的许多成功案例不仅源自对分析的技术细节的关注，也源自针对分析结果会做出的决策的关注。Barry拥有罗彻斯特理工学院计算数学专业的本科学位，以及纽约州立大学新帕尔兹分校数学专业的硕士学位。

Beibei Yang是EMC Education Services的一名技术教育顾问，在EMC负责开发若干与数据科学和大数据分析相关的公开课程。Bebei在IT行业有7年的从业经验。在加盟EMC之前，她在一家财富500强公司先后担任过软件工程师、系统管理员和网络管理员等职位，并引入了多种提升效率和鼓励合作的新技术。Beibei曾在国际会议上发表过学术论文，并申请了多项专利。她在马萨诸塞大学卢维尔分校获得了计算机科学专业的博士学位。她专注于自然语言处理和数据挖掘，尤其是使用各种工具和技术来发现数据中隐藏的模式，以及用数据来讲故事。数据科学和大数据分析是一个令人振奋的领域。在这个领域，数字信息的潜力可以很大程度地用来帮助做出明智的商业决策。我们相信，无论是短期、中期还是长期来看，这一领域都将会吸引越来越多有才华的学生和专业人士投身其中。

译者简介

曹逾，于新加坡国立大学获得计算机博士学位，杰出大数据与机器学习专家，当前供职于EMC中国卓越研发集团首席技术官办公室，同时担任EMC中国研究院数据科学实验室主任，主要负责EMC大中华区大数据与数据科学方向的应用型研究以及创新解决方案研发，同时也负责EMC在亚太特别是中国大陆地区的高校科研合作项目。曹博士在SIGMOD、VLDB、ICDE、VLDB Journal等国际会议和期刊发表论文20余篇，并多次受邀担任国际会议和期刊审稿人，而且其相关研究成果在EMC内部产品及解决方案中得以广泛应用。曹博士拥有60余项美国及国际专利授权或申请。

刘文苗，现任EMC IT第三平台高级项目经理，对大数据、存储系统、网络系统以及文件系统具有一定研究，还具有国内金融行业多年从业经验。刘先生曾经参与过上海证券交易所新一代交易系统、海通期货核心交易系统的设计与建设工作。

李枫林，于上海交通大学获得软件工程硕士学位，曾在微软中国公司担任数据库工程师，现就职于EMC中国研发中心，担任Senior Social Engagement Manager一职，主要负责EMC中文技术社区的运营与后台数据处理工作，近年来潜心钻研数据存储与大数据相关技术，曾在EMC中文社区及社交媒体上发表多篇大数据技术相关的文章。

主审人员简介

孙宇熙（Ricky Sun），EMC中国研究院院长，在EMC主要负责大数据、软件定义的数据中心、云计算、超融合架构、高性能计算、高效存储等领域的研发、战略合作与创新等工作。

Ricky有在硅谷和国内近20年的学习、工作、生活和创业的经验。Ricky既有在大型跨国公司（EMC、微软、Yahoo!）的工作经历，也有过往成功的创业经历，曾于2001年在美国加州硅谷地区创立WL科技公司并成功带领公司在2004年与香港Telewave集团合并。Ricky在混合云架构、大数据快数据处理与分析、软件定义存储等领域有着多年的国际领先的工作经验业界的影响力，并持有多项专利。Ricky在近年的专业著作有《程序员生存手册：面试篇》、《软件定义数据中心：技术与实践》等。

目录信息

第1章大数据分析介绍 1
1.1 大数据概述 2
1.1.1 数据结构 4
1.1.2 数据存储的分析视角 9
1.2 分析的实践状态 10
1.2.1 商业智能 VS 数据科学 11
1.2.2 当前分析架构 12
1.2.3 大数据的驱动力 14
1.2.4 新的大数据生态系统和新的分析方法 15
1.3 新的大数据生态系统中的关键角色 17
1.4 大数据分析案例 20
1.5 总结 21
1.6 练习 21
参考书目 21
第2章数据分析生命周期 23
2.1 数据分析生命周期概述 24
2.1.1 一个成功分析项目的关键角色 24
2.1.2 数据分析生命周期的背景和概述 26
2.2 第1阶段：发现 28
2.2.1 学习业务领域 29
2.2.2 资源 29
2.2.3 设定问题 30
2.2.4 确定关键利益相关者 30
2.2.5 采访分析发起人 31
2.2.6 形成初始假设 32
2.2.7 明确潜在数据源 32
2.3 第2阶段：数据准备 33
2.3.1 准备分析沙箱 34
2.3.2 执行ETLT 35
2.3.3 研究数据 36
2.3.4 数据治理 37
2.3.5 调查和可视化 37
2.3.6 数据准备阶段的常用工具 38
2.4 第3阶段：模型规划 39
2.4.1 数据探索和变量选择 40
2.4.2 模型的选择 41
2.4.3 模型设计阶段的常用工具 42
2.5 第4阶段：模型建立 42
2.5.1 模型构建阶段中的常用工具 44
2.6 第5阶段：沟通结果 45
2.7 第6阶段：实施 46
2.8 案例研究：全球创新网络和分析（GINA） 49
2.8.1 第1阶段：发现 50
2.8.2 第2阶段：数据准备 51
2.8.3 第3阶段：模型规划 51
2.8.4 第4阶段：模型建立 51
2.8.5 第5阶段：沟通结果 53
2.8.6 第6阶段：实施 54
2.9 总结 55
2.10 练习 55
参考书目 55
第3章使用R进行基本数据分析 57
3.1 R简介 58
3.1.1 R图形用户界面 61
3.1.2 数据导入和导出 63
3.1.3 属性和数据类型 64
3.1.4 描述性统计(descriptive statistics) 72
3.2 探索性数据分析 73
3.2.1 在分析之前先可视化 74
3.2.2 脏数据 77
3.2.3 可视化单个变量 80
3.2.4 研究多个变量 83
3.2.5 对比数据探索和数据演示 90
3.3 用于评估的统计方法 92
3.3.1 假设检验 93
3.3.2 均值差异 94
3.3.3 Wilcoxon秩和检验 98
3.3.4 I型和II型错误 99
3.3.5 功效和抽样大小 100
3.3.6 ANOVA 100
3.4 总结 104
3.5 练习 104
参考文献 105
第4章高级分析理论与方法：聚类 107
4.1 聚类概述 108
4.2 k均值聚类 108
4.2.1 使用案例 109
4.2.2 方法概述 110
4.2.3 确定聚类簇的数量 112
4.2.4 诊断 117
4.2.5 选择原因及注意事项 118
4.3 其他算法 122
4.4 总结 122
4.5 练习 123
参考书目 123
第5章高级分析理论与方法：关联规则 124
5.1 概述 125
5.2 Apriori算法 127
5.3 评估候选规则 128
5.4 关联规则的应用 129
5.5 杂货店交易示例 130
5.5.1 杂货店数据集 130
5.5.2 生成频繁数据集 132
5.5.3 规则的生成和可视化 137
5.6 验证和测试 143
5.7 诊断 143
5.8 总结 144
5.9 练习 144
参考书目 145
第6章高级分析理论与方法：回归 147
6.1 线性回归 148
6.1.1 用例 148
6.1.2 模型描述 149
6.1.3 诊断 158
6.2 逻辑回归 163
6.2.1 用例 163
6.2.2 模型描述 163
6.2.3 诊断 165
6.3 选择理由和注意事项 172
6.4 其他回归模型 173
6.5 总结 173
6.6 练习 174
第7章高级分析理论与方法：分类 175
7.1 决策树 176
7.1.1 决策树概览 177
7.1.2 通用算法 181
7.1.3 决策树算法 185
7.1.4 评估决策树 186
7.1.5 R中的决策树 189
7.2 朴素贝叶斯 193
7.2.1 贝叶斯定理 194
7.2.2 朴素贝叶斯分类器 196
7.2.3 平滑 198
7.2.4 诊断 198
7.2.5 R中的朴素贝叶斯 199
7.3 分类器诊断 204
7.4 其他分类方法 208
7.5 总结 209
7.6 练习 210
参考书目 210
第8章高级分析理论与方法：时间序列分析 212
8.1 时间序列分析概述 213
8.1.1 Box-Jenkins方法 214
8.2 ARIMA模型 215
8.2.1 自相关函数（ACF） 215
8.2.2 自回归模型 216
8.2.3 移动平均模型 218
8.2.4 ARMA和ARIMA模型 219
8.2.5 建立和评估ARIMA模型 222
8.2.6 选择理由及注意事项 230
8.3 其他方法 230
8.4 总结 231
8.5 练习 231
第9章高级分析理论与方法：文本分析 232
9.1 文本分析步骤 234
9.2 一个文本分析的示例 235
9.3 收集原始数据 237
9.4 表示文本 240
9.5 词频-逆文档频率（TFIDF） 245
9.6 通过主题来分类文件 249
9.7 情感分析 253
9.8 获得洞察力 258
9.9 总结 263
9.10 练习 263
参考书目 264
第10章高级分析技术与工具：MapReduce和Hadoop 267
10.1 非结构化数据分析 268
10.1.1 用例 268
10.1.2 MapReduce 270
10.1.3 Apache Hadoop 271
10.2 Hadoop生态系统 277
10.2.1 Pig 278
10.2.2 Hive 279
10.2.3 HBase 282
10.2.4 Mahout 290
10.3 NoSQL 292
10.4 总结 293
10.5 练习 294
参考书目 294
第11章高级分析技术与工具：数据库内分析 297
11.1 SQL基本要素 298
11.1.1 连接 299
11.1.2 set运算符 301
11.1.3 grouping扩展 303
11.2 数据库内的文本分析 307
11.3 高级SQL技术 311
11.3.1 窗口函数 311
11.3.2 用户定义函数与聚合 315
11.3.3 排序聚合 318
11.3.4 MABlib 319
11.4 总结 323
11.5 练习 323
参考书目 323
第12章结尾 324
12.1 沟通和实施一个分析项目 325
12.2 创建最终可交付成果 327
12.2.1 为多个受众群体创建核心材料 329
12.2.2 项目目标 330
12.2.3 主要发现 331
12.2.4 方法 333
12.2.5 模型描述 334
12.2.6 有数据支持的关键论点 335
12.2.7 模型细节 336
12.2.8 建议 337
12.2.9 关于最终演示文档的额外提示 338
12.2.10 提供技术规范和代码 339
12.3 数据可视化基础 340
12.3.1 有数据支持的要点 341
12.3.2 图的演进 342
12.3.3 通用表示方法 348
12.3.4 如何清理图形 349
12.3.5 额外考虑 353
12.4 总结 355
12.5 练习 355
12.6 参考文献与扩展阅读 355
参考书目 356
· · · · · · (收起)

读后感

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

从一个职场人士的角度来看，这本书的“前瞻性”和“行业洞察力”是其最大的亮点。它不仅仅停留在技术层面，更着眼于数据分析在商业决策中的战略地位。书中有一章节专门讨论了数据伦理和隐私保护，这对我们当下这个信息爆炸的时代来说至关重要，作者对这些社会责任的关注，体现了作者深厚的行业责任感。此外，书中还探讨了如何构建一个有效的数据驱动文化，从组织架构、人才培养到工具选型，提供了非常宏观的指导，这对于希望在企业内部推动数据转型的管理者而言，具有极高的参考价值。这本书让我明白了，数据科学的终极目标不是跑出最优的模型，而是通过数据洞察驱动业务增长和价值创造。它提供的不仅仅是技术手册，更是一套完整的、可落地的战略思维框架。

评分☆☆☆☆☆

这本书的语言风格介于严谨的学术论述和轻松的经验分享之间，找到了一种非常舒适的平衡点。它不像某些译著那样生硬拗口，读起来非常流畅自然，即便是面对概率论或优化算法这些“硬骨头”知识点时，作者也总能找到贴切的比喻或生活化的例子来辅助理解。比如，在解释梯度下降法时，作者没有直接展示复杂的微积分公式，而是用“下山找谷底”的形象比喻，一下子就让那个抽象的迭代过程变得具体可感。此外，书中大量采用的图示和案例代码块排版清晰，注释详尽，这对于动手实践的读者来说太重要了。我尝试跟着书中的示例代码敲了一遍，发现即便是那些略显复杂的模型，在作者的步步引导下也变得触手可及，这极大地增强了我对自身学习能力的信心。这种手把手的教学方式，远比干巴巴的文字描述要有效得多。

评分☆☆☆☆☆

这本书的封面设计真是抓人眼球，那种深邃的蓝色调配上闪烁的数据流光效，一下子就把我拉进了一个充满科技感的数字世界。拿到手里沉甸甸的，能感觉到出版社在装帧上的用心，纸张的质感也相当不错，阅读体验很舒服，不会有廉价感。我本来对这个领域抱着敬畏又好奇的心态，这本书的开篇介绍非常平易近人，它没有一上来就抛出一堆晦涩难懂的公式和术语，而是用非常生动的案例，比如如何通过分析用户行为预测商品热销，或者智能推荐系统背后的逻辑，让我立刻感受到了数据分析的魅力和实用性。作者的叙述节奏把握得非常好，像是在娓娓道来一个精彩的故事，而不是枯燥的教科书讲解。特别是对基础概念的阐释，比如“什么是大数据”，不是简单地给出一个定义，而是通过对比传统数据处理的局限性，让我深刻理解了“大”的真正含义和它带来的机遇。读完前几章，我对整个数据科学的宏观图景有了一个清晰的认识，知道自己接下来的学习路径应该侧重于哪些方面，这种引导性非常到位，让我充满了继续探索下去的动力。

评分☆☆☆☆☆

我特别欣赏作者在内容选择上的独到眼光，这本书没有陷入追逐最新潮技术名词的怪圈，而是稳扎稳打地聚焦于那些最核心、最通用的方法论。比如，它花了相当大的篇幅深入探讨了特征工程的重要性，强调了“垃圾进，垃圾出”的真理，这在很多快餐式的技术书籍中是常常被一带而过的。书中对决策树和随机森林算法的讲解，不仅阐述了它们的工作原理，还细致分析了它们在处理高维数据时的优势与局限，并对比了支持向量机（SVM）在不同场景下的适用性。最实用的部分是它穿插其中的“陷阱警示”，提醒读者在使用某些模型时可能会遇到的过拟合、数据泄露等常见错误，这种前瞻性的提醒对实战工作者来说无异于宝贵的经验之谈。这种务实且富有批判性的视角，让这本书的价值得到了极大的提升，它教的不是如何使用某个库的API，而是如何像一个真正的数据科学家那样思考问题。

评分☆☆☆☆☆

这本书的逻辑结构简直是教科书级别的典范，层层递进，环环相扣，让人在阅读过程中几乎不需要反复回溯去梳理知识点之间的关系。我注意到，作者非常擅长将复杂的理论拆解成易于消化的模块。比如，在讲解数据清洗和预处理这一关键步骤时，他没有采用堆砌代码的写法，而是详细分析了不同类型“脏数据”的成因，并提出了针对性的处理策略，配上清晰的流程图，即便是初学者也能迅速掌握核心要领。更让我印象深刻的是，书中对统计学基础的介绍，它不是孤立地存在，而是巧妙地融入到机器学习模型的讲解之中，让你明白为什么需要T检验或方差分析，它们在模型构建中扮演了什么样的角色。这种深度与广度的完美结合，让这本书超越了一般的工具书范畴，更像是一本打通理论与实践壁垒的桥梁。每一次翻阅，总能发现一些之前被忽略的细节，体现出作者深厚的专业功底和严谨的治学态度，让人肃然起敬。

评分☆☆☆☆☆

KMeans，关联规则，逻辑回归，决策树，随机森林，时间序列，文本分析，面面俱到的泛泛而谈。对于懂的人来说，讲的太肤浅，对于不懂的人来说，讲的太抽象。

评分☆☆☆☆☆

data engineer 与 data scientist的区别

评分☆☆☆☆☆

@2018-12-20 07:33:01

评分☆☆☆☆☆

@2018-12-20 07:33:01

评分☆☆☆☆☆

非常实用。不深，全面；不浅，够用。几种主要的分析方法和适用情况都有说明，希望了解不同数据分析方法的适用性，以及R的具体操作的，有必要再看一边。非常清楚。另，EMC的数据挖掘课程，竟然高达5000美元。更加坚定了我得好好学习课程的决心。