数据算法 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:中国电力出版社

作者:Mahmoud Parsian

出品人:

页数:0

译者:苏金国

出版时间:2016-10-1

价格:128元

装帧:Paperback

isbn号码:9787512395947

丛书系列:

图书标签:

大数据
机器学习
数据科学
spark
Hadoop
数据算法
大数据_开发
java
数据
算法
编程
人工智能
机器学习
统计学
数学
科技
计算
模型

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书目录大全

book.wenda123.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

《数据算法：Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案，以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。

主要内容包括：

■ 完成超大量交易的购物篮分析。

■ 数据挖掘算法（K-均值、KNN和朴素贝叶斯）。

■ 使用超大基因组数据完成DNA和RNA测序。

■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。

■ 推荐算法和成对文档相似性。

■ 线性回归、Cox回归和皮尔逊（Pearson）相关分析。

■ 等位基因频率和DNA挖掘。

■ 社交网络分析（推荐系统、三角形计数和情感分析）。

作者简介

Mahmoud Parsian，计算机科学博士，是一位热衷于实践的软件专家，作为开发人员、设计人员、架构师和作者，他有30多年的软件开发经验。目前领导着Illumina的大数据团队，在过去15年间，他主要从事Java (服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata， MySQL，and Oracle Recipes》等书（均由Apress出版）。

目录信息

序 1
前言 3
第1章二次排序：简介 19
二次排序问题解决方案 21
MapReduce/Hadoop的二次排序解决方案 25
Spark的二次排序解决方案 29
第2章二次排序：详细示例 42
二次排序技术 43
二次排序的完整示例 46
运行示例——老版本Hadoop API 50
运行示例——新版本Hadoop API 52
第3章 Top 10 列表 54
Top N 设计模式的形式化描述 55
MapReduce/Hadoop实现：唯一键 56
Spark实现：唯一键 62
Spark实现：非唯一键 73
使用takeOrdered()的Spark Top 10 解决方案 84
MapReduce/Hadoop Top 10 解决方案：非唯一键 91
第4章左外连接 96
左外连接示例 96
MapReduce左外连接实现 99
Spark左外连接实现 105
使用leftOuterJoin()的Spark实现 117
第5章反转排序 127
反转排序模式示例 128
反转排序模式的MapReduce/Hadoop实现 129
运行示例 134
第6章移动平均 137
示例1：时间序列数据（股票价格） 137
示例2：时间序列数据（URL访问数） 138
形式定义 139
POJO移动平均解决方案 140
MapReduce/Hadoop移动平均解决方案 143
第7章购物篮分析 155
MBA目标 155
MBA的应用领域 157
使用MapReduce的购物篮分析 157
Spark解决方案 166
运行Spark实现的YARN 脚本 179
第8章共同好友 182
输入 183
POJO共同好友解决方案 183
MapReduce算法 184
解决方案1: 使用文本的Hadoop实现 187
解决方案2: 使用ArrayListOfLongsWritable 的Hadoop实现 189
Spark解决方案 191
第9章使用MapReduce实现推荐引擎 201
购买过该商品的顾客还购买了哪些商品 202
经常一起购买的商品 206
推荐连接 210
第10章基于内容的电影推荐 225
输入 226
MapReduce阶段1 226
MapReduce阶段2和阶段3 227
Spark电影推荐实现 234
第11章使用马尔可夫模型的智能邮件营销 .253
马尔可夫链基本原理 254
使用MapReduce的马尔可夫模型 256
Spark解决方案 269
第12章 K-均值聚类 282
什么是K-均值聚类? 285
聚类的应用领域 285
K-均值聚类方法非形式化描述：分区方法 286
K-均值距离函数 286
K-均值聚类形式化描述 287
K-均值聚类的MapReduce解决方案 288
K-均值算法Spark实现 292
第13章 k-近邻 296
kNN分类 297
距离函数 297
kNN示例 298
kNN算法非形式化描述 299
kNN算法形式化描述 299
kNN的类Java非MapReduce 解决方案 299
Spark的kNN算法实现 301
第14章朴素贝叶斯 315
训练和学习示例 316
条件概率 319
深入分析朴素贝叶斯分类器 319
朴素贝叶斯分类器：符号数据的MapReduce解决方案 322
朴素贝叶斯分类器Spark实现 332
使用Spark和Mahout 347
第15章情感分析 349
情感示例 350
情感分数：正面或负面 350
一个简单的MapReduce情感分析示例 351
真实世界的情感分析 353
第16章查找、统计和列出大图中的所有三角形 354
基本的图概念 355
三角形计数的重要性 356
MapReduce/Hadoop解决方案 357
Spark解决方案 364
第17章 K-mer计数 375
K-mer计数的输入数据 376
K-mer计数应用 376
K-mer计数MapReduce/Hadoop解决方案 377
K-mer计数Spark解决方案 378
第18章 DNA测序 390
DNA测序的输入数据 392
输入数据验证 393
DNA序列比对 393
DNA测试的MapReduce算法 394
第19章 Cox回归 413
Cox模型剖析 414
使用R的Cox回归 415
Cox回归应用 416
Cox回归 POJO解决方案 417
MapReduce输入 418
使用MapReduce的Cox回归 419
第20章 Cochran-Armitage趋势检验 426
Cochran-Armitage算法 427
Cochran-Armitage应用 432
MapReduce解决方案 435
第21章等位基因频率 443
基本定义 444
形式化问题描述 448
等位基因频率分析的MapReduce解决方案 449
MapReduce解决方案, 阶段1 449
MapReduce解决方案，阶段2 459
MapReduce解决方案, 阶段3 463
染色体X 和Y的特殊处理 466
第22章 T检验 468
对bioset完成T检验 469
MapReduce问题描述 472
输入 472
期望输出 473
MapReduce解决方案 473
Spark实现 476
第23章皮尔逊相关系数 488
皮尔逊相关系数公式 489
皮尔逊相关系数示例 491
皮尔逊相关系数数据集 492
皮尔逊相关系数POJO 解决方案 492
皮尔逊相关系数MapReduce解决方案 493
皮尔逊相关系数的Spark 解决方案 496
运行Spark程序的YARN 脚本 516
使用Spark计算斯皮尔曼相关系数 517
第24章 DNA碱基计数 520
FASTA 格式 521
FASTQ 格式 522
MapReduce解决方案：FASTA 格式 522
运行示例 524
MapReduce解决方案: FASTQ 格式 528
Spark 解决方案: FASTA 格式 533
Spark解决方案: FASTQ 格式 537
第25章 RNA测序 543
数据大小和格式 543
MapReduce工作流 544
RNA测序分析概述 544
RNA测序MapReduce算法 548
第26章基因聚合 553
输入 554
输出 554
MapReduce解决方案（按单个值过滤和按平均值过滤） 555
基因聚合的Spark解决方案 567
Spark解决方案：按单个值过滤 567
Spark解决方案：按平均值过滤 576
第27章线性回归 586
基本定义 587
简单示例 587
问题描述 588
输入数据 589
期望输出 590
使用SimpleRegression的MapReduce解决方案 590
Hadoop实现类 593
使用R线性模型的MapReduce解决方案 593
第28章 MapReduce和幺半群 600
概述 600
幺半群的定义 602
幺半群和非幺半群示例 603
MapReduce示例：非幺半群 606
MapReduce示例：幺半群 608
使用幺半群的Spark示例 612
使用幺半群的结论 618
函子和幺半群 619
第29章小文件问题 622
解决方案1：在客户端合并小文件 623
解决方案2：用CombineFileInputFormat解决小文件问题 629
其他解决方案 634
第30章 MapReduce的大容量缓存 635
实现方案 636
缓存问题形式化描述 637
一个精巧、可伸缩的解决方案 637
实现LRUMap缓存 640
使用LRUMap的MapReduce解决方案 646
第31章 Bloom过滤器 651Bloom
过滤器性质 651
一个简单的Bloom过滤器示例 653
· · · · · · (收起)

读后感

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

这本书的装帧设计真是让人眼前一亮，那种沉稳又不失现代感的配色，拿在手里就感觉分量十足。我本来对技术类的书籍抱持着一种“能看懂多少算多少”的心态，毕竟很多教材都写得晦涩难懂，像一本本躺在那里的砖头。然而，翻开这本书的内页，那种触感和字体的排布，简直是业界良心。作者显然在排版和图示上下了极大的功夫，复杂的概念往往配有清晰的流程图或者类比的插画，这对于我这种需要视觉辅助来理解抽象逻辑的人来说，简直是福音。尤其是前几章对于基础概念的梳理，逻辑链条异常顺畅，完全没有那种为了堆砌术语而堆砌术语的感觉。它更像是一位经验丰富的工程师在跟你娓娓道来，而不是冰冷的机器在宣读手册。我花了整整一个周末来消化第一部分的材料，收获的不仅仅是知识点本身，更是对整个领域结构的一种宏观把握。这种由表及里，层层深入的叙事方式，极大地降低了初学者的入门门槛，让人觉得探索这个知识领域是一件令人兴奋而非畏惧的事情。

评分☆☆☆☆☆

如果让我从一个更偏向于项目管理和系统架构的角度来评价这本书的价值，我会说它提供了一个极佳的“通用设计蓝图”。我过去在设计大规模分布式系统时，常常因为对底层计算模型的理解不够深入，导致在性能瓶颈出现时，只能进行零敲碎打的修补。这本书则提供了一个从底层数据组织到上层计算范式的一套完整的思维框架。它没有直接给出某个框架的API文档，而是深入探讨了支撑这些框架的核心原理——为什么这些设计会被采纳，它们在计算资源的分配上做了哪些关键的权衡。这对于我组织跨职能团队进行技术选型至关重要。当我需要向业务方解释为什么我们选择A方案而不是B方案时，我不再只是搬出一些性能测试数据，而是可以基于更坚实的理论基础，阐述其在资源利用效率和可扩展性上的根本优势。这本书的价值在于，它把“技术选型”从一种艺术提升到了科学的层面，让决策过程更加透明和可辩护。

评分☆☆☆☆☆

这本书的章节组织结构，体现了一种对学习者心流的精妙把握。它不是按照技术出现的历史顺序来排列，也不是简单地从易到难线性展开。相反，它似乎是根据一个典型的“问题解决周期”来设计的。先是提出一个宏大的、令人困惑的现实问题，然后迅速地引入解决问题的关键工具集，在读者略感吃力时，又巧妙地插入一些历史背景或哲学思考来放松和引导，最后才回到对这些工具集的深层次剖析和优化。这种起伏有致的节奏感，让阅读过程充满了期待和满足感，很大程度上避免了技术书籍常见的“中段疲劳”。我发现自己很少会因为内容太沉闷而想停下来做别的事情，更多的是因为“下一个章节会不会揭示更深层次的秘密”而感到好奇。这种高度的叙事驱动力，使得即便是那些我原本认为会很枯燥的数学推导部分，也变得更容易被接受和吸收。它成功地将学习过程塑造成了一场引人入胜的探索之旅。

评分☆☆☆☆☆

我得承认，我购买这本书的初衷，很大程度上是冲着它在工业界的应用案例去的。市面上很多理论书籍堆砌了太多数学公式和过于理想化的情境，让人读完后总觉得和实际工作脱节。但这本书的厉害之处在于，它非常务实地将理论与“实战”紧密地结合了起来。比如，它在讲解某种优化策略时，紧接着就提供了一个在处理海量用户行为数据时的具体实现思路，甚至细致到了数据结构的选择和内存效率的考量。这种“想清楚为什么这么做，再告诉你怎么做”的结构，让我对很多似是而非的行业“最佳实践”有了更深刻的理解。我尤其欣赏作者在讨论不同算法的权衡取舍时，那种毫不偏袒的客观态度。没有一种方法是万能的，作者坦诚地指出了每种方案在时间复杂度、空间占用以及特定约束条件下的局限性。这使得读者在面对真实世界的复杂问题时，能迅速锁定最适合的工具箱，而不是盲目地追求最新的、最复杂的理论模型。这种高度的实用主义色彩，是这本书给我带来的最大惊喜。

评分☆☆☆☆☆

这本书的语言风格可以说是独树一帜，它不像传统教科书那样板着面孔，反而带着一种老派学者的幽默感和洞察力。阅读过程中，时不时会遇到一些“神来之笔”的注解，它们可能是一句关于历史典故的引用，也可能是一个精妙的比喻，瞬间就能把一个原本枯燥的定义变得生动起来。我记得有一次在研究某个递归过程时，我陷入了思维的死胡同，正准备放弃时，作者在旁边的脚注里用一个关于“俄罗斯套娃”的比喻点醒了我，那种豁然开朗的感觉，简直是阅读体验中的高光时刻。这种将人文关怀融入硬核技术讲解的写法，极大地提升了阅读的愉悦度，让长时间的深度阅读不再是一种煎熬，而更像是一场与一位博学睿智的长者的对话。它不仅仅是在传授知识，更是在培养一种批判性思维和对技术本质的敬畏心。这种深入骨髓的叙事风格，绝对是这本书区别于其他同类书籍的关键所在。

评分☆☆☆☆☆

学算法难道不是看伪码足矣，reimplement一遍更有意义

评分☆☆☆☆☆

后面很多基因的例子，搞生物基因的人可以看看方法，优点就是步骤很详细，缺点是干货没那么多

评分☆☆☆☆☆

本书用MR的方式来讲解各类算法和场景的逻辑，再用Spark现成的高层算法接口来表达Spark如何快速实现MR中一大堆的逻辑。亮点主要在于： 1、简述了各类算法能做什么，最基础的例子怎么做的，包括一些机器学习算法。 2、通过MR和Spark的方式，来说明现在的技术我们都可以做到什么程度，如果企业有内置一些常用“场景算法“的需求，那么也比较适合看看。本书的后半部主要以医学案例比较多，对这个领域爱好的可以加分。建议：作为工具书，而不是通读

评分☆☆☆☆☆

spark的程序都是用java api来写的，没有看下去的欲望

评分☆☆☆☆☆

就是书上写的代码和下载下来的源码不一致比较头疼