发现数据之美:数据分析原理与实践

发现数据之美:数据分析原理与实践 pdf epub mobi txt 电子书 下载 2026

出版者:电子工业出版社
作者:彭鸿涛
出品人:
页数:332
译者:
出版时间:2014-8-1
价格:75.00元
装帧:
isbn号码:9787121235580
丛书系列:大数据丛书
图书标签:
  • 数据分析
  • 数据挖掘
  • spss
  • 大数据
  • 统计
  • 科学
  • 机器学习
  • 数据科学
  • 数据分析
  • 数据可视化
  • 统计学
  • Python
  • 数据挖掘
  • 商业分析
  • 数据科学
  • 机器学习
  • 数据处理
  • 数据建模
想要找书就要到 图书目录大全
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

大数据时代已经来临,这将引起深刻的行业变革。但是,大数据的真意在于数据分析,即从繁多的数据中找出洞见,并将其应用于实际决策中,以产生更明智的决策。这是一个看起来简单、做起来较难的事情。

本书从一个自底向上的角度,全面地阐述了数据分析所涉及的知识和技术,对于经典算法和工具的介绍也不止于泛泛而谈,而是加入了作者的经验和理解。所谓自底向上的角度,即从数据分析实践开始时所需要的数据准备、数据探查、数据再处理等,到经典的统计分析和数据挖掘算法及应用,还讲述了模型的部署,优化技术的引入,最终到决策自动化。

本书对企业管理者、数据分析从业者及高校的学生都有参考意义。管理者能看到一个较全面的数据分析的阐述,明确自身的需求;从业者能看到经验的总结及经典工具的使用;高校学生能看到数据分析所涉及的知识,对数据分析有一个全面的认识。

好的,这是一份关于一本名为《发现数据之美:数据分析原理与实践》的图书的详细简介。 --- 图书名称:发现数据之美:数据分析原理与实践 图书简介 在这个数据爆炸的时代,数据已经成为驱动决策、优化流程和引领创新的核心资产。然而,原始数据如同未经雕琢的矿石,其内在的价值与洞察往往隐藏在复杂的结构和海量的信息之中。《发现数据之美:数据分析原理与实践》是一本系统阐述数据分析核心理念、技术栈与实际应用场景的权威指南。本书旨在帮助读者建立起一套完整的、从数据获取到洞察提取的分析思维框架,并熟练掌握现代数据分析所需的核心工具与方法。 本书不仅仅是工具的使用手册,更是一部关于如何“与数据对话”的哲学指南。我们相信,数据分析的真正魅力在于揭示隐藏在数字背后的故事、发现事物运行的内在规律,并最终为业务实践提供坚实的支撑。 本书的核心内容与结构 本书的编写遵循“理论先行,实践导向”的原则,共分为四大核心部分,层层递进,确保读者能够扎实地掌握数据分析的整个生命周期。 第一部分:数据分析的基石——思维与环境构建 本部分首先为读者奠定坚实的理论基础和分析素养。我们深入探讨了什么是“数据驱动决策”,以及分析师在组织中应扮演的角色。 数据思维的建立: 强调批判性思维在数据解读中的重要性,区分相关性与因果关系,识别常见的统计陷阱和认知偏差。 数据生命周期概览: 详细分解数据从采集、清洗、存储、处理到最终可视化和报告的全过程,为后续章节的深入学习打下宏观认知基础。 分析环境搭建: 介绍当前主流的数据分析技术栈,包括但不限于Python(Pandas, NumPy, Scikit-learn)和R语言环境的配置与基础操作,为动手实践做好准备。 第二部分:数据的预处理与探索性分析(EDA) 数据质量决定了分析结果的上限。本部分重点聚焦于如何将“脏数据”转化为“可用数据”,并运用探索性方法挖掘数据初期的价值。 数据清洗的艺术: 详细讲解缺失值(Missing Values)的处理策略(插补法、删除法)、异常值(Outliers)的识别与处理技术,以及数据格式化和编码转换的实践技巧。 数据转换与特征工程: 深入探讨如何通过数据转换(如对数变换、标准化、归一化)来满足不同统计模型的要求。重点讲解特征工程,这是从原始数据中提取高信息量特征的关键步骤,包括离散化、组合特征的创建等高级技术。 探索性数据分析(EDA): EDA是发现数据之美的起点。我们通过大量的图表案例(直方图、箱线图、散点图矩阵、热力图等)来指导读者如何通过视觉化快速理解数据的分布、趋势、周期性和变量间的初步关系。 第三部分:核心分析技术与模型应用 本部分是本书的技术核心,系统介绍了从描述性统计到预测性建模的各类分析工具和方法论。 描述性统计与推断性统计: 巩固对集中趋势、离散程度、分布形态的理解,并掌握假设检验(T检验、方差分析ANOVA)的基本原理和应用场景,学会如何用统计语言支撑业务判断。 回归分析的精髓: 详细讲解线性回归、逻辑回归等经典模型,不仅关注模型的数学推导,更侧重于模型诊断(残差分析、多重共线性检查)和结果的业务解释性。 分类与聚类技术: 介绍常用的分类算法(决策树、随机森林、支持向量机SVM)和聚类算法(K-Means、DBSCAN)。重点在于何时选择哪种模型,以及如何评估模型的性能指标(准确率、召回率、F1分数、AUC/ROC曲线)。 时间序列分析基础: 针对具有时间依赖性的数据,介绍平稳性检验、趋势分解(季节性、周期性)以及ARIMA模型的构建与应用,为需求预测提供支持。 第四部分:数据可视化与洞察的呈现 再好的分析结果,如果不能清晰、有力地传达给决策者,其价值也将大打折扣。本部分专注于如何将冰冷的数据转化为引人入胜的叙事。 可视化设计原则: 遵循认知心理学原理,讲解如何选择最适合数据类型的图表,避免“误导性可视化”。涵盖数据墨水比、避免过度装饰等高级设计准则。 交互式报告的构建: 介绍使用Tableau、Power BI或Python的Plotly/Dash等工具,创建可探索、可钻取的交互式仪表板(Dashboard),使最终用户能够自主获取信息。 数据故事化(Data Storytelling): 学习如何构建一个逻辑清晰、具有冲突点、高潮和解决方案的分析报告结构。将技术发现转化为可执行的商业建议,实现从“数据”到“行动”的跨越。 本书的特色 1. 案例驱动: 全书穿插了来自金融风控、电商运营、市场营销、医疗健康等多个领域的真实案例,每个技术点都与具体的业务问题紧密挂钩。 2. 代码实用性强: 提供的所有代码片段均经过严格测试,可直接在标准环境中运行,确保读者在学习理论的同时,同步构建起强大的实操能力。 3. 面向未来: 在讨论传统统计方法的同时,本书也适度引入了机器学习和大数据处理的基本概念,引导读者展望数据分析的未来发展方向。 目标读者 本书适合所有希望系统掌握数据分析技能的专业人士:初级和中级数据分析师、商业智能(BI)工程师、希望提升决策质量的产品经理、对量化研究感兴趣的领域专家、以及理工科和商科高年级学生。无论您是希望转行进入数据领域,还是希望提升现有工作效率,本书都将是您不可或缺的实践伙伴。 《发现数据之美:数据分析原理与实践》相信,数据之美,藏于严谨的逻辑、精湛的工具和敏锐的洞察力之中。拿起本书,开始您的数据探险之旅。

作者简介

目录信息

第1 章 业务分析是一个蓬勃发展的方向 ................................. 1
1.1 业务分析是什么 .............................................. 2
1.2 业务分析的应用现状 ..................................... 3
1.3 如何应用业务分析 .......................................... 5
1.4 大数据与业务分析 .................................. 8
1.5 我们还在等什么 .............................. 9
第2 章 开始我们的旅程——从数据谈起 .................................... 10
2.1 我们讨论的数据结构 ..................................... 11
2.1.1 行(Row)是什么 .................................................................................................. 12
2.1.2 列(Column)是什么 ............................................................................................. 13
2.1.3 多少行数据才合适 ................................................................................................. 15
2.1.4 我们需要什么样的列 ............................................................................................. 16
2.2 Statistics 和Modeler 的基本知识 ................................................ 18
2.3 数据导入(Loading Data) ....................................................... 24
2.4 数据探查(Data Exploring) ............................. 27
2.4.1 正态分布(Normal Distribution) ......................................................................... 28
2.4.2 数据探查的常见统计量 ......................................................................................... 30
2.4.3 数据可视化 ............................................................................................................. 35
2.5 本章小结 ............................................................... 47
第3 章 在分析之前,还需要数据预处理 ............................................ 48
3.1 数据的问题 ............................................. 49
3.2 数据校验 .......................................................... 50
3.2.1 验证规则 ................................................................................................................. 50
3.2.2 验证数据 ................................................................................................................. 53
3.2.3 数据审计(Data Audit) ........................................................................................ 57
3.2.4 识别异常数据 ......................................................................................................... 60
3.3 数据集成(Data Integration) ............................................ 65
3.3.1 在Statistics 中进行数据集成 ................................................................................. 66
3.3.2 在Modeler 中进行数据集成 .................................................................................. 68
3.4 数据转换(Data Transformation) ..................................................... 73
3.4.1 分箱(Binning) ..................................................................................................... 73
3.4.2 数据调整(Data Rescale) .................................................................................... 78
3.4.3 数据重新编码(Recode) ..................................................................................... 79
3.5 自动数据准备 ................................................................ 83
3.5.1 Statistics 中的自动数据准备 .................................................................................. 83
3.5.2 Modeler 中的自动数据准备 ................................................................................... 88
3.6 本章小结 ............................................... 89
第4 章 经典分析——统计学的魅力 .................................. 91
4.1 随机变量及分布 ..................................................... 92
4.2 数理统计导引 .............................................. 94
4.3 参数估计 ................................................ 96
4.3.1 点估计...................................................................................................................... 96
4.3.2 区间估计 ................................................................................................................. 97
4.4 假设检验 .............................................................. 98
4.4.1 正态分布检验和t 检验 ........................................................................................ 101
4.4.2 非参数检验 ........................................................................................................... 108
4.5 相关分析 ............................................................ 111
4.6 方差分析 ............................................................... 113
4.7 回归分析 ............................................. 114
4.7.1 线性回归分析 ....................................................................................................... 114
4.7.2 自动化线性回归分析 ........................................................................................... 120
4.7.3 广义线性模型 ....................................................................................................... 122
4.7.4 广义线性混合模型(Generalized Linear Mixed Mode,GLMM) .................. 128
4.8 本章小结 ........................................................... 135
第5 章 我想预测未来 ................................................................ 136
5.1 数据挖掘的技术分类 ............................................................... 136
5.1.1 有监督的建模技术 ............................................................................................... 137
5.1.2 无监督的建模技术 ............................................................................................... 138
5.1.3 Feature Selection 对于分类的意义 ...................................................................... 139
5.1.4 查看建模的结果 ................................................................................................... 139
5.2 决策树 ................................................................................................ 140
5.2.1 C5.0 算法 ............................................................................................................... 141
5.2.2 分类和回归树 ....................................................................................................... 145
5.2.3 卡方自动交互检测法(CHAID) ....................................................................... 147
5.2.4 快速、无偏、高效的统计树(QUEST) .......................................................... 148
5.2.5 交互式的决策树构建方式 ................................................................................... 149
5.3 决策表 .............................................................................................. 150
5.3.1 决策表算法的设置 ............................................................................................... 151
5.3.2 交互式决策表的生成方式 ................................................................................... 153
5.4 贝叶斯网络 ........................................................................ 154
5.4.1 一些基本概念 ....................................................................................................... 154
5.4.2 IBM SPSS 的做法 ................................................................................................. 156
5.5 神经网络(Neural Networks) ...................................................... 158
5.5.1 神经网络是什么 ................................................................................................... 158
5.5.2 SPSS 神经网络算法 .............................................................................................. 160
5.6 支持向量机(Support Vector Machine) ................................... 162
5.6.1 什么是线性分类器 ............................................................................................... 162
5.6.2 Modeler 中的支持向量机 ..................................................................................... 163
5.7 最近相邻(Nearest Neighbor) .................................... 165
5.8 我该选用哪种算法 ......................................................... 167
5.9 如何评价预测结果 .............................................. 170
5.9.1 基本指标 ............................................................................................................... 170
5.9.2 Gains ...................................................................................................................... 171
5.9.3 Lift .......................................................................................................................... 173
5.9.4 Response ................................................................................................................ 175
5.9.5 Profit ...................................................................................................................... 175
5.9.6 ROI ......................................................................................................................... 177
5.10 本章小结 .............................................................. 177
第6 章 我想发现聚类(Cluster) ............................................... 179
6.1 聚类技术 ......................................................................... 180
6.2 分层聚类 ......................................................................... 181
6.3 K-means ....................................................................................... 184
6.4 TwoStep ...................................................................... 188
6.4.1 预聚类.................................................................................................................... 189
6.4.2 离群值处理 ........................................................................................................... 189
6.4.3 聚类 ........................................................................................................................ 189
6.4.4 TwoStep 的使用 .................................................................................................... 190
6.5 Kohonen network .................................................. 192
6.6 我怎么知道聚类结果是好的 ............................................................. 194
6.6.1 考察聚类的数量和每个聚类中的记录数 ........................................................... 194
6.6.2 考察聚类内的特征 ............................................................................................... 195
6.6.3 考察聚类间的特征 ............................................................................................... 195
6.6.4 一个综合的考察指标Silhouette .......................................................................... 196
6.7 自动聚类 ......................................................... 197
6.8 理解聚类的结果 ........................................................................... 198
6.9 一个聚类分析应用的例子 ............................................. 201
6.10 本章小结 ............................................................... 202
第7 章 周而复始的规律——时间序列分析 .......................................... 203
7.1 时间序列 ................................................................................ 204
7.1.1 时间序列的类型 ................................................................................................... 204
7.1.2 时间序列的特征 ................................................................................................... 205
7.2 指数平滑模型 ............................................................................. 206
7.2.1 简单指数平滑法 ................................................................................................... 206
7.2.2 带有趋势调整的指数平滑法(霍尔特指数平滑法) ....................................... 208
7.2.3 带有阻尼趋势的指数平滑法 ............................................................................... 208
7.2.4 简单季节指数平滑法 ........................................................................................... 209
7.2.5 带有趋势和季节调整的指数平滑法(温特斯指数平滑法) ........................... 209
7.2.6 指数平滑法的初始化 ........................................................................................... 210
7.2.7 去除时间序列的趋势和季节性因素 ................................................................... 211
7.3 自回归模型 ................................................ 212
7.3.1 自回归模型 ........................................................................................................... 212
7.3.2 移动平均模型 ....................................................................................................... 213
7.3.3 自回归移动平均模型(ARMA) ....................................................................... 213
7.3.4 差分自回归移动平均模型 ................................................................................... 214
7.4 SPSS 产品中的时间序列模型 ............................................... 214
7.4.1 Statistics 中的时间序列模型 ................................................................................ 214
7.4.2 Modeler 中的时间序列模型 ................................................................................. 235
7.5 时间序列分析的评价 ...................................................... 238
7.6 本章小结 ......................................................... 239
第8 章 你的行为完全可能被猜中——关联规则分析 ................................. 240
8.1 基本概念 ............................................................. 241
8.2 Apriori 算法 ....................................................................... 245
8.2.1 Apriori 算法工作步骤 ........................................................................................... 245
8.2.2 Apriori 算法的评估方法 ....................................................................................... 246
8.2.3 Apriori 节点 ........................................................................................................... 247
8.3 CARMA 算法 ................................................................................ 249
8.3.1 CARMA 算法的工作步骤 .................................................................................... 249
8.3.2 CARMA 节点 ........................................................................................................ 251
8.4 序列算法 ................................................................... 252
8.5 关联规则的评价 .......................................................................... 255
8.6 典型应用案例 .................................................................. 256
第9 章 我们还需要优化技术的帮忙 ......................................... 257
9.1 什么是优化技术 ....................................................................... 258
9.2 优化问题的分类 ....................................................................... 259
9.2.1 线性规划 ............................................................................................................... 260
9.2.2 整数规划 ............................................................................................................... 261
9.2.3 多目标规划 ........................................................................................................... 262
9.2.4 动态规划 ............................................................................................................... 262
9.3 IBM ILOG Optimization 介绍 ................................................. 263
9.4 本章小结 ...................................................................... 265
第10 章 有关方法论的问题 ..................................... 266
10.1 为什么我们要讨论方法论 .................................................. 267
10.2 CRISP-DM .............................................................................. 267
10.2.1 CRISP-DM 方法学 .............................................................................................. 268
10.2.2 CRISP-DM 参考模型.......................................................................................... 270
10.3 IBM SPSS CaDS ...................................................................... 273
10.3.1 Repository ............................................................................................................ 273
10.3.2 Job ........................................................................................................................ 274
10.3.3 Model Refresh and Champion Challenger .......................................................... 274
10.3.4 Scoring ................................................................................................................. 274
10.4 模型的部署不是终点............................................................... 275
第11 章 一个时髦的领域——决策管理 .................................................. 276
11.1 决策管理系统 ..................................................................... 276
11.1.1 什么是决策 .......................................................................................................... 277
11.1.2 什么是决策管理系统 .......................................................................................... 279
11.1.3 决策支持与决策管理的比较.............................................................................. 281
11.2 构建决策管理系统 ......................................................................... 282
11.2.1 构建决策支持系统的原则 .................................................................................. 282
11.2.2 合适的决策 .......................................................................................................... 283
11.2.3 如何找到合适的决策 .......................................................................................... 285
11.2.4 怎样在决策管理系统中定义决策 ..................................................................... 287
11.2.5 决策管理系统中的优化技术.............................................................................. 292
11.2.6 决策影响的评估 .................................................................................................. 294
11.2.7 监控决策 .............................................................................................................. 297
11.2.8 决策的持续改进 .................................................................................................. 298
11.2.9 构建和部署决策服务 .......................................................................................... 299
11.2.10 实施决策管理的一些要求................................................................................ 300
11.3 IBM ADM ....................................................................... 301
11.3.1 ADM 是SPSS 数据分析能力的窗口 ................................................................ 301
11.3.2 ADM 的着眼点是将数据分析结果转化为决策 ............................................... 302
11.3.3 ADM 是一个可以配置的决策服务平台 ........................................................... 303
11.3.4 ADM 的工作步骤 ............................................................................................... 306
11.4 本章小结 ................................................................................ 308
后记 为未来做好准备 ......................................................... 309
· · · · · · (收起)

读后感

评分

就是一本介绍SPSS操作的书,题目取得太大了。卖软件的,不太适合搞数据分析的人。比如想数据分析,但是不想弄懂那些模型具体内涵,可以试试SPSS。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...

评分

就是一本介绍SPSS操作的书,题目取得太大了。卖软件的,不太适合搞数据分析的人。比如想数据分析,但是不想弄懂那些模型具体内涵,可以试试SPSS。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...

评分

就是一本介绍SPSS操作的书,题目取得太大了。卖软件的,不太适合搞数据分析的人。比如想数据分析,但是不想弄懂那些模型具体内涵,可以试试SPSS。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...

评分

就是一本介绍SPSS操作的书,题目取得太大了。卖软件的,不太适合搞数据分析的人。比如想数据分析,但是不想弄懂那些模型具体内涵,可以试试SPSS。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...

评分

就是一本介绍SPSS操作的书,题目取得太大了。卖软件的,不太适合搞数据分析的人。比如想数据分析,但是不想弄懂那些模型具体内涵,可以试试SPSS。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。...

用户评价

评分

千万不要买错。。。这本书和外国出的数据之美很像。。这本书完全就是spss教程,不过讲的还行

评分

结合spss讲解的一本书。

评分

介绍了一个工具,随意看看还可以,走心就算了

评分

千万不要买错。。。这本书和外国出的数据之美很像。。这本书完全就是spss教程,不过讲的还行

评分

看推荐借来看的,实际真的是spss軟件的使用入門介紹,而且很多方法和數學方法菜鳥表示看不懂,強撐看完,受到了一萬點傷害~

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 book.wenda123.org All Rights Reserved. 图书目录大全 版权所有