特征工程入门与实践

特征工程入门与实践 pdf epub mobi txt 电子书 下载 2026

出版者:人民邮电出版社
作者:Sinan Ozdemir
出品人:
页数:210
译者:[中]庄嘉盛
出版时间:2019-5-27
价格:59.00元
装帧:平装
isbn号码:9787115511645
丛书系列:
图书标签:
  • 机器学习
  • 特征工程
  • 数据处理
  • 数据科学
  • 数据挖掘
  • 编程
  • 数据分析与机器学习
  • 数据分析
  • 特征工程
  • 机器学习
  • 数据挖掘
  • 数据分析
  • Python
  • Scikit-learn
  • 数据预处理
  • 特征选择
  • 模型优化
  • 算法实践
想要找书就要到 图书目录大全
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

特征工程是数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的特征,为进一步解释数据并进行预测性分析做准备。

本书囊括了特征工程的全流程,从数据检查到可视化,再到转换和进一步处理等,并给出了大量数学工具,帮助读者掌握如何将数据处理、转换成适当的形式,以便送入计算机和机器学习流水线中进行处理。后半部分的特征工程实践用Python作为示例语言,循序渐进,通俗易懂。

- 识别和利用不同类型的特征

- 清洗数据中的特征,提升预测能力

- 为何、如何进行特征选择和模型误差分析

- 利用领域知识构建新特征

- 基于数学知识交付特征

- 使用机器学习算法构建特征

- 掌握特征工程与特征优化

- 在现实应用中利用特征工程

深度学习模型优化:从理论到实战 作者: [此处留空,或填写其他作者] 出版社: [此处留空,或填写其他出版社] ISBN: [此处留空,或填写其他ISBN] --- 内容简介 本书旨在为读者提供一套系统而深入的深度学习模型优化策略与实践指南。在当前人工智能高速发展的背景下,模型性能的提升已不再仅仅依赖于庞大的数据集或更深的网络结构,而是越来越依赖于精细化的优化技巧和对底层机制的深刻理解。本书将聚焦于如何有效地调整、改进和部署深度学习模型,使其在特定任务上达到最佳表现。 本书涵盖的知识体系横跨模型构建、训练过程调优、正则化方法、超参数管理、以及模型部署前的性能评估与剪枝等多个关键环节。 我们避免了对基础概念的冗长阐述,而是直接深入到优化问题的核心,强调理论与实际操作的紧密结合。 第一部分:模型构建与初始化策略的优化 本部分着重探讨如何从零开始构建一个具有良好优化潜力的网络结构,并给出有效的权重初始化方法。 1.1 网络架构选择的艺术: 我们将分析不同深度学习模型(如CNN、RNN、Transformer等)在处理特定数据类型(图像、文本、序列)时的固有优势与局限性。重点讨论如何根据任务复杂度合理选择层级深度与宽度,避免过度参数化或欠拟合的风险。将详细介绍神经架构搜索(NAS)的简化思路,指导读者在有限资源下找到次优甚至最优的网络拓扑。 1.2 权重初始化与激活函数的精调: 权重初始化是模型收敛性的第一步。本书将详细对比 Xavier/Glorot、He 初始化等方法的数学原理,并针对特定激活函数(如ReLU、Leaky ReLU、Swish)提供最佳实践建议。同时,我们将深入探讨批标准化(Batch Normalization)的变体,如层标准化(Layer Normalization)和实例标准化(Instance Normalization)在不同场景下的适用性,及其对梯度流稳定性的影响。 1.3 损失函数的定制化设计: 标准的交叉熵或均方误差往往不足以应对复杂的现实问题。本章将教授读者如何设计和实现复合损失函数,例如,结合结构损失与内容损失的感知损失(Perceptual Loss)在生成任务中的应用,以及如何利用焦点损失(Focal Loss)解决极端类别不平衡问题。 第二部分:训练过程的动态优化与控制 模型训练是优化过程的核心战场。本部分关注如何通过精细化控制训练过程中的学习率调度、优化器选择和正则化强度,加速收敛并提升泛化能力。 2.1 优化器的高级应用: 除了基础的SGD,我们将深入分析 Adam、RMSProp 等自适应学习率优化器的内在机制和局限性。重点介绍二阶优化方法的近似应用,如K-FAC的简化思路,以及如何在内存受限的情况下有效地利用动量积累。 2.2 学习率调度策略的革新: 死板的固定学习率或简单的衰减策略已不能满足现代深度学习的需求。本书将详细介绍 余弦退火(Cosine Annealing)、带热重启(Warm Restarts)的学习率策略,并提供通过实验验证这些策略优于传统方法的案例分析。讨论如何根据训练损失曲线的形态动态调整学习率。 2.3 正则化技术的深入探索: 正则化不仅仅是L1/L2惩罚和Dropout。我们将探讨更前沿的技术,包括标签平滑(Label Smoothing)如何改善模型过度自信的问题,随机深度(Stochastic Depth)在超深网络中的应用,以及如何通过数据增强(如Mixup, CutMix)的内在正则化效应来提升鲁棒性。 第三部分:后训练优化与模型压缩 模型训练完成后,如何使其在实际部署环境中高效运行是另一个关键挑战。本部分侧重于模型压缩、量化与推理优化。 3.1 模型剪枝(Pruning)的艺术: 我们将区分结构化剪枝与非结构化剪枝,并详细介绍基于敏感度分析和幅度(Magnitude-based)的剪枝算法。重点是如何在保证精度损失最小的前提下,实现稀疏化,并讨论如何利用特定硬件(如GPU张量核心)的特性来加速稀疏矩阵计算。 3.2 知识蒸馏(Knowledge Distillation): 知识蒸馏是一种高效的压缩技术,通过“教师-学生”网络架构来迁移知识。本书将对比 Logit-based 和 Feature-based 蒸馏方法的优劣,并提供如何针对特定领域(如自然语言处理)定制蒸馏损失函数的实战指导。 3.3 低精度量化的挑战与实践: 从FP32到INT8的迁移是边缘设备部署的关键。我们将深入解析训练后量化(Post-Training Quantization, PTQ)与量化感知训练(Quantization-Aware Training, QAT)的工作流程,讨论校准集(Calibration Set)的选择对量化精度的决定性影响,并提供在主流框架(如TensorFlow Lite, ONNX Runtime)中实现高性能量化的具体步骤。 第四部分:超参数管理与实验自动化 优化过程的效率高度依赖于对超参数的系统管理和自动化搜索。 4.1 自动化超参数优化: 摒弃低效的手动网格搜索。本书将介绍 贝叶斯优化(Bayesian Optimization) 和 Hyperband/BOHB 等先进的搜索算法,指导读者如何构建一个能够自我学习和调整搜索空间的优化循环,从而快速定位最优的超参数组合。 4.2 可复现性与实验追踪: 在复杂优化实验中,确保结果可复现至关重要。我们将介绍如何利用 MLflow 或 Weights & Biases 等工具来系统地记录每一次实验的配置、性能指标和模型快照,建立一个健壮的实验追踪系统。 --- 目标读者: 具有一定Python和机器学习基础,希望深入理解深度学习模型优化底层原理,并能将其应用于提升实际项目性能的工程师、研究人员和高级数据科学家。本书将是您从“会用”到“精通”深度学习优化的重要桥梁。

作者简介

锡南·厄兹代米尔(Sinan Ozdemir)

数据科学家、数学家、约翰·霍普金斯大学讲师,Kylie.ai公司联合创始人、CTO,在应用数据挖掘、功能分析和算法开发做出基于数据和知识的决策方面拥有丰富的经验。

迪夫娅·苏萨拉(Divya Susarla)

在利用数据方面经验丰富,在包括投资管理、社会企业咨询和红酒营销的各个产业和领域里实现并应用过相应的策略。Kylie.ai公司产品经理,目前专注于自然语言处理和生成技术。

目录信息

第 1章 特征工程简介  1
1.1 激动人心的例子:AI驱动的聊天 1
1.2 特征工程的重要性 2
1.3 特征工程是什么 5
1.4 机器学习算法和特征工程的评估 9
1.4.1 特征工程的例子:真的有人能预测天气吗 10
1.4.2 特征工程的评估步骤 10
1.4.3 评估监督学习算法 11
1.4.4 评估无监督学习算法 11
1.5 特征理解:我的数据集里有什么 12
1.6 特征增强:清洗数据 13
1.7 特征选择:对坏属性说不 14
1.8 特征构建:能生成新特征吗 14
1.9 特征转换:数学显神通 15
1.10 特征学习:以AI促AI 16
1.11 小结 17
第 2章 特征理解:我的数据集里有什么 19
2.1 数据结构的有无 19
2.2 定量数据和定性数据 20
2.3 数据的4个等级 25
2.3.1 定类等级 26
2.3.2 定序等级 27
2.3.3 定距等级 30
2.3.4 定比等级 36
2.4 数据等级总结 38
2.5 小结 40
第3章 特征增强:清洗数据 41
3.1 识别数据中的缺失值 41
3.1.1 皮马印第安人糖尿病预测数据集 42
3.1.2 探索性数据分析 42
3.2 处理数据集中的缺失值 48
3.2.1 删除有害的行 50
3.2.2 填充缺失值 54
3.2.3 在机器学习流水线中填充值 57
3.3 标准化和归一化 61
3.3.1 z分数标准化 63
3.3.2 min-max标准化 67
3.3.3 行归一化 68
3.3.4 整合起来 69
3.4 小结 70
第4章 特征构建:我能生成新特征吗 71
4.2 填充分类特征 72
4.2.1 自定义填充器 74
4.2.2 自定义分类填充器 74
4.2.3 自定义定量填充器 76
4.3 编码分类变量 77
4.3.1 定类等级的编码 77
4.3.2 定序等级的编码 79
4.3.3 将连续特征分箱 80
4.3.4 创建流水线 82
4.4 扩展数值特征 83
4.4.1 根据胸部加速度计识别动作的数据集 83
4.4.2 多项式特征 86
4.5 针对文本的特征构建 89
4.5.1 词袋法 89
4.5.2 CountVectorizer 90
4.5.3 TF-IDF向量化器 94
4.5.4 在机器学习流水线中使用文本 95
4.6 小结 97
第5章 特征选择:对坏属性说不 98
5.1 在特征工程中实现更好的性能 99
5.2 创建基准机器学习流水线 103
5.3 特征选择的类型 106
5.3.1 基于统计的特征选择 106
5.3.2 基于模型的特征选择 117
5.4 选用正确的特征选择方法 125
5.5 小结 125
第6章 特征转换:数学显神通 127
6.1 维度缩减:特征转换、特征选择与特征构建 129
6.2 主成分分析 130
6.2.1 PCA的工作原理 131
6.2.2 鸢尾花数据集的PCA——手动处理 131
6.2.3 scikit-learn的PCA 137
6.2.4 中心化和缩放对PCA的影响 144
6.3 线性判别分析 148
6.3.1 LDA的工作原理 149
6.3.2 在scikit-learn中使用LDA 152
6.4 LDA与PCA:使用鸢尾花数据集 157
6.5 小结 160
第7章 特征学习:以AI促AI 161
7.1 数据的参数假设 161
7.1.1 非参数谬误 163
7.1.2 本章的算法 163
7.2 受限玻尔兹曼机 163
7.2.1 不一定降维 164
7.2.2 受限玻尔兹曼机的图 164
7.2.3 玻尔兹曼机的限制 166
7.2.4 数据重建 166
7.2.5 MNIST数据集 167
7.3 伯努利受限玻尔兹曼机 169
7.3.1 从MNIST中提取PCA主成分 170
7.3.2 从MNIST中提取RBM特征 177
7.4.1 对原始像素值应用线性模型 178
7.4.3 对提取的RBM特征应用线性模型 179
7.5 学习文本特征:词向量 180
7.5.1 词嵌入 180
7.5.2 两种词嵌入方法:Word2vec和GloVe 182
7.5.3 Word2vec:另一个浅层神经网络 182
7.5.4 创建Word2vec词嵌入的gensim包 183
7.5.5 词嵌入的应用:信息检索 186
7.6 小结 190
第8章 案例分析 191
8.1 案例1:面部识别 191
8.1.1 面部识别的应用 191
8.1.2 数据 192
8.1.3 数据探索 193
8.1.4 应用面部识别 195
8.2 案例2:预测酒店评论数据的主题 200
8.2.1 文本聚类的应用 200
8.2.2 酒店评论数据 200
8.2.3 数据探索 201
8.2.4 聚类模型 203
8.2.5 SVD与PCA主成分 204
8.2.6 潜在语义分析 206
8.3 小结 210
· · · · · · (收起)

读后感

评分

特征工程入门与实践 瑕不掩瑜,讲述特征工程的少有的入门好书,从最基本的特征选择到特征转换都有通俗易懂的讲解与例子展示。对流水线加深了一些理解,更好的规范整个特征工程流程。 配合github上的相应项目食用效果更佳。 这个Packt组织的项目真多呀,机器学习,深度学习,强...

评分

特征工程入门与实践 瑕不掩瑜,讲述特征工程的少有的入门好书,从最基本的特征选择到特征转换都有通俗易懂的讲解与例子展示。对流水线加深了一些理解,更好的规范整个特征工程流程。 配合github上的相应项目食用效果更佳。 这个Packt组织的项目真多呀,机器学习,深度学习,强...

评分

特征工程入门与实践 瑕不掩瑜,讲述特征工程的少有的入门好书,从最基本的特征选择到特征转换都有通俗易懂的讲解与例子展示。对流水线加深了一些理解,更好的规范整个特征工程流程。 配合github上的相应项目食用效果更佳。 这个Packt组织的项目真多呀,机器学习,深度学习,强...

评分

特征工程入门与实践 瑕不掩瑜,讲述特征工程的少有的入门好书,从最基本的特征选择到特征转换都有通俗易懂的讲解与例子展示。对流水线加深了一些理解,更好的规范整个特征工程流程。 配合github上的相应项目食用效果更佳。 这个Packt组织的项目真多呀,机器学习,深度学习,强...

评分

特征工程入门与实践 瑕不掩瑜,讲述特征工程的少有的入门好书,从最基本的特征选择到特征转换都有通俗易懂的讲解与例子展示。对流水线加深了一些理解,更好的规范整个特征工程流程。 配合github上的相应项目食用效果更佳。 这个Packt组织的项目真多呀,机器学习,深度学习,强...

用户评价

评分

智商税

评分

讲解习题,注释教详细,对新手很友好

评分

写的比较基础啦

评分

填补此类书籍空白,深入浅出,佳作

评分

不错的入门书与相应的资料.

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 book.wenda123.org All Rights Reserved. 图书目录大全 版权所有