神经网络与深度学习 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:

作者:邱锡鹏

出品人:

页数:444

译者:

出版时间:2019-4-12

价格:0

装帧:平装

isbn号码:9787631715855

丛书系列:

图书标签:

深度学习
神经网络
机器学习
DeepLearning
计算机
计算机科学
MachineLearning
自然语言处理
神经网络
深度学习
人工智能
机器学习
算法
编程
数据科学
神经科学
模型
训练

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书目录大全

book.wenda123.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

复旦大学邱锡鹏老师在 Github 上开放的深度学习书籍

https://nndl.github.io/

https://github.com/nndl/nndl.github.io

《万物互联：数字世界的崛起与未来》简介：我们正身处一个由数据洪流驱动的时代，数字技术以前所未有的速度渗透到我们生活的每一个角落。从智能家居的便捷操控，到全球物流的精准调度；从社交媒体的瞬息万变，到金融市场的实时脉动，一切都围绕着“连接”展开。本书《万物互联：数字世界的崛起与未来》将带您深入探究这个正在发生的革命，解析数字世界的核心驱动力，并勾勒其激动人心的未来图景。第一章：数字时代的黎明本章将回溯数字技术的萌芽与发展历程。我们将审视计算机科学的奠基性成就，探讨信息论的出现如何为信息传递和处理奠定理论基础。从早期的大型计算机到个人电脑的普及，再到互联网的诞生，我们将梳理出一条清晰的技术演进脉络。这一章节将强调，是无数科学家、工程师和思想家的不懈努力，才将我们带入了如今这个信息爆炸的时代。我们将深入了解早期互联网的架构，以及它如何从一个研究项目演变成连接全球的通信网络。同时，我们也将简要提及早期操作系统和编程语言的发展，为理解后续的复杂系统打下基础。第二章：连接的基石：网络与通信强大的网络是万物互联的基础。本章将详细介绍构成数字世界的网络基础设施，包括但不限于互联网的运作原理、TCP/IP协议栈的工作机制，以及各种无线通信技术（如Wi-Fi、蓝牙、蜂窝网络）的发展和应用。我们将深入剖析数据如何在这些网络中高效、可靠地传输，探讨网络安全的重要性，以及如何应对日益增长的网络威胁。本章还将触及一些新兴的网络技术，如5G和未来的6G，它们将为更广泛、更快速的连接提供可能。我们将分析这些技术如何影响物联网、自动驾驶和远程医疗等领域的发展。第三章：数据的海洋：收集、存储与管理数据是数字世界的血液。本章将聚焦于数据的产生、收集、存储和管理。我们将探讨各种数据源，从传感器、用户交互到科学实验，以及如何有效地采集海量数据。随后，我们将深入研究不同类型的数据存储解决方案，包括关系型数据库、NoSQL数据库以及云存储技术，并分析它们的优缺点和适用场景。数据治理、数据清洗和数据质量管理的重要性也将得到强调，因为只有高质量的数据才能支撑起可靠的决策和应用。本章还将介绍一些数据管理工具和技术，帮助读者理解如何构建和维护一个高效的数据生态系统。第四章：智能的涌现：从数据到洞察海量数据本身并不能创造价值，关键在于从中提取有价值的洞察。本章将探讨数据分析和信息提取的技术。我们将介绍统计学方法、数据可视化技术，以及更高级的数据挖掘和模式识别技术。读者将了解如何通过分析数据来发现趋势、预测未来，并为业务决策提供支持。本章将避免深入探讨特定的算法模型，而是着重于数据分析的通用方法论和其在实际应用中的价值体现。我们将强调数据分析在商业智能、市场研究、科学发现等领域的关键作用。第五章：互联的生态：物联网与智能设备物联网（IoT）是万物互联最直接的体现。本章将深入探讨物联网的构成，包括嵌入式系统、传感器、连接技术以及云平台。我们将分析智能家居、智慧城市、工业物联网等典型应用场景，以及它们如何通过互联设备提升效率、改善生活。本章还将讨论物联网面临的挑战，如安全、隐私和标准化问题，以及这些挑战如何推动相关技术的进步。我们将深入分析不同物联网平台的优势，以及如何构建一个开放、可扩展的物联网生态系统。第六章：数字孪生与模拟世界随着计算能力的提升和数据收集的普及，构建现实世界的数字复制品——数字孪生——变得越来越可行。本章将介绍数字孪生的概念，探讨其在工业制造、城市规划、医疗健康等领域的应用。我们将分析如何利用传感器数据、历史数据以及模拟模型来创建和更新数字孪生，以及它们如何帮助我们进行预测性维护、优化运营和进行虚拟测试。本章还将探讨数字孪生与人工智能的结合，将如何进一步释放其潜力。第七章：未来展望：挑战与机遇万物互联的时代带来了前所未有的机遇，但也伴随着巨大的挑战。本章将对未来进行展望，探讨数字世界可能的发展趋势，包括人工智能的进一步融入、边缘计算的崛起、以及数据隐私和安全面临的新课题。我们将审视技术进步对社会、经济和伦理带来的影响，并思考我们如何负责任地构建和利用这个数字世界。本章将鼓励读者以批判性的思维看待技术发展，积极参与到塑造数字未来的讨论中。我们将讨论数据主权、数字鸿沟以及技术伦理等重要议题。《万物互联：数字世界的崛起与未来》旨在为读者提供一个全面而深刻的视角，帮助理解这个由连接驱动的数字时代的运作机制、发展脉络以及未来的无限可能。无论您是技术爱好者、商业决策者，还是对未来充满好奇的普通读者，本书都将为您打开一扇探索数字世界的大门。

作者简介

目录信息

前言 1
第一部分入门篇 3
第 1 章绪论 5
1.1 人工智能 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1 人工智能的发展历史 . . . . . . . . . . . . . . . . . . . . 7
1.1.2 人工智能的流派 . . . . . . . . . . . . . . . . . . . . . . 9
1.2 神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 大脑神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 人工神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3 神经网络的发展历史 . . . . . . . . . . . . . . . . . . . . 12
1.3 机器学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 表示学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.1 局部表示和分布式表示 . . . . . . . . . . . . . . . . . . . 15
1.4.2 表示学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5 深度学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5.1 端到端学习 . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.2 常用的深度学习框架 . . . . . . . . . . . . . . . . . . . . 19
1.6 本书的组织结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
第 2 章机器学习概述 25
2.1 基本概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 机器学习的三个基本要素 . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 学习准则 . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.3 优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3 机器学习的简单示例：线性回归 . . . . . . . . . . . . . . . . . . 36
2.3.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4 偏差-方差分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5 机器学习算法的类型 . . . . . . . . . . . . . . . . . . . . . . . . 44
2.6 数据的特征表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6.1 传统的特征学习 . . . . . . . . . . . . . . . . . . . . . . 47
2.6.2 深度学习方法 . . . . . . . . . . . . . . . . . . . . . . . . 48
2.7 评价指标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.8 理论和定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.8.1 PAC学习理论 . . . . . . . . . . . . . . . . . . . . . . . . 51
2.8.2 没有免费午餐定理 . . . . . . . . . . . . . . . . . . . . . 52
2.8.3 丑小鸭定理 . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.8.4 奥卡姆剃刀 . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.8.5 归纳偏置 . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.9 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
第 3 章线性模型 57
3.1 线性判别函数和决策边界 . . . . . . . . . . . . . . . . . . . . . 58
3.1.1 两类分类 . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.2 多类分类 . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2 Logistic回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3 Softmax回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4 感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.2 感知器的收敛性 . . . . . . . . . . . . . . . . . . . . . . 67
3.4.3 参数平均感知器 . . . . . . . . . . . . . . . . . . . . . . 69
3.4.4 扩展到多类分类 . . . . . . . . . . . . . . . . . . . . . . 70
3.5 支持向量机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.5.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.5.2 核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.5.3 软间隔 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.6 损失函数对比 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
第二部分基础模型 83
第 4 章前馈神经网络 85
4.1 神经元 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.1.1 Sigmoid型激活函数 . . . . . . . . . . . . . . . . . . . . 87
4.1.2 修正线性单元 . . . . . . . . . . . . . . . . . . . . . . . . 90
4.1.3 Swish函数 . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.1.4 Maxout单元 . . . . . . . . . . . . . . . . . . . . . . . . 93
4.2 网络结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2.1 前馈网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2.2 反馈网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2.3 图网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.3 前馈神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.3.1 通用近似定理 . . . . . . . . . . . . . . . . . . . . . . . . 97
4.3.2 应用到机器学习 . . . . . . . . . . . . . . . . . . . . . . 98
4.3.3 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.4 反向传播算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.5 自动梯度计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.5.1 数值微分 . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.5.2 符号微分 . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.5.3 自动微分 . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.6 优化问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.6.1 非凸优化问题 . . . . . . . . . . . . . . . . . . . . . . . . 107
4.6.2 梯度消失问题 . . . . . . . . . . . . . . . . . . . . . . . . 107
4.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
第 5 章卷积神经网络 113
5.1 卷积 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.1.1 互相关 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.1.2 卷积的变种 . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.1.3 卷积的数学性质 . . . . . . . . . . . . . . . . . . . . . . 118
5.2 卷积神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.2.1 用卷积来代替全连接 . . . . . . . . . . . . . . . . . . . . 119
5.2.2 卷积层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.2.3 汇聚层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.2.4 典型的卷积网络结构 . . . . . . . . . . . . . . . . . . . . 123
5.3 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.3.1 误差项的计算 . . . . . . . . . . . . . . . . . . . . . . . . 125
5.4 几种典型的卷积神经网络 . . . . . . . . . . . . . . . . . . . . . 126
5.4.1 LeNet-5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.4.2 AlexNet . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.4.3 Inception网络 . . . . . . . . . . . . . . . . . . . . . . . 129
5.4.4 残差网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.5 其它卷积方式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.5.1 转置卷积 . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.5.2 空洞卷积 . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.6 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
第 6 章循环神经网络 139
6.1 给网络增加记忆能力 . . . . . . . . . . . . . . . . . . . . . . . . 140
6.1.1 延时神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 140
6.1.2 有外部输入的非线性自回归模型 . . . . . . . . . . . . . 140
6.1.3 循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 141
6.2 简单循环网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
6.2.1 循环神经网络的计算能力 . . . . . . . . . . . . . . . . . 142
6.3 应用到机器学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.3.1 序列到类别模式 . . . . . . . . . . . . . . . . . . . . . . 144
6.3.2 同步的序列到序列模式 . . . . . . . . . . . . . . . . . . . 145
6.3.3 异步的序列到序列模式 . . . . . . . . . . . . . . . . . . . 145
6.4 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
6.4.1 随时间反向传播算法 . . . . . . . . . . . . . . . . . . . . 147
6.4.2 实时循环学习算法 . . . . . . . . . . . . . . . . . . . . . 148
6.5 长期依赖问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.5.1 改进方案 . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.6 基于门控的循环神经网络 . . . . . . . . . . . . . . . . . . . . . 151
6.6.1 长短期记忆网络 . . . . . . . . . . . . . . . . . . . . . . 151
6.6.2 LSTM网络的各种变体 . . . . . . . . . . . . . . . . . . . 154
6.6.3 门控循环单元网络 . . . . . . . . . . . . . . . . . . . . . 154
6.7 深层循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.7.1 堆叠循环神经网络 . . . . . . . . . . . . . . . . . . . . . 156
6.7.2 双向循环神经网络 . . . . . . . . . . . . . . . . . . . . . 157
6.8 扩展到图结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.8.1 递归神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 158
6.8.2 图网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
6.9 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
第 7 章网络优化与正则化 165
7.1 网络优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.1.1 网络优化的难点 . . . . . . . . . . . . . . . . . . . . . . 165
7.2 优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.2.1 小批量梯度下降 . . . . . . . . . . . . . . . . . . . . . . 167
7.2.2 学习率衰减 . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.2.3 梯度方向优化 . . . . . . . . . . . . . . . . . . . . . . . . 171
7.2.4 优化算法小结 . . . . . . . . . . . . . . . . . . . . . . . . 174
7.3 参数初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
7.4 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
7.5 逐层归一化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
7.5.1 批量归一化 . . . . . . . . . . . . . . . . . . . . . . . . . 180
7.5.2 层归一化 . . . . . . . . . . . . . . . . . . . . . . . . . . 182
7.5.3 其它归一化方法 . . . . . . . . . . . . . . . . . . . . . . 183
7.6 超参数优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
7.6.1 网格搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . 185
7.6.2 随机搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . 185
7.6.3 贝叶斯优化 . . . . . . . . . . . . . . . . . . . . . . . . . 185
7.6.4 动态资源分配 . . . . . . . . . . . . . . . . . . . . . . . . 186
7.7 网络正则化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
7.7.1 ℓ1 和ℓ2 正则化 . . . . . . . . . . . . . . . . . . . . . . . . 188
7.7.2 权重衰减 . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.7.3 提前停止 . . . . . . . . . . . . . . . . . . . . . . . . . . 189
7.7.4 丢弃法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
7.7.5 数据增强 . . . . . . . . . . . . . . . . . . . . . . . . . . 192
7.7.6 标签平滑 . . . . . . . . . . . . . . . . . . . . . . . . . . 193
7.8 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
第 8 章注意力机制与外部记忆 199
8.1 注意力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
8.1.1 认知神经学中的注意力 . . . . . . . . . . . . . . . . . . . 200
8.1.2 人工神经网络中的注意力机制 . . . . . . . . . . . . . . . 201
8.1.3 注意力机制的变体 . . . . . . . . . . . . . . . . . . . . . 202
8.2 注意力机制的应用 . . . . . . . . . . . . . . . . . . . . . . . . . 204
8.2.1 指针网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 204
8.2.2 自注意力模型 . . . . . . . . . . . . . . . . . . . . . . . . 205
8.3 外部记忆 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
8.3.1 人脑中的记忆 . . . . . . . . . . . . . . . . . . . . . . . . 207
8.3.2 结构化的外部记忆 . . . . . . . . . . . . . . . . . . . . . 208
8.3.3 典型的记忆网络 . . . . . . . . . . . . . . . . . . . . . . 210
8.3.4 基于神经动力学的联想记忆 . . . . . . . . . . . . . . . . 213
8.4 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
第 9 章无监督学习 219
9.1 无监督特征学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
9.1.1 主成分分析 . . . . . . . . . . . . . . . . . . . . . . . . . 220
9.1.2 稀疏编码 . . . . . . . . . . . . . . . . . . . . . . . . . . 222
9.1.3 自编码器 . . . . . . . . . . . . . . . . . . . . . . . . . . 224
9.1.4 稀疏自编码器 . . . . . . . . . . . . . . . . . . . . . . . . 225
9.1.5 堆叠自编码器 . . . . . . . . . . . . . . . . . . . . . . . . 226
9.1.6 降噪自编码器 . . . . . . . . . . . . . . . . . . . . . . . . 226
9.2 概率密度估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
9.2.1 参数密度估计 . . . . . . . . . . . . . . . . . . . . . . . . 227
9.2.2 非参数密度估计 . . . . . . . . . . . . . . . . . . . . . . 229
9.3 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
第 10 章模型独立的学习方式 235
10.1 集成学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
10.1.1 AdaBoost算法 . . . . . . . . . . . . . . . . . . . . . . . 237
10.2 自训练和协同训练 . . . . . . . . . . . . . . . . . . . . . . . . . 239
10.2.1 自训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
10.2.2 协同训练 . . . . . . . . . . . . . . . . . . . . . . . . . . 240
10.3 多任务学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
10.4 迁移学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
10.5 终生学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
10.6 元学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
10.6.1 基于优化器的元学习 . . . . . . . . . . . . . . . . . . . . 252
10.6.2 模型无关的元学习 . . . . . . . . . . . . . . . . . . . . . 254
10.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
第三部分进阶模型 259
第 11 章概率图模型 261
11.1 模型表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
11.1.1 有向图模型 . . . . . . . . . . . . . . . . . . . . . . . . . 263
11.1.2 常见的有向图模型 . . . . . . . . . . . . . . . . . . . . . 265
11.1.3 无向图模型 . . . . . . . . . . . . . . . . . . . . . . . . . 267
11.1.4 无向图模型的概率分解 . . . . . . . . . . . . . . . . . . . 268
11.1.5 常见的无向图模型 . . . . . . . . . . . . . . . . . . . . . 269
11.1.6 有向图和无向图之间的转换 . . . . . . . . . . . . . . . . 270
11.2 推断 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
11.2.1 变量消除法 . . . . . . . . . . . . . . . . . . . . . . . . . 271
11.2.2 信念传播算法 . . . . . . . . . . . . . . . . . . . . . . . . 272
11.3 近似推断 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
11.3.1 蒙特卡罗方法 . . . . . . . . . . . . . . . . . . . . . . . . 275
11.3.2 拒绝采样 . . . . . . . . . . . . . . . . . . . . . . . . . . 276
11.3.3 重要性采样 . . . . . . . . . . . . . . . . . . . . . . . . . 277
11.3.4 马尔可夫链蒙特卡罗方法 . . . . . . . . . . . . . . . . . 278
11.4 学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
11.4.1 不含隐变量的参数估计 . . . . . . . . . . . . . . . . . . . 282
11.4.2 含隐变量的参数估计 . . . . . . . . . . . . . . . . . . . . 284
11.5 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
第 12 章深度信念网络 293
12.1 玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
12.1.1 生成模型 . . . . . . . . . . . . . . . . . . . . . . . . . . 295
12.1.2 能量最小化与模拟退火 . . . . . . . . . . . . . . . . . . . 297
12.1.3 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 298
12.2 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
12.2.1 生成模型 . . . . . . . . . . . . . . . . . . . . . . . . . . 301
12.2.2 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 304
12.2.3 受限玻尔兹曼机的类型 . . . . . . . . . . . . . . . . . . . 305
12.3 深度信念网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
12.3.1 生成模型 . . . . . . . . . . . . . . . . . . . . . . . . . . 307
12.3.2 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 307
12.4 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
第 13 章深度生成模型 315
13.1 概率生成模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
13.1.1 密度估计 . . . . . . . . . . . . . . . . . . . . . . . . . . 316
13.1.2 生成样本 . . . . . . . . . . . . . . . . . . . . . . . . . . 316
13.2 变分自编码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
13.2.1 含隐变量的生成模型 . . . . . . . . . . . . . . . . . . . . 317
13.2.2 推断网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 319
13.2.3 生成网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 320
13.2.4 模型汇总 . . . . . . . . . . . . . . . . . . . . . . . . . . 321
13.2.5 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
13.3 生成对抗网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
13.3.1 显式密度模型和隐式密度模型 . . . . . . . . . . . . . . . 324
13.3.2 网络分解 . . . . . . . . . . . . . . . . . . . . . . . . . . 325
13.3.3 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
13.3.4 一个生成对抗网络的具体实现：DCGAN . . . . . . . . . 326
13.3.5 模型分析 . . . . . . . . . . . . . . . . . . . . . . . . . . 327
13.3.6 改进模型 . . . . . . . . . . . . . . . . . . . . . . . . . . 330
13.4 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
第 14 章深度强化学习 335
14.1 强化学习问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
14.1.1 典型例子 . . . . . . . . . . . . . . . . . . . . . . . . . . 336
14.1.2 强化学习定义 . . . . . . . . . . . . . . . . . . . . . . . . 336
14.1.3 马尔可夫决策过程 . . . . . . . . . . . . . . . . . . . . . 337
14.1.4 强化学习的目标函数 . . . . . . . . . . . . . . . . . . . . 339
14.1.5 值函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
14.1.6 深度强化学习 . . . . . . . . . . . . . . . . . . . . . . . . 341
14.2 基于值函数的学习方法 . . . . . . . . . . . . . . . . . . . . . . . 342
14.2.1 动态规划算法 . . . . . . . . . . . . . . . . . . . . . . . . 342
14.2.2 蒙特卡罗方法 . . . . . . . . . . . . . . . . . . . . . . . . 345
14.2.3 时序差分学习方法 . . . . . . . . . . . . . . . . . . . . . 346
14.2.4 深度Q网络 . . . . . . . . . . . . . . . . . . . . . . . . . 349
14.3 基于策略函数的学习方法 . . . . . . . . . . . . . . . . . . . . . 351
14.3.1 REINFORCE算法 . . . . . . . . . . . . . . . . . . . . . 352
14.3.2 带基准线的REINFORCE算法 . . . . . . . . . . . . . . 353
14.4 Actor-Critic算法 . . . . . . . . . . . . . . . . . . . . . . . . . . 354
14.5 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
第 15 章序列生成模型 361
15.1 序列概率模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
15.1.1 序列生成 . . . . . . . . . . . . . . . . . . . . . . . . . . 362
15.2 N元统计模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364
15.3 深度序列模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
15.3.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 369
15.4 评价方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
15.4.1 困惑度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369
15.4.2 BLEU . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
15.4.3 ROUGE . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
15.5 序列生成模型中的学习问题 . . . . . . . . . . . . . . . . . . . . 372
15.5.1 曝光偏差问题 . . . . . . . . . . . . . . . . . . . . . . . . 372
15.5.2 训练目标不一致问题 . . . . . . . . . . . . . . . . . . . . 373
15.5.3 计算效率问题 . . . . . . . . . . . . . . . . . . . . . . . . 373
15.6 序列到序列模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
15.6.1 基于循环神经网络的序列到序列模型 . . . . . . . . . . . 382
15.6.2 基于注意力的序列到序列模型 . . . . . . . . . . . . . . . 383
15.6.3 基于自注意力的序列到序列模型 . . . . . . . . . . . . . 383
15.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
附录 A 线性代数 389
A.1 向量和向量空间 . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
A.1.1 向量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
A.1.2 向量空间 . . . . . . . . . . . . . . . . . . . . . . . . . . 389
A.1.3 范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
A.1.4 常见的向量 . . . . . . . . . . . . . . . . . . . . . . . . . 392
A.2 矩阵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
A.2.1 线性映射 . . . . . . . . . . . . . . . . . . . . . . . . . . 392
A.2.2 矩阵操作 . . . . . . . . . . . . . . . . . . . . . . . . . . 393
A.2.3 矩阵类型 . . . . . . . . . . . . . . . . . . . . . . . . . . 394
A.2.4 特征值与特征矢量 . . . . . . . . . . . . . . . . . . . . . 396
A.2.5 矩阵分解 . . . . . . . . . . . . . . . . . . . . . . . . . . 396
附录 B 微积分 397
B.1 导数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
B.1.1 导数法则 . . . . . . . . . . . . . . . . . . . . . . . . . . 399
B.2 常见函数的导数 . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
B.2.1 向量函数及其导数 . . . . . . . . . . . . . . . . . . . . . 400
B.2.2 按位计算的向量函数及其导数 . . . . . . . . . . . . . . . 400
B.2.3 Logistic函数 . . . . . . . . . . . . . . . . . . . . . . . . 400
B.2.4 softmax函数 . . . . . . . . . . . . . . . . . . . . . . . . 401
附录 C 数学优化 403
C.1 数学优化的类型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
C.1.1 离散优化和连续优化 . . . . . . . . . . . . . . . . . . . . 403
C.1.2 无约束优化和约束优化 . . . . . . . . . . . . . . . . . . . 404
C.1.3 线性优化和非线性优化 . . . . . . . . . . . . . . . . . . . 404
C.2 优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
C.3 拉格朗日乘数法与KKT条件 . . . . . . . . . . . . . . . . . . . 407
C.3.1 等式约束优化问题 . . . . . . . . . . . . . . . . . . . . . 408
C.3.2 不等式约束优化问题 . . . . . . . . . . . . . . . . . . . . 408
附录 D 概率论 410
D.1 样本空间 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
D.2 事件和概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
D.2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . 411
D.2.2 随机向量 . . . . . . . . . . . . . . . . . . . . . . . . . . 415
D.2.3 边际分布 . . . . . . . . . . . . . . . . . . . . . . . . . . 416
D.2.4 条件概率分布 . . . . . . . . . . . . . . . . . . . . . . . . 417
D.2.5 独立与条件独立 . . . . . . . . . . . . . . . . . . . . . . 418
D.2.6 期望和方差 . . . . . . . . . . . . . . . . . . . . . . . . . 418
D.3 随机过程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
D.3.1 马尔可夫过程 . . . . . . . . . . . . . . . . . . . . . . . . 420
D.3.2 高斯过程 . . . . . . . . . . . . . . . . . . . . . . . . . . 421
附录 E 信息论 423
E.1 熵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
E.1.1 自信息和熵 . . . . . . . . . . . . . . . . . . . . . . . . . 423
E.1.2 联合熵和条件熵 . . . . . . . . . . . . . . . . . . . . . . 424
E.2 互信息 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
E.3 交叉熵和散度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
E.3.1 交叉熵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
E.3.2 KL散度 . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
E.3.3 JS散度 . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
E.3.4 Wasserstein距离 . . . . . . . . . . . . . . . . . . . . . . 426
· · · · · · (收起)

读后感

评分☆☆☆☆☆

扫码关注公众号「图灵的猫」，点击“学习资料”菜单，可以获得海量python、机器学习、深度学习书籍、课程资源，以及书中对应习题答案和代码。后台回复SSR更有机场节点相送~ 入门避坑指南自学三年，基本无人带路，转专业的我自然是难上加难，踩过无数坑，走过很多弯路。这里我...

评分☆☆☆☆☆

比花书内容多一些，深度比不上prml等圣经级书籍，行文不太连贯，有博文拼凑之感，或者说只是一本讲义而非适合自学的参考书，没有一气呵成的感觉，应用部分也不多，对于初学者难度大了些，对于老手用处又不大。希望纸质书印制时可以优化一下，斟酌一下行文，同时增加一些习题，...

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

作为一名对自然语言处理（NLP）领域充满热情的学生，我一直寻求一本能够深入讲解NLP中深度学习方法的书籍。这本书的出现，让我眼前一亮。我迫切希望书中能对RNN、LSTM、GRU等用于处理序列数据的模型有详尽的讲解，并能清晰地解释它们如何有效地捕捉语言的上下文信息。更重要的是，我非常期待书中能够详细介绍Transformer模型及其自注意力机制，因为这无疑是当前NLP领域最核心、最具革命性的技术之一。我希望书中能深入剖析其架构设计、优势所在，以及如何将其应用于机器翻译、文本摘要、情感分析等具体任务。如果书中还能探讨预训练语言模型（如BERT、GPT系列）的原理和应用，那将是锦上添花。

评分☆☆☆☆☆

初次翻开这本书，就被它厚重的篇幅和扎实的排版吸引了。书名《神经网络与深度学习》直指核心，预示着这是一本内容详实、理论深邃的作品。我尤其期待书中能对各种经典神经网络模型，如卷积神经网络（CNN）、循环神经网络（RNN）以及更前沿的Transformer等，进行深入的剖析。我希望看到它们是如何从数学原理出发，一步步构建起来的，并且能够清晰地阐述它们各自的优势、局限性以及适用的场景。此外，对于激活函数、损失函数、优化算法等基础但至关重要的概念，我期望书中能提供详尽的解释，并辅以易于理解的图示和数学推导。一本好的教材，不仅要讲解“是什么”，更要解释“为什么”以及“如何做”。我希望这本书能够满足我对这些方面的期待，成为我深入理解神经网络和深度学习领域的坚实基石。

评分☆☆☆☆☆

我是一名对人工智能的理论基础和数学原理有着浓厚兴趣的研究者，一直希望找到一本能够提供严谨、系统化讲解的深度学习著作。这本书的标题《神经网络与深度学习》恰好符合我的需求。我期待书中能够从数学的视角，深入浅出地阐述神经网络的构建基础，包括线性代数、微积分、概率论等在其中的应用。对于反向传播算法的推导，我希望能够看到清晰的数学步骤和易于理解的解释。此外，对于各种正则化技术（如L1、L2正则化、Dropout）、批量归一化（Batch Normalization）等提升模型泛化能力和训练稳定性的方法，我希望书中能提供深入的理论分析和数学证明。如果书中还能涉及到一些关于模型解释性、公平性等前沿研究方向的初步探讨，那将非常有价值。

评分☆☆☆☆☆

作为一个对人工智能充满好奇的学习者，我一直渴望找到一本能够系统梳理深度学习发展脉络的读物。这本书的出现，正好满足了我的这一需求。我希望它能带领我穿越人工智能的早期探索，了解感知机、多层感知机等奠基性概念，然后逐步进入到现代深度学习的黎明。文中应该会包含对深度学习为何能够取得如此巨大成功的原理性解释，比如其强大的特征学习能力，以及如何克服传统机器学习中手工特征工程的瓶颈。我特别期待书中能够对当前深度学习领域的热点技术，如生成对抗网络（GANs）、强化学习（RL）在深度学习中的应用，以及迁移学习、元学习等高级话题有所涉猎。如果书中还能对这些技术的最新进展和未来发展趋势进行展望，那就再好不过了。

评分☆☆☆☆☆

我是一名在实际工作中需要处理大量图像数据的工程师，一直希望能在理论层面更上一层楼，以便更好地解决实际问题。这本书的标题《神经网络与深度学习》正是我所需要的。我非常看重书中关于计算机视觉领域深度学习应用的章节。期望它能详细介绍CNN在图像识别、目标检测、图像分割等任务中的具体实现和性能提升。例如，对AlexNet、VGG、ResNet、Inception等里程碑式模型的原理、结构及演进过程能有清晰的阐述，并给出相应的代码示例或者伪代码，帮助我理解如何将其应用到实际项目中。此外，对于数据增强、模型压缩、模型部署等工程实践中的关键技术，如果书中能有所提及，将对我非常有帮助。

评分☆☆☆☆☆

GOOOOOOOOOOD.

评分☆☆☆☆☆

已有电子版

评分☆☆☆☆☆

通过此书，理解了前沿的体系，借助找其他文献弄清了很多原理，还让我热爱了数学，而不是简简单单地用软件瞎点或者瞎拷贝一气。当然这书的作者应该本意仅仅是上课罢了。

评分☆☆☆☆☆

此书似乎本来就是由邱老师给研究生上深度学习课程的教案资料整理扩充而来，因而有些内容确实不够深入详细。应该适合作为初入门时的参考和系统学习之后的总结回顾。

评分☆☆☆☆☆

适合新手入门