出版者的话
译者序
前言
第1章 消息传递接口 1
1.1 引言 1
1.2 MPI基础 1
1.3 点对点通信 2
1.4 数据类型 3
1.5 非阻塞式通信 4
1.6 聚合通信 5
1.7 单边通信 7
1.8 并行I/O 9
1.9 其他特性 11
1.10 MPI开发心得 12
1.11 总结 13
第2章 全局地址空间网络 14
2.1 研究背景与动机 14
2.2 GASNet概述 14
2.2.1 相关术语 15
2.2.2 线程 15
2.2.3 API组织 16
2.3 核心API 16
2.3.1 开始和结束 16
2.3.2 段信息 18
2.3.3 屏障 18
2.3.4 锁与中断 19
2.3.5 活动消息 20
2.3.6 活动消息进程 22
2.3.7 活动消息规则与约束 22
2.3.8 出错代码 23
2.4 扩展API 23
2.4.1 GASNet段 23
2.4.2 排序与内存模型 24
2.4.3 阻塞与非阻塞 24
2.4.4 批量与单个 24
2.4.5 寄存器–内存与远程memset操作 24
2.4.6 扩展API总结 25
2.5 附加内容 26
2.5.1 GASNet工具 26
2.5.2 可移植平台头文件 27
2.6 示例 27
2.6.1 编译和运行示例 27
2.6.2 Hello World示例 28
2.6.3 AM Ping-Pong示例 28
2.6.4 AM Ring示例 30
2.6.5 MCS Locks示例 32
2.7 未来方向 35
第3章 OpenSHMEM 37
3.1 引言 37
3.2 设计理念和根据 37
3.3 OpenSHMEM存储模型 39
3.4 对称堆管理 39
3.4.1 初始化和查询 40
3.4.2 分配和释放 40
3.4.3 关于分配和对称堆的说明 41
3.5 远程内存访问:put和get 41
3.5.1 RMA函数语义 41
3.5.2 RMA函数使用 42
3.6 排序和同步 44
3.6.1 全局同步屏障 44
3.6.2 fence和quiet:RMA操作排序 45
3.6.3 锁 46
3.6.4 wait和wait_until 46
3.7 集合操作 47
3.7.1 选择集合参与者 47
3.7.2 同步数组和工作数组 47
3.7.3 非全局同步屏障 48
3.7.4 广播 48
3.7.5 收集 49
3.7.6 归约 50
3.8 原子内存操作 51
3.8.1 原子加和递增 52
3.8.2 原子取–加和取–递增 52
3.8.3 原子交换和条件交换 53
3.9 未来方向 54
第4章 统一并行C 55
4.1 UPC简史 55
4.2 UPC编程模型 56
4.2.1 术语 56
4.2.2 全局地址空间 56
4.2.3 执行模型 57
4.3 UPC概览 57
4.3.1 自省 57
4.3.2 数据布局 57
4.3.3 通信 59
4.3.4 UPC内存一致性模型 60
4.3.5 同步 61
4.3.6 集合操作 62
4.4 UPC程序示例 63
4.4.1 随机访问基准 63
4.4.2 雅可比5点stencil 64
4.4.3 排序示例 65
4.4.4 一维FFT 68
4.5 未来方向 71
第5章 全局数组 72
5.1 引言 72
5.2 编程模型与设计原则 73
5.3 核心功能 74
5.4 进程组 77
5.5 扩展的数组结构 78
5.6 稀疏数组操作的支持 79
5.7 数组上的集合操作 80
5.8 动态负载均衡 80
5.9 实际应用 80
第6章 Chapel 82
6.1 Chapel简史 82
6.1.1 全面启动 82
6.1.2 初始方向 83
6.1.3 HPCS时代 83
6.1.4 后HPCS时代 84
6.2 Chapel的主题思想 84
6.2.1 通用并行性表达 84
6.2.2 支持多线程执行模型 85
6.2.3 支持全局视图编程 85
6.2.4 支持多尺度设计 85
6.2.5 支持局部性控制 86
6.2.6 支持以数据为中心的同步 86
6.2.7 用户与编译器的不同角色 86
6.2.8 缩小主流语言和HPC语言之间的差距 87
6.2.9 从头开始(但争取令人熟悉) 87
6.2.10 远大目标 88
6.2.11 促使Chapel成为可移植的开源软件 88
6.3 Chapel特性概述 88
6.3.1 基本语言特性 89
6.3.2 任务并行 92
6.3.3 数据并行 96
6.3.4 位置特性 98
6.4 总结与未来方向 100
第7章 Charm++ 102
7.1 引言 102
7.2 Charm的编程范例以及执行模型 102
7.2.1 以过分解作为核心思想 102
7.2.2 消息驱动的执行模型 103
7.2.3 授权自适应运行时系统 104
7.3 基本语言 104
7.3.1 chare:分解的基本单元 104
7.3.2 入口方法:基本的调度单元 105
7.3.3 异步方法调用 105
7.3.4 带索引的chare集合:chare数组 105
7.3.5 只读变量 106
7.3.6 Charm++对象:用户及系统角度 107
7.3.7 结构化匕首符号 108
7.3.8 示例:一维分解的5点stencil代码 108
7.4 过分解的好处以及消息驱动执行 110
7.4.1 不依赖于处理器个数 110
7.4.2 异步归约 110
7.4.3 自适应计算与通信重叠 110
7.4.4 合成性 111
7.4.5 软件工程方面的好处:逻辑实体的相互独立 111
7.5 一个设计示例:分子动力学模拟 111
7.6 自适应运行时特性 112
7.6.1 Charm++中负载均衡功能 112
7.6.2 容错 113
7.6.3 缩小或扩展处理器集合 114
7.6.4 异构处理器以及加速器的支持 115
7.6.5 额外特性 115
7.6.6 实验特性:热能与功耗管理 115
7.7 底层架构概述 115
7.8 基于Charm++的高层次语言家族 116
7.9 通过Charm++来开发应用程序 117
7.10 作为研究工具的Charm++ 118
7.11 Charm++:历史以及现状 118
7.12 总结 118
第8章 异步动态负载均衡 119
8.1 引言 119
8.2 manager-worker模型与负载均衡 119
8.3 ADLB库定义 121
8.3.1 API简介 121
8.3.2 基本的ADLB API 122
8.3.3 使用批处理优化内存使用 123
8.3.4 获取和使用ADLB 124
8.4 实现ADLB 124
8.4.1 ADLBM实现 124
8.4.2 其他实现 125
8.5 示例 125
8.5.1 一个简单的批处理调度 125
8.5.2 动态任务创建:数独解法 126
8.5.3 任务单元类型:旅行推销员问题 127
8.5.4 GFMC 127
8.5.5 Swift 128
8.6 DMEM:一个处理大数据的辅助库 128
8.7 总结与未来方向 129
第9章 可拓展任务对象集合 130
9.1 Scioto任务并行执行模型 131
9.1.1 任务对象 131
9.1.2 任务输入/输出模型 132
9.1.3 任务执行模型 132
9.2 多级并行任务集合 133
9.3 Scioto + GA编程接口 134
9.3.1 核心编程结构 134
9.3.2 实现一个Scioto任务 135
9.3.3 示例:矩阵–矩阵乘法 135
9.4 Scioto运行时系统 136
9.4.1 共享任务队列方法 136
9.4.2 动态负载均衡方法 137
9.4.3 终止检测 137
9.5 总结 138
第10章 Swift:极端规模的隐式并行脚本 139
10.1 第一个示例:并行因式分解 140
10.2 一个真实的示例:晶体坐标转换 140
10.3 Swift发展历史 142
10.4 Swift语言和编程模型 142
10.4.1 Hello World示例 143
10.4.2 变量和标量数据类型 143
10.4.3 数据流执行 144
10.4.4 条件判断语句 145
10.4.5 数据依赖控制流 145
10.4.6 foreach循环和数组 145
10.4.7 Swift函数 146
10.4.8 外部函数 147
10.4.9 文件和app函数 148
10.5 Swift执行模型 148
10.6 大规模并行运行时系统 150
10.7 运行时架构 151
10.8 性能分析 153
10.9 Swift的大规模并行编译 153
10.10 相关工作 154
10.11 总结 155
第11章 并发集合编程模型 157
11.1 引言 157
11.2 研究动机 158
11.3 CnC领域语言 158
11.3.1 概述 158
11.3.2 特征 160
11.3.3 示例 161
11.3.4 执行语义 162
11.3.5 CnC编程 163
11.3.6 未来工作 167
11.4 CnC调优语言 168
11.4.1 描述 168
11.4.2 特征 171
11.4.3 示例 171
11.4.4 执行模型 173
11.4.5 未来工作 175
11.5 当前状态 175
11.6 相关工作 175
11.7 总结 177
第12章 OpenMP 178
12.1 引言 178
12.2 概述 179
12.2.1 术语 179
12.2.2 管理数据环境 180
12.2.3 OpenMP概念简述 181
12.3 OpenMP特性 182
12.3.1 并行区域 182
12.3.2 同步 186
12.3.3 工作共享 187
12.3.4 任务并行化 191
12.3.5 向量化 195
12.3.6 加速器支持 196
12.3.7 区域取消 199
12.4 性能优化建议 200
12.5 关于正确性的思考 201
12.6 总结与未来方向 201
第13章 Cilk Plus 202
13.1 引言 202
13.2 向量并行化 203
13.2.1 数组标注 204
13.2.2 pragma SIMD 205
13.2.3 支持SIMD的函数 206
13.3 线程并行 208
13.4 并行性能 211
13.5 数据竞争 215
13.6 实践技巧 216
13.7 历史 219
13.8 总结 220
第14章 Intel TBB工具 221
14.1 引言 221
14.1.1 概述 221
14.1.2 基本信息 221
14.2 泛型并行算法 222
14.2.1 简单循环的并行化 222
14.2.2 在STL容器中处理数据 223
14.2.3 复杂迭代空间 224
14.2.4 其他算法 226
14.3 流图 226
14.3.1 概述 227
14.3.2 节点通信协议 227
14.3.3 控制依赖图 228
14.3.4 数据流图 230
14.3.5 流图、算法和无环图的选择 232
14.4 总结 232
第15章 CUDA 233
15.1 CUDA简史 233
15.2 CUDA编程结构 234
15.3 示例:向量加法 235
15.4 设备内存和数据传输 236
15.5 kernel函数与线程 238
15.6 线程组织 240
15.7 线程和多维数据的映射 242
15.8 同步与透明可扩展性 243
15.9 线程块的资源分配 244
15.10 CUDA流与任务并行 244
15.11 总结 248
第16章 OpenCL开放计算语言 249
16.1 计算语言与OpenCL 249
16.2 基本定义 250
16.3 计算机、编程和异构 250
16.4 OpenCL的诞生 251
16.5 OpenCL的核心模型 252
16.5.1 平台模型 252
16.5.2 执行模型 253
16.5.3 内存模型 255
16.5.4 编程模型 257
16.6 OpenCL主机程序:向量加法 258
16.7 总结 266
参考文献 268
· · · · · · (
收起)