前 言
第1章 X86 SSE/AVX指令集
1.1 SSE內置函數
1.1.1 算術運算
1.1.2 邏輯運算
1.1.3 比較
1.1.4 加載和存儲
1.2 AVX內置函數
1.2.1 算術運算
1.2.2 邏輯運算
1.2.3 比較
1.2.4 加載和存儲
1.3 優化實例及分析
1.3.1 如何測得CPU的浮點峰值性能
1.3.2 積分計算圓周率π
1.3.3 稀疏矩陣嚮量乘法
1.3.4 二維單通道圖像離散捲積
1.4 本章小結
第2章 ARM NEON SIMD 指令優化
2.1 NEON指令集綜述
2.2 ARM A15 處理器性能
2.3 NEON 支持的操作
2.3.1 基本算術運算
2.3.2 基本比較運算
2.3.3 基本數據類型轉換及捨入運算
2.3.4 基本位運算
2.3.5 基本邏輯運算
2.3.6 基本設置加載存儲操作
2.3.7 特殊操作
2.4 應用實例
2.4.1 彩色圖像轉灰度圖像
2.4.2 矩陣轉置
2.4.3 矩陣乘
2.5 本章小結
第3章 OpenMP程序設計
3.1 OpenMP編程模型
3.1.1 OpenMP執行模型
3.1.2 OpenMP存儲器模型
3.2 環境變量
3.3 函數
3.3.1 普通函數
3.3.2 鎖函數
3.4 OpenMP編譯製導語句
3.4.1 常用的OpenMP構造
3.4.2 常用的OpenMP子句
3.5 OpenMP異構並行計算
3.6 OpenMP程序優化
3.6.1 OpenMP程序優化準則
3.6.2 OpenMP並行優化實例
3.7 本章小結
第4章 基於GPU的異構並行計算環境:CUDA與OpenCL
4.1 GPU計算概述
4.1.1 GPU計算曆史
4.1.2 CUDA概述
4.1.3 OpenCL概述
4.2 異構並行計算模型
4.2.1 平颱模型
4.2.2 執行模型
4.2.3 存儲器模型
4.2.4 編程模型
4.3 C語言接口
4.3.1 OpenCL C語言
4.3.2 CUDA C語言
4.4 基於GPU的異構並行計算性能優化
4.4.1 總體優化準則
4.4.2 全局存儲器優化
4.4.3 閤並訪問
4.4.4 局部存儲器
4.4.5 存儲體衝突
4.4.6 常量存儲器優化
4.4.7 CUDA紋理存儲器優化
4.4.8 寄存器及私有存儲器優化
4.4.9 工作組數目及大小
4.4.10 占用率
4.4.11 指令優化
4.4.12 分支優化
4.4.13 數據傳輸優化
4.5 GPU與CPU精度差彆
4.6 矩陣轉置
4.6.1 初次實現
4.6.2 滿足閤並訪問的實現
4.6.3 沒有存儲體衝突的實現
4.7 矩陣乘法
4.7.1 初次實現
4.7.2 矩陣分塊實現
4.8 本章小結
第5章 OpenACC
5.1OpenACC 編程模型
5.1.1 執行模型
5.1.2存儲器模型
5.2編譯製導語句
5.2.1kernels構造
5.2.2parallel構造
5.2.3 綫程配置相關子句
5.2.4data構造
5.2.5loop構造
5.2.6 atomic構造
5.2.7 dtype子句
5.2.8reduction子句
5.2.9變量可見性子句
5.2.10if子句
5.2.11async和wait
5.3OpenACC和CUDA協作
5.3.1CUDA使用OpenACC生産的數據
5.3.2 OpenACC使用CUDA生産的數據
5.4兩小時性能提升10倍
5.5本章小結
第6章 多核嚮量處理器架構及OpenCL程序映射
6.1多核嚮量處理器架構
6.1.1Intel Haswell CPU 架構
6.1.2ARM A15 多核嚮量處理器架構
6.1.3AMD GCN GPU架構
6.1.4NVIDIA Kepler 和 Maxwell GPU架構
6.2OpenCL 程序在多核嚮量處理器上的映射
6.2.1OpenCL程序在多核嚮量CPU上的映射
6.2.2OpenCL程序在NVIDIA GPU上的映射
6.2.3OpenCL程序在AMD GCN上的映射
6.3本章小結
第7章 利用多種技術優化圖像處理中的算法性能
7.1圖像濾波
7.1.1均值濾波
7.1.2中值濾波
7.2圖像直方圖
7.2.1OpenMP 實現
7.2.2CUDA 實現
7.3曼德勃羅集
7.3.1串行算法
7.3.2不適閤進行嚮量化
7.3.3OpenMP實現
7.3.4CUDA 實現
7.4本章小結
第8章 利用多種技術優化綫性代數中的算法性能
8.1兩嚮量距離
8.1.1串行代碼
8.1.2循環展開代碼
8.1.3AVX指令加速
8.1.4NEON 實現
8.1.5CUDA實現
8.2稠密矩陣與嚮量乘法
8.2.1串行算法
8.2.2AVX 指令加速
8.2.3NEON 實現
8.2.4CUDA 實現
8.2.5OpenMP 實現
8.3本章小結
· · · · · · (
收起)