第1 章 基本概念 ............................................................. 1
1.1 數據類型 ......................................................................................... 1
1.2 總體和樣本 ........................................................................ 2
1.3 參數和統計量 ................................................................................... 2
1.4 分布式計算 ...................................................................... 3
第2 章 單變量基本統計量 .......................................................... 5
2.1 數量統計量 ........................................................................... 5
2.1.1 樣本方差為何除以n-1 ......................................................................................... 7
2.1.2 數據分布與標準差的關係 ................................................................................. 10
2.1.3 新的計算公式 ..................................................................................................... 11
2.1.4 代碼實現 ............................................................................................................. 16
2.2 頻數統計量 ..................................................................... 18
2.3 次序統計量 ......................................................................... 23
2.3.1 通過排序方法計算次序統計量 ......................................................................... 25
2.3.2 不需排序就可計算的次序統計量 ..................................................................... 29
2.3.3 基於頻數信息計算次序統計量 ......................................................................... 31
2.3.4 中位數、眾數和均值的關係 ............................................................................. 34
第3 章 單變量數據的分布 ................................................ 36
3.1 直方圖 ........................................................................... 36
3.1.1 直方圖的計算 ..................................................................................................... 39
3.1.2 算法實現 ............................................................................................................. 42
3.1.3 已知數據頻數的情況下求直方圖 ..................................................................... 49
3.1.4 日期類型直方圖 ................................................................................................. 49
3.2 經驗分布 ............................................................................... 57
3.3 近似分位數和近似百分位數 .................................................................. 61
3.4 PP、QQ 概率圖 ........................................................................ 65
3.5 單變量的基本統計信息 ............................................................ 69
第4 章 多變量的數據特徵 ............................................................ 77
4.1 協方差 ................................................................................................ 77
4.2 相關係數 .................................................................................. 79
4.3 協方差和相關係數的計算實現 .................................................................... 80
4.4 數據錶的基本統計結果 .................................................................... 84
第5 章 數據探索 ............................................................... 88
5.1 擴展直方圖 .................................................................................... 88
5.1.1 計算方法 ............................................................................................................. 90
5.1.2 代碼實現 ............................................................................................................. 91
5.2 交叉錶 ...................................................................................... 110
第6 章 極限定理 .......................................................................................... 116
6.1 大數定理 ...................................................................................... 116
6.2 中心極限定理 .............................................................................. 117
第7 章 常用的分布函數介紹 ........................................................ 123
7.1 基本定義 ............................................................................... 123
7.2 標準正態分布(Z 分布或U 分布) ............................................................................ 124
7.3 卡方分布( 分布) ...................................................................... 129
7.4 學生T 分布 .................................................................................. 133
7.5 F 分布 .............................................................................. 139
第8 章 常用分布函數計算 .................................................. 145
8.1 函數定義 ................................................................................ 145
8.2 函數性質及相互間的關係 ....................................................................... 147
8.3 分布函數關係圖 ............................................................................. 164
8.4 分布函數的計算 .............................................................................. 166
8.4.1 計算 .................................... 166
8.4.2 計算 .............................. 170
8.4.3 計算 .............................................. 173
8.4.4 計算 和 ............................................................................................. 176
8.4.5 其他函數的計算 ............................................................................................... 178
8.5 生成常用分布的隨機數 .......................................................................... 180
第9 章 參數估計 ........................................................................... 187
9.1 點估計與區間估計 .......................................................................... 187
9.2 單個總體的參數估計 .................................................................................. 190
9.2.1 不同情況的參數估計錶達式 ........................................................................... 190
9.2.2 單個總體參數估計的實現 ............................................................................... 191
9.3 兩個總體的參數估計 .................................................................. 196
9.3.1 不同情況的參數估計錶達式 ........................................................................... 196
9.3.2 兩個總體參數估計的實現 ............................................................................... 199
第10 章 假設檢驗 ..................................................................... 207
10.1 基本概念 ............................................................................ 207
10.2 參數檢驗 ................................................................................... 209
10.3 單個總體參數的檢驗 ..................................................................... 212
10.3.1 各種情況下的檢驗方法 ................................................................................. 212
10.3.2 單個總體參數檢驗方法的實現 ..................................................................... 214
10.3.3 不同檢驗方法的選擇 ..................................................................................... 223
10.4 兩個總體參數的檢驗 ......................................................................... 227
10.4.1 各種情況下的檢驗方法 ................................................................................. 227
10.4.2 兩個總體參數檢驗方法的實現 ..................................................................... 231
10.4.3 不同檢驗方法的選擇 ..................................................................................... 237
第11 章 非參數檢驗 ............................................................................. 244
11.1 Pearson擬閤優度 檢驗............................................................ 245
11.2 兩個變量的列聯錶檢驗 .......................................................... 248
11.3 K-S 檢驗 ......................................................................................... 250
11.3.1 單樣本K-S 檢驗 ............................................................................................. 251
11.3.2 雙樣本K-S 檢驗 ............................................................................................. 256
11.4 符號檢驗 ............................................................................... 258
11.5 秩統計量和秩檢驗方法 .................................................................... 260
11.5.1 Wilcoxon 秩和檢驗 ........................................................................................ 260
11.5.2 Wilcoxon 符號秩和檢驗 ................................................................................ 266
11.5.3 Kruskal-Wallis 檢驗 ........................................................................................ 268
11.5.4 Friedman 檢驗 ................................................................................................. 273
第12 章 方差分析 .................................................................... 277
12.1 單因素方差分析 ............................................................................... 278
12.1.1 計算流程 ......................................................................................................... 278
12.1.2 代碼實現 ......................................................................................................... 280
12.1.3 方差分析與T 檢驗的關係 ............................................................................. 283
12.1.4 方差分析中的多重比較方法 ......................................................................... 285
12.2 雙因素方差分析 ...................................................................... 289
12.2.1 無交互作用的雙因素方差分析 ..................................................................... 289
12.2.2 有交互作用的雙因素方差分析 ..................................................................... 295
第13 章 多元綫性迴歸 ................................................................................. 302
13.1 數學模型 ................................................................................. 302
13.2 顯著性檢驗 ................................................................................ 308
13.3 計算步驟 ............................................................... 309
13.4 代碼實現 .......................................................................... 313
13.5 多重共綫性 ........................................................................... 320
13.5.1 度量指標 ............................................................................ 320
13.5.2 代碼實現 ......................................................................................................... 323
13.5.3 應用示例 ......................................................................................................... 328
13.6 逐步迴歸 ........................................................................................ 330
第14 章 主成分分析 ........................................................................................ 340
14.1 計算步驟 ............................................................................................ 342
14.2 代碼實現 ...................................................................................... 345
14.3 應用舉例 ...................................................................................... 350
第15 章 判彆分析 ...................................................................... 359
15.1 距離判彆 ....................................................................... 359
15.1.1 Mahalanobis 距離 ........................................................................................... 360
15.1.2 模型訓練和預測 ............................................................................................. 361
15.2 Fisher 判彆 .................................................................................... 364
15.3 Bayes 判彆 ................................................................................ 369
15.3.1 樸素Bayes 判彆 ............................................................................................. 369
15.3.2 模型訓練和預測 ............................................................................................. 370
15.4 判彆算法的綜閤模型 ................................................................ 377
15.5 應用舉例 ................................................................................... 378
第16 章 模型評估麯綫 ....................................................................... 383
16.1 相關概念 ......................................................................... 383
16.2 定義 ............................................................................................ 384
16.2.1 ROC 麯綫 ........................................................................................................ 384
16.2.2 上升圖和反饋率—精確率綫 ......................................................................... 386
16.3 計算實現 ..................................................................................... 386
參考文獻 .................................................................................... 391
· · · · · · (
收起)