第1章關於預測的兩類核心算法
1.1為什麼這兩類算法如此有用
1.2什麼是懲罰迴歸方法
1.3什麼是集成方法
1.4算法的選擇
1.5構建預測模型的流程
1.5.1構造一個機器學習問題
1.5.2特徵提取和特徵工程
1.5.3確定訓練後的模型的性能
1.6各章內容及其依賴關係
1.7小結
1.8參考文獻
第2章通過理解數據來瞭解問題
2.1“解剖”一個新問題
2.1.1屬性和標簽的不同類型決定模型的選擇
2.1.2新數據集的注意事項
2.2分類問題:用聲納發現未爆炸的水雷
2.2.1“岩石vs水雷”數據集的物理特性
2.2.2“岩石vs水雷”數據集統計特徵
2.2.3用分位數圖展示異常點
2.2.4類彆屬性的統計特徵
2.2.5利用PythonPandas對“岩石vs水雷”數據集進行統計分析
2.3對“岩石vs水雷數據集”屬性的可視化展示
2.3.1利用平行坐標圖進行可視化展示
2.3.2屬性和標簽的關係可視化
2.3.3用熱圖(heatmap)展示屬性和標簽的相關性
2.3.4對“岩石vs
2.4基於因素變量的實數值預測鮑魚的年齡
2.4.1迴歸問題的平行坐標圖—鮑魚問題的變量關係可視化
2.4.2迴歸問題如何使用關聯熱圖—鮑魚問題的屬性對關係的可視化
2.5用實數值屬性預測實數值目標:評估紅酒口感
2.6多類彆分類問題:它屬於哪種玻璃
小結
參考文獻
第3章預測模型的構建:平衡性能、復雜性以及大數據
3.1基本問題:理解函數逼近
3.1.1使用訓練數據
3.1.2評估預測模型的性能
3.2影響算法選擇及性能的因素——復雜度以及數據
3.2.1簡單問題和復雜問題的對比
3.2.2一個簡單模型與復雜模型的對比
3.2.3影響預測算法性能的因素
3.2.4選擇一個算法:綫性或者非綫性
3.3度量預測模型性能
3.3.1不同類型問題的性能評價指標
3.3.2部署模型的性能模擬
3.4模型與數據的均衡
3.4.1通過權衡問題復雜度、模型復雜度以及數據集規模來選擇模型
3.4.2使用前嚮逐步迴歸來控製過擬閤
3.4.3評估並理解你的預測模型
3.4.4通過懲罰迴歸係數來控製過擬閤——嶺迴歸
小結
參考文獻
第4章懲罰綫性迴歸模型
4.1為什麼懲罰綫性迴歸方法如此有效
4.1.1足夠快速地估計係數
4.1.2變量的重要性信息
4.1.3部署時的預測足夠快速
4.1.4性能可靠
4.1.5稀疏解
4.1.6問題本身可能需要綫性模型
4.1.7什麼時候使用集成方法
4.2懲罰綫性迴歸:對綫性迴歸進行正則化以獲得最優性能
4.2.1訓練綫性模型:最小化錯誤以及更多
4.2.2嚮OLS公式中添加一個係數懲罰項
4.2.3其他有用的係數懲罰項:Manhattan以及ElasticNet
4.2.4為什麼套索懲罰會導緻稀疏的係數嚮量
4.2.5ElasticNet懲罰項包含套索懲罰項以及嶺懲罰項
4.3求解懲罰綫性迴歸問題
4.3.1理解最小角度迴歸與前嚮逐步迴歸的關係
4.3.2LARS如何生成數百個不同復雜度的模型
4.3.3從數百個LARS生成結果中選擇最佳模型
4.3.4使用Glmnet:非常快速並且通用
4.4基於數值輸入的綫性迴歸方法的擴展
4.4.1使用懲罰迴歸求解分類問題
4.4.2求解超過2種輸齣的分類問題
4.4.3理解基擴展:使用綫性方法來解決非綫性問題
4.4.4嚮綫性方法中引入非數值屬性
小結
參考文獻
第5章使用懲罰綫性方法來構建預測模型
5.1懲罰綫性迴歸的Python包
5.2多變量迴歸:預測紅酒口感
5.2.1構建並測試模型以預測紅酒口感
5.2.2部署前在整個數據集上進行訓練
5.2.3基擴展:基於原始屬性擴展新屬性來改進性能
5.3二分類:使用懲罰綫性迴歸來檢測未爆炸的水雷
5.3.1構建部署用的岩石水雷分類器
5.4多類彆分類—分類犯罪現場的玻璃樣本
小結
參考文獻
第6章集成方法
6.1二元決策樹
6.1.1如何利用二元決策樹進行預測
6.1.2如何訓練一個二元決策樹
6.1.3決策樹的訓練等同於分割點的選擇
6.1.4二元決策樹的過擬閤
6.1.5針對分類問題和類彆特徵所做的修改
6.2自舉集成:Bagging算法
6.2.1Bagging算法是如何工作的
6.2.2Bagging算法小結
6.3梯度提升法(GradientBoosting)
6.3.1梯度提升法的基本原理
6.3.2獲取梯度提升法的最佳性能
6.3.3針對多變量問題的梯度提升法
6.3.4梯度提升方法的小結
6.4隨機森林
6.4.1隨機森林:Bagging加上隨機屬性子集
6.4.2隨機森林的性能
6.4.3隨機森林小結
6.5小結
6.6參考文獻
第7章用Python構建集成模型
7.1用Python集成方法工具包解決迴歸問題
7.1.1構建隨機森林模型來預測紅酒口感
7.1.2用梯度提升預測紅酒品質
7.2用Bagging來預測紅酒口感
7.3Python集成方法引入非數值屬性
7.3.1對鮑魚性彆屬性編碼引入Python隨機森林迴歸方法
7.3.2評估性能以及變量編碼的重要性
7.3.3在梯度提升迴歸方法中引入鮑魚性彆屬性
7.3.4梯度提升法的性能評價以及變量編碼的重要性
7.4用Python集成方法解決二分類問題
7.4.1用Python隨機森林方法探測未爆炸的水雷
7.4.2構建隨機森林模型探測未爆炸水雷
7.4.3隨機森林分類器的性能
7.4.4用Python梯度提升法探測未爆炸水雷
7.4.5梯度提升法分類器的性能
7.5用Python集成方法解決多類彆分類問題
7.5.1用隨機森林對玻璃進行分類
7.5.2處理類不均衡問題
7.5.3用梯度提升法對玻璃進行分類
7.5.4評估在梯度提升法中使用隨機森林基學習器的好處
7.6算法比較
小結
參考文獻
· · · · · · (
收起)