第1章 萬事不隻開頭難 1
1.1 工欲善其事,必先利其器:安裝 1
1.1.1 安裝R和RStudio 1
1.1.2 安裝數據包 3
1.1.3 數據包加載、卸載、升級,查看幫助文檔 5
1.1.4 什麼樣的R包值得相信 7
1.2 瞭解R的對象 8
1.2.1 如何進行常見的算術運算 8
1.2.2 R語言的三大數據類型 10
1.2.3 嚮量及其運算 12
1.2.4 因子變量鮮有人知的秘密 15
1.2.5 矩陣相關運算及神奇的特徵值 17
1.2.6 數據框及其篩選、替換、添加、排序、去重 18
1.2.7 與數組(array)相比,錶單(list)的用處更加廣泛 22
1.2.8 如何進行數據結構之間的轉化 23
1.3 R語言的重器:函數 26
1.3.1 自編函數 26
1.3.2 有用的R字符串函數 29
1.4 控製流在R語言裏隻是一種輔助工具 31
1.4.1 判斷 32
1.4.2 循環 33
1.5 數據的讀入與輸齣 35
1.5.1 常見數據格式的輸入/輸齣(CSV、TXT、RDATA、XLSX) 35
1.5.2 數據庫連接:Oracle、MySQL及Hive 37
1.5.3 亂碼就像馬賽剋一樣讓人討厭 39
第2章 數據探索,招招都是利器 41
2.1 不要在工作後纔認識“髒數據” 41
2.1.1 以老闆信服的方式處理缺失數據 42
2.1.2 異常值預警 48
2.1.3 字符處理正則錶達式不再是天書 49
2.2 數據透視、數據整形、關聯融閤與批量處理 50
2.2.1 還忘不掉Excel的數據透視錶嗎 50
2.2.2 你能給數據做整形手術嗎:long型和wide型 52
2.2.3 關聯閤並錶 54
2.2.4 數據批處理:R語言裏最重要的一個函數傢族:*pply 55
2.3 一招完成數據探索報告 58
2.4 拯救你的很多時候是基礎理論 61
2.4.1 參數檢驗及非參檢驗 62
2.4.2 學瞭很多算法卻忘瞭方差分析 68
2.4.3 多因素方差分析及協方差作用 70
2.4.4 很多熟悉的數據處理方法已經成笑話,工具箱該換瞭 73
第3章 從商務氣質的數據可視化說起 84
3.1 說說數據可視化的專業素養 84
3.1.1 數據可視化曆史上有多少背影等你仰望 84
3.1.2 商務圖錶應該具有哪些素質 87
3.1.3 那些你不知道的圖錶誤導性伎倆 94
3.1.4 如何快速解構著名雜誌的圖錶 98
3.2 ggplot2包:一個價值8萬美元的態度 103
3.2.1 一張圖學會ggplot2包的繪圖原理 105
3.2.2 基礎繪圖科學:ggplot2包的主題函數繼承關係圖(關係網絡圖) 127
3.2.3 基礎圖錶一網打盡 132
3.2.4 古老的地圖煥發新顔 151
3.3 將靜態圖轉為D3交互圖錶:plotly 156
3.4 從基礎到進階的變形圖錶 157
3.4.1 馬賽剋圖(分類變量描述性分析) 157
3.4.2 Sankey圖和chordDiagram圖 158
第4章 分位數迴歸模擬股票指數風險通道 163
4.1 用綫性迴歸預測醫院的藥品銷售額 163
4.2 多項式迴歸及常見迴歸方程的書寫 168
4.3 Lasso迴歸和迴歸評價的常見指標 170
4.4 分位數迴歸擬閤上證指數風險通道 175
第5章 時間序列分析 181
5.1 時間序列分析:分析帶有時間屬性的數列 181
5.2 不是所有序列都叫時間序列 181
5.3 時間序列三件寶:趨勢、周期、隨機波動 183
5.3.1 趨勢 183
5.3.2 周期 184
5.3.3 隨機波動 186
5.4 預測分析 186
5.4.1 指數平滑法 186
5.4.2 ARIMA模型預測 188
第6章 選擇什麼算法也有一套流程 192
6.1 重新審視一下這幾個模型 192
6.1.1 Logistic迴歸 192
6.1.2 我要的不是一棵樹,而是整座森林:隨機森林 195
6.1.3 神奇的神經網絡 196
6.2 銀行信用卡評估模型之變量篩選 197
6.2.1 變量構建 197
6.2.2 Logistic迴歸變量篩選 198
6.2.3 隨機森林變量篩選 203
6.2.4 人工神經網絡建模 204
6.3 必須麵對的模型評估 204
第7章 深入淺齣十大算法 208
7.1 C5.0算法 208
7.1.1 一個重要的概念:信息熵 208
7.1.2 非列變量選擇的實例 209
7.1.3 C5.0算法的R實現 210
7.2 K-means算法 212
7.2.1 K-means算法的R實現 212
7.2.2 怎麼確定聚類數 213
7.3 支持嚮量機(SVM)算法 213
7.3.1 通俗理解SVM 214
7.3.2 SVM的R實現 216
7.4 Apriori算法 216
7.4.1 舉例說明Apriori 217
7.4.2 Apriori算法的R實現 219
7.5 EM算法 220
7.5.1 舉例說明EM算法 221
7.5.2 EM算法的R實現 222
7.6 PageRank算法 223
7.7 AdaBoost算法 224
7.8 KNN算法與K-means算法有什麼不同 226
7.9 Naive Bayes(樸素貝葉斯)算法 227
7.10 CART算法 228
第8章 數據抓取 231
8.1 數據挖掘工程師不可抱怨“巧婦難為無米之炊” 231
8.2 抓取股市龍虎榜數據,碰碰運氣 232
8.2.1 瞭解XML和Html樹狀結構,纔能庖丁解牛 233
8.2.2 瞭解RCurl包和網頁解析函數 234
8.2.3 抓取股票龍虎榜 235
8.2.4 資金流入分析 237
8.3 抓取某傢醫藥信息網站全站藥品銷售數據 240
8.3.1 所有醫藥公司名稱一網打盡 240
8.3.2 為什麼抓取數據時可以使用For循環 242
8.3.3 不要把代碼寫復雜 244
8.3.4 用Sankey數據流描繪醫藥市場份額流動 248
第9章 不可不說的社交網絡關係 254
9.1 社交網絡圖 254
9.1.1 社交網絡圖告訴你和誰交朋友 254
9.1.2 這幾個基本概念你需要抓牢 256
9.1.3 還有比本章任務更有趣的數據挖掘嗎 259
9.2 你還要裝備幾個評價指標 260
9.2.1 社交網絡大小 260
9.2.2 社交網絡關係的完備性 261
9.2.3 節點實力評價 262
9.3 全球某貨物貿易中的親密關係 263
9.3.1 全球某貨物貿易數據整閤清洗 263
9.3.2 分組和社交網絡中心 267
9.3.3 全球某貨物交易圈:尋找各自的小夥伴 270
9.4 中國電影演藝圈到底有沒有“圈” 276
9.4.1 數據清洗與整形 276
9.4.2 看看演藝圈長什麼樣 279
9.4.3 誰纔是演藝圈的“關係戶” 281
9.4.4 用Apriori算法查查演藝圈閤作的“朋友”關係 283
9.4.5 給範冰冰推薦閤作夥伴 284
第10章 情感分析:一種準確率高達90%的新方法? 287
10.1 情感分析及其應用:這是老生常談 287
10.1.1 情感分析的用途 287
10.1.2 情感分析的方法論 288
10.1.3 有關情感分析的一些知識和方嚮 289
10.2 文本分析的基本武器:R 290
10.2.1 RJava包配置 290
10.2.2 Rwordseg包安裝 291
10.2.3 jieba分詞包安裝 291
10.3 基於詞典的情感分析的效果好過瞎猜嗎 292
10.3.1 數據整理及詞典構建 292
10.3.2 分詞整理 297
10.3.3 情感指數計算 299
10.3.4 方法評價:優、缺點分析 300
10.4 監督式情感分析:挑選訓練數據集是所有人心中的痛 301
10.4.1 TFIDF指標 301
10.4.2 構建語料庫 302
10.4.3 隨機森林模型 304
10.4.4 算法評估:隨機森林應該建多少棵樹 308
10.5 一種準確率高達90%的新方法 316
10.5.1 拿來主義的啓示 316
10.5.2 情感詞典和規則構建 317
10.5.3 樸素貝葉斯情感分析器 329
10.5.4 支持嚮量機(SVM)、決策樹等情感分析器 330
10.5.5 如何選擇支持SVM的核函數 339
10.5.6 情感分類器方法評價 343
10.6 談談情感分析的下一步思考 344
第11章 話題模型:很多牛人過不去的坎兒 346
11.1 話題模型與文案文本集 346
11.1.1 任務仍然是以處理dirty data 開始 347
11.1.2 數據清洗 348
11.2 話題模型中幾個重要的數據處理步驟 350
11.2.1 中文分詞 350
11.2.2 數據整型 352
11.2.3 怎樣設定“閾值” 353
11.3 上帝有多少個色子:話題數量估計 356
11.3.1 通俗地說一遍話題模型 356
11.3.2 主題數估計與交叉檢驗 357
11.3.3 如何使用復雜度、對數似然值確定主題數 362
11.4 LDA話題模型竟然能輸齣這麼多關係 368
11.4.1 輸齣主題——詞匯及其概率矩陣 368
11.4.2 輸齣主題——文檔歸屬及其概率矩陣 369
11.5 話題之間也有社交(衍生)關係嗎 370
11.6 話題模型的幾個強大衍生品 372
11.6.1 話題模型提取特徵詞 372
11.6.2 三種方法確定聚類的類數和文本層次聚類 373
11.6.3 漂亮的文本聚類樹和批量繪製大類詞雲圖 375
第12章 排名就是簡單的推薦係統嗎? 378
12.1 全球宜居城市綜閤實力排行 378
12.1.1 綜閤實力排行:專傢法VS數據驅動法 379
12.1.2 怎麼比較兩個排名結果 382
12.2 協同過濾推薦係統 383
12.2.1 基於商品的協同過濾係統(ItemCF) 386
12.2.2 基於用戶的係統過濾係統(UserCF) 388
12.2.3 推薦係統效果評比 390
第13章 生物信息學中的數據挖掘案例 392
13.1 生物信息學與R語言 392
13.2 生物信息學中常用的軟件包 392
13.2.1 軟件包簡介 392
13.2.2 數據錶示方式——對象類(class) 393
13.2.3 生物信息學R包簡介:Bioconductor和CRAN 393
13.2.4 ape包 394
13.2.5 讀懂你的對象 404
13.2.6 修改工具包中的函數以適應新情況 407
第14章 産品化:關於內存、速度和自動化 411
14.1 不同終端調用、自動化執行R腳本及參數傳遞 411
14.2 與速度、內存、並行相關的程序優化 414
· · · · · · (
收起)