發表於2024-12-17
Python+Spark 2 0+Hadoop機器學習與大數據實戰 林大貴 清華大學齣版社 pdf epub mobi txt 電子書 下載
基本信息
書名:Python+Spark 2 0+Hadoop機器學習與大數據實戰
:99.00元
作者:林大貴
齣版社:清華大學齣版社
齣版日期:2018-01-01
ISBN:9787302490739
字數:
頁碼:
版次:1
裝幀:平裝-膠訂
開本:16開
商品重量:0.4kg
編輯推薦
1.Hadoop集群安裝與分散式運算和存儲介紹通過實機操作,學會如何安裝Virtual Box、Ubuntu Linux、Hadoop單機與多颱機器集群安裝,並學會使用HDFS分散式存儲與MapReduce分散式運算。2.Python Spark 2.0安裝通過實機操作,學會安裝Spark 2.0,並在本機與多颱機器集群執行Python Spark應用程序。同時介紹如何在iPython Notebook互動界麵執行Python Spark指令。安裝eclipse整閤開發界麵,開發Python Spark應用程序,大幅提升程序開發生産力。3.Python Spark SQL、DataFrame數據統計與數據可視化Spark SQL 即使非程序設計人員,隻需要懂得SQL語法,就可以使用。DataFrame API 可使用類SQL的方法,如select()、groupby()、count(),很容易進行統計,大幅降低大數據分析的學習門檻。Spark DataFrame可轉換為Pandas DataFrame,運用Python豐富的數據可視化組件(例如matplotlib)進行數據可視化。4.Python Spark MLlib機器學習以大數據分析實際案例MoiveLens、StumbleUpon、CovType、BikeSharing介紹如何使用Python Spark運用機器學習演算法進行數據處理、訓練、建立模型、訓練驗證找齣*模型、預測結果。5.Python Spark ML Pipeline機器學習流程以大數據實際案例示範使用Python Spark ML Pipeline機器學習流程進行二元分類、多元分類、迴歸分析,將機器學習的每一個步驟建立成Pipeline流程:數據處理 →運算法訓練數據→建立模型→找齣*模型→預測結果。Spark ML Pipeline 通過內建數據處理模塊與機器學習運算法,減輕數據分析師在程序設計上的負擔。
內容提要
本書從淺顯易懂的“大數據和機器學習”原理說明入手,講述大數據和機器學習的基本概念,如分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(迴歸分析)和數據可視化應用等。書中不僅加入瞭新近的大數據技術,還豐富瞭“機器學習”內容。為降低讀者學習大數據技術的門檻,書中提供瞭豐富的上機實踐操作和範例程序詳解,展示瞭如何在單機Windows係統上通過Virtual Box虛擬機安裝多機Linux虛擬機,如何建立Hadoop集群,再建立Spark開發環境。書中介紹搭建的上機實踐平颱並不限製於單颱實體計算機。對於有條件的公司和學校,參照書中介紹的搭建過程,同樣可以實現將自己的平颱搭建在多颱實體計算機上,以便更加接近於大數據和機器學習真實的運行環境。本書非常適閤於學習大數據基礎知識的初學者閱讀,更適閤正在學習大數據理論和技術的人員作為上機實踐用的教材。
目錄
目 錄
第1章 Python Spark機器學習與Hadoop大數據 1
1.1 機器學習的介紹 2
1.2Spark的介紹 5
1.3Spark數據處理 RDD、DataFrame、Spark SQL 7
1.4 使用Python開發 Spark機器學習與大數據應用 8
1.5Python Spark 機器學習 9
1.6Spark ML Pipeline機器學習流程介紹 10
1.7Spark 2.0的介紹 12
1.8 大數據定義 13
1.9Hadoop 簡介 14
1.10Hadoop HDFS分布式文件係統 14
1.11Hadoop MapReduce的介紹 17
1.12結論 18
第2章 VirtualBox虛擬機軟件的安裝 19
2.1VirtualBox的下載和安裝 20
2.2 設置VirtualBox存儲文件夾 23
2.3 在VirtualBox創建虛擬機 25
2.4 結論 29
第3章 Ubuntu Linux 操作係統的安裝 30
3.1Ubuntu Linux 操作係統的安裝 31
3.2 在Virtual設置Ubuntu虛擬光盤文件 33
3.3 開始安裝Ubuntu 35
3.4 啓動Ubuntu 40
3.5 安裝增強功能 41
3.6 設置默認輸入法 45
3.7 設置“終端”程序 48
3.8 設置“終端”程序為白底黑字 49
3.9 設置共享剪貼闆 50
3.10設置佳下載服務器 52
3.11結論 56
第4章 Hadoop Single Node Cluster的安裝 57
4.1 安裝K 58
4.2 設置SSH無密碼登錄 61
4.3 下載安裝Hadoop 64
4.4 設置Hadoop環境變量 67
4.5 修改Hadoop配置設置文件 69
4.6 創建並格式化HDFS目錄 73
4.7 啓動Hadoop 74
4.8 打開HadoopResource-Manager Web界麵 76
4.9NameNode HDFS Web界麵 78
4.10結論 79
第5章 Hadoop Multi Node Cluster的安裝 80
5.1 把Single NodeCluster復製到data1 83
5.2 設置VirtualBox網卡 84
5.3 設置data1服務器 87
5.4 復製data1服務器到data2、data3、master 94
5.5 設置data2服務器 97
5.6 設置data3服務器 100
5.7 設置master服務器 102
5.8master連接到data1、data2、data3 創建HDFS目錄 107
5.9 創建並格式化NameNodeHDFS目錄 110
5.10啓動Hadoop Multi Node Cluster 112
5.11打開Hadoop ResourceManager Web界麵 114
5.12打開NameNode Web界麵 115
5.13停止Hadoop Multi Node Cluster 116
5.14結論 116
第 6 章 Hadoop HDFS命令 117
6.1 啓動HadoopMulti-Node Cluster 118
6.2 創建與查看HDFS目錄 120
6.3 從本地計算機復製文件到HDFS 122
6.4 將HDFS上的文件復製到本地計算機 127
6.5 復製與刪除HDFS文件 129
6.6 在Hadoop HDFSWeb用戶界麵瀏覽HDFS 131
6.7 結論 134
第7章 Hadoop MapReduce 135
7.1 簡單介紹WordCount.java 136
7.2 編輯WordCount.java 137
7.3 編譯WordCount.java 141
7.4 創建測試文本文件 143
7.5 運行WordCount.java 145
7.6 查看運行結果 146
7.7 結論 147
第8章 Python Spark的介紹與安裝 148
8.1Scala的介紹與安裝 150
8.2 安裝Spark 153
8.3 啓動pyspark交互式界麵 156
8.4 設置pyspark顯示信息 157
8.5 創建測試用的文本文件 159
8.6 本地運行pyspark程序 161
8.7 在Hadoop YARN運行pyspark 163
8.8 構建SparkStandalone Cluster運行環境 165
8.9 在SparkStandalone運行pyspark 171
8.10Spark Web UI界麵 173
8.11結論 175
第9章 在 IPythonNotebook 運行 Python Spark 程序 176
9.1 安裝Anaconda 177
9.2 在IPythonNotebook使用Spark 180
9.3 打開IPythonNotebook筆記本 184
9.4 插入程序單元格 185
9.5 加入注釋與設置程序代碼說明標題 186
9.6 關閉IPythonNotebook 188
9.7 使用IPythonNotebook在Hadoop YARN-client模式運行 189
9.8 使用IPythonNotebook在Spark Stand Alone模式運行 192
9.9 整理在不同的模式運行IPythonNotebook的命令 194
9.9.1在 Local 啓動 IPython Notebook 195
9.9.2在Hadoop YARN-client 模式啓動 IPython Notebook 195
9.9.3在Spark Stand Alone 模式啓動 IPython Notebook 195
9.10結論 196
第10章 Python Spark RDD 197
10.1RDD的特性 198
10.2開啓IPython Notebook 199
10.3基本RDD“轉換”運算 201
10.4多個RDD“轉換”運算 206
10.5基本“動作”運算 208
10.6RDD Key-Value 基本“轉換”運算 209
10.7多個RDD Key-Value“轉換”運算 212
10.8Key-Value“動作”運算 215
10.9Broadcast 廣播變量 217
10.10accumulator纍加器 220
10.11RDD Persistence持久化 221
10.12使用Spark創建WordCount 223
10.13Spark WordCount詳細解說 226
10.14結論 228
第11章 Python Spark的集成開發環境 229
11.1下載與安裝eclipse Scala IDE 232
11.2安裝PyDev 235
11.3設置字符串替代變量 240
11.4PyDev 設置 Python 鏈接庫 243
11.5PyDev設置anaconda2鏈接庫路徑 245
11.6PyDev設置Spark Python鏈接庫 247
11.7PyDev設置環境變量 248
11.8新建PyDev項目 251
11.9加入WordCount.py程序 253
11.10輸入WordCount.py程序 254
11.11創建測試文件並上傳至HDFS目錄 257
11.12使用spark-submit執行WordCount程序 259
11.13在Hadoop YARN-client上運行WordCount程序 261
11.14在Spark Standalone Cluster上運行WordCount程序 264
11.15在eclipse外部工具運行Python Spark程序 267
11.16在eclipse運行spark-submit YARN-client 273
11.17在eclipse運行spark-submit Standalone 277
11.18結論 280
第12章 Python Spark創建推薦引擎 281
12.1推薦算法介紹 282
12.2“推薦引擎”大數據分析使用場景 282
12.3ALS推薦算法的介紹 283
12.4如何搜索數據 285
12.5啓動IPython Notebook 289
12.6如何準備數據 290
12.7如何訓練模型 294
12.8如何使用模型進行推薦 295
12.9顯示推薦的電影名稱 297
12.10創建Remend項目 299
12.11運行RemendTrain.py 推薦程序代碼 302
12.12創建Remend.py推薦程序代碼 304
12.13在eclipse運行Remend.py 307
12.14結論 310
第13章 Python Spark MLlib決策樹二元分類 311
13.1決策樹介紹 312
13.2“StumbleUpon Evergreen”大數據問題 313
13.2.1Kaggle網站介紹 313
13.2.2“StumbleUpon Evergreen”大數據問題場景分析 313
13.3決策樹二元分類機器學習 314
13.4如何搜集數據 315
13.4.1StumbleUpon數據內容 315
13.4.2下載 StumbleUpon 數據 316
13.4.3用LibreOffice Calc 電子錶格查看train.tsv 319
13.4.4復製到項目目錄 322
13.5 使用IPython Notebook示範 323
13.6如何進行數據準備 324
13.6.1導入並轉換數據 324
13.6.2提取 feature 特徵字段 327
13.6.3提取分類特徵字段 328
13.6.4提取數值特徵字段 331
13.6.5返迴特徵字段 331
13.6.6提取 label 標簽字段 331
13.6.7建立訓練評估所需的數據 332
13.6.8以隨機方式將數據分為 3 部分並返迴 333
13.6.9編寫 PrepareData(sc) 函數 333
13.7如何訓練模型 334
13.8如何使用模型進行預測 335
13.9如何評估模型的準確率 338
13.9.1使用 AUC 評估二元分類模型 338
13.9.2計算 AUC 339
13.10模型的訓練參數如何影響準確率 341
13.10.1建立 trainEvaluateModel 341
13.10.2評估impurity參數 343
13.10.3訓練評估的結果以圖錶顯示 344
13.10.4編寫 evalParameter 347
13.10.5使用 evalParameter 評估 maxDepth 參數 347
13.10.6使用 evalParameter 評估 maxBins 參數 348
13.11如何找齣準確率高的參數組閤 349
13.12如何確認是否過度訓練 352
13.13編寫RunDecisionTreeBinary.py程序 352
13.14開始輸入RunDecisionTreeBinary.py程序 353
13.15運行RunDecisionTreeBinary.py 355
13.15.1執行參數評估 355
13.15.2所有參數訓練評估找齣好的參數組閤 355
13.15.3運行 RunDecisionTreeBinary.py 不要輸入參數 357
13.16查看DecisionTree的分類規則 358
13.17結論 360
第14章 Python Spark MLlib 邏輯迴歸二元分類 361
14.1邏輯迴歸分析介紹 362
14.2RunLogisticRegression WithSGDBinary.py程序說明 363
14.3運行RunLogisticRegression WithSGDBinary.py進行參數評估 367
14.4找齣佳參數組閤 370
14.5修改程序使用參數進行預測 370
14.6結論 372
第15章 Python Spark MLlib支持嚮量機SVM二元分類 373
15.1支持嚮量機SVM算法的基本概念 374
15.2運行SVMWithSGD.py進行參數評估 376
15.3運行SVMWithSGD.py 訓練評估參數並找齣佳參數組閤 378
15.4運行SVMWithSGD.py 使用佳參數進行預測 379
15.5結論 381
第16章 Python Spark MLlib樸素貝葉斯二元分類 382
16.1樸素貝葉斯分析原理的介紹 383
16.2RunNaiveBayesBinary.py程序說明 384
16.3運行NaiveBayes.py進行參數評估 386
16.4運行訓練評估並找齣好的參數組閤 387
16.5修改RunNaiveBayesBinary.py 直接使用佳參數進行預測 388
16.6結論 390
第17章 Python Spark MLlib決策樹多元分類 391
17.1“森林覆蓋植被”大數據問題分析場景 392
17.2UCI Covertype數據集介紹 393
17.3下載與查看數據 394
17.4修改PrepareData() 數據準備 396
17.5修改trainModel 訓練模型程序 398
17.6使用訓練完成的模型預測數據 399
17.7運行RunDecisionTreeMulti.py 進行參數評估 401
17.8運行RunDecisionTreeMulti.py 訓練評估參數並找齣好的參數組閤 403
17.9運行RunDecisionTreeMulti.py 不進行訓練評估 404
17.10結論 406< Python+Spark 2 0+Hadoop機器學習與大數據實戰 林大貴 清華大學齣版社 下載 mobi epub pdf txt 電子書
Python+Spark 2 0+Hadoop機器學習與大數據實戰 林大貴 清華大學齣版社 pdf epub mobi txt 電子書 下載