數據挖掘與預測分析(第2版)/大數據應用與技術叢書

數據挖掘與預測分析(第2版)/大數據應用與技術叢書 pdf epub mobi txt 電子書 下載 2025

[美] Daniel T.Larose,Chantal D.Larose 著
圖書標籤:
  • 數據挖掘
  • 預測分析
  • 大數據
  • 機器學習
  • 統計學習
  • 數據分析
  • 商業智能
  • Python
  • R語言
  • 數據科學
想要找書就要到 靜流書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 清華大學齣版社
ISBN:9787302459873
版次:2
商品編碼:12145574
包裝:平裝
開本:16開
齣版時間:2017-03-01
用紙:膠版紙
頁數:725
字數:1144000
正文語種:中文

具體描述

編輯推薦

  本書提齣的方法和技術全麵、深入,幾乎涵蓋瞭當前應用中常見的各類挖掘與分析方法。對方法的介紹從概念、算法、評價等部分著手,深入淺齣地加以介紹。在介紹方法的章節中增加瞭R語言開發園地,幫助讀者利用R語言開展實際設計和開發工作,獲得章節中涉及內容的結果,便於讀者掌握所學內容。

內容簡介

  通過做數據分析學習數據分析
  《數據挖掘與預測分析(第2版)》提供瞭從數據準備到探索性數據分析、數據建模及模型評估等整個數據分析過程的內容。《數據挖掘與預測分析(第2版)》不僅提供瞭理解軟件底層算法的“白盒”方法,而且提供瞭能夠使讀者利用現實世界數據集開展數據挖掘與預測分析的應用方法。
  第2版的新內容:
  ● 添加瞭500多頁的新內容,包括20個新章節,例如,數據建模準備、成本-效益分析、缺失數據填充、聚類優劣度量以及細分模型等。
  ● 針對前沿主題的新章節,例如,多元分類模型、BIRCH聚類、集成學習(bagging及boosting)、模型投票與趨嚮平均等。
  ● 每章節後均附有R語言開發園地,讀者可以獲得完成書中分析所需的R語言源代碼,以及通過R代碼生成的圖、錶和結果。
  ● 書中的附錄為那些對統計基礎生疏的讀者提供瞭瞭解基本概念的材料。
  ● 超過750個章節練習,使讀者能夠自己測試對所學知識的掌握程度,並著手開展數據挖掘與預測分析工作。
  《數據挖掘與預測分析(第2版)》將對數據分析人員、數據庫分析人員以及CIO具有極大的吸引力,通過學習將使他們知道何種類型的分析將會增加其投資迴報。

作者簡介

  Daniel T. Larose博士,美國中康涅狄格州立大學數學科學教授,數據挖掘項目負責人。齣版與數據挖掘、Web挖掘和統計理論等相關論著多本。他也是《微軟》、《福布斯》雜誌以及《經濟學人》雜誌等數據挖掘與統計分析領域的顧問。

  Chantal D. Larose是美國康涅狄格大學的在讀博士。其研究領域包括缺失數據填補以及基於模型的聚類等。她已獲得美國新帕爾茲紐約州立大學商學院決策科學領域助理教授的職位。

內頁插圖

目錄

第Ⅰ部分 數據準備
第1章 數據挖掘與預測分析概述 3
1.1 什麼是數據挖掘和預測分析 3
1.2 需求:數據挖掘技術人員 4
1.3 數據挖掘離不開人的參與 5
1.4 跨行業數據挖掘標準過程:
CRISP-DM 6
1.5 數據挖掘的謬誤 8
1.6 數據挖掘能夠完成的任務 9
1.6.1 描述 9
1.6.2 評估 10
1.6.3 預測 11
1.6.4 分類 11
1.6.5 聚類 13
1.6.6 關聯 14
R語言開發園地 15
R參考文獻 16
練習 16
第2章 數據預處理 17
2.1 需要預處理數據的原因 17
2.2 數據清理 18
2.3 處理缺失數據 19
2.4 識彆錯誤分類 22
2.5 識彆離群值的圖形方法 22
2.6 中心和散布度量 24
2.7 數據變換 26
2.8 min-max規範化 26
2.9 Z-score標準化 27
2.10 小數定標規範化 28
2.11 變換為正態數據 28
2.12 識彆離群值的數值方法 34
2.13 標誌變量 35
2.14 將分類變量轉換為數值變量 35
2.15 數值變量分箱 36
2.16 對分類變量重新劃分類彆 37
2.17 添加索引字段 37
2.18 刪除無用變量 38
2.19 可能不應該刪除的變量 38
2.20 刪除重復記錄 39
2.21 ID字段簡述 39
R語言開發園地 39
R參考文獻 45
練習 45
第3章 探索性數據分析 49
3.1 假設檢驗與探索性數據分析 49
3.2 瞭解數據集 49
3.3 探索分類變量 52
3.4 探索數值變量 58
3.5 探索多元關係 62
3.6 選擇感興趣的數據子集作進一步研究 64
3.7 使用EDA發現異常字段 64
3.8 基於預測值分級 65
3.9 派生新變量:標誌變量 67
3.10 派生新變量:數值變量 69
3.11 使用EDA探測相關聯的預測
變量 70
3.12 EDA概述 73
R語言開發園地 73
R參考文獻 80
練習 80
第4章 降維方法 83
4.1 數據挖掘中降維的必要性 83
4.2 主成分分析 84
4.3 將主成分分析應用於房屋
數據集 87
4.4 應提取多少個主成分 91
4.4.1 特徵值標準 91
4.4.2 解釋變異的比例標準 92
4.4.3 *小共性標準 92
4.4.4 坡度圖標準 92
4.5 主成分描述 94
4.6 共性 96
4.7 主成分驗證 97
4.8 因子分析法 98
4.9 因子分析法在成年人數據集中的
應用 99
4.10 因子鏇轉 101
4.11 用戶自定義閤成 104
4.12 用戶自定義閤成的示例 105
R語言開發園地 106
R參考文獻 110
練習 111
第Ⅱ部分 統計分析
第5章 單變量統計分析 117
5.1 數據知識發現中的數據挖掘
任務 117
5.2 用於估計和預測的統計方法 117
5.3 統計推理 118
5.4 我們對評估的確信程度如何 119
5.5 均值的置信區間估計 120
5.6 如何減少誤差範圍 121
5.7 比例的置信區間估計 122
5.8 均值的假設檢驗 123
5.9 拒絕零假設的證據力度的
評估 125
5.10 使用置信區間執行假設檢驗 126
5.11 比例的假設檢驗 127
R語言開發園地 128
R參考文獻 129
練習 129
第6章 多元統計 133
6.1 描述均值差異的兩樣例t-檢驗
方法 133
6.2 判斷總體差異的兩樣例
Z-檢驗 134
6.3 比例均勻性的測試 135
6.4 多元數據擬閤情況的
卡方檢驗 137
6.5 方差分析 138
R語言開發園地 141
R參考文獻 143
練習 143
第7章 數據建模準備 145
7.1 有監督學習與無監督學習 145
7.2 統計方法與數據挖掘方法 146
7.3 交叉驗證 146
7.4 過度擬閤 147
7.5 偏差-方差權衡 148
7.6 平衡訓練數據集 150
7.7 建立基綫性能 151
R語言開發園地 152
R參考文獻 153
練習 153
第8章 簡單綫性迴歸 155
8.1 簡單綫性迴歸示例 155
8.2 外推的危險 161
8.3 迴歸有用嗎?係數的確定 162
8.4 估計標準誤差 166
8.5 相關係數r 167
8.6 簡單綫性迴歸的方差分析錶 169
8.7 離群點、高杠杆率點與有影響
的觀察點 170
8.8 迴歸方程概括 178
8.9 迴歸假設驗證 179
8.10 迴歸推理 184
8.11 x與y之間關係的t-檢驗 185
8.12 迴歸直綫斜率的置信區間 187
8.13 相關係數ρ的置信區間 188
8.14 給定均值的置信區間 190
8.15 給定隨機選擇值的預測區間 191
8.16 獲得綫性特性的變換 194
8.17 博剋斯-考剋斯變換 199
R語言開發園地 199
R參考文獻 205
練習 205
第9章 多元迴歸與模型構建 213
9.1 多元迴歸示例 213
9.2 總體多元迴歸方程 218
9.3 多元迴歸推理 219
練習 380
第14章 樸素貝葉斯與貝葉斯網絡 385
14.1 貝葉斯方法 385
14.2 *大後驗(MAP)分類 387
14.3 後驗概率比 391
14.4 數據平衡 393
14.5 樸素貝葉斯分類 394
14.6 解釋對數後驗概率比 397
14.7 零單元問題 398
14.8 樸素貝葉斯分類中的數值型
預測變量 399
14.9 WEKA:使用樸素貝葉斯開展
分析 402
14.10 貝葉斯信念網絡 406
14.11 衣物購買示例 407
14.12 利用貝葉斯網絡發現概率 409
R語言開發園地 413
R參考文獻 417
練習 417
第15章 模型評估技術 421
15.1 用於描述任務的模型評估
技術 421
15.2 用於評估和預測任務的模型
評估技術 422
15.3 用於分類任務的模型評估
方法 423
15.4 準確率和總誤差率 425
15.5 靈敏性和特效性 426
15.6 假正類率和假負類率 427
15.7 真正類、真負類、假正類、
假負類的比例 427
15.8 通過誤分類成本調整來反映
現實關注點 429
15.9 決策成本/效益分析 430
15.10 提升圖錶和增益圖錶 431
15.11 整閤模型評估與模型建立 434
15.12 結果融閤:應用一係列
模型 435
R語言開發園地 436
R參考文獻 436
練習 437
第16章 基於數據驅動成本的
成本-效益分析 439
16.1 在行調整條件下的決策
不變性 439
16.2 正分類標準 440
16.3 正分類標準的示範 442
16.4 構建成本矩陣 444
16.5 在縮放條件下的決策不變性 445
參考文獻 556
練習 557
第Ⅴ部分 關聯規則
第23章 關聯規則 561
23.1 親和度分析與購物籃分析 561
23.2 支持度、可信度、頻繁項集和
先驗屬性 564
23.3 先驗算法工作原理(第1部
分)—— 建立頻繁項集 565
23.4 先驗算法工作原理(第2部
分)—— 建立關聯規則 566
23.5 從標誌數據擴展到分類數據 569
23.6 信息理論方法:廣義規則推理
方法 570
23.7 關聯規則不易做好 571
23.8 度量關聯規則可用性的方法 573
23.9 關聯規則是監督學習還是
無監督學習 574
23.10 局部模式與全局模型 574
R語言開發園地 575
R參考文獻 575
練習 576
第Ⅵ部分 增強模型性能
第24章 細分模型 581
24.1 細分建模過程 581
24.2 利用EDA識彆分段的細分
建模 583
24.3 利用聚類方法識彆分段的
細分建模 585
R語言開發園地 589
R參考文獻 591
練習 591
第25章 集成方法:bagging和
boosting 593
25.1 使用集成分類模型的理由 593
25.2 偏差、方差與噪聲 594
25.3 適閤采用bagging的場閤 595
25.4 bagging 596
25.5 boosting 599
25.6 使用IBM/SPSS建模器應用
bagging和boosting 602
參考文獻 603
R語言開發園地 604
R參考文獻 605
練習 606
第26章 模型投票與趨嚮平均 609
26.1 簡單模型投票 609
26.2 其他投票方法 610
26.3 模型投票過程 611
26.4 模型投票的應用 612
26.5 什麼是趨嚮平均 616
26.6 趨嚮平均過程 616
26.7 趨嚮平均的應用 618
R語言開發園地 619
R參考文獻 621
練習 622
第Ⅶ部分 更多主題
第27章 遺傳算法 627
27.1 遺傳算法簡介 627
27.2 基因算法的基本框架 628
27.3 遺傳算法的簡單示例 629
27.3.1 第1次迭代 629
27.3.2 第2次迭代 631
27.4 改進及增強:選擇 631
27.5 改進及增強:交叉 633
27.5.1 多點交叉 633
27.5.2 通用交叉 634
27.6 實值變量的遺傳算法 634
27.6.1 單一算術交叉 635
27.6.2 簡單算術交叉 635
27.6.3 完全算術交叉 635
27.6.4 離散交叉 635
27.6.5 正態分布突變 635
27.7 利用遺傳算法訓練神經元
網絡 636
27.8 WEKA:使用遺傳算法進行
分析 640
R語言開發園地 646
R參考文獻 647
練習 647
第28章 缺失數據的填充 649
28.1 缺失數據填充的必要性 649
28.2 缺失數據填充:連續型變量 650
28.3 填充的標準誤差 653
28.4 缺失值填充:範疇型變量 653
28.5 缺失的處理模式 654
參考文獻 655
R語言開發園地 655
R參考文獻 657
練習 658
第Ⅷ部分 案例研究:對直郵營
銷的響應預測
第29章 案例研究,第1部分:業務
理解、數據預處理和探索性
數據分析 661
29.1 數據挖掘的跨行業標準 661
29.2 業務理解階段 662
29.3 數據理解階段,*部分:
熟悉數據集 663
29.4 數據準備階段 667
29.4.1 消費金額為負值的情況 667
29.4.2 實現正態性或對稱性的
轉換 669
29.4.3 標準化 671
29.4.4 派生新變量 671
29.5 數據理解階段,第二部分:
探索性數據分析 674
29.5.1 探索預測因子和響應之間
的關係 674
29.5.2 研究預測因子間的相關性
結構 679
29.5.3 逆轉換對於解釋的
重要性 682
第30章 案例研究,第2部分:聚類與
主成分分析 685
30.1 數據劃分 685
30.2 製定主成分 686
30.3 驗證主成分 689
30.4 主成分概括 691
30.5 利用BIRCH聚類算法選擇*優
聚類數 694
30.6 利用k均值聚類算法選擇*優
聚類數 695
30.7 k-均值聚類應用 696
30.8 驗證聚類 697
30.9 聚類概括 698
第31章 案例研究,第3部分:建模與
評估性能和可解釋性 699
31.1 選擇性能*佳模型,還是既要
性能又要可解釋性 699
31.2 建模與評估概述 700
31.3 利用數據驅動開銷開展損益
分析 700
31.4 輸入到模型中的變量 702
31.5 建立基綫模型性能 703
31.6 利用誤分類開銷的模型 704
31.7 需要用代理調整誤分類開銷
的模型 705
31.8 采用投票和趨嚮平均方法
閤並模型 706
31.9 對利潤*佳模型的解釋 707
第32章 案例研究,第4部分:高性能
建模與評估 709
32.1 輸入到模型中的變量 709
32.2 使用誤分類開銷的模型 710
32.3 需要作為誤分類開銷代理
調整的模型 710
32.4 使用投票和趨嚮平均的閤並
模型 711
32.5 經驗總結 713
32.6 總結 713
附錄A 數據匯總與可視化 715

前言/序言

  什麼是數據挖掘?什麼是預測分析
  數據挖掘是從大型數據集閤中發現有用的模式和趨勢的過程。
  預測分析是從大型數據集閤中抽取信息以便對未來的情況做齣預測和估計的過程。
  由Daniel Larose 和 Chantal Larose閤著的《數據挖掘與預測分析(第2版)》一書能夠確保讀者成為這一前沿且大有前途的領域的專傢。
  為什麼需要本書
  根據MarketsandMarkets研究公司的調查,從2013年~2018年,全球大數據市場有望以每年26%的速度增長,將從2013年的148.7億美元增加到2018年的463.4億美元 。世界範圍內的公司和團體正在學習如何應用數據挖掘和預測分析以增加利潤。尚未應用數據挖掘和預測分析的公司將會在21世紀經濟的全球競爭中落伍。
  在大多數領域中,人類都被數據所淹沒。遺憾的是,這些花費龐大成本收集得到的數據多數都被遺棄在數據倉庫中。問題是,缺乏足夠的、受過良好訓練的、具備將這些數據轉換為人類需要的知識並就此將分類樹轉換為智慧的分析人員。這也是編寫本書的目的所在。
  McKinsey Global Institute報告指齣 :
  公司在利用大數據的技能需求方麵將會存在人纔短缺現象。從大數據中獲取價值的製約主要體現在缺乏必要的人纔,特彆是缺乏那些掌握統計和機器學習專門知識的人纔,缺乏能夠使用從大數據中獲取的見識來運營公司的管理人員和分析人員。我們認為對大數據世界開展分析工作的職位比目前能夠提供的缺少大約140 000~190 000個。此外,我們認為在美國額外還將需要150萬位能夠提齣正確問題並能夠有效利用大數據分析結果的管理和分析人員。
  本書試圖幫助解決數據分析人員短缺的問題。
  數據挖掘得到越來越廣泛的應用,因為它有助於增強公司從其已有的數據集閤中發現有利的模式和趨勢的能力。公司和團體花費瞭大量的金錢,收集到海量的數據,但是未能很好地利用隱藏在其數據倉庫中的有價值的和可操作的信息。然而,隨著數據挖掘實踐變得越來越廣泛,無法應用這些技術的公司將存在落後於市場的危險,將逐漸失去市場份額,因為他們的競爭對手都在使用數據挖掘,從而贏得競爭優勢。
  誰將從本書獲益
  《數據挖掘和預測分析(第2版)》一書通過逐步動手解決現實世界的現實問題,介紹瞭當前廣泛運用於現實世界數據集閤中的數據挖掘技術,這一方式將吸引管理人員、首席信息官、首席執行官、首席財務官、數據分析人員、數據庫分析人員以及其他需要瞭解*新方法以提高投資迴報率的群體的注意。
  利用《數據挖掘與預測分析(第2版)》,你將學習什麼類型的分析能夠從數據中發現*有益的知識,同時避免進入可能會導緻公司投入大量資金而不能帶來相應利益的誤區。你將通過真正實踐數據挖掘和預測分析來學習數據挖掘和預測分析。
  危險!數據挖掘容易被搞砸
  能夠開展數據挖掘工作的新的現有軟件平颱不斷湧現,這將帶來新的危險。這些應用處理數據非常方便,強大的數據挖掘算法以黑盒方式嵌入到軟件中,導緻濫用情況齣現的比例更高,從而帶來巨大的危險。
  簡言之,數據挖掘工作不容易做好。將強大的模型應用於海量數據時,一知半解特彆危險。例如,對未經過預處理的數據開展分析工作可能會得齣錯誤的結論,或者對數據集采用不適當的分析方法,又或者模型構建基於完全不正確或似是而非的假設之上。如果進行瞭部署,分析中存在的這些錯誤可能會讓你付齣昂貴的代價。《數據挖掘與預測分析(第2版)》一書有助於使你成為一名能夠避免進入這些昂貴陷阱的精明的分析人員。
  “白盒”方法
  瞭解基本算法和模型結構
  數據挖掘和預測分析齣現問題的癥結在於盲目采用“黑盒”方法,避免代價昂貴錯誤的*佳方法是轉而采用“白盒”方法,白盒方法強調要求對軟件中基本算法和統計模型結構的瞭解。
  《數據挖掘與預測分析(第2版)》通過如下方式應用白盒方法:
  ● 明確地揭示為什麼需要運用某一特定方法或算法。
  ● 讓讀者瞭解某個算法或方法是如何工作的,采用實例(小型數據集)解釋,以便讀者逐步瞭解其中的邏輯關係,從而以白盒方法瞭解方法或算法的內部工作模式。
  ● 提供將方法應用於大型、現實世界數據集的實例。
  ● 通過練習測試讀者對概念和算法的理解程度。
  ● 為讀者提供將數據挖掘應用於大型數據集的經驗。
  算法概覽
  《數據挖掘與預測分析(第2版)》將利用小型數據集,指引讀者學習各種算法的操作和細微差異,讓讀者真正理解算法的內部工作情況。例如,在第21章中,我們將逐步利用小型數據庫,應用BIRCH聚類算法(BIRCH是層次聚類的一種方法)學習平衡迭代消減和聚類,精確地展示BIRCH如何針對數據集選擇優化的聚類解決方法。正如我們所知,此類演示是本書針對BIRCH算法的獨特方法。同樣,在第27章中,我們將通過使用選擇、交叉和變異操作算子,針對小型數據集逐步發現優化解決方案,以便讀者能夠更好地理解所涉及的過程。
  將算法和模型應用到大型數據庫
  《數據挖掘與預測分析(第2版)》提供瞭大量將數據分析方法應用於大型數據庫的示例。例如,第9章通過利用實際數據庫,解析營養等級與榖物含量之間的關係。在第4章中,我們將主成分分析應用於實際的加利福尼亞州的人口普查數據中。所有數據集均可從本書網站www.dataminingconsultant.com中獲得。
  章節練習:檢查並確認讀者是否瞭解瞭本章內容
  《數據挖掘與預測分析(第2版)》一書的各章中包含大約750個練習,有助於讀者瞭解自己對各章提供材料的理解程度,並從中體驗與數字和數據打交道的樂趣。這些練習包含概念辨析類型的練習,可幫助讀者進一步梳理清楚數據挖掘中某些更具有挑戰性的概念;利用數據開展工作的練習,幫助讀者將特定數據挖掘算法應用到小型數據集中,從而能夠逐步實現較好的解決方案。例如,在第14章中,我們要求讀者通過該章提供的數據集獲得*大後驗分類。
  動手實踐:通過實際編寫數據挖掘算法學習數據挖掘
  本書大多數章節為讀者提供瞭動手實踐分析問題,為讀者提供瞭運用新學的數據挖掘專業知識,解決大型數據集實際問題的方法。許多人都喜歡邊學邊做,而《數據挖掘與預測分析(第2版)》為讀者提供瞭一個邊學邊做的框架。例如,在第13章中,讀者將采用實際的信用卡審批分類數據集,構建自己的*佳logistic迴歸模型,盡可能利用從該章中學習到的方法,提供對模型強大的、可解釋的支持,包括對獲取的變量及標識變量的解釋。
  令人興奮的新主題
  《數據挖掘與預測分析(第2版)》一書還提供大量令人興奮的新主題,主要包括:
  ● 通過利用數據驅動的誤分類開銷實現成本-效益分析
  ● 獨立或多元分類模型的成本-效益分析
  ● 分類模型的圖形化評估方法
  ● BIRCH聚類
  ● 分段模型
  ● 集成方法:bagging和boosting方法
  ● 模型投票與趨嚮平均
  ● 缺失數據的填補方法
  R語言開發園地
  R語言是一種探索及分析數據集的功能強大的開源語言。使用R語言的分析人員可以利用大量免費的程序包、例程和圖形用戶界麵來解決大多數數據分析問題。本書大多數章節中都為讀者提供R語言開發園地,用R語言獲得章節中涉及內容的結果,以及部分輸齣的截圖。
  附錄:數據匯總與可視化
  一些讀者可能不大容易理解某些統計和圖形化概念,這些概念通常會在統計課程中學習。《數據挖掘與預測分析(第2版)》一書提供瞭介紹常見概念和術語的附錄,為讀者更好地理解本書的相關材料奠定基礎。
  案例研究:分析方法匯總
  《數據挖掘與預測分析(第2版)》*後提供瞭詳細的案例研究。通過對案例的研究,讀者能夠瞭解怎樣將自己從書中學習到的方法融會貫通,以建立可操作的、有益的解決方案。詳細的案例研究包括在以下4章中:
  ● 第29章 案例研究,第1部分:業務理解、數據預處理和探索性數據分析。
  ● 第30章 案例研究,第2部分:聚類與主成分分析。
  ● 第31章 案例研究,第3部分:建模與評估性能和可解釋性。
  ● 第32章 案例研究,第4部分:高性能建模與評估
  案例研究中包含大量圖形、探索數據分析、預測模型、客戶分析,並提供針對不同用戶需求的解決方案。采用定製的數據驅動成本效益錶的模型評估方法,反映分類誤差的真正開銷,而不是采用常見的諸如總體誤差率等評估方法。因此,分析人員能夠使用每位客戶接觸的開銷對模型進行比較工作,給予接觸客戶的數量,預測模型能夠實現多少利潤。
  本書組織結構
  《數據挖掘與預測分析(第2版)》一書的組織結構有助於讀者直接發現相關的邏輯。共設32章,包含8個主要部分:
  ● 第Ⅰ部分是數據準備,包含有關數據預處理、探索性數據分析、降維方法等章節。
  ● 第Ⅱ部分是統計分析,提供開展數據分析工作常見的經典統計方法,包括單變量統計分析及多元變量統計分析、簡單及多元綫性迴歸方法、為構建模型準備數據、模型構建等章節。
  ● 第Ⅲ部分是分類,包含9章,是本書涉及內容*多的部分:其中包含k-*近鄰算法、決策樹、神經元網絡、logistic迴歸、樸素貝葉斯與貝葉斯網絡、模型評估技術、基於數據驅動成本的成本-效益分析、二元及k元分類模型、分類模型的圖形化評估等。
  ● 第Ⅳ部分是聚類,包含層次聚類和k-均值聚類、Kohonen網絡、BIRCH聚類、度量簇的優劣等。
  ● 第Ⅴ部分是關聯規則,本部分僅包含一章內容,涵蓋A Priori關聯規則以及廣義規則歸納。
  ● 第Ⅵ部分是模型性能強化,提供細分模型、集成方法:bagging和boosting、模型投票與趨嚮平均等章節。
  ● 第Ⅶ部分介紹針對預測建模的其他方法,包括缺失數據填補以及遺傳算法等。
  ● 第Ⅷ部分是案例研究:針對直郵市場的預測響應,包括4章,給齣如何從直郵市場營銷活動中獲取*大利潤的完整案例分析方法。
  軟件
  本書使用的軟件包括:
  ● IBP SPSS Modeler數據挖掘軟件套件
  ● R開放源代碼統計分析軟件
  ● SAS Enterprise Miner
  ● SAS統計分析軟件
  ● Minitab統計分析軟件
  ● Weka開放源代碼數據挖掘軟件
  ……

《數據挖掘與預測分析(第2版)/大數據應用與技術叢書》圖書簡介 引言 在當今這個信息爆炸的時代,數據已成為驅動決策、優化流程、創造價值的核心要素。海量數據的湧現,為我們提供瞭前所未有的洞察能力,但也帶來瞭挑戰:如何從紛繁復雜的數據中提煉齣有價值的信息,如何利用這些信息進行準確的預測,從而在激烈的市場競爭中占據優勢?《數據挖掘與預測分析(第2版)》正是在這樣的背景下應運而生,作為“大數據應用與技術叢書”的重要組成部分,它不僅是一本理論知識的匯集,更是一本實踐操作的指南,旨在為讀者揭示數據背後隱藏的規律,賦予數據預測未來的力量。 本書第二版在第一版的基礎上,進行瞭全麵的更新與升華,緊跟大數據技術發展的最新潮流,深入闡釋瞭數據挖掘與預測分析領域的核心概念、關鍵技術與實際應用。它麵嚮的對象廣泛,無論是對數據科學充滿好奇的初學者,還是希望深化理解和掌握新技術的專業人士,亦或是希望利用數據提升業務錶現的管理決策者,都能從中受益。本書的目標是幫助讀者建立起一套完整的知識體係,掌握從數據采集、清洗、預處理到建模、評估、部署的全流程方法論,並最終將其應用於解決現實世界中的各種復雜問題。 核心內容概述 本書的核心內容聚焦於數據挖掘和預測分析兩大領域,並係統地介紹瞭大數據應用中的關鍵技術。 第一部分:數據挖掘基礎與方法論 數據挖掘是發現隱藏在海量數據中規律和知識的過程。本部分將帶領讀者係統地瞭解數據挖掘的定義、目標、流程以及各種核心方法。 數據挖掘概述與價值: 深入探討數據挖掘的本質,闡釋其在不同行業中的應用價值,例如提升客戶滿意度、優化運營效率、發現潛在市場機會、風險控製等。通過生動的案例,說明數據挖掘如何將原始數據轉化為可執行的洞察。 數據預處理: 現實世界中的數據往往是“髒”的,包含缺失值、噪聲、異常值,格式也不統一。本部分將詳細講解數據預處理的各個環節,包括數據清洗(處理缺失值、異常值、噪聲)、數據集成(閤並來自不同數據源的數據)、數據變換(歸一化、標準化、離散化)以及數據規約(特徵選擇、特徵提取、降維)。這些步驟是構建有效數據挖掘模型的基石,將直接影響模型的性能和結果的可靠性。 關聯規則挖掘: 學習如何發現數據項之間的有趣關聯,例如“購買尿布的顧客也傾嚮於購買啤酒”。本部分將介紹Apriori算法、FP-Growth算法等經典關聯規則挖掘算法,以及支持度、置信度、提升度等評價指標,並探討其在購物籃分析、推薦係統等方麵的應用。 分類與預測: 分類是根據已知類彆的樣本對新樣本進行類彆劃分。本部分將詳細介紹多種經典的分類算法,包括: 決策樹: 講解ID3、C4.5、CART等算法,以及樹剪枝技術,使其能夠生成簡潔且泛化能力強的模型。 貝葉斯分類器: 介紹樸素貝葉斯算法,理解其基於概率的分類思想,以及在文本分類、垃圾郵件過濾等領域的應用。 支持嚮量機(SVM): 深入講解SVM的原理,包括最大間隔超平麵、核函數技巧,使其能夠處理非綫性可分問題,並在圖像識彆、文本分類等領域發揮重要作用。 K近鄰(KNN): 闡述基於距離的分類思想,討論不同距離度量的選擇以及K值的確定。 集成學習: 介紹Bagging(如隨機森林)和Boosting(如AdaBoost、Gradient Boosting)等集成學習方法,展示如何通過組閤多個弱學習器來構建更強大、更魯棒的模型。 聚類分析: 聚類是將相似的對象分組,使同一組內的對象相似度高,不同組內的對象相似度低。本部分將介紹: 劃分聚類: 詳細講解K-Means算法,包括其迭代過程、質心更新以及如何選擇閤適的K值。 層次聚類: 介紹凝聚型和分裂型層次聚類方法,以及如何構建和可視化聚類樹。 基於密度的聚類: 講解DBSCAN算法,使其能夠發現任意形狀的簇,並對噪聲點具有魯棒性。 聚類評估: 討論外部評估指標(如ARI、NMI)和內部評估指標(如輪廓係數),以及如何客觀評價聚類結果的質量。 異常檢測: 識彆與大多數數據顯著不同的數據點,這對於欺詐檢測、網絡入侵檢測、工業故障診斷等至關重要。本部分將介紹基於統計學、基於密度、基於距離以及基於機器學習的異常檢測方法。 第二部分:預測分析及其應用 預測分析利用曆史數據來預測未來的趨勢和結果,是數據挖掘的直接應用。本部分將側重於各種預測模型及其在商業和科學領域中的應用。 迴歸分析: 預測連續數值型變量。本部分將深入探討: 綫性迴歸: 介紹簡單綫性迴歸和多元綫性迴歸,理解模型的假設、參數估計(最小二乘法)以及模型評估(R²、MSE、RMSE)。 嶺迴歸與Lasso迴歸: 講解正則化技術如何處理多重共綫性問題,並進行特徵選擇。 非綫性迴歸: 介紹多項式迴歸、樣條迴歸等,以捕捉更復雜的變量關係。 時間序列分析: 分析隨時間變化的數據,以識彆趨勢、季節性、周期性,並進行未來值的預測。本部分將介紹: 平穩性、自相關性與偏自相關性: 理解時間序列數據的基本性質。 ARIMA模型: 講解自迴歸(AR)、滑動平均(MA)、差分(I)等構成要素,以及模型識彆、參數估計和模型檢驗的流程。 指數平滑法: 介紹簡單指數平滑、霍爾特綫性趨勢模型、霍爾特-溫特斯季節性模型等。 狀態空間模型與卡爾曼濾波: 引入更高級的時間序列建模方法。 文本挖掘與自然語言處理(NLP)基礎: 學習如何從非結構化的文本數據中提取信息和洞察。本部分將介紹: 文本預處理: 分詞、詞性標注、去除停用詞、詞乾提取/詞形還原。 文本錶示: One-hot編碼、詞袋模型(Bag-of-Words)、TF-IDF(詞頻-逆文檔頻率)、詞嵌入(Word Embeddings,如Word2Vec、GloVe、FastText)。 情感分析: 預測文本錶達的情感傾嚮(正麵、負麵、中性)。 主題建模: 如LDA(Latent Dirichlet Allocation),發現文本集閤中的隱藏主題。 文本分類與信息抽取。 序列模式挖掘: 發現數據序列中具有較高頻率的子序列。例如,在用戶瀏覽行為數據中,發現用戶經常遵循的瀏覽路徑。 深度學習在數據挖掘與預測分析中的應用: 隨著深度學習的飛速發展,其在處理復雜數據和解決高度非綫性問題上展現齣巨大潛力。本部分將介紹: 神經網絡基礎: 感知機、多層感知機、激活函數。 捲積神經網絡(CNN): 在圖像和序列數據上的應用。 循環神經網絡(RNN)及變體(LSTM, GRU): 在處理時序數據和自然語言處理中的應用。 深度學習模型在推薦係統、圖像識彆、自然語言理解等領域的最新進展。 第三部分:大數據應用與技術叢書的視角 本書作為“大數據應用與技術叢書”的一部分,自然而然地融入瞭大數據時代的特有挑戰與機遇。 大數據特點(5V): Volume(體量)、Velocity(速度)、Variety(多樣性)、Value(價值)、Veracity(真實性)的分析,理解這些特點對數據挖掘和預測分析提齣的新要求。 大數據處理技術: 簡要介紹Hadoop生態係統(HDFS, MapReduce, YARN)、Spark(RDD, DataFrame, Spark SQL, MLlib)等分布式計算框架,以及NoSQL數據庫(如HBase, Cassandra)在存儲和處理海量數據方麵的作用。 雲計算平颱: 討論AWS, Azure, GCP等雲服務平颱如何提供強大的計算和存儲資源,支持大規模數據挖掘和預測分析任務。 數據科學工作流與工具: 介紹Python(NumPy, Pandas, Scikit-learn, TensorFlow, PyTorch)、R等主流數據科學編程語言及其生態係統,以及Jupyter Notebook等交互式開發環境。 模型部署與監控: 學習如何將訓練好的模型部署到生産環境中,並進行持續的性能監控和模型更新,以適應數據變化和業務需求。 數據倫理與隱私保護: 在利用數據的同時,強調數據安全、隱私保護和負責任的數據使用原則。 本書特色與價值 《數據挖掘與預測分析(第2版)》具備以下顯著特色,使其成為一本高質量的參考書籍: 體係化與全麵性: 覆蓋瞭從基礎概念到高級算法,從理論原理到實際應用的完整知識體係,為讀者構建瞭一個紮實的數據科學基礎。 理論與實踐並重: 不僅深入剖析各類算法的數學原理和邏輯,還結閤豐富的示例和代碼片段(將以Python為主,並考慮R語言的支持),幫助讀者將理論知識轉化為實際操作能力。 緊跟技術前沿: 第二版充分吸收瞭近年來大數據技術、機器學習和深度學習領域的最新發展,確保內容的時效性和前瞻性。 麵嚮廣泛讀者: 語言通俗易懂,但又不失深度,適閤不同背景的讀者,從初學者到經驗豐富的從業者都能找到適閤自己的內容。 解決實際問題導嚮: 強調數據挖掘和預測分析在解決現實世界問題中的實際應用,通過案例分析展示技術如何賦能業務增長和科學研究。 “大數據應用與技術叢書”的組成部分: 與叢書中其他書籍形成聯動,共同構建大數據領域的知識圖譜,為讀者提供更廣闊的視野。 結語 在這個數據驅動的時代,掌握數據挖掘和預測分析的能力,意味著擁有瞭洞察未來、把握先機的關鍵能力。《數據挖掘與預測分析(第2版)》將是您踏上數據科學之旅,或者在現有領域深耕探索的得力助手。通過本書的學習,您將能夠更自信地駕馭海量數據,從中發掘寶貴的價值,並將其轉化為驅動創新與增長的強大動力。本書期待與您一起,解鎖數據蘊藏的無限可能。

用戶評價

評分

這本書給我帶來的最大收獲,在於它提供瞭一種全新的視角來理解數據分析的本質。作者在書中反復強調,數據挖掘和預測分析並非僅僅是枯燥的算法堆砌,而是一個需要深度理解業務問題、善於從數據中提取洞察,並最終能夠驅動業務決策的完整過程。我尤其贊賞書中對於“因果推斷”和“相關性”之間界限的清晰劃分。在許多案例中,作者都提醒讀者要警惕過度解讀相關性,而忽視潛在的因果關係。這種批判性思維的引導,對於避免數據分析中的常見誤區至關重要。此外,書中對“大數據”這一概念的闡釋也十分到位,它不僅僅是數據的體量龐大,更在於數據處理的復雜性、數據來源的多樣性以及數據分析帶來的巨大商業價值。我受益於書中關於如何構建有效的預測模型,並將其融入業務流程的討論,這幫助我理解瞭如何將理論知識轉化為實際的生産力。這本書就像一位經驗豐富的嚮導,帶領我穿越數據挖掘的迷宮,找到通往真知灼見的道路。

評分

從一名普通讀者的角度來看,這本書的價值體現在其極強的可讀性和啓發性。即便對於非技術背景的讀者,書中也盡可能地用通俗易懂的語言解釋復雜的概念。圖文並茂的講解方式,大量的圖錶和代碼示例,使得學習過程充滿趣味性,也大大降低瞭理解門檻。我發現自己能夠相對輕鬆地掌握書中介紹的各種算法原理,並通過實際操作加深理解。特彆值得一提的是,書中關於模型的可解釋性部分,作者詳細闡述瞭如何理解和解釋復雜模型的預測結果,這對於提升模型的可信度和業務接受度至關重要。例如,在解釋集成模型(如梯度提升樹)的預測時,書中提供瞭SHAP和LIME等工具的應用指南,幫助讀者理解每個特徵對預測結果的貢獻程度。這種注重“透明度”和“可解釋性”的講解,在同類書籍中是比較少見的,也體現瞭作者對數據科學倫理和實踐的深刻思考。總而言之,這是一本能夠讓你在輕鬆愉快的氛圍中,係統掌握數據挖掘與預測分析核心知識的優秀教材。

評分

這本書最令我贊賞的一點在於其理論與實踐的完美結閤。在探討瞭諸如分類、迴歸、關聯規則等核心數據挖掘技術之後,作者並沒有止步於此,而是巧妙地將其與實際應用場景緊密聯係起來。書中大量的案例研究,涵蓋瞭金融風控、市場營銷、醫療健康等多個領域,展示瞭如何運用書中所學的知識解決現實世界中的復雜問題。我印象最深的是關於客戶流失預測的章節,作者不僅介紹瞭常用的預測模型(如邏輯迴歸、隨機森林),還詳細講解瞭如何從客戶行為數據中提取有意義的特徵,如何評估模型的準確性和魯棒性,以及如何在業務層麵解讀模型的輸齣結果,並提齣可行的改進建議。這種“從數據到洞察,從洞察到行動”的完整流程,為我提供瞭一個清晰的分析框架。此外,書中還穿插瞭對一些新興技術(如深度學習在特定場景下的應用)的介紹,雖然篇幅不長,但足以引發讀者對未來發展趨勢的思考。總的來說,這本書不僅教授瞭“做什麼”,更重要的是教會瞭“如何做”以及“為什麼這樣做”,這對於希望將數據挖掘技術落地應用的讀者來說,無疑是一筆寶貴的財富。

評分

閱讀過程中,我感受最深的是作者在技術深度和廣度之間取得的絕佳平衡。這本書的內容絕非淺嘗輒止,而是對數據挖掘的諸多關鍵技術進行瞭深入的剖析。例如,在介紹模型評估指標時,書中不僅列舉瞭準確率、精確率、召迴率等基本指標,還詳細闡述瞭F1-score、AUC-ROC等更具代錶性的指標,並深入討論瞭在不同業務場景下如何選擇最閤適的評估標準,以及如何理解這些指標背後的數學原理。這種嚴謹的學術態度,為讀者構建瞭堅實的理論基石。同時,書中也展現瞭相當的廣度,覆蓋瞭從數據準備、模型構建、模型評估到模型部署的整個數據挖掘生命周期。我尤其喜歡其中關於特徵工程的章節,作者列舉瞭多種常見的特徵構建技巧,並用生動的例子說明瞭如何通過特徵工程提升模型性能。此外,書中對一些非監督學習算法的介紹,如降維技術(PCA、t-SNE)的應用,也為數據探索和可視化提供瞭有力的工具。總而言之,這本書既有深度,又有廣度,能夠滿足不同層次讀者的需求,無論是希望係統學習數據挖掘理論的學生,還是希望提升實操技能的從業者,都能從中獲益匪淺。

評分

最近有幸通讀瞭這本《數據挖掘與預測分析(第2版)/大數據應用與技術叢書》,整體感受頗為深刻。首先,從章節的編排和內容的深度來看,作者顯然是下瞭相當一番功夫。書中對於數據挖掘的各個核心算法,無論是傳統的決策樹、支持嚮量機,還是更現代的集成學習方法,都進行瞭較為細緻的闡述。我尤其欣賞的是,書中不僅僅是羅列公式和算法,而是試圖從概念的源頭講起,並結閤大量的實例來輔助理解。例如,在講解聚類算法時,作者沒有直接給齣K-Means的步驟,而是先從“物以類聚”的直觀概念齣發,逐步引導讀者理解聚類的目的和基本思想,然後再引入具體的算法實現。這種循序漸進的教學方式,對於初學者來說無疑是極大的福音,能夠幫助他們建立起紮實的理論基礎,而不是停留在“知其然,不知其所以然”的層麵。此外,書中對於數據預處理的各個環節,如缺失值處理、異常值檢測、特徵選擇等,也給予瞭充分的關注,這在很多同類書籍中是相對欠缺的。數據預處理往往是數據挖掘過程中最耗時但又至關重要的一步,本書在這方麵的詳細論述,極大地提升瞭其作為一本實操性教材的價值。

評分

正版的參考書,可以一看

評分

很厚很全麵,R的使用還是可以的

評分

買來認真學習,科研用書

評分

有機會獲得京豆,就是說不一定獲得京豆?

評分

大牛的書,書裏不錯,質量不錯,值得買來一看

評分

正版書籍,很喜歡,多搞點活動就更好瞭

評分

數據分析的進階知識,幫助自己在數據分析上走得更遠

評分

好書好書。做CRM看瞭還是有用的

評分

必須掌握的技術,大數據呀,來瞭嗎?~~~~

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有