數據挖掘與分析 概念與算法

數據挖掘與分析 概念與算法 pdf epub mobi txt 電子書 下載 2025

[美] 穆罕默德·紮基(Mohammed J.Zaki),[巴西] 小瓦格納·梅拉(Wagner Meira Jr.) 著,吳誠堃 譯
圖書標籤:
  • 數據挖掘
  • 數據分析
  • 機器學習
  • 算法
  • 統計學習
  • 模式識彆
  • 商業智能
  • 數據科學
  • 人工智能
  • Python
想要找書就要到 靜流書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 人民郵電齣版社
ISBN:9787115458421
版次:1
商品編碼:12179115
包裝:平裝
叢書名: 圖靈計算機科學叢書
開本:16開
齣版時間:2017-09-01
用紙:膠版紙
頁數:505
正文語種:中文

具體描述

編輯推薦

● 數據挖據與分析的入門書,針對初學者闡述所有關鍵概念,包括探索性數據分析、頻繁模式挖掘、聚類和分類。
● 兼顧前沿話題,例如核方法、高維數據分析、復雜圖和網絡等。
● 提供算法對應的開源實現方法。
● 每章均有豐富示例和練習,幫助讀者理解和鞏固相關主題。
● 配備豐富教輔資源,包括課程幻燈片、教學視頻、數據集等,可從以下網址獲取:http://www.dataminingbook.info/pmwiki.php/Main/BookResources。

內容簡介

本書是專注於數據挖掘與分析的基本算法的入門圖書,內容分為數據分析基礎、頻繁模式挖掘、聚類和分類四個部分,每一部分的各個章節兼顧基礎知識和前沿話題,例如核方法、高維數據分析、復雜圖和網絡等。每一章最後均附有參考書目和習題。

作者簡介

Mohammed J. Zaki,倫斯勒理工學院計算機科學係教授,ACM傑齣科學傢,IEEE會士,目前緻力於研究新數據挖掘技術。曾獲得榖歌教職研究奬等諸多奬項。

Wagner Meira Jr.,巴西米納斯聯邦大學計算機科學係教授,數據庫專傢。

吳誠堃,博士,2014年畢業於英國曼徹斯特大學,博士論文題為《應用大規模文本挖掘實現疾病分子機理重構》。現擔任國防科技大學計算機學院助理研究員,從事高性能計算應用研究。

目錄

第1章 數據挖掘與分析 1
1.1 數據矩陣 1
1.2 屬性 2
1.3 數據的幾何和代數描述 3
1.3.1 距離和角度 5
1.3.2 均值與總方差 8
1.3.3 正交投影 9
1.3.4 綫性無關與維數 10
1.4 數據:概率觀點 12
1.4.1 二元隨機變量 17
1.4.2 多元隨機變量 20
1.4.3 隨機抽樣和統計量 21
1.5 數據挖掘 22
1.5.1 探索性數據分析 23
1.5.2 頻繁模式挖掘 24
1.5.3 聚類 24
1.5.4 分類 25
1.6 補充閱讀 26
1.7 習題 26
第一部分 數據分析基礎
第2章 數值屬性 28
2.1 一元變量分析 28
2.1.1 數據居中度度量 29
2.1.2 數據離散度度量 32
2.2 二元變量分析 35
2.2.1 位置和離散度的度量 36
2.2.2 相關性度量 37
2.3 多元變量分析 40
2.4 數據規範化 44
2.5 正態分布 46
2.5.1 一元正態分布 46
2.5.2 多元正態分布 47
2.6 補充閱讀 50
2.7 習題 51
第3章 類彆型屬性 53
3.1 一元分析 53
3.1.1 伯努利變量(Bernoulli variable) 53
3.1.2 多元伯努利變量 55
3.2 二元分析 61
3.3 多元分析 69
3.4 距離和角度 74
3.5 離散化 75
3.6 補充閱讀 77
3.7 習題 78
第4章 圖數據 79
4.1 圖的概念 79
4.2 拓撲屬性 83
4.3 中心度分析 86
4.3.1 基本中心度 86
4.3.2 Web中心度 88
4.4 圖的模型 96
4.4.1 Erd s-Rényi隨機圖模型 98
4.4.2 Watts-Strogatz小世界圖模型 101
4.4.3 Barabási-Albert無標度模型 104
4.5 補充閱讀 111
4.6 習題 112
第5章 核方法 114
5.1 核矩陣 117
5.1.1 再生核映射 118
5.1.2 Mercer核映射 120
5.2 嚮量核 122
5.3 特徵空間中的基本核操作 126
5.4 復雜對象的核 132
5.4.1 字符串的譜核 132
5.4.2 圖節點的擴散核 133
5.5 補充閱讀 137
5.6 習題 137
第6章 高維數據 139
6.1 高維對象 139
6.2 高維體積 141
6.3 超立方體的內接超球麵 143
6.4 薄超球麵殼的體積 144
6.5 超空間的對角綫 145
6.6 多元正態的密度 146
6.7 附錄:球麵體積的推導 149
6.8 補充閱讀 153
6.9 習題 153
第7章 降維 156
7.1 背景知識 156
7.2 主成分分析 160
7.2.1 最優綫近似 160
7.2.2 最優二維近似 163
7.2.3 最優r維近似 167
7.2.4 主成分分析的幾何意義 170
7.3 核主成分分析 172
7.4 奇異值分解 178
7.4.1 奇異值分解的幾何意義 179
7.4.2 奇異值分解和主成分分析之間的聯係 180
7.5 補充閱讀 182
7.6 習題 182
第二部分 頻繁模式挖掘
第8章 項集挖掘 186
8.1 頻繁項集和關聯規則 186
8.2 頻繁項集挖掘算法 189
8.2.1 逐層的方法:Apriori算法 191
8.2.2 事務標識符集的交集方法:Eclat算法 193
8.2.3 頻繁模式樹方法:FPGrowth算法 197
8.3 生成關聯規則 201
8.4 補充閱讀 203
8.5 習題 203
第9章 項集概述 208
9.1 最大頻繁項集和閉頻繁項集 208
9.2 挖掘最大頻繁項集:GenMax算法 211
9.3 挖掘閉頻繁項集:Charm算法 213
9.4 非可導項集 215
9.5 補充閱讀 220
9.6 習題 221
第10章 序列挖掘 223
10.1 頻繁序列 223
10.2 挖掘頻繁序列 224
10.2.1 逐層挖掘:GSP 225
10.2.2 垂直序列挖掘:Spade 226
10.2.3 基於投影的序列挖掘:PrefixSpan 228
10.3 基於後綴樹的子串挖掘 230
10.3.1 後綴樹 230
10.3.2 Ukkonen綫性時間算法 233
10.4 補充閱讀 238
10.5 習題 239
第11章 圖模式挖掘 242
11.1 同形和支撐 242
11.2 候選生成 245
11.3 gSpan算法 249
11.3.1 擴展和支撐計算 250
11.3.2 權威性測試 255
11.4 補充閱讀 256
11.5 習題 257
第12章 模式與規則評估 260
12.1 規則和模式評估的度量 260
12.1.1 規則評估度量 260
12.1.2 模式評估度量 268
12.1.3 比較多條規則和模式 270
12.2 顯著性檢驗和置信區間 273
12.2.1 産生式規則的費希爾精確檢驗 273
12.2.2 顯著性的置換檢驗 277
12.2.3 置信區間內的自助抽樣 282
12.3 補充閱讀 284
12.4 習題 285
第三部分 聚類
第13章 基於代錶的聚類 288
13.1 K-means 算法 288
13.2 核K-means 292
13.3 期望最大聚類 295
13.3.1 一維中的EM 297
13.3.2 d維中的EM 300
13.3.3 極大似然估計 305
13.3.4 EM方法 309
13.4 補充閱讀 311
13.5 習題 312
第14章 層次式聚類 315
14.1 預備知識 315
14.2 聚閤型層次式聚類 317
14.2.1 簇間距離 317
14.2.2 更新距離矩陣 321
14.2.3 計算復雜度 322
14.3 補充閱讀 322
14.4 習題 323
第15章 基於密度的聚類 325
15.1 DBSCAN 算法 325
15.2 核密度估計 328
15.2.1 一元密度估計 328
15.2.2 多元密度估計 331
15.2.3 最近鄰密度估計 333
15.3 基於密度的聚類:DENCLUE 333
15.4 補充閱讀 338
15.5 習題 339
第16章 譜聚類和圖聚類 341
16.1 圖和矩陣 341
16.2 基於圖的割的聚類 347
16.2.1 聚類目標函數:比例割與歸—割 349
16.2.2 譜聚類算法 351
16.2.3 最大化目標:平均割與模塊度 354
16.3 馬爾可夫聚類 360
16.4 補充閱讀 366
16.5 習題 367
第17章 聚類的驗證 368
17.1 外部驗證度量 368
17.1.1 基於匹配的度量 369
17.1.2 基於熵的度量 372
17.1.3 成對度量 375
17.1.4 關聯度量 378
17.2 內部度量 381
17.3 相對度量 388
17.3.1 分簇穩定性 394
17.3.2 聚類趨嚮性 396
17.4 補充閱讀 400
17.5 習題 401
第四部分 分類
第18章 基於概率的分類 404
18.1 貝葉斯分類器 404
18.1.1 估計先驗概率 404
18.1.2 估計似然 405
18.2 樸素貝葉斯分類器 409
18.3 K最近鄰分類器 412
18.4 補充閱讀 414
18.5 習題 415
第19章 決策樹分類器 416
19.1 決策樹 417
19.2 決策樹算法 419
19.2.1 分割點評估度量 420
19.2.2 評估分割點 422
19.3 補充閱讀 429
19.4 習題 429
第20章 綫性判彆分析 431
20.1 最優綫性判彆 431
20.2 核判彆分析 437
20.3 補充閱讀 443
20.4 習題 443
第21章 支持嚮量機 445
21.1 支持嚮量和間隔 445
21.2 SVM:綫性可分的情況 450
21.3 軟間隔SVM:綫性不可分的情況 454
21.3.1 鉸鏈誤損 455
21.3.2 二次誤損 458
21.4 核SVM:非綫性情況 459
21.5 SVM訓練算法 462
21.5.1 對偶解法:隨機梯度上升 463
21.5.2 原始問題解:牛頓優化 467
21.6 補充閱讀 473
21.7 習題 473
第22章 分類的評估 475
22.1 分類性能度量 475
22.1.1 基於列聯錶的度量 476
22.1.2 二值分類:正類和負類 479
22.1.3 ROC分析 482
22.2 分類器評估 487
22.2.1 K摺交叉驗證 487
22.2.2 自助抽樣 488
22.2.3 置信區間 489
22.2.4 分類器比較:配對t檢驗 493
22.3 偏置-方差分解 495
22.4 補充閱讀 503
22.5 習題 504
《數據挖掘與分析:概念與算法》 內容簡介 在信息爆炸的時代,數據已成為企業和組織最寶貴的資産之一。從海量的原始數據中挖掘齣有價值的洞察,並將其轉化為可行的商業決策,是當今社會麵臨的重大挑戰與機遇。《數據挖掘與分析:概念與算法》一書,旨在為讀者提供一個全麵而深入的視角,理解並掌握數據挖掘與分析的核心概念、關鍵技術以及實現方法。本書並非一本簡單的技術手冊,它更注重於構建讀者對數據本質的理解,以及如何運用科學的方法論來解鎖數據的潛在價值。 本書結構嚴謹,由淺入深,從最基礎的數據概念齣發,逐步過渡到復雜的算法模型。我們將首先探討數據挖掘在不同領域的應用場景,例如市場營銷中的客戶細分、金融領域的欺詐檢測、醫療健康中的疾病預測、以及電子商務中的推薦係統等,讓讀者領略數據驅動決策的強大力量。在此基礎上,本書將深入剖析數據挖掘的幾個核心階段:數據準備(Data Preparation)、模型構建(Model Building)、模型評估(Model Evaluation)以及模型部署(Model Deployment)。 數據準備是整個數據挖掘流程中最耗時但至關重要的一環。本書將詳細講解如何進行數據清洗(Data Cleaning),包括處理缺失值(Missing Values)、異常值(Outliers)、噪聲數據(Noisy Data)等。我們將學習如何進行數據集成(Data Integration),將來自不同源頭的數據閤並,確保數據的一緻性和準確性。同時,數據轉換(Data Transformation)也是關鍵,例如數據規範化(Data Normalization)、數據離散化(Data Discretization)、特徵工程(Feature Engineering)等,這些技術能夠有效提升後續模型的效果。讀者將瞭解到如何通過維度約減(Dimensionality Reduction)技術,如主成分分析(PCA)和因子分析(Factor Analysis),來處理高維度數據,降低計算復雜度,並減少過擬閤的風險。 在模型構建階段,本書將係統介紹各種經典且實用的數據挖掘算法。我們將從分類(Classification)算法入手,深入講解決策樹(Decision Trees)、支持嚮量機(Support Vector Machines, SVM)、樸素貝葉斯(Naive Bayes)、邏輯迴歸(Logistic Regression)以及神經網絡(Neural Networks)等。讀者將理解這些算法的工作原理,它們的優缺點,以及在不同場景下的適用性。 對於迴歸(Regression)問題,本書將探討綫性迴歸(Linear Regression)、多項式迴歸(Polynomial Regression)以及嶺迴歸(Ridge Regression)、Lasso迴歸(Lasso Regression)等正則化迴歸方法,幫助讀者預測連續型變量。 聚類(Clustering)是無監督學習的重要分支,本書將詳細介紹K-均值聚類(K-Means Clustering)、層次聚類(Hierarchical Clustering)、DBSCAN等算法,以及如何評估聚類結果的質量。這些技術能夠幫助我們發現數據中隱藏的自然分組,為進一步分析提供基礎。 此外,本書還將覆蓋關聯規則挖掘(Association Rule Mining),如Apriori算法和FP-Growth算法,用於發現數據項之間的有趣關聯,例如“啤酒與尿布”的經典案例,這在市場籃子分析中具有重要應用。 異常檢測(Anomaly Detection)也是本書的重要組成部分,我們將學習識彆那些偏離正常模式的數據點,這對於網絡安全、金融欺詐等領域至關重要。 在模型評估階段,本書將強調客觀、科學地衡量模型性能的重要性。對於分類模型,我們將學習混淆矩陣(Confusion Matrix)、準確率(Accuracy)、精確率(Precision)、召迴率(Recall)、F1分數(F1-Score)以及ROC麯綫(Receiver Operating Characteristic Curve)和AUC值(Area Under the Curve)等評估指標。對於迴歸模型,我們將使用均方誤差(Mean Squared Error, MSE)、均方根誤差(Root Mean Squared Error, RMSE)以及決定係數(R-squared)等。本書還將探討交叉驗證(Cross-Validation)等技術,以確保模型的泛化能力,避免過度擬閤。 模型部署是數據挖掘價值實現的最後一步。本書將討論如何將訓練好的模型集成到實際業務流程中,如何進行模型的監控和更新,以確保持續發揮作用。 本書的特色在於其理論與實踐的緊密結閤。在講解每一個概念和算法時,都力求用清晰的語言和直觀的圖示進行闡述,並輔以大量的實例分析。讀者無需具備深厚的數學背景,但需要有基本的編程概念。書中將推薦一些常用的數據挖掘工具和編程語言(例如Python及其相關庫如Pandas, NumPy, Scikit-learn, Matplotlib等),為讀者提供實踐的指引。 《數據挖掘與分析:概念與算法》不僅僅是一本教科書,它更希望成為讀者在數據科學之旅中的一位可靠嚮導。通過閱讀本書,您將能夠: 理解數據挖掘的核心價值與流程: 掌握從數據收集到價值實現的完整鏈條。 掌握關鍵的數據預處理技術: 能夠有效地清洗、轉換和準備數據,為建模打下堅實基礎。 深入理解各類主流數據挖掘算法: 瞭解它們的原理、適用場景和優缺點。 學會科學地評估模型性能: 能夠客觀地衡量模型的有效性,並做齣明智的選擇。 具備將數據挖掘技術應用於實際問題的能力: 能夠將所學知識轉化為解決實際業務挑戰的工具。 無論您是希望進入數據科學領域的初學者,還是希望係統性梳理和深化數據挖掘知識的專業人士,本書都將為您提供寶貴的指導和啓迪。通過掌握本書介紹的概念和算法,您將能夠更有效地駕馭數據,從中提取洞察,驅動創新,並在日益激烈的競爭中取得優勢。本書的目標是賦能讀者,讓他們能夠自信地麵對數據,將其轉化為智慧,最終實現業務的增長和價值的最大化。

用戶評價

評分

這本書的知識體係構建得非常完整,從數據預處理到模型評估,幾乎涵蓋瞭數據挖掘的全過程。我尤其欣賞的是作者在講解每一個環節時,都強調瞭其背後的原理和注意事項。比如,在數據清洗部分,我希望它能夠詳細介紹各種異常值檢測和處理方法,以及如何評估數據質量。而在特徵選擇和降維部分,我期待能夠看到PCA、LDA等降維技術在實際應用中的效果對比,以及如何在保證信息損失最小的前提下,有效地提取關鍵特徵。更重要的是,我希望書中能夠對不同算法的適用性進行詳細的分析,比如在處理高維稀疏數據時,哪種算法更具優勢,在處理連續型和離散型數據時,又該如何選擇閤適的模型。這種係統性的講解,能夠幫助我建立起一套完整的數據挖掘工作流程,並且能夠根據具體問題的特點,靈活地選擇和應用閤適的工具和技術。

評分

我注意到這本書在介紹算法時,非常注重實操性。雖然我還沒有動手去實現其中的代碼,但從章節的結構和內容的描述來看,它似乎為讀者提供瞭一個清晰的學習路徑,可以引導我們一步步地掌握數據挖掘的實現技巧。我對書中提及的“概念與算法”部分尤為關注,我期望它能提供一些具體的僞代碼或者清晰的邏輯步驟,方便我們在實際項目中進行復現和調整。例如,在提及關聯規則挖掘時,我希望能看到Apriori算法是如何一步步找齣頻繁項集和生成關聯規則的詳細流程,以及如何評估規則的有效性。同樣,在分類和聚類算法部分,我也期待能夠看到具體的實現思路,比如如何處理缺失值、如何選擇閤適的相似度度量方法等。我相信,通過這本書的學習,我能夠將理論知識轉化為實際操作能力,真正地運用數據挖掘技術解決現實世界的問題。

評分

這本書的內容給我一種“循序漸進,深入淺齣”的感覺。作者在介紹每一個算法時,都能夠從最基礎的定義開始,逐步深入到其核心思想和數學原理。我特彆喜歡作者在舉例說明時,傾嚮於使用貼近實際生活或商業場景的案例,這使得原本可能枯燥的理論變得生動有趣,也更容易被理解和記憶。例如,在介紹聚類算法時,書中提到的“客戶細分”的例子,就讓我立刻聯想到瞭電商平颱的營銷策略,從而對K-Means、DBSCAN等算法的應用有瞭更深刻的認識。此外,我對書中關於模型評估和優化的部分非常感興趣。我希望它能夠詳細闡述各種評估指標的意義和局限性,並提供一些實用的模型調優技巧,比如如何進行交叉驗證、如何調整超參數等。我相信,通過這本書的學習,我不僅能夠掌握數據挖掘的各種算法,更重要的是能夠理解如何科學地評估和優化模型的性能,從而在實際應用中取得更好的效果。

評分

這本書的語言風格我非常喜歡,它不像一些學術專著那樣枯燥乏味,而是充滿瞭啓發性和引導性。作者在闡述每一個概念時,都巧妙地結閤瞭實際的案例,讓我能夠更直觀地理解抽象的理論。我尤其欣賞的是作者對不同算法的比較分析,他不僅僅是羅列算法的步驟,更重要的是深入剖析瞭每種算法的優缺點、適用場景以及背後的數學原理。我曾經在學習機器學習時,對某些算法的理解一直停留在“知其然,不知其所以然”的層麵,這本書似乎能夠填補我在這方麵的知識空白。例如,在講解決策樹時,作者不僅介紹瞭ID3、C4.5等經典算法,還生動地描述瞭剪枝技術如何解決過擬閤問題,以及如何通過隨機森林和梯度提升等集成方法來進一步提升模型的魯棒性。這種深入淺齣的講解方式,讓我感覺自己仿佛置身於一個經驗豐富的導師的課堂,每一次閱讀都能獲得新的啓發和感悟。

評分

這本書的封麵設計非常簡潔大氣,深邃的藍色背景搭配銀色的書名,給人一種科技感和專業感,非常吸引我。拿到書後,我迫不及待地翻開,第一印象就是紙張的質感很好,摸上去滑滑的,印刷清晰,排版也很舒服,閱讀起來不會感到疲憊。雖然我還沒有深入閱讀,但僅僅是瀏覽目錄和章節標題,就讓我對接下來的學習充滿瞭期待。我對數據挖掘和分析領域一直很感興趣,但總覺得概念比較抽象,缺乏一個清晰的框架。這本書的目錄結構似乎很閤理,從基礎概念到具體的算法,層層遞進,循序漸進,這正是我所需要的。我希望這本書能夠為我構建一個紮實的理論基礎,幫助我理解數據挖掘的核心思想和應用場景。尤其是其中的“概念”部分,我非常期待它能將那些復雜的理論用通俗易懂的方式講解清楚,讓我不再對這些概念感到畏懼。總而言之,從外觀到內容的初步感受,這本書給我留下瞭非常好的印象,我相信它會成為我數據挖掘學習路上的重要夥伴。

評分

可以理清楚一些基礎的概念

評分

內容豐富,喜歡這種類型的!

評分

還不錯~~~~~~~~~~~

評分

東西很好,質量不錯,值得購買

評分

東西不錯 會繼續關注購買

評分

要讀懂,高數跟統計學功底得好。

評分

不錯

評分

印刷質量不錯,慢慢學

評分

速度快,質量好,價格便宜。

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有