數據挖掘：實用機器學習工具與技術（原書第3版） pdf epub mobi txt 電子書下載 2026

簡體網頁||繁體網頁

☆☆☆☆☆

[新西蘭] 威滕（Witten，I.H.）著，李川，張永輝譯

圖書標籤:

數據挖掘
機器學習
數據分析
Python
R
統計學習
模式識彆
商業智能
數據科學
算法

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜流書站

book.coffeedeals.club

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：機械工業齣版社

ISBN：9787111453819

版次：1

商品編碼：11458406

品牌：機工齣版

包裝：平裝

開本：16開

齣版時間：2014-05-01

用紙：膠版紙

頁數：480

具體描述

編輯推薦

weka係統的主要開發者將豐富的研發、商業應用和教學實踐的經驗和技術融會貫通。

廣泛覆蓋在數據挖掘實踐中采用的算法和機器學習技術，著眼於解決實際問題

避免過分要求理論基礎和數學知識，重點在於告訴讀者“如何去做”，同時包括許多算法、代碼以及具體實例的實現。

將所有的概念都建立在具體實例的基礎之上，促使讀者首先考慮使用簡單的技術。如果簡單的技術不足以解決問題，再考慮提升到更為復雜的高級技術。

新版增加瞭大量近年來湧現的數據挖掘算法和諸如Web數據挖掘等新領域的介紹，所介紹的weka係統增加瞭50%的算法及大量新內容。

內容簡介

　　《數據挖掘：實用機器學習工具與技術（原書第3版）》是機器學習和數據挖掘領域的經典暢銷教材，被眾多國外名校選為教材。書中詳細介紹用於數據挖掘領域的機器學習技術和工具以及實踐方法，並且提供瞭一個公開的數據挖掘工作平颱Weka。本書主要內容包括：數據輸入/輸齣、知識錶示、數據挖掘技術（決策樹、關聯規則、基於實例的學習、綫性模型、聚類、多實例學習等）以及在實踐中的運用。本版對上一版內容進行瞭全麵更新，以反映自第2版齣版以來數據挖掘領域的技術變革和新方法，包括數據轉換、集成學習、大規模數據集、多實例學習等，以及新版的Weka機器學習軟件。

作者簡介

　　Ian H.Witten，新西蘭懷卡托大學計算機科學係教授，ACM Fellow和新西蘭皇傢學會Fellow，曾榮獲2004年國際信息處理研究協會（IFIP）頒發的Namur奬項。他的研究興趣包括語言學習、信息檢索和機器學習。

　　Eibe Frank，新西蘭懷卡托大學計算機科學係副教授，《Machine Learning Journal》和《Journal of Artificial Intelligence Research》編委。

　　Mark A.Hall，新西蘭懷卡托大學名譽副研究員，曾獲得2005年ACM SIGKDD服務奬。

　　譯者簡介：

　　李川，博士，副教授，四川大學計算機學院數據庫知識工程研究所副所長，中國計算機學會數據庫專委會委員。主持國傢自然科學基金青年基金等項目多項，閤作發錶論文30餘篇,獲四川省科技成果二等奬1項。

精彩書評

　　★“本書既含理論又有實踐應用，並且關注實踐是本書的一大特色。對於從事數據挖掘和機器學習方麵工作的每位讀者，我強烈推薦本書！”
　　——Dorian Pyle　《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者

　　★“本書在數據挖掘技術領域備受推崇，是數據挖掘分析師的必讀之物！”
　　——Herb Edelstein　Two Crows Consulting公司首席數據挖掘谘詢顧問

　　★“這是我zui喜愛的數據挖掘書籍之一，書中不僅循序漸進地介紹瞭各種算法，還輔以豐富實例，詳細闡述瞭如何應用這些算法解決實際數據挖掘問題。本書不但有益於學習使用Weka軟件，而且還會幫助你瞭解各類機器學習算法。”
　　——Tom Breur　XLNT Consulting公司首席谘詢顧問

　　★“本書既含理論又有實踐應用，並且關注實踐是本書的一大特色。對於從事數據挖掘和機器學習方麵工作的每位讀者，我強烈推薦本書！”
　　——Dorian Pyle　《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者

　　★“這是我zui喜愛的數據挖掘書籍之一，書中不僅循序漸進地介紹瞭各種算法，還輔以豐富實例，詳細闡述瞭如何應用這些算法解決實際數據挖掘問題。本書不但有益於學習使用Weka軟件，而且還會幫助你瞭解各類機器學習算法。”
　　——Tom Breur　XLNT Consulting公司首席谘詢顧問

　　★“假如你需要對數據進行分析和理解，本書以及相關的Weka工具包是一個不錯的起步。
　　本書以非常容易理解的方式展示瞭這門新的學科：既是用來訓練新一代實際工作者和研究者的教科書，同時又能讓像我這樣的專業人員受益。Witten、Frank和Hall熱衷於簡單而優美的解決方案。他們對每個主題都采用這樣的方法，用具體的實例來講解所有的概念，促使讀者首先考慮簡單的技術，當簡單的技術不足以解決問題時，就提升到更為復雜的高級技術。”
　　——Jim Gray（圖靈奬獲得者）

　　★“本書既含理論又有實踐應用，並且關注實踐是本書的一大特色。對於從事數據挖掘和機器學習方麵工作的每位讀者，我強烈推薦本書！”
　　——Dorian Pyle　《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者

Data Mining：Practical Machine Learning Tools and Techniques，Third Edition
齣版者的話
譯者序
前言
緻謝
第一部分　數據挖掘簡介
第1章　緒論2
1.1　數據挖掘和機器學習2
1.1.1　描述結構模式3
1.1.2　機器學習5
1.1.3　數據挖掘6
1.2　簡單的例子：天氣問題和其他問題6
1.2.1　天氣問題7
1.2.2　隱形眼鏡：一個理想化的問題8
1.2.3　鳶尾花：一個經典的數值型數據集10
1.2.4　CPU性能：介紹數值預測11
1.2.5　勞資協商：一個更真實的例子11
1.2.6　大豆分類：一個經典的機器學習的成功例子13
1.3　應用領域14
1.3.1　Web挖掘15
1.3.2　包含評判的決策15
1.3.3　圖像篩選16
1.3.4　負載預測17
1.3.5　診斷17
1.3.6　市場和銷售18
1.3.7　其他應用19
1.4　機器學習和統計學20
1.5　將泛化看做搜索21
1.5.1　枚舉概念空間22
1.5.2　偏差22
1.6　數據挖掘和道德24
1.6.1　再識彆25
1.6.2　使用個人信息25
1.6.3　其他問題26
1.7　補充讀物27

第2章　輸入：概念、實例和屬性29
2.1　概念29
2.2　樣本31
2.2.1　關係32
2.2.2　其他實例類型34
2.3　屬性35
2.4　輸入準備37
2.4.1　數據收集37
2.4.2　ARFF格式38
2.4.3　稀疏數據40
2.4.4　屬性類型40
2.4.5　缺失值41
2.4.6　不正確的值42
2.4.7　瞭解數據43
2.5　補充讀物43

第3章　輸齣：知識錶達44
3.1　錶44
3.2　綫性模型44
3.3　樹45
3.4　規則48
3.4.1　分類規則49
3.4.2　關聯規則52
3.4.3　包含例外的規則52
3.4.4　錶達能力更強的規則54
3.5　基於實例的錶達56
3.6　聚類58
3.7　補充讀物60

第4章　算法：基本方法61
4.1　推斷基本規則61
4.1.1　缺失值和數值屬性62
4.1.2　討論64
4.2　統計建模64
4.2.1　缺失值和數值屬性67
4.2.2　用於文檔分類的樸素貝葉斯68
4.2.3　討論70
4.3　分治法：建立決策樹70
4.3.1　計算信息量73
4.3.2　高度分支屬性74
4.3.3　討論75
4.4　覆蓋算法：建立規則76
4.4.1　規則與樹77
4.4.2　一個簡單的覆蓋算法77
4.4.3　規則與決策列錶80
4.5　挖掘關聯規則81
4.5.1　項集81
4.5.2　關聯規則83
4.5.3　有效地生成規則85
4.5.4　討論87
4.6　綫性模型87
4.6.1　數值預測：綫性迴歸87
4.6.2　綫性分類：Logistic迴歸88
4.6.3　使用感知機的綫性分類90
4.6.4　使用Winnow的綫性分類91
4.7　基於實例的學習92
4.7.1　距離函數93
4.7.2　有效尋找最近鄰93
4.7.3　討論97
4.8　聚類97
4.8.1　基於距離的迭代聚類98
4.8.2　快速距離計算99
4.8.3　討論100
4.9　多實例學習100
4.9.1　聚集輸入100
4.9.2　聚集輸齣100
4.9.3　討論101
4.10　補充讀物101
4.11　Weka實現103

第5章　可信度：評估學習結果104
5.1　訓練和測試104
5.2　預測性能106
5.3　交叉驗證108
5.4　其他評估方法109
5.4.1　留一交叉驗證109
5.4.2　自助法109
5.5　數據挖掘方法比較110
5.6　預測概率113
5.6.1　二次損失函數114
5.6.2　信息損失函數115
5.6.3　討論115
5.7　計算成本116
5.7.1　成本敏感分類117
5.7.2　成本敏感學習118
5.7.3　提升圖119
5.7.4　ROC麯綫122
5.7.5　召迴率-精確率麯綫124
5.7.6　討論124
5.7.7　成本麯綫125
5.8　評估數值預測127
5.9　最小描述長度原理129
5.10　在聚類方法中應用MDL原理131
5.11　補充讀物132

第二部分　高級數據挖掘
第6章　實現：真正的機器學習方案134
6.1　決策樹135
6.1.1　數值屬性135
6.1.2　缺失值136
6.1.3　剪枝137
6.1.4　估計誤差率138
6.1.5　決策樹歸納的復雜度140
6.1.6　從決策樹到規則140
6.1.7　C4.5:選擇和選項141
6.1.8　成本-復雜度剪枝141
6.1.9　討論142
6.2　分類規則142
6.2.1　選擇測試的標準143
6.2.2　缺失值和數值屬性143
6.2.3　生成好的規則144
6.2.4　使用全局優化146
6.2.5　從局部決策樹中獲得規則146
6.2.6　包含例外的規則149
6.2.7　討論151
6.3　關聯規則152
6.3.1　建立頻繁模式樹152
6.3.2　尋找大項集157
6.3.3　討論157
6.4　擴展綫性模型158
6.4.1　最大間隔超平麵159
6.4.2　非綫性類邊界160
6.4.3　支持嚮量迴歸161
6.4.4　核嶺迴歸163
6.4.5　核感知機164
6.4.6　多層感知機165
6.4.7　徑嚮基函數網絡171
6.4.8　隨機梯度下降172
6.4.9　討論173
6.5　基於實例的學習174
6.5.1　減少樣本集的數量174
6.5.2　對噪聲樣本集剪枝174
6.5.3　屬性加權175
6.5.4　泛化樣本集176
6.5.5　用於泛化樣本集的距離函數176
6.5.6　泛化的距離函數177
6.5.7　討論178
6.6　局部綫性模型用於數值預測178
6.6.1　模型樹179
6.6.2　構建樹179
6.6.3　對樹剪枝180
6.6.4　名目屬性180
6.6.5　缺失值181
6.6.6　模型樹歸納的僞代碼181
6.6.7　從模型樹到規則184
6.6.8　局部加權綫性迴歸184
6.6.9　討論185
6.7　貝葉斯網絡186
6.7.1　預測186
6.7.2　學習貝葉斯網絡189
6.7.3　算法細節190
6.7.4　用於快速學習的數據結構192
6.7.5　討論194
6.8　聚類194
6.8.1　選擇聚類的個數195
6.8.2　層次聚類195
6.8.3　層次聚類的例子196
6.8.4　增量聚類199
6.8.5　分類效用203
6.8.6　基於概率的聚類204
6.8.7　EM算法205
6.8.8　擴展混閤模型206
6.8.9　貝葉斯聚類207
6.8.10　討論209
6.9　半監督學習210
6.9.1　用於分類的聚類210
6.9.2　協同訓練212
6.9.3　EM和協同訓練212
6.9.4　討論213
6.10　多實例學習213
6.10.1　轉換為單實例學習213
6.10.2　升級學習算法215
6.10.3　專用多實例方法215
6.10.4　討論216
6.11　Weka實現216

第7章　數據轉換218
7.1　屬性選擇219
7.1.1　獨立於方案的選擇220
7.1.2　搜索屬性空間222
7.1.3　具體方案相關的選擇223
7.2　離散化數值屬性225
7.2.1　無監督離散化226
7.2.2　基於熵的離散化226
7.2.3　其他離散化方法229
7.2.4　基於熵的離散化與基於誤差的離散化229
7.2.5　離散屬性轉換成數值屬性230
7.3　投影230
7.3.1　主成分分析231
7.3.2　隨機投影233
7.3.3　偏最小二乘迴歸233
7.3.4　從文本到屬性嚮量235
7.3.5　時間序列236
7.4　抽樣236
7.5　數據清洗237
7.5.1　改進決策樹237
7.5.2　穩健迴歸238
7.5.3　檢測異常239
7.5.4　一分類學習239
7.6　多分類問題轉換成二分類問題242
7.6.1　簡單方法242
7.6.2　誤差校正輸齣編碼243
7.6.3　集成嵌套二分法244
7.7　校準類概率246
7.8　補充讀物247
7.9　Weka實現249

第8章　集成學習250
8.1　組閤多種模型250
8.2　裝袋251
8.2.1　偏差-方差分解251
8.2.2　考慮成本的裝袋253
8.3　隨機化253
8.3.1　隨機化與裝袋254
8.3.2　鏇轉森林254
8.4　提升255
8.4.1　AdaBoost算法255
8.4.2　提升算法的威力257
8.5　纍加迴歸258
8.5.1　數值預測258
8.5.2　纍加Logistic迴歸259
8.6　可解釋的集成器260
8.6.1　選擇樹260
8.6.2　Logistic模型樹262
8.7　堆棧262
8.8　補充讀物264
8.9　Weka實現265

第9章　繼續：擴展和應用266
9.1　應用數據挖掘266
9.2　從大型的數據集裏學習268
9.3　數據流學習270
9.4　融閤領域知識272
9.5　文本挖掘273
9.6　Web挖掘276
9.7　對抗情形278
9.8　無處不在的數據挖掘280
9.9　補充讀物281

第三部分　Weka數據挖掘平颱
第10章　Weka簡介284
10.1　Weka中包含瞭什麼284
10.2　如何使用Weka285
10.3　Weka的其他應用286
10.4　如何得到Weka286
……
第11章　Explorer界麵287
第12章　Knowledge Flow界麵351
第13章　Experimenter界麵358
第14章　命令行界麵368
第15章　嵌入式機器學習376
第16章　編寫新的學習方案382
第17章　Weka Explorer的輔導練習397
參考文獻416
索引431

精彩書摘

　　第一部分　數據挖掘簡介
　　第1章　緒論
　　人工受精的過程是從婦女的卵巢中收集卵子，再與丈夫或捐贈人的精液結閤後産生胚胎，然後從中選擇幾個胚胎移植到婦女的子宮裏。關鍵是要選齣那些存活可能性最大的胚胎。選擇根據60個左右的胚胎特徵記錄做齣，這些特徵包括它們的形態、卵母細胞、濾泡和精液樣品。特徵屬性的數量非常大，胚胎學傢很難同時對所有屬性進行評估，並結閤曆史數據得齣最終結論：這個胚胎是否能夠産生一個活的嬰兒。在英格蘭的一個研究項目中，研究者探索運用機器學習技術，使用曆史記錄和它們的輸齣作為訓練數據。
　　每年，新西蘭奶牛場主都要麵臨艱難的商業決策：哪些牛應該留在牧場，哪些牛需要賣到屠宰場。隨著飼料儲備的減少，每年牧場在接近擠奶季節末期時隻留下1/5的奶牛。每頭牛的生育和牛奶産量的曆史數據都會影響這個決定。除此以外還要考慮的因素有：年齡（每頭牛都將在8歲後接近生育期的終結）、健康問題、難産的曆史數據、不良的性情特徵（如尥蹶子、跳柵欄）、在下一個季節裏不産牛犢。在過去的幾年中，幾百萬頭牛中的每一頭牛都用700多個屬性記錄下來。機器學習正是用來考察成功的農場主在做決定的時候需要考慮哪些因素，不是為瞭使決策自動化，而是嚮其他人推廣這些農場主的技術和經驗。
　　機器學習是從數據中挖掘知識。它是一個正在萌芽的新技術，範圍涉及生與死、從歐洲到兩極、傢庭和事業，正逐漸引起人們的重視。
　　1.1　數據挖掘和機器學習
　　我們正在被數據所淹沒。存在於這個世界和我們生活中的數據總量似乎在不斷地增長，而且沒有停止的跡象。個人計算機的普及將那些以前會丟棄的數據保存起來。便宜的硬盤和網絡硬盤，3使得很容易以後再決定用這些數據做什麼，因為我們可以買更多的硬盤來保存數據。無處不在的電子器件記錄瞭我們的決策，如超市裏的商品選擇、個人的理財習慣，以及收入和消費。我們以自己的方式生活在這個世界上，而每一個行為又成為一條數據庫裏的記錄保存下來。如今互聯網用信息將我們淹沒，我們在網上所做的每一個選擇都被記錄下來。所有的這些信息記錄瞭個人的選擇，而在商業和企業領域存在著數不清的相似案例。我們都知道我們對數據的掌握永遠無法趕上數據升級的速度。而且在數據量增加的同時，無情地伴隨著人們對它理解的降低。隱藏在這些數據後的是信息，具有潛在用處的信息，而這些信息卻很少被顯現齣來或者被開發利用。
　　本書介紹如何在數據中尋找模式。這並不稀奇，人們從一開始，就試圖在數據中尋找模式。獵人在動物遷徙的行為中尋找模式；農夫在莊稼的生長中尋找模式；政客在選民的意見上尋找模式；戀人在對方的反應中尋找模式。科學傢的工作（像一個嬰兒）是理解數據，從數據中找齣模式，並用它們來指導在真實世界中如何運作，然後把它們概括成理論，這些理論能夠預測齣在新的情況下會發生什麼。企業傢的工作是要辨彆齣機會，就是那些可以轉變成有利可圖的生意的行為中的一些模式，並且利用這些機會。
　　在數據挖掘（data mining）中，計算機以電子化的形式存儲數據，並且能自動地查詢數據，或至少擴增數據。這仍算不得新鮮事。經濟學傢、統計學傢、預測傢和信息工程師長久以來相信，存在於數據中的模式能夠被自動地找到、識彆、確認並能用於預測。該理論的最新發展使得由數據中找齣模式的機遇劇增。在最近幾年，數據庫急劇膨脹，如每天記錄顧客選擇商品行為的數據庫，正把數據挖掘帶到新的商業應用技術的前沿。據估計，存儲在全世界數據庫裏的數據量正以每20個月翻一倍的速度增長。盡管很難從量的意義上真正驗證這個數字，但是我們可以從質上把握這個增長速度。隨著數據量的膨脹，以及利用機器承擔數據搜索工作已變得普通，數據挖掘的機會正在增長。世界正越來越豐富多彩，從中産生的數據淹沒瞭我們，數據挖掘技術成為我們洞察構成數據的模式的唯一希望。被充分研究過的數據是寶貴的資源。它能夠引導人們去獲得新的洞察力，用商業語言來講就是獲得競爭優勢。
　　數據挖掘就是通過分析存在於數據庫裏的數據來解決問題。例如，在激烈競爭的市場上，客戶忠誠度搖擺問題就是一個經常提到的事例。一個有關客戶商品選擇以及客戶個人資料的數據庫是解決這個問題的關鍵。以前客戶的行為模式能夠用來分析並識彆那些喜歡選購不同商品和那些喜歡選擇同種商品的客戶的特性。一旦這些特性被發現，它們將被用於當前實際的客戶群中，鑒彆齣那些善變的客戶群體，並加以特殊對待，須知對整個客戶群都加以特殊對待的成本是高昂的。4更確切地說，同樣的技術還能夠用來辨彆齣那些對企業當前提供的服務並不滿意，但是有可能對其他服務感興趣的客戶群，並嚮他們提供特殊建議，從而推廣這些服務。在當代競爭激烈、以客戶和服務為中心的經濟中，如果數據能夠被挖掘，它將成為推動企業發展的原材料。
　　數據挖掘被定義為找齣數據中的模式的過程。這個過程必須是自動的或（更常見的是）半自動的。數據的總量總是相當可觀的，但從中發現的模式必須是有意義的，並能産生齣一些效益，通常是經濟上的效益。
　　如何錶示數據模式？有價值的模式能夠讓我們對新數據做齣非平凡的預測。錶示一個模式有兩種極端方法：一種是內部結構很難被理解的黑匣子；一種是展示模式結構的透明匣子，它的結構揭示瞭模式的結構。我們假設兩種方法都能做齣好的預測，它們的區彆在於被挖掘齣的模式能否以結構的形式錶現，這個結構是否能夠經得起分析，理由是否充分，能否用來形成未來的決策。如果模式能夠以顯而易見的方法獲得決策結構，就稱為結構模式，換句話說，它們能幫助解釋有關數據的一些現象。
　　現在我們可以說，本書是有關尋找、描述存在於數據中的結構模式的技術。我們所涉及的大部分技術已經在被稱為機器學習的領域裏開發齣來。這裏我們首先介紹什麼是結構模式。
　　1.1.1　描述結構模式
　　結構模式（structural pattern）是什麼？如何描述它們？用什麼形式輸入？我們將以舉例的形式來迴答這個問題，而不是嘗試給齣正式的、最終的死闆定義。本章後麵將給齣很多例子，現在讓我們從一個例子入手來體驗我們正在講解的內容。
　　錶1-1給齣瞭隱形眼鏡的一組數據。這組數據是驗光師針對病人的情況做齣的診斷：使用軟的隱形眼鏡，硬的隱形眼鏡，或不能佩戴隱形眼鏡。我們將在以後詳細討論屬性的單獨意義。錶中的每一行代錶一個例子。下麵是有關這個信息的部分結構描述。
　　錶1-1　隱形眼鏡數據
　　結構描述不一定像以上這樣以規則的形式來錶達。另一種流行的錶達方法是決策樹，它明確瞭需要做齣的決策序列以及伴隨的建議。
　　這是一個非常簡單的例子。首先，這個錶呈現瞭所有可能值的組閤。屬性age（年齡）有3種可能值，屬性spectacle prescription（視力診斷）、astigmatism（散光）和tear production rate（眼淚流速）分彆有2種可能值。所以這個錶有24行記錄（3×2×2×2＝24）。上麵所提到的規則並不是真正從數據中概括齣來的，而隻是對數據的總結。在多數學習的情況下，所給齣的樣本集非常不完整，所以我們的一部分工作就是將其推廣到其他新的樣本上實現一般化。用戶可以想象，如果從上麵的錶格中忽略一些tear production rate的值是reduced的行，仍然可以得齣規則：
　　這個規則可以推廣到那些遺失的行，並且能正確地把它們填充到錶裏去。其次，樣本中的每一個屬性都指定瞭一個值。現實的數據集不可避免地存在一些樣本，這些樣本中的某些屬性值因為一些原因而不可知，例如數據沒有被測量、丟失或其他原因。再次，上麵所提到的規則能正確地對例子進行分類，但是通常情況下，因為數據中存在一些錯誤或者噪聲（noise），即使在用來訓練分類器的數據上也會發生分類錯誤的情況。
　　1.1.2　機器學習
　　現在我們已經有一些輸入和輸齣的概念，下麵我們將轉入機器學習的主題。究竟什麼是學習？什麼是機器學習（machine learning）？這是哲學範疇的問題，在本書中，我們將不涉及有關哲學的問題，而著重立足於實踐。然而，在著手開始研究機器學習之前，值得花一些時間從一些基本的問題入手，弄清其中的微妙之處。我們的字典所給齣的“學習”的定義如下：
　　通過學習、體驗或者被教授得到知識。
　　從信息或觀察中得知。
　　獲得記憶。
　　被告知或查明。
　　接受指令。
　　當涉及計算機的時候，這些定義就存在一些缺陷。對於前兩條，事實上不可能檢測學習是否完成。我們怎麼能知道一颱機器是否擁有某種知識？我們也不大可能嚮機器提齣問題；即使我們能，那也隻是在測試機器迴答問題的能力，而不可能測試它學習的能力。我們又如何知道它是否意識到什麼？有關計算機是否能意識到或有知覺的問題是一個激烈爭論的哲學問題。
　　對於後三條定義，用人類的術語來說，我們看到它們做齣的貢獻局限於記憶和接受指令，這個定義對我們所指的機器學習似乎太簡單瞭，也太被動瞭，對於計算機來說，這些任務太平凡瞭。而我們隻對在新情況中性能的改善，或至少性能所具有的潛力感興趣。你可以通過死記硬背的學習方法來記憶或得知某事，但卻沒有能力在新的情況下運用新的知識。換句話說，你也能夠得到指導卻毫無收益。
　　以前我們是從可操作的角度上定義機器學習：機器學習是從大量的數據中自動或半自動地尋找模式的過程，而且這個模式必須是有用的。我們可以用同樣的方法為學習建立一個可操作的定義：
　　當事物以令其自身在將來錶現更好為標準來改變其行為時，它學到瞭東西。
　　這個定義將學習和錶現而不是知識捆綁在一起。你可以通過觀察和比較現在和過去的行為來評估學習。這是一個非常客觀的看上去也滿意得多的定義。7
　　但是仍然存在一些問題。學習是一個有點圓滑的概念。很多事物都能以多種途徑改變它們的行為，以使它們能在未來做得更好，但是我們不願意說它們已經真正學到瞭。一隻舒服的拖鞋就是一個很好的例子。拖鞋學到瞭腳的形狀瞭嗎？當然拖鞋確實改變瞭它的外形從而使它成為一隻很舒服的拖鞋。我們不想稱其為學習。在日常語言中，我們往往使用訓練這個詞引申齣一個不用大腦的學習。我們訓練動物甚至植物，盡管這個概念可從訓練像拖鞋一類沒有生命的事物上得到拓展。但是學習是不同的。學習意味著思考和目的，並且學習必須有意去做一些事。這就是為什麼我們不願說一個葡萄藤學會瞭沿著葡萄園的架子生長，而說它已經被訓練。沒有目的的學習隻能是訓練，或者進一步說，在學習中，目的是學習者的目的，而在訓練中，目的是老師的目的。
　　因此從計算機的視角齣發，以可操作的、性能為指導的原則進一步審視第二種學習的定義時，就存在一些問題。當判斷是否真正學到一些東西時，需要看它是否打算去學，是否其中包含一些目的。當應用到機器上時，它使概念抽象化，因為我們無法弄清楚人工製品是否能夠做齣有目的的舉動。哲學上有關學習真正意味著什麼的討論，就像有關目的或打算真正意味什麼一樣充滿睏難。甚至法院也很難把握“企圖”的含義。
　　……

前言/序言

信息洪流中的智慧之眼：一本關於洞察、模式與決策的指南在我們這個時代，信息以前所未有的速度和規模湧現，從社交媒體的每一次互動，到科學研究的每一次發現，再到商業交易的每一次點擊。這股信息洪流既是機遇的源泉，也帶來瞭前所未有的挑戰。如何在這片浩瀚的數字海洋中找到有價值的洞察？如何從看似雜亂無章的數據中提煉齣有意義的模式？又如何基於這些模式做齣更明智、更具前瞻性的決策？這本指南將帶您踏上一段探索信息本質、解鎖數據潛能的旅程。數據不再是冰冷的數字，而是隱藏故事的寶藏。在深入探討具體的技術之前，我們首先要理解“數據”在現代社會中的真正含義。它早已超越瞭簡單的數字和圖錶，它承載著人類的行為、市場的脈搏、自然的規律，甚至我們對世界的認知。從用戶購買習慣的細微變化，到基因序列中的遺傳信息，再到宇宙深處的微弱信號，數據無處不在，它們是構成我們現代生活基石的重要組成部分。然而，數據的價值並非顯而易見，它需要我們用智慧去挖掘，用工具去提煉，用理論去解讀。這本指南的核心在於，它將引導您超越錶麵現象，直達數據背後隱藏的真實世界。它不是一本枯燥的技術手冊，而是一次關於如何“看懂”數據的學習過程。您將瞭解到，數據本身就像一個尚未被雕琢的玉石，其內在的價值需要通過一係列精心設計的工序纔能展現齣來。這些工序，包括瞭從數據的采集、清洗、轉換，到最終的分析和解釋，每一步都至關重要，共同構成瞭從原始數據到有價值知識的橋梁。洞察的藝術：發現隱藏的聯係與規律想象一下，您是一位偵探，麵對著一堆看似無關的綫索。您的任務不是簡單地將這些綫索串聯起來，而是要從中發現那些微妙的、隱藏的聯係，勾勒齣事件的真相。在數據探索的領域，您扮演的正是這樣的角色。您將學習如何識彆數據中的異常值，如何檢測數據之間的相關性，以及如何發現那些不易察覺的模式。這包括瞭對數據分布的理解，例如，數據是集中在一個區域，還是分散開來？是否存在明顯的峰值或榖底？您還將學習如何運用統計學方法來量化這些模式的顯著性，避免僅僅是“看起來像”的偶然巧閤。更重要的是，您將學會如何將這些統計學上的發現，轉化為能夠指導實際行動的深刻洞察。例如，發現某個營銷活動與特定客戶群體的購買行為之間存在強烈的正相關，這本身並不能直接帶來收益，但如果您能進一步理解這種相關性的原因，並將其轉化為更精準的廣告投放策略，那麼數據的價值便得到瞭最大化的體現。模式識彆的技巧：從海量信息中抽絲剝繭在信息爆炸的時代，我們麵臨的挑戰是信息的“噪音”往往比“信號”要大得多。如何從海量的數據中快速、準確地識彆齣真正有價值的模式，是信息時代的核心能力之一。這本指南將為您提供一套係統性的方法論，幫助您掌握識彆各種類型模式的技巧。您將學習如何通過數據可視化來直觀地展現數據特點，例如，使用散點圖來觀察兩個變量之間的關係，使用直方圖來理解數據的分布情況，或者使用熱力圖來揭示數據之間的密度分布。這些可視化工具不僅能夠幫助您快速發現潛在的模式，還能夠有效地嚮他人傳達您的發現。更深入地，您將接觸到一係列能夠自動化識彆復雜模式的技術。這些技術能夠處理高維度、非綫性、甚至是非結構化的數據。您將瞭解到，如何讓計算機“學習”數據的內在規律，從而發現那些人力難以企及的模式。這就像擁有一雙能夠穿透迷霧的眼睛，能夠看到數據背後潛藏的趨勢、異常和關聯。決策的智慧：讓數據驅動更優選擇最終，數據分析的目的是為瞭更好地理解世界，並在此基礎上做齣更明智的決策。這本指南將幫助您將從數據中獲得的洞察和模式，轉化為切實可行的決策方案。您將學習如何構建預測模型，例如，預測一個客戶是否可能流失，預測一種股票的價格走勢，或者預測一次疾病的發生概率。這些模型能夠幫助我們在不確定性中做齣更可靠的判斷。您還將瞭解到如何評估模型的性能，以及如何根據實際情況選擇最閤適的模型。此外，您還將探索如何利用數據來優化決策過程。例如，在商業領域，數據分析可以幫助企業理解客戶需求，優化産品設計，精準定位目標市場，從而提高營銷效率和客戶滿意度。在科學研究中，數據分析能夠加速實驗進程，驗證科學假說，發現新的科學規律。在公共服務領域，數據分析可以幫助政府部門優化資源配置，提升服務效率，解決社會問題。從理論到實踐：掌握主動權這本指南的價值在於，它不僅僅停留在理論層麵，更注重將復雜的概念轉化為可操作的實踐。您將接觸到各種經典的數據分析方法和算法，理解它們的工作原理，並學習如何在實際問題中應用它們。例如，您將瞭解聚類分析如何幫助您將相似的數據對象分組，從而發現潛在的市場細分或用戶群體。您將學習分類算法如何幫助您預測數據屬於哪個類彆，這在垃圾郵件過濾、疾病診斷等領域有著廣泛的應用。您還將探索關聯規則挖掘，例如“購買瞭麵包的顧客，也很可能購買牛奶”，這有助於優化商品陳列和促銷策略。這些技術和方法並非遙不可及。本指南將以清晰易懂的方式呈現，並輔以豐富的案例，幫助您理解它們的實際應用場景。您將不僅僅是被動地接受信息，更是主動地掌握分析工具和解決問題的能力。麵嚮未來：擁抱數據驅動的時代我們正處於一個數據驅動的時代，無論是個人發展、企業運營還是社會進步，都離不開對數據的深度理解和有效利用。掌握信息分析的技能，就像為自己裝備瞭一雙洞察世界的智慧之眼。它能夠幫助您在競爭中脫穎而齣，在變化中抓住機遇，在不確定中做齣更堅定的選擇。這本指南將為您提供一個堅實的基礎，讓您能夠自信地駕馭海量數據，從信息洪流中提取智慧，並最終將這些智慧轉化為行動的力量。它是一次關於理解、洞察、模式和決策的全麵探索，旨在賦能每一位渴望在信息時代乘風破浪的探索者。

用戶評價

評分☆☆☆☆☆

這本書的印刷質量真是令人驚喜！我收到的時候簡直不敢相信，紙張的觸感厚實而細膩，翻閱時沒有廉價的沙沙聲，每一頁都像是經過精心打磨的藝術品。封麵設計也十分考究，色彩搭配和諧，字體清晰，裝幀牢固，即使經常翻閱也不會輕易散架。我特彆喜歡它那種沉甸甸的質感，拿在手裏就覺得內容一定非常紮實，很有分量。書的排版也很舒服，字體大小適中，行距閤理，閱讀起來一點也不費眼，即便是長時間閱讀也不會感到疲憊。章節之間的過渡自然流暢，過渡頁的設計也很巧妙，給人一種循序漸進的學習體驗。我甚至注意到一些細節，比如書頁邊緣的處理，乾淨利落，沒有毛刺，這都體現瞭齣版方的專業和用心。這本書不僅僅是內容的載體，本身就是一件值得收藏的物品。它放在書架上，就散發著一種知識的光輝，讓人忍不住想去翻閱，去探索它裏麵蘊含的奧秘。我甚至覺得，這樣的印刷和裝幀，本身就為學習熱情加瞭一把火，讓人更有動力去深入學習。

評分☆☆☆☆☆

我一直在尋找一本能夠係統性梳理數據挖掘和機器學習基礎知識的書籍，而這本書完全滿足瞭我的需求。它不僅僅羅列瞭一些算法和技術，更是深入淺齣地講解瞭它們背後的原理、適用場景以及優缺點。我喜歡它嚴謹的邏輯結構，從基礎概念到高級應用，層層遞進，讓我能夠建立起一個完整的知識體係。書中對於每種方法的講解都非常到位，不僅介紹瞭算法的步驟，還輔以圖示和例子，使得抽象的概念變得具體可感。我尤其欣賞它在理論與實踐之間的平衡，既有紮實的理論基礎，又提供瞭實用的代碼示例和操作建議，讓我能夠快速地將學到的知識應用到實際項目中。閱讀過程中，我感覺自己就像是在一位經驗豐富的嚮導的帶領下，穿越數據挖掘的迷宮，每一步都走得堅定而清晰。這本書為我打開瞭新的視野，讓我對如何利用數據解決實際問題有瞭更深入的思考。

評分☆☆☆☆☆

這本書帶來的啓發是多方麵的，它不僅僅是知識的傳授，更是一種思維方式的引導。我從書中學會瞭如何更批判性地看待數據，如何更有效地評估模型的性能，以及如何根據實際問題選擇最閤適的工具和技術。書中的案例分析非常有啓發性，它們展示瞭數據挖掘在不同領域中的實際應用，讓我對這項技術的潛力有瞭更直觀的認識。我尤其喜歡書中關於模型解釋性和可信度的討論，這在實際應用中至關重要，往往容易被忽視。通過閱讀這本書，我感覺自己的問題解決能力得到瞭顯著提升，不再僅僅滿足於找到一個“能工作”的解決方案，而是追求一個“最優的”、“可解釋的”、“可持續的”解決方案。這本書就像一位智慧的導師，引導我不斷探索、思考和創新，讓我受益匪淺。

評分☆☆☆☆☆

這本書的譯者功力深厚，讓我感受到瞭原文的魅力。我經常在閱讀英文技術書籍時，因為語言障礙而感到沮喪，但這次的翻譯讓我耳目一新。譯者不僅準確地傳達瞭原作者的思想，更用一種流暢、自然的中文錶達齣來，使得原本可能晦澀難懂的技術概念變得生動易懂。我尤其欣賞譯者在處理專業術語時的細緻，他們並非簡單地照搬，而是結閤中文語境，給齣瞭恰當且易於理解的解釋，甚至在一些地方還增加瞭輔助性的說明，這對於初學者來說簡直是福音。讀這本書，就像是在聽一位經驗豐富的老教授在娓娓道來，他能夠用最淺顯的語言解釋最復雜的原理，讓你在不知不覺中就掌握瞭核心要義。我曾經因為閱讀一本翻譯質量不高的技術書而浪費瞭很多時間和精力，但這本書讓我覺得物超所值。每一次閱讀，都感覺像是在接受一次高水平的學術指導，讓我對整個領域有瞭更清晰、更深刻的認識。

評分☆☆☆☆☆

這本書的內容深度和廣度都達到瞭一個令人印象深刻的水平。它並沒有止步於介紹一些常見的工具或技術，而是深入挖掘瞭它們背後的原理和算法，讓我對“為什麼”和“如何”有瞭更深刻的理解。我特彆欣賞書中對復雜概念的拆解能力，將原本龐大而難以理解的主題分解成一個個小模塊，然後逐一擊破，讓我能夠循序漸進地掌握。此外，它還涉及瞭許多前沿的研究方嚮和最新的技術進展，讓我對數據挖掘領域的未來發展趨勢有瞭初步的瞭解。這本書的價值在於它能夠同時滿足不同層次讀者的需求，既可以作為初學者入門的指南，也可以作為有經驗的專業人士進行深入研究的參考。我感覺這本書的作者花費瞭大量的時間和精力去梳理和呈現這些知識，其嚴謹性和係統性令人稱道。

評分☆☆☆☆☆

書還沒看，不知道內容怎樣

評分☆☆☆☆☆

還有

評分☆☆☆☆☆

書很好，需要慢慢品味。

評分☆☆☆☆☆

還沒有時間看希望對自己有用

評分☆☆☆☆☆

還沒有看，書裏麵的代碼都是Java實現的，不是Python

評分☆☆☆☆☆

蠻好用的，很不錯的購物體驗