正版 Python機器學習基礎教程 Andreas python從入門到精通教程編程語言 pdf epub mobi txt 電子書下載 2026

簡體網頁||繁體網頁

☆☆☆☆☆

[德] 安德裏亞斯·穆勒著，張亮（hysic）譯

圖書標籤:

Python
機器學習
基礎教程
入門
編程
數據分析
算法
Andreas Müller
精通
代碼

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜流書站

book.coffeedeals.club

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

店鋪：恒久圖書專營店

齣版社：人民郵電齣版社

ISBN：9787115475619

商品編碼：25713609375

包裝：平裝

開本：16

齣版時間：2018-01-01

字數：443

具體描述

商品參數

Python機器學習基礎教程
	定價	79.00
	齣版社	人民郵電齣版社
	版次	第1版
	齣版時間	2018年01月
	開本	16開
	作者	[德]安德裏亞斯·穆勒（Andreas C. Müller） [美]莎拉·吉多（Sarah Guido）
	裝幀	平裝
	頁數	0
	字數	443
	ISBN編碼	9787115475619

內容介紹
本書是機器學習入門書，以Python語言介紹。主要內容包括：機器學習的基本概念及其應用；實踐中*常用的機器學習算法以及這些算法的優缺點；在機器學習中待處理數據的呈現方式的重要性，以及應重點關注數據的哪些方麵；模型評估和調參的高*方法，重點講解交叉驗證和網格搜索；管道的概念；如何將前麵各章的方法應用到文本數據上，還介紹瞭一些文本特有的處理方法。本書適閤機器學習從業者或有誌成為機器學習從業者的人閱讀。

作者介紹
Andreas C. Mu?ller，scikit-learn庫維護者和核心貢獻者。現任哥倫比亞大學數據科學研究院講師，曾任紐約大學數據科學中心助理研究員、亞馬*公司計算機視覺應用的機器學習研究員。在波恩大學獲得機器學習博士學位。 Sarah Guido，Mashable公司數據科學傢，曾擔任Bitly公司首*數據科學傢。

關聯推薦
以機器學習算法實踐為重點，使用scikit-learn庫從頭構建機器學習應用
目錄
前言 ix
第1 章　引言 1
1.1　為何選擇機器學習 1
1.1.1　機器學習能夠解決的問題 2
1.1.2　熟悉任務和數據 4
1.2　為何選擇Python 4
1.3　scikit-learn 4
1.4　必要的庫和工具 5
1.4.1　Jupyter Notebook 6
1.4.2　NumPy 6
1.4.3　SciPy 6
1.4.4　matplotlib 7
1.4.5　pandas 8
1.4.6　mglearn 9
1.5　Python 2 與Python 3 的對比 9
1.6　本書用到的版本 10
1.7　第*個應用：鳶尾花分類 11
1.7.1　初識數據 12
1.7.2　衡量模型是否成功：訓練數據與測試數據 14
1.7.3　要事第*：觀察數據 15
1.7.4　構建第*個模型：k 近鄰算法 16
1.7.5　做齣預測 17
1.7.6　評估模型 18
1.8　小結與展望 19
第2 章　監督學習 21
2.1　分類與迴歸 21
2.2　泛化、過擬閤與欠擬閤 22
2.3　監督學習算法 24
2.3.1　一些樣本數據集 25
2.3.2　k 近鄰 28
2.3.3　綫性模型 35
2.3.4　樸素貝葉斯分類器 53
2.3.5　決策樹 54
2.3.6　決策樹集成 64
2.3.7　核支持嚮量機 71
2.3.8　神經網絡（深度學習） 80
2.4　分類器的不確定度估計 91
2.4.1　決策函數 91
2.4.2　預測概率 94
2.4.3　多分類問題的不確定度 96
2.5　小結與展望 98
第3 章　無監督學習與預處理 100
3.1　無監督學習的類型 100
3.2　無監督學習的挑戰 101
3.3　預處理與縮放 101
3.3.1　不同類型的預處理 102
3.3.2　應用數據變換 102
3.3.3　對訓練數據和測試數據進行相同的縮放 104
3.3.4　預處理對監督學習的作用 106
3.4　降維、特徵提取與流形學習 107
3.4.1　主成分分析 107
3.4.2　非負矩陣分解 120
3.4.3　用t-SNE 進行流形學習 126
3.5　聚類 130
3.5.1　k 均值聚類 130
3.5.2　凝聚聚類 140
3.5.3　DBSCAN 143
3.5.4　聚類算法的對比與評估 147
3.5.5　聚類方法小結 159
3.6　小結與展望 159
第4 章　數據錶示與特徵工程 161
4.1　分類變量 161
4.1.1　One-Hot 編碼（虛擬變量） 162
4.1.2　數字可以編碼分類變量 166
4.2　分箱、離散化、綫性模型與樹 168
4.3　交互特徵與多項式特徵 171
4.4　單變量非綫性變換 178
4.5　自動化特徵選擇 181
4.5.1　單變量統計 181
4.5.2　基於模型的特徵選擇 183
4.5.3　迭代特徵選擇 184
4.6　利用專傢知識 185
4.7　小結與展望 192
第5 章　模型評估與改進 193
5.1　交叉驗證 194
5.1.1　scikit-learn 中的交叉驗證 194
5.1.2　交叉驗證的優點 195
5.1.3　分層k 摺交叉驗證和其他策略 196
5.2　網格搜索 200
5.2.1　簡單網格搜索 201
5.2.2　參數過擬閤的風險與驗證集 202
5.2.3　帶交叉驗證的網格搜索 203
5.3　評估指標與評分 213
5.3.1　牢記*終目標 213
5.3.2　二分類指標 214
5.3.3　多分類指標 230
5.3.4　迴歸指標 232
5.3.5　在模型選擇中使用評估指標 232
5.4　小結與展望 234
第6 章　算法鏈與管道 236
6.1　用預處理進行參數選擇 237
6.2　構建管道 238
6.3　在網格搜索中使用管道 239
6.4　通用的管道接口 242
6.4.1　用make_pipeline 方便地創建管道 243
6.4.2　訪問步驟屬性 244
6.4.3　訪問網格搜索管道中的屬性 244
6.5　網格搜索預處理步驟與模型參數 246
6.6　網格搜索選擇使用哪個模型 248
6.7　小結與展望 249
第7 章　處理文本數據 250
7.1　用字符串錶示的數據類型 250
7.2　示例應用：電影評論的情感分析 252
7.3　將文本數據錶示為詞袋 254
7.3.1　將詞袋應用於玩具數據集 255
7.3.2　將詞袋應用於電影評論 256
7.4　停用詞 259
7.5　用tf-idf 縮放數據 260
7.6　研究模型係數 263
7.7　多個單詞的詞袋（n 元分詞） 263
7.8　高*分詞、詞乾提取與詞形還原 267
7.9　主題建模與文檔聚類 270
7.10　小結與展望 277
第8 章　全書總結 278
8.1　處理機器學習問題 278
8.2　從原型到生産 279
8.3　測試生産係統 280
8.4　構建你自己的估計器 280
8.5　下一步怎麼走 281
8.5.1　理論 281
8.5.2　其他機器學習框架和包 281
8.5.3　排序、推薦係統與其他學習類型 282
8.5.4　概率建模、推斷與概率編程 282
8.5.5　神經網絡 283
8.5.6　推廣到更大的數據集 283
8.5.7　磨練你的技術 284
8.6　總結 284
關於作者 285
關於封麵 285

現代數據科學的基石：Python賦能的機器學習實踐指南在數據爆炸式增長的今天，從海量信息中挖掘有價值的洞見，並將其轉化為智能決策，已成為各行各業的迫切需求。機器學習，作為人工智能的核心分支，正是實現這一目標的關鍵技術。本書旨在為廣大讀者，無論你是初涉數據科學的門外漢，還是有一定編程基礎但希望深入理解機器學習原理及應用的開發者，提供一份全麵、實用且易於上手的學習路徑。本書的獨特之處在於，它將理論深度與實踐操作完美結閤。我們不僅僅會講解機器學習算法的數學原理，更會聚焦於如何利用Python這一強大而靈活的編程語言，在真實世界的數據集上實現這些算法。我們將帶領讀者一步步構建、訓練、評估和優化機器學習模型，讓你真正掌握將理論知識轉化為解決實際問題能力的“硬功夫”。第一部分：打牢基礎，啓程數據科學之旅在踏入機器學習的奇妙世界之前，紮實的基礎知識是必不可少的。本部分將為你鋪就堅實的基石，讓你能夠自信地迎接接下來的挑戰。 Python語言速成與進階：我們將從Python的基礎語法開始，涵蓋變量、數據類型、控製流（條件語句、循環）、函數、類與對象等核心概念。對於已經掌握Python基礎的讀者，我們將進一步深入探討麵嚮對象編程（OOP）在數據科學項目中的應用，以及如何利用Python的強大生態係統來提高開發效率。這包括對列錶推導式、生成器、裝飾器等高級特性的講解，讓你能夠寫齣更簡潔、更高效的代碼。數據科學核心庫的運用： Python之所以能成為數據科學的首選語言，離不開其強大的第三方庫支持。我們將重點介紹NumPy、Pandas、Matplotlib和Seaborn這四個核心庫。 NumPy 是數值計算的基礎，掌握其多維數組（ndarray）的創建、操作、索引、切片以及各種數學函數，是進行高效數據處理的前提。我們將演示如何使用NumPy進行嚮量化計算，極大地提升代碼執行速度。 Pandas 是數據分析的利器，其核心數據結構DataFrame和Series提供瞭極其方便的數據讀取、清洗、轉換、閤並、聚閤等功能。你將學會如何處理缺失值、異常值，如何進行數據分組和透視，如何進行時間序列分析，以及如何將數據加載和保存為各種格式（CSV、Excel、SQL等）。 Matplotlib 和 Seaborn 是數據可視化的強大工具。我們將從基本的圖錶類型（摺綫圖、散點圖、柱狀圖、餅圖）入手，逐步講解如何定製圖錶樣式，如何創建復雜的多子圖，以及如何利用Seaborn繪製齣更具統計意義和美感的圖形，幫助你直觀地理解數據特徵和模型結果。第二部分：深入理解機器學習核心概念與算法有瞭堅實的Python和數據科學庫基礎，我們就可以開始探索機器學習的精彩世界瞭。本部分將係統地介紹機器學習的基本概念，並深入講解幾種最常用、最經典的算法。機器學習概述與分類：我們將首先闡明機器學習的定義、目標以及它在現代科技中的重要性。你將瞭解到機器學習的兩種主要範式：監督學習和無監督學習，並理解它們各自的應用場景。此外，我們還將簡要介紹半監督學習和強化學習，讓你對機器學習的整體圖景有一個宏觀的認識。監督學習：預測與分類的藝術綫性迴歸（Linear Regression）：作為最基礎的迴歸算法，我們將詳細講解其模型原理、損失函數（均方誤差）、梯度下降優化方法，以及如何使用Scikit-learn庫實現綫性迴歸，並解釋模型評估指標（如R²分數、均方根誤差）。邏輯迴歸（Logistic Regression）：這是分類問題的入門算法。我們將深入理解Sigmoid函數的作用，以及它如何將綫性模型的輸齣映射到概率值。你將學習如何構建二分類和多分類的邏輯迴歸模型，並理解AUC、準確率、召迴率、F1分數等分類評估指標。支持嚮量機（Support Vector Machine, SVM）： SVM是一種強大的分類和迴歸模型。我們將講解其基本思想——尋找最優超平麵，以及核函數（綫性核、多項式核、徑嚮基函數核）的作用，讓你理解如何處理非綫性可分問題。決策樹（Decision Tree）：決策樹是一種直觀易懂的模型，其基於特徵分裂的決策過程容易被解釋。我們將講解信息增益、基尼不純度等分裂準則，並演示如何構建決策樹模型，同時也會討論過擬閤問題及其解決辦法（如剪枝）。集成學習（Ensemble Learning）：集成學習通過組閤多個弱學習器來構建一個強大的模型。我們將重點介紹兩種主流的集成方法：隨機森林（Random Forest）：基於決策樹的Bagging方法，通過構建多個隨機的決策樹並投票決定最終結果，能夠有效降低過擬閤。梯度提升（Gradient Boosting）：如XGBoost、LightGBM等，它們通過迭代地擬閤殘差來不斷優化模型，是目前在各種比賽和實際應用中錶現優異的算法。我們將介紹其基本原理，並提供使用這些庫的實踐示例。無監督學習：揭示數據的內在結構 K-Means聚類：這是最常用的聚類算法之一。我們將講解其迭代優化的過程，以及如何選擇閤適的K值，並演示如何使用Scikit-learn實現K-Means，理解聚類評估指標（如輪廓係數）。主成分分析（Principal Component Analysis, PCA）： PCA是一種常用的降維技術。我們將解釋其在高維數據中尋找最具方差方嚮（主成分）的原理，以及如何利用PCA降低模型復雜度、提高訓練速度，並進行數據可視化。第三部分：構建、評估與優化你的機器學習模型掌握瞭算法原理後，如何將它們應用到實際項目中，並取得優異的錶現，是關鍵所在。本部分將聚焦於機器學習項目的全生命周期管理。數據預處理與特徵工程：真實世界的數據往往是“髒”的。我們將詳細講解各種數據預處理技術，包括：缺失值處理：使用均值、中位數、眾數填充，或利用模型進行預測填充。異常值檢測與處理：基於統計方法（如Z-score、IQR）或模型（如Isolation Forest）識彆和處理異常數據。特徵縮放：標準化（Standardization）和歸一化（Normalization）的重要性，以及它們在不同算法中的應用。類彆特徵編碼： One-Hot編碼、標簽編碼等方法。特徵創建與轉換：如何基於現有特徵組閤、轉換或提取新的、更有信息量的特徵，這往往是提升模型性能的關鍵。模型評估與選擇：構建模型隻是第一步，如何客觀地評估模型的性能並選擇最優模型，是至關重要的環節。訓練集、驗證集與測試集：理解數據劃分的意義，避免數據泄露。交叉驗證（Cross-Validation）： K摺交叉驗證等方法，提高模型評估的魯棒性。模型性能指標：針對分類和迴歸問題，詳細介紹並應用各種評估指標（準確率、精確率、召迴率、F1分數、ROC麯綫、AUC、MSE、RMSE、MAE、R²等）。模型調優與正則化：超參數調優：網格搜索（Grid Search）、隨機搜索（Random Search）等方法，尋找最佳的超參數組閤。正則化技術： L1正則化（Lasso）和L2正則化（Ridge）的作用，如何防止模型過擬閤，提升泛化能力。模型解釋性：理解模型為何做齣某個預測，對於建立信任和改進模型至關重要。我們將介紹一些模型解釋的技術，如特徵重要性、SHAP值等。第四部分：實戰項目與進階話題理論結閤實踐是學習的王道。本部分將通過一係列精心設計的項目，讓你將所學知識融會貫通，並為你進一步探索更高級的主題打下基礎。典型機器學習應用場景實戰：房價預測：利用綫性迴歸、決策樹、集成模型預測房屋價格。垃圾郵件檢測：使用邏輯迴歸、樸素貝葉斯、SVM進行文本分類。客戶流失預測：構建分類模型預測客戶是否會流失。圖像識彆基礎：簡要介紹捲積神經網絡（CNN）的基本概念，以及如何利用預訓練模型進行圖像分類。推薦係統入門：介紹基於協同過濾和內容推薦的基本原理。項目開發流程與最佳實踐：數據收集與理解。需求分析與模型選擇。迭代開發與性能監控。模型部署初步介紹。未來展望與進階方嚮：簡要介紹深度學習、自然語言處理（NLP）、計算機視覺（CV）等前沿領域，並提供進一步學習的建議和資源。本書的目標是讓你不僅能“調用”機器學習模型，更能“理解”它們，並能夠根據實際問題選擇、設計、實現和優化閤適的模型。我們將力求語言通俗易懂，代碼清晰可運行，並提供充足的練習和思考題，幫助你鞏固所學。無論你的目標是成為數據科學傢、機器學習工程師，還是希望將機器學習技術融入到現有工作中，本書都將是你寶貴的起點和堅實的夥伴。讓我們一起開啓這段激動人心的智能數據探索之旅！

用戶評價

評分☆☆☆☆☆

這本書的機器學習算法部分，可以說是我目前看到的最清晰、最有條理的講解之一瞭。作者 Andreas 並沒有一開始就拋齣復雜的數學公式，而是從直觀的理解入手，循序漸進地帶領讀者進入算法的世界。比如，在講解綫性迴歸的時候，他先是用一個簡單的例子說明瞭“擬閤”的概念，然後纔逐步引入最小二乘法等原理，並且用 Python 代碼實現瞭整個過程，讓我們能夠真正地“動手”去理解算法的運行機製。對於邏輯迴歸、支持嚮量機、決策樹等經典算法，作者同樣采用瞭這種“先理解，後深入”的方式，並且在講解中融入瞭模型評估、參數調優等關鍵概念，這對於我們理解算法的優缺點以及如何選擇閤適的算法至關重要。我印象最深刻的是關於決策樹的剪枝講解，讓我第一次明白瞭為什麼有時候“過度擬閤”是需要避免的，以及如何通過一些策略來解決這個問題。這本書的算法講解，真正做到瞭“授人以漁”，讓我不僅學會瞭如何使用算法，更重要的是學會瞭如何去思考算法。

評分☆☆☆☆☆

對於想要將理論知識轉化為實際應用的人來說，這本書的價值更是無可估量。 Andreas 在書中不僅僅是介紹瞭各種機器學習模型，更重要的是詳細闡述瞭如何將這些模型應用到實際問題中。他從數據預處理、特徵選擇、模型訓練、參數調優，到模型評估和部署，整個流程都進行瞭詳盡的介紹。我尤其欣賞書中關於交叉驗證的講解，這讓我深刻理解瞭如何更客觀地評估模型的泛化能力，避免過早地做齣錯誤的結論。而且，作者還專門用一個章節講解瞭如何使用 scikit-learn 這個強大的機器學習庫，這對於我們這些初學者來說，簡直是福音！書中對 scikit-learn 中常用類和函數的講解非常細緻，並且提供瞭大量的實戰代碼示例，讓我能夠很快地將書中的理論知識應用到自己的項目中。我嘗試著用書中的方法解決瞭一個小型的分類問題，效果非常好，這給瞭我巨大的信心。

評分☆☆☆☆☆

不得不說，這本書的作者 Andreas 真的非常有遠見，他對機器學習未來的發展趨勢有著深刻的洞察。雖然這本書名為“基礎教程”，但它涵蓋的內容遠不止基礎。在講解完經典的機器學習算法之後，作者還對深度學習的一些基本概念進行瞭介紹，比如神經網絡的結構、反嚮傳播算法等。雖然篇幅不長，但足以讓我們對深度學習有一個初步的認識，並且為後續深入學習打下基礎。我特彆喜歡他對於“過擬閤”和“欠擬閤”的解釋，不僅僅停留在概念上，還給齣瞭非常直觀的圖示和例子，讓我們能夠很容易地理解這兩種現象的本質。而且，作者在講解的過程中，會不時地引導我們思考“為什麼”以及“還有哪些可能性”，這極大地激發瞭我的學習興趣和主動性。讀完這本書，我感覺自己對機器學習的理解層次上瞭一個颱階，不再是零散的知識點，而是形成瞭一個更加係統和完整的知識體係。

評分☆☆☆☆☆

作為一個長期在數據分析領域摸爬滾打的老兵，最近開始接觸機器學習，感覺以前積纍的很多知識點都需要更新迭代瞭。這本書的齣現，簡直是雪中送炭！它不僅僅是理論的堆砌，更重要的是將理論與實踐緊密結閤，特彆是對 NumPy 和 Pandas 的講解，簡直是太到位瞭！作者 Andreas 並沒有像很多教程那樣簡單地羅列函數，而是深入淺齣地講解瞭這兩個庫在處理大規模數據集時是如何工作的，以及如何通過它們來高效地進行數據清洗、特徵工程等前置工作。我特彆喜歡書中關於嚮量化操作的解釋，這讓我深刻理解瞭為什麼 NumPy 會比傳統的 Python 循環快那麼多。而且，書中還提到瞭很多實際應用場景下的例子，比如如何用 Pandas 讀取不同格式的數據文件，如何進行閤並、分組、聚閤操作，這些都是我們在日常工作中經常會遇到的痛點，這本書都給齣瞭非常實用的解決方案。我甚至覺得，這本書可以作為我日常工作中解決數據處理問題的“案頭書”瞭，隨時翻閱，總能找到靈感和答案。

評分☆☆☆☆☆

這本書真的是我機器學習入門的啓濛！當初抱著試試看的心態買的，沒想到內容這麼紮實。作者 Andreas 似乎真的非常有耐心，把 Python 的基礎知識講得透徹又易懂，完全照顧到瞭我這種完全沒有編程背景的讀者。從最基本的變量、數據類型、控製流，到函數、模塊，再到麵嚮對象編程的概念，每一個小知識點都配有清晰的代碼示例，並且講解得非常細緻，不會讓你覺得“哦，就是這樣”，而是真的理解瞭“為什麼是這樣”。特彆是書中關於列錶推導式和生成器的講解，讓我第一次感受到瞭 Python 語言的優雅和高效，以前覺得很復雜的循環操作，在學習瞭這些之後，變得簡潔明瞭，簡直是打開瞭新世界的大門。而且，作者在講解的過程中，會穿插一些小技巧和最佳實踐，讓你在學習基礎知識的同時，就能養成良好的編程習慣，這對後續深入學習機器學習是非常有幫助的。我甚至覺得，即使不學機器學習，光是把這本書當成 Python 入門教程來讀，也絕對是物超所值的。它讓我對編程不再感到畏懼，反而充滿瞭興趣，迫不及待地想繼續往下學。