實用機器學習 pdf epub mobi txt 電子書下載 2026

簡體網頁||繁體網頁

☆☆☆☆☆

Henrik，Brink，Joseph，W.，Richards ... 著，程繼洪譯

圖書標籤:

機器學習
實用
算法
Python
數據分析
數據挖掘
模型構建
Scikit-learn
人工智能
統計學習

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜流書站

book.coffeedeals.club

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：機械工業齣版社

ISBN：9787111569220

版次：1

商品編碼：12083437

品牌：機工齣版

包裝：平裝

叢書名：計算機科學先進技術譯叢

開本：16開

齣版時間：2017-06-01

用紙：膠版紙

字數：339

正文語種：中文

具體描述

産品特色

編輯推薦

本書獲央視財經頻道《第一時間》欄目推薦!

隨著阿爾法狗在圍棋領域高奏凱歌，人工智能領域已成為當前引人注目的風口，而機器學習又是這風口中的風頭勁的熱點。本書從實戰角度剖析瞭機器學習的知識原理，讀者無需擔心遇到難懂的數學公式和推導，就能夠將機器學習的知識應用在自己熟悉的領域。《實用機器學習》還包含瞭三個機器學習真是應用的綜閤案例，本書所有代碼資源都可以通過網絡下載，讀者還可以登錄GITHUB與全球的機器學習愛好者共同交流本書的學習體驗。

內容簡介

本書介紹瞭實用機器學習的工作流程，主要從實用角度進行瞭描述，沒有數學公式和推導。本書涵蓋瞭數據收集與處理、模型構建、評價和優化、特徵的識彆、提取和選擇技術、高級特徵工程、數據可視化技術以及模型的部署和安裝，結閤3個真實案例全麵、詳細地介紹瞭整個機器學習流程。後，還介紹瞭機器學習流程的擴展和大數據應用。

本書可以作為程序員、數據分析師、統計學傢、數據科學傢解決實際問題的參考書，也可以作為機器學習愛好者學習和應用的參考書，還可以作為非專業學生的機器學習入門參考書，以及專業學生的實踐參考書。

作者簡介

　　HenrikBrink（亨裏剋·布林剋）是一名數據科學傢，對應用機器學習進行工業和學術應用開發有著豐富的經驗。

　　JosephRichards（約瑟夫W�崩聿樽齲┮彩且晃皇�據科學傢，具有應用統計和預測分析方麵的專業知識。Henrik和Joseph是Wise.io的聯閤創立者，Wise.io是一傢提供工業機器學習解決方案的開發商。

　　MarkFetherolf（馬剋·弗特羅夫）是數據管理和預測分析公司NuminaryDataScience的創始人和總裁。他曾在社會科學研究、化學工程、信息係統性能、容量規劃、有綫電視和在綫廣告應用等方麵擔任統計師和分析數據庫開發人員。

精彩書評

　　NULL

精彩書摘

　　《實用機器學習》：
　　真實的故事
　　在你開始構建模型之前，我們要告訴你首次解決問題的真實故事，那真的是超級糟糕，隻是我們假裝很成功，是那種失敗的不能再失敗的失敗，以及我們如何改正。這種“彎路”在實際數據工作中是很常見的，因此把它包含在這裏學習一下是很有幫助的。機器學習工作最重要的是警惕兩種陷阱：太好而不真實的情況和沒有根據的（非來源於數據的）不成熟假設。
　　作為機器學習的一條總體原則，如果交叉驗證的準確度高於你的期望，那很有可能是你的模型某些地方齣現瞭異常。作為數據科學傢，現實世界總會想辦法給你製造一些睏難。在構建有小費／無小費的分類模型時，我們很快得到瞭較高的交叉驗證預測準確性的模型。對於新獲得的數據模型性能如此之好，使我們很興奮，我們認為可行，暫時忽略瞭模型欺騙的警告。一朝被蛇咬的事我們見得多瞭，過於樂觀的結果迫使我們做進一步的調查。
　　我們關心的一個問題是輸入特徵的重要度（在後麵的小節有更詳細的論述）。在這個例子中，有一個特徵“支付類型”控製著模型的特徵重要度。
　　從我們自己的齣租車經驗來看，這是比較有意義的。用信用卡付款（前廣場時代）的乘客付小費的概率更低。如果現金支付，無論怎樣都會找零。因此我們開始對信用卡而不是現金付費的乘客的小費和無小費的數目進行區分。事實證明數以百萬計的用信用卡付費的乘客絕大多數（超過95%）支付小費。
　　理論上就是這樣瞭。那麼，到底多少人信用卡支付小費呢？所有的人嗎？
　　事實上，現金付費的乘客一個也沒有給小費的！這立即變得很明顯瞭。當乘客現金付費也給瞭小費時，司機並沒有記錄的必要，作為我們數據的一部分。通過我們機器學習精確的分析，我們發現，在NYC齣租車係統中存在數以百萬計的虛假記錄！
　　讓我們迴到對機器學習模型的影響上：在這種情況下，當數據産生時存在問題，就不能簡單地相信這些數據，並用於機器學習建模。在不正常的方式下，如果結果是不正確的，那麼機器學習模型學習的就有可能全是錯誤的，是與現實分離的。
　　……

前言/序言

　　《實用機器學習》的讀者對象是針對想要把機器學習應用於實際問題的人。它詳細闡述瞭機器學習的主要組成部分：工作流程、算法和工具。關注點是著名算法的實際應用，而不是創建一個算法。構建和使用機器學習模型的每個步驟都有詳細描述，並有從簡單到中等復雜的實例與之對應。

　　主要內容

　　第1部分，“機器學習工作流程”介紹基本的機器學習工作流程，並分章節對每個步驟加以介紹。

　　第1章，“什麼是機器學習”介紹機器學習的應用領域和用途。

　　第2章，“實用數據處理”，詳細介紹機器學習流程中的數據處理和準備工作。

　　第3章，“建模和預測”，介紹構建簡單的機器學習模型，並利用應用廣泛的算法和庫進行預測。

　　第4章，“模型評估和優化”，深入研究機器學習模型，並對其進行評估和性能優化。

　　第5章，“基礎特徵工程”，介紹利用領域知識對原始數據進行提高的常用方法。

　　第2部分，“實際應用”，介紹模型規模化和從文本、圖片和時間序列數據中提取特徵的技術，來提高絕大多數現代機器學習的性能。本部分包括3個有完整實例的章節。

　　第6章，“實例：NYC齣租車數據”，這是第一個完整實例章節，會預測乘客的傾嚮性行為。

　　第7章，“高級特徵工程”，包含高級特徵工程過程，介紹從自然語言的文本、圖片和時序序列數據中提取有價值的數據。

　　第8章，“NLP高級案例：電影評論情感預測”，運用高級特徵工程知識預測在綫電影評論的情感。

　　第9章，“擴展機器學習流程”，介紹擴大機器學習係統的數據規模、預測吞吐量和降低預測間隔的技術。

　　第10章，“案例：數字顯示廣告”，構建大型數據的模型，預測數字廣告點擊行為。

　　如何使用本書

　　如果你是機器學習新手，第1~5章將引導你學習研究和準備數據、特徵工程、建模和模型評估過程。Python實例采用流行的數據處理、pandas和Scikit-Learn機器學習庫。第6~10章，包括3個實際機器學習案例、高級特徵工程和優化的話題。由於學習庫封裝瞭大部分的復雜性，因此代碼示例可以很容易地應用到你自己的機器學習係統中。

　　目標讀者

　　本書可以使程序員、數據分析師、統計學傢、數據科學傢和其他專業人士將機器學習應用於實際問題，或者簡單地理解它。他們將獲得實用數據建模、優化和開發機器學習係統的經驗，而沒必要瞭解特定算法的理論推導。機器學習的數學基礎是針對感興趣的人的，某些算法在較高的層次上進行解釋，本書提供給那些想深入學習的人，我們的焦點是獲得實際結果以解決手頭的問題。

　　代碼約定，下載和軟件需求

　　本書包含許多示例源代碼，或者以編號的清單齣現，或者嵌入在正文中，但無論哪種情況，都以固定寬度的這種字體顯示，以區彆於正常的文本。

　　源代碼使用Python，pandas和Scikit-Learn編寫。與章節相應的iPython筆記文件可在GitHub上下載，地址為https://github�眂om/brinkar/real-world-machine-learning，也可以通過關注機械工業齣版社計算機分社官方微信訂閱號“IT有得聊”，輸入5位數號“56922”後獲得資源下載鏈接，還可以登錄golden-book.com搜索本書並進行下載。

　　筆記文件（擴展名為�眎pynb）與章節相對應。樣本數據包含在data文件夾中，隻要必需的庫隨iPython一起安裝，那麼所有的筆記文件都能執行。圖形由matplotlib和Seaborn的pyplot模塊生成。

　　在有些情況下，由iPython産生的圖形被提取齣來作為本書的插圖（為瞭適應打印質量和電子書顯示，有些已經做瞭修改）。

《數據科學的藝術與實踐》在信息爆炸的時代，數據如同璀璨的星辰，散落在數字宇宙的每一個角落。然而，要從這些海量的數據中提取齣有價值的洞見，解決實際問題，需要一套係統的方法論和精湛的技藝。《數據科學的藝術與實踐》正是這樣一本旨在帶領讀者踏上這段探索之旅的指南。它並非僅僅羅列枯燥的算法和公式，而是將數據科學視為一門融閤瞭科學嚴謹性、技術創新性以及藝術直覺的綜閤性學科，深入淺齣地闡述瞭從數據采集、清洗、探索性分析到建模、評估和部署的全過程。本書的核心理念在於強調數據科學的“藝術”與“實踐”並重。所謂的“藝術”，指的是在麵對復雜多變的數據時，運用創造性思維、問題分解能力以及領域知識，設計齣最適閤的解決方案。而“實踐”，則意味著將理論知識轉化為可執行的代碼，在真實世界的數據集上進行驗證和優化。作者認為，優秀的數據科學傢不僅是技術嫻熟的工程師，更是善於觀察、善於提問、善於溝通的藝術傢。開篇，本書便將讀者引入數據科學的宏大圖景。我們將從數據科學的曆史演進談起，瞭解它如何從統計學、計算機科學等學科中汲取養分，逐漸成長為一門獨立的、跨學科的領域。接著，本書會詳細介紹數據科學在不同行業的應用案例，從金融風控、醫療診斷到市場營銷、內容推薦，讓讀者直觀地感受到數據科學如何賦能傳統産業，催生新的商業模式。這部分內容將幫助讀者建立對數據科學的整體認知，理解其重要的社會和經濟價值，激發學習的興趣。隨後，本書將深入探討數據科學的基石——數據本身。數據采集是數據科學的起點，而數據的質量直接決定瞭最終分析結果的可靠性。本書將詳細介紹各種數據采集的渠道和技術，包括但不限於網頁抓取、API接口、數據庫查詢、傳感器數據以及人工收集。特彆地，本書會強調數據隱私、倫理和閤規性在數據采集過程中的重要性，引導讀者建立負責任的數據處理觀念。數據的“髒”是現實世界的常態，而數據清洗和預處理則是數據科學傢最耗時但也最關鍵的工作之一。本書將係統地梳理數據清洗的常見挑戰，如缺失值、異常值、重復數據、格式不一緻以及數據類型錯誤。讀者將學習到各種行之有效的數據清洗技術，包括但不限於插補法（均值、中位數、迴歸插補）、異常值檢測與處理（Z-score、IQR、Isolation Forest）、數據去重、數據標準化與歸一化、文本數據清洗（去除標點、停用詞、詞乾提取、詞形還原）等。本書將提供大量實際案例，指導讀者如何根據數據的具體情況，靈活運用不同的清洗策略，將原始數據轉化為結構化、乾淨、可用於分析的數據集。在數據清洗完畢後，探索性數據分析（EDA）便成為揭示數據內在規律的關鍵步驟。 EDA不僅僅是簡單地計算描述性統計量，更重要的是通過可視化和統計方法，對數據進行深入的理解和探索。本書將詳細介紹各種強大的EDA技術，包括但不限於：描述性統計：均值、中位數、方差、標準差、分位數、偏度和峰度等，用於概括數據的集中趨勢、離散程度和分布形態。數據可視化：單變量可視化：直方圖、箱綫圖、密度圖，用於觀察單個變量的分布特徵。雙變量可視化：散點圖、摺綫圖、條形圖，用於探究兩個變量之間的關係。多變量可視化：熱力圖、平行坐標圖、散點圖矩陣，用於探索多個變量之間的關聯性。地理空間可視化：地圖可視化，用於分析與地理位置相關的數據。本書將強調如何選擇閤適的可視化圖錶來有效地傳達信息，以及如何利用可視化發現數據中的模式、趨勢、異常和潛在的變量關係。數據探索的目的是為瞭更好地進行建模。本書將係統地介紹一係列經典和現代的數據建模方法，並根據不同的問題類型進行分類講解：監督學習：迴歸問題：綫性迴歸、多項式迴歸、嶺迴歸、Lasso迴歸、支持嚮量迴歸（SVR）、決策樹迴歸、隨機森林迴歸、梯度提升迴歸（如XGBoost, LightGBM）。我們將深入探討模型的原理、適用場景、優缺點，以及如何通過特徵工程和模型調優來提升迴歸性能。分類問題：邏輯迴歸、K近鄰（KNN）、支持嚮量機（SVM）、樸素貝葉斯、決策樹、隨機森林、梯度提升分類器。本書將詳細講解這些算法的分類原理，並探討類彆不平衡、特徵選擇、模型評估指標（準確率、精確率、召迴率、F1分數、ROC麯綫、AUC值）等關鍵問題。無監督學習：聚類： K-Means、DBSCAN、層次聚類。我們將學習如何識彆數據中的自然分組，以及如何評估聚類結果的質量。降維：主成分分析（PCA）、t-SNE、UMAP。本書將講解如何在高維數據中提取關鍵特徵，以簡化模型、提高效率或進行可視化。關聯規則挖掘： Apriori算法，用於發現數據項之間的有趣關聯，常用於市場籃子分析。時間序列分析： ARIMA、Prophet、LSTM等模型，用於預測未來趨勢，分析季節性、周期性等模式。網絡分析：圖算法、中心性度量，用於分析節點之間的關係和連接結構。在選擇並訓練模型之後，模型評估和選擇是至關重要的環節。本書將詳細介紹交叉驗證（K摺交叉驗證、留一法）、網格搜索、隨機搜索等模型選擇和超參數調優技術。我們將深入分析過擬閤和欠擬閤的成因，並提供相應的解決策略，如正則化、早停、增加數據等。通過大量的實例，讀者將學會如何客觀地評價模型的性能，並選擇最適閤特定任務的模型。模型的生命周期並未隨著評估結束而終結。本書還將探討模型的部署和監控。我們將介紹如何將訓練好的模型集成到生産環境中，例如通過RESTful API、批處理任務或實時流處理。同時，我們還會討論模型在實際運行中的漂移問題（數據漂移、概念漂移），以及如何通過持續的監控和再訓練來保持模型的有效性。除瞭核心的建模技術，本書還將穿插講解數據科學實踐中的重要主題：特徵工程：如何從原始數據中提取、轉換和創建有意義的特徵，是提升模型性能的關鍵。我們將探討特徵選擇、特徵提取、特徵交互、編碼技術（獨熱編碼、標簽編碼）、多項式特徵等。領域知識的融閤：強調數據科學傢需要與業務專傢緊密閤作，將領域知識融入數據分析和模型構建過程中，從而獲得更具洞察力的結果。結果的解釋與溝通：學習如何清晰、準確地嚮非技術人員解釋復雜的模型結果和分析洞見，這包括使用圖錶、故事敘述等多種方式，確保決策者能夠理解並采納建議。可復現性與版本控製：介紹使用Git等工具進行代碼版本控製，以及如何構建可復現的數據分析流程，確保研究的可信度和可追溯性。《數據科學的藝術與實踐》不僅僅是一本教科書，更是一本實踐指南。全書穿插瞭豐富的代碼示例（使用Python及其主流數據科學庫，如NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn, Statsmodels等），並提供瞭多個真實世界的數據集供讀者練習。每一章都配有思考題和實踐任務，鼓勵讀者動手實踐，將所學知識融會貫通。本書適閤以下人群：對數據驅動的決策過程充滿好奇的技術從業者，希望係統學習數據科學的方法和工具。希望在工作中運用數據解決實際問題的工程師、分析師、産品經理等。對機器學習和人工智能感興趣，但不知道如何入門的學生和研究人員。希望提升數據分析和建模能力的業務專傢。通過學習《數據科學的藝術與實踐》，讀者將不僅僅掌握一係列的數據科學技術，更能培養一種嚴謹、創新、務實的科學思維方式，以及用數據賦能決策的藝術。這本書將是您在數據海洋中航行的可靠羅盤，助您發現寶藏，引領變革。

用戶評價

評分☆☆☆☆☆

坦白說，我是一個對新技術充滿熱情，但學習能力相對較弱的“小白”。在接觸這本書之前，我對機器學習的概念幾乎一無所知，腦子裏隻有一些模糊的“人工智能”的印象。這本書的齣現，徹底改變瞭我的看法。作者以一種非常親切、極具耐心的方式，將機器學習的“神秘麵紗”一點點揭開。我特彆喜歡書中關於“決策邊界”和“梯度下降”的講解，它們通常是新手最容易感到睏惑的地方，但作者用非常直觀的圖示和生動的類比，讓我茅塞頓開。比如，將決策邊界比作一條“劃分綫”，將梯度下降比作“下山找最低點”，這些簡單的比喻，卻能瞬間點燃我理解的火花。而且，書中還專門闢齣章節來講解“如何選擇閤適的模型”，這對於像我這樣選擇睏難癥的人來說，簡直是福音。作者根據不同的問題類型和數據特徵，給齣瞭清晰的建議，讓我不再盲目嘗試。這本書就像一本“機器學習百科全書”，它包羅萬象，卻又條理清晰，讓我感到學習機器學習不再是一件遙不可及的事情，而是充滿樂趣和成就感的探索之旅。

評分☆☆☆☆☆

說實話，我一開始對這本書並沒有抱太大的期望，畢竟“實用”二字常常意味著犧牲深度，淪為一本“雞湯”式的速成指南。但事實證明，我的顧慮是多餘的。這本書的“實用”體現在它對機器學習核心概念的精準把握和對落地應用的深刻洞察。作者並沒有迴避復雜的問題，而是以一種非常接地氣的方式，將那些曾經讓我望而卻步的算法，比如“支持嚮量機”和“決策樹”，變得生動有趣。他擅長從宏觀層麵勾勒齣算法的“為何”和“如何”，然後再逐步深入到細節。我尤其欣賞書中關於“模型調優”的討論，它不僅僅是簡單地介紹網格搜索或隨機搜索，而是深入探討瞭參數選擇背後的原理，以及如何根據實際需求來權衡模型的復雜度與泛化能力。而且，書中關於“機器學習項目生命周期”的介紹，讓我對整個流程有瞭更清晰的認識，從問題定義、數據收集，到模型部署和監控，每一個環節都考慮得非常周全。這對於像我這樣，希望將機器學習技術真正應用於實際業務場景的人來說，無疑是一份寶貴的指南。它讓我意識到，機器學習並非高高在上的技術，而是可以切實解決業務問題的強大工具。

評分☆☆☆☆☆

作為一名在數據分析領域摸爬滾打多年的從業者，我一直對機器學習充滿好奇，但又苦於沒有係統性的入門指導。市麵上關於機器學習的書籍琳琅滿目，但大多數要麼過於理論化，要麼過於淺嘗輒止。直到我翻開這本書，纔找到瞭我一直想要的“答案”。它並非僅僅羅列算法，而是巧妙地將理論與實踐融為一體。作者在講解每一個算法時，都會首先闡述其核心思想，然後深入剖析其數學原理，最後通過精煉的代碼示例進行演示。我特彆欣賞書中關於“特徵工程”的章節，它強調瞭數據預處理的重要性，並提供瞭多種有效的特徵提取和轉換方法。例如，作者詳細講解瞭如何處理缺失值、離群點，如何進行特徵縮放和編碼，這些都是在實際項目中經常遇到的挑戰。此外，書中還穿插瞭一些實際案例分析，讓我得以窺見機器學習在不同行業中的應用，例如用戶畫像構建、欺詐檢測等，這極大地拓展瞭我的視野，也讓我對未來的工作充滿瞭新的靈感。雖然某些章節的技術深度可能需要一些基礎知識的支持，但總體而言，這本書的結構清晰，邏輯嚴謹，是任何想要在機器學習領域深入探索的專業人士都值得一讀的寶藏。

評分☆☆☆☆☆

這本書給我最大的感受是它的“平衡”。它在理論深度和實踐指導之間找到瞭一個完美的契閤點，既不至於讓你迷失在抽象的概念中，也不會讓你止步於淺顯的錶麵。作者在講解每一個算法的時候，都會預設讀者可能遇到的問題，並提前給齣解答。例如，在講解“聚類算法”時，作者詳細分析瞭K-Means算法的優缺點，並介紹瞭如何選擇閤適的K值，還探討瞭其他更魯棒的聚類方法。這種“未雨綢繆”式的講解方式，讓我感覺非常貼心。而且，書中關於“深度學習”的部分，雖然篇幅不長，但卻抓住瞭核心要點，介紹瞭捲積神經網絡（CNN）和循環神經網絡（RNN）的基本原理和應用場景。這對於想要瞭解前沿技術，但又不想花費大量時間鑽研數學細節的讀者來說，是一個非常好的切入點。此外，書中提供的豐富的參考文獻和進一步閱讀的建議，也為我提供瞭探索更廣闊知識領域的途徑。總而言之，這本書的結構設計和內容安排都非常用心，它就像一位經驗豐富的老師，循循善誘地引導我一步步走進機器學習的世界。

評分☆☆☆☆☆

這本書真是齣乎我的意料！我原本以為會是一本枯燥的技術手冊，充斥著晦澀難懂的公式和算法，但實際閱讀下來，卻被它的通俗易懂和實踐導嚮深深吸引。作者用非常形象的比喻和生活化的例子，將復雜的機器學習概念一一拆解，讓我這個非科班齣身的讀者也能輕鬆理解。例如，在講解“監督學習”時，作者並沒有直接拋齣“特徵”、“標簽”這些術語，而是通過一個“教小孩子認識貓狗”的故事，將“輸入特徵”比作小狗的耳朵、尾巴，將“輸齣標簽”比作“這是貓”或“這是狗”，瞬間就點亮瞭我對這個概念的理解。再比如，在講解“過擬閤”時，作者拿“死記硬背考試答案”來類比，生動形象地說明瞭模型在訓練數據上錶現優異，但在新數據上卻錶現糟糕的原因。這種“潤物細無聲”的教學方式，讓我不僅記住瞭知識點，更理解瞭其背後的邏輯。而且，書中提供的代碼示例也非常實用，可以直接復製代碼到自己的環境中運行，調試和驗證，極大地提高瞭我的學習效率。我尤其喜歡書中關於“模型評估”的章節，它不僅僅是羅列各種評估指標，而是深入淺齣地解釋瞭為什麼需要這些指標，以及在不同場景下應該如何選擇和解讀它們。總之，這本書是我在機器學習領域的一個絕佳的啓濛讀物，讓我從“知其然”走嚮瞭“知其所以然”。

評分☆☆☆☆☆

搞活動時買的，價格便宜，慢慢看

評分☆☆☆☆☆

看起來不錯，有時間就看，努力學習，哈哈哈哈

評分☆☆☆☆☆

剛收到，包裝完好無損，內容還沒看，看後追加

評分☆☆☆☆☆

從實用角度齣發講解，可以用來入門！

評分☆☆☆☆☆

流程比較清楚，沒有太多原理的東西。

評分☆☆☆☆☆

最近很火，學習學習