這本關於數據分析的優秀圖書廣受好評,榮獲2014年Ziegel奬,還被很多教師選為“數據科學”課程的教材。本書專注於預測建模的實際應用,介紹瞭從數據預處理到建模再到模型評估和選擇的整個過程,以及背後的統計思想,涉及各種迴歸技術和分類技術。從解決實際問題延伸到模型擬閤,以及隨之齣現的主題,如處理類不平衡、選擇預測因子等在實踐中經常齣現的問題,作者意在為讀者提供預測建模過程的指導,並結閤開源軟件R語言來求解實際問題,詳細給齣R代碼和處理的步驟。R包AppliedPredictiveModeling包含瞭書中例題和習題使用的數據,以及用於重復書中每一章分析的R代碼。
這是一本專注於預測建模的數據分析書,意在為實踐者提供預測建模過程的指導,比如如何進行數據預處理、模型調優、預測變量重要性度量、變量選擇等。讀者可以從中學到許多建模方法以及提高對許多常用的、現代的有效模型的認識,如綫性迴歸、非綫性迴歸和分類模型,涉及樹方法、支持嚮量機等。第10章和第17章分彆研究混凝土混閤物的抗壓強度和作業調度兩個案例。
作者重實際應用,輕數學理論,從實際數據齣發,結閤開源軟件R語言來求解實際問題,詳細給齣R代碼和處理的步驟。R包AppliedPredictiveModeling包含書中使用的數據,以及可以用於重復書中每一章分析的R代碼,讓讀者能在一定精度範圍內重復本書的結果,並自然地將書中的預測建模方法應用到自己的數據上。章後附有習題,方便讀者鞏固所學。
這本業界互相推薦的好書,適閤所有數據分析人員閱讀。
馬剋斯·庫恩(Max Kuhn)
康涅狄格州格羅頓市輝瑞全球研發非臨床統計部主任,在製藥和診斷行業已有近20年應用預測模型的經驗,他還是很多R包的作者。
謝爾·約翰遜(Kjell Johnson)
博士,在藥物研發和其他行業有近20年統計谘詢和預測建模經驗,曾任輝瑞全球研發統計部主任。
關於預測分析和數據建模,網絡上有各種各樣的圖書……根據關聯性、流行性、綫上排名以及為你的業務增值的能力,我們選齣瞭《應用預測建模》……
— Timothy King Business Intelligence Solutions Review, solutions-review.com
我曾用這本書作為數據科學課程的輔助教材,因為數據科學需要涵蓋處理數據、模型評估和機器學習方法等方麵的內容,所以我使用瞭一係列不同的資料。如果下次我還教授數據科學課程,我將隻用這本書,因為它包含瞭這個領域所有方麵的內容。
— Louis Luangkesorn lugerpitt.blogspot.com
關於迴歸和分類模型的預測技術,這部著作提供瞭非常有用的實踐課程……兩位作者不僅是建模和預測領域公認的專傢,也是R包開發者和統計方法領域公認的專傢……對於在應用復雜統計技術時需要直接幫助的學生和實踐者,這本書是非常有益的。
— Stan Lipovetsky Technometrics
譯者序
前言
第1章導論
1.1預測與解釋
1.2預測模型的關鍵部分
1.3專業術語
1.4實例數據集和典型數據場景
1.5概述
1.6符號
第一部分一般策略
第2章預測建模過程簡介
2.1案例分析:預測燃油效能
2.2主題
2.3總結
第3章數據預處理
3.1案例分析:高內涵篩選中的細胞分組
3.2單個預測變量數據變換
3.3多個預測變量數據變換
3.4處理缺失值
3.5移除預測變量
3.6增加預測變量
3.7區間化預測變量
3.8計算
習題
第4章過度擬閤與模型調優
4.1過度擬閤的問題
4.2模型調優
4.3數據分割
4.4重抽樣技術
4.5案例分析:信用評分
4.6選擇調優參數值
4.7數據劃分建議
4.8不同模型間的選擇
4.9計算
習題
第二部分迴歸模型
第5章衡量迴歸模型的效果
5.1模型效果的定量度量
5.2方差偏差的權衡
5.3計算
第6章綫性迴歸及其擴展
6.1案例分析:定量構效關係建模
6.2綫性迴歸
6.3偏最小二乘法
6.4懲罰模型
6.5計算
習題
第7章非綫性迴歸模型
7.1神經網絡
7.2多元自適應迴歸樣條
7.3支持嚮量機
7.4K近鄰
7.5計算
習題
第8章迴歸樹與基於規則的模型
8.1簡單迴歸樹
8.2迴歸模型樹
8.3基於規則的模型
8.4裝袋樹
8.5隨機森林
8.6助推法
8.7Cubist
8.8計算
習題
第9章溶解度模型總結
第10章案例研究:混凝土混閤物的抗壓強度
10.1模型構建策略
10.2模型性能
10.3優化抗壓強度
10.4計算
第三部分分類模型
第11章分類模型的效果度量
11.1類預測
11.2評估預測類
11.3評估類概率
11.4計算
第12章判彆分析和其他綫性分類模型
12.1案例分析:預測是否成功申請經費
12.2邏輯迴歸
12.3綫性判彆分析
12.4偏最小二乘判彆分析
12.5懲罰模型
12.6最近收縮質心
12.7計算
習題
第13章非綫性分類模型
13.1非綫性判彆分析
13.2神經網絡
13.3靈活判彆分析
13.4支持嚮量機
13.5K近鄰
13.6樸素貝葉斯
13.7計算
習題
第14章分類樹與基於規則的模型
14.1基本的分類樹
14.2基於規則的模型
14.3裝袋決策樹
14.4隨機森林
14.5助推法
14.6C5.0
14.7比較兩種分類預測變量編碼方式
14.8計算
習題
第15章經費申請模型的總結
第16章對嚴重類失衡的補救方法
16.1案例分析: 預測房車保險所有權
16.2類失衡的影響
16.3模型調優
16.4選擇截點
16.5調整先驗概率
16.6不等案例權重
16.7抽樣方法
16.8成本敏感度訓練
16.9計算
習題
第17章案例研究:作業調度
17.1數據切分和模型策略
17.2結果
17.3計算
第18章衡量預測變量重要性
18.1數值結果變量
18.2分類結果變量
18.3其他方法
18.4計算
習題
第19章特徵選擇介紹
19.1使用無信息預測變量的結果
19.2減少預測變量個數的方法
19.3繞封法
19.4過濾法
19.5選擇偏差
19.6案例分析:預測認知損傷
19.7計算
習題
第20章影響模型錶現的因素
20.1第Ⅲ類錯誤
20.2結果變量的測量誤差
20.3預測變量的測量誤差
20.4連續變量離散化
20.5模型預測何時是可信的
20.6大樣本的影響
20.7計算
習題
附錄
附錄A各種模型的總結
附錄BR語言介紹
附錄C值得關注的網站
參考文獻
這是一本關於數據分析的書,專注於預測建模的實際應用。“預測建模”一詞可能讓人聯想起諸如機器學習、模式識彆和數據挖掘。事實上,這樣的聯想是很自然的,這些專業名詞指代的方法是預測建模整體過程的一部分。但是預測建模所涵蓋的範圍遠大於發現數據模式的工具和技術。應用預測建模定義瞭這樣一個建立模型的過程,我們能理解和量化模型對未來即將看到的數據的預測準確度。本書的核心內容就是其中的整個過程。
本書意在為實踐者提供預測建模過程的指導,讀者可以從閱讀中學到許多(建模)方法以及提高對許多常用的、現代的有效模型的認識。我們會介紹許多統計和數學技術,但在任何情況下我們描述技術細節的動機都是幫助讀者理解模型的優缺點,而非(單純)數理統計知識。我們極力避免復雜的公式,但是有少數例外。關於預測模型的理論知識,推薦這兩本書,即Hastie等(2008)和Bishop (2006)。本書的讀者需要有一些基本的統計學知識,包括方差、相關性、簡單綫性迴歸以及基本的統計假設檢驗(如p值和檢驗統計量)。
預測建模的過程本質上具有很強的應用實踐性。但我們研究發現,很多文章、齣版物不能讓讀者再現(他們的)建模結果,因為數據不公開,或讀者無法使用相應軟件,又或軟件需付費。Buckheit和Donoho(1995)對傳統學術界提齣瞭相似的批評:
一篇發錶於科學刊物上關於計算機科學的文章本身不是學術,僅是關於學術的廣告。真正的學術是完整的軟件開發環境和能夠生成那些圖的所有指令集。
因此,我們的目標是盡可能地具有實踐應用性,讓讀者能在一定精度範圍內重復本書的結果,且可以自然地將書中的預測建模方法應用到他們自己的數據上。再者,對於整個建模過程,我們使用R語言(Ihaka和Gentleman 1996; R Development Core Team 2010),這是一個用於數學和統計計算的免費軟件。幾乎所有例子中的數據集都可以在相應R包中找到。R包AppliedPredictiveModeling包含瞭書中使用的很多數據,以及可以用於再現書中每一章分析結果的R代碼。
我們選擇R作為計算引擎有如下幾個原因。首先R是免費的(雖然也有商業版的R),可以在不同的操作係統上使用。其次,它在通用公共許可(General Public License)下發行(免費軟件基金2007年6月),該許可闡明程序再次發布的規則。在此構架下,任何人可以任意檢查、修改源程序。由於開源特性,很多預測模型已經由R包可以實現。再者R有進行預測建模的大量強大的功能。不熟悉R的讀者可以在網上找到大量的入門教程(見附錄)。
由於篇幅所限,本書沒有涵蓋廣義加性模型、模型集成、網絡模型、時間序列等內容。
本書還有一個配套網站:
http://appliedpredictivemodeling.com/其中含有一些相關內容。
沒有如下這些人的指導和幫助不會有本書的問世:Walter H Carter, Jim Garrett,Chris Gennings, Paul Harms, Chris Keefer, William Klinger, Daijin Ko, Rich Moore, David Neuhouser, David Potter, David Pyne, William Rayens, Arnold Stromberg和Thomas Vidmar。我們還要感謝Ross Quinlan對Cubist和 C5��0部分的幫助,他們幫我們修正瞭這兩部分的一些描述。我們還要感謝Springer齣版社的Marc Strauss和Hannah Bracken以及審閱者Vini Bonato、Thomas Miller、Ross Quinlan、Eric Siegel、Stan Young和一位匿名審閱者。最後我們要感謝傢人的支持:Miranda Kuhn, Stefan Kuhn, Bobby Kuhn, Robert Kuhn, Karen Kuhn 和Mary Ann Kuhn; Warren和Kay Johnson,Valerie和Truman Johnson。
Max KuhnKjell Johnson
哇,拿到這本《應用預測建模》,光看名字就覺得它是一本硬核技術書。我一直對數據分析和機器學習領域充滿好奇,但又覺得很多理論性的東西讀起來有些枯燥,總是希望有那種能直接上手,解決實際問題的指導。所以,當看到這本書的封麵時,我內心就湧起一股期待,希望它能成為我進入這個領域的敲門磚。尤其是我平時接觸的很多工作場景,都越來越離不開對未來趨勢的預測,無論是市場營銷的活動效果預測,還是生産製造的庫存需求預測,甚至是金融領域的風險評估,都需要強大的預測能力作為支撐。我理想中的技術書,不僅僅是介紹各種算法的原理,更重要的是能展示這些算法在真實世界中是如何應用的,有哪些坑需要避開,有哪些技巧可以提高效率。這本書的名字就透露齣一種“應用”導嚮,這讓我對它充滿瞭信心,相信它能帶領我從理論走嚮實踐,讓我真正掌握預測建模這項關鍵技能。我迫切地想翻開它,看看它究竟能為我打開怎樣一扇通往數據驅動決策的大門。
評分拿到這本書,我最先關注的還是它講解問題的深度和廣度。我理解預測建模是一個非常龐大且精深的領域,從基礎的統計學模型,到復雜的機器學習算法,再到最新的深度學習應用,都屬於它的範疇。我希望這本書能夠在一個閤理的範圍內,覆蓋到預測建模中的一些核心和常用的技術。比如,它是否會深入講解一些關鍵的模型算法,例如綫性迴歸、邏輯迴歸、決策樹、隨機森林、梯度提升樹等,並且解釋它們的優缺點以及適用場景?它是否會涉及到一些時間序列預測的方法,例如ARIMA、LSTM等?更重要的是,它是否會強調模型的可解釋性,以及如何平衡模型的準確性和可解釋性?作為一個讀者,我期待能夠在這本書中,建立起一個比較全麵、係統的預測建模知識體係,為我未來在實際工作中應用這些技術打下堅實的基礎,避免我隻掌握一些孤立的技巧,而缺乏全局的理解。
評分說實話,我選擇這本書,很大程度上是被它“應用”這個詞所吸引。我不是一個純粹的理論研究者,我更希望我的學習能夠直接服務於工作,解決實際問題。我曾經在一些項目裏遇到過需要對未來趨勢進行預測的情況,但往往因為缺乏係統的方法和工具,導緻預測結果不夠準確,甚至誤導瞭決策。所以,我期望這本《應用預測建模》能夠提供一套完整的、實用的預測建模流程,從數據的獲取和清洗,到特徵工程,再到模型選擇、訓練、評估和部署,都能有清晰的指導。我希望它能夠教會我如何根據不同的業務場景,選擇最適閤的預測模型,並提供一些實用的技巧和最佳實踐。如果書裏能包含一些真實案例的分析,那就更好瞭,這樣我就可以看到書中講解的理論和方法是如何在實際中發揮作用的,也能從中獲得很多靈感。
評分拿到這本《應用預測建模》之後,我最直接的感受是它在講解過程中,應該會非常注重實際操作的細節。我之前嘗試閱讀過一些關於預測建模的文獻,雖然理論講解很深入,但往往在實際操作層麵就變得模糊不清,或者隻給齣瞭很概括性的建議。我個人認為,對於一門技術書籍來說,提供清晰、可執行的代碼示例,以及詳細的步驟指導,是至關重要的。例如,在進行數據可視化時,如何選擇閤適的圖錶類型來清晰地呈現數據規律;在構建模型時,如何一步步地進行特徵選擇和特徵工程,並解釋為什麼要這樣做;在模型評估時,如何準確地理解各種評估指標的含義,並根據實際業務需求來選擇最閤適的評估標準。如果這本書能夠在這方麵做得齣色,我相信它一定會成為我學習和應用預測建模過程中不可多得的寶貴資源,能讓我少走彎路,更快地掌握核心技能。
評分這本書的排版和設計風格倒是挺簡潔明瞭的,封麵色彩比較沉穩,給人一種專業、可靠的感覺。拿到書後,我迫不及待地翻閱瞭一下目錄,看到瞭很多我感興趣的章節,比如數據預處理、特徵工程、模型選擇、評估與調優等等,這些都是在實際建模過程中必不可少的環節。我一直覺得,很多時候影響模型效果的關鍵因素,反而不是模型本身的復雜程度,而是在這些基礎的、細節的處理上。比如,數據的清洗是否到位,特徵的選擇是否恰當,都會直接影響模型的泛化能力。所以,我特彆期待這本書能在這些方麵給予我深刻的指導,讓我不再盲目地嘗試各種模型,而是能有條理、有策略地進行預測建模。而且,我注意到書裏提到瞭一些經典的預測模型,比如迴歸分析、時間序列分析,還有一些更現代的機器學習算法,這讓我覺得它既有深度又不失廣度,能夠滿足不同層次讀者的需求。
評分數據分析與建模預測,內容很實用,翻譯的很到位~
評分還行
評分實用!
評分非常滿意非常滿意非常滿意非常滿意
評分很好,挺滿意的,一直在京東買,物流很快,服務及時,贊!
評分活動時買的,價格便宜,非常好。
評分還不錯,就是物流太慢瞭……
評分實用!
評分這本書講的預測方法很實用!
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有