套路!機器學習:北美數據科學傢的私房課

套路!機器學習:北美數據科學傢的私房課 pdf epub mobi txt 電子書 下載 2025

林薈 著
圖書標籤:
  • 機器學習
  • 數據科學
  • 算法
  • Python
  • 實戰
  • 入門
  • 技巧
  • 北美
  • 乾貨
  • 套路
想要找書就要到 靜流書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 電子工業齣版社
ISBN:9787121326585
版次:1
商品編碼:12245200
品牌:Broadview
包裝:平裝
開本:16開
齣版時間:2017-10-01
用紙:膠版紙
頁數:332
正文語種:中文

具體描述

産品特色

編輯推薦

  

亞馬孫資深數據科學傢裏麵博士、統計之都創始人謝益輝博士搶先品讀

當前關於大數據、人工智能的炒作著實令人眼花繚亂,如大數據平颱(如Hadoop、Spark),以及一些黑箱模型,如神經網絡,深度學習(實際上就是多層神經網絡)。各路媒體和“磚傢”深諳吃瓜群眾不明覺厲的心態,所以就像個“妓院頭牌“似的越發擺譜。作者並沒有打算寫一本數據科學的聖經,告訴你所有關於數據科學的一切;隻想盡可能地給大傢還原一個真實的數據科學和數據科學傢。希望能為後來者提供一些信息,使得讀者們能夠少走彎路。


  

內容簡介

  

數據科學傢目前是北美十分熱門的職業之一,平均年薪突破10萬美元。但數據科學並不是一個低門檻的行業,除瞭對數學、統計、計算機等相關領域的技術要求以外,還要相關應用領域的知識。《套路!機器學習:北美數據科學傢的私房課》的寫作對象是那些現在從事數據分析相關行業,或者之後想從事數據分析行業的人,意在為實踐者提供數據科學傢這門職業的相關信息。讀者可以從閱讀中瞭解到數據科學能解決的問題,數據科學傢需要的技能,及背後的“分析哲學”。對於新手而言,一開始就直奔艱深的理論,很容易因為睏難而失去興趣然後放棄。因此《套路!機器學習:北美數據科學傢的私房課》倡導的是一種循序漸進的啓發教學路徑,著重在於數據科學的實際應用,讓讀者能夠重復書中的結果,學習數據分析技能實際的方式是實踐!為瞭平衡理論和應用,書中包括瞭一些選學小節,用來介紹更多的模型數理背景或給齣必要的參考資料來源。抽絲剝繭介紹技術內核,幫助大傢知其然,同時知其所以然。希望筆者在北美從事數據科學工作多年踏遍大大小小不計其數的坑換來的經驗,能夠幫助讀者更加順利地成為數據科學傢!

作者簡介

2013年至今任美國杜邦公司商業數據科學傢。北京師範大學數學科學學院本科,愛荷華州立大學統計學院碩士和博士。曾任愛荷華州立大學獸醫學院統計谘詢師(2009-2013)及商學院分析谘詢師(2012-2013)。當選2017-2018美國統計協會市場營銷統計項目主席。翻譯齣版瞭《應用預測建模》和《R語言市場研究分析》。

目錄

第1章 白話數據科學 1
1.1 什麼是數據科學 3
1.2 什麼是數據科學傢 5
1.2.1 數據科學傢需要的技能 6
1.2.2 數據科學算法總結 10
1.3 數據科學可以解決什麼問題 20
1.3.1 前提要求 20
1.3.2 問題種類 22
1.4 小結 25
第2章 數據集 26
2.1 服裝消費者數據 26
2.2 航空公司滿意度調查 33
2.3 生豬疫情風險預測數據 37
第3章 數據分析流程 41
3.1 從問題到數據 42
3.2 從數據到信息 44
3.3 從信息到行動 46
第4章 數據預處理 47
4.1 介紹 47
4.2 數據清理 50
4.3 缺失值填補 52
4.3.1 中位數或眾數填補 53
4.3.2 K-近鄰填補 54
4.3.3 裝袋樹填補 56
4.4 中心化和標量化 56
4.5 有偏分布 59
4.6 處理離群點 63
4.7 共綫性 66
4.8 稀疏變量 70
4.9 編碼名義變量 71
4.10 小結 73
第5章 數據操作 75
5.1 數據讀寫 76
5.1.1 取代傳統數據框的tibble對象 76
5.1.2 高效數據讀寫:readr包 80
5.1.3 數據錶對象讀取 83
5.2 數據整閤 91
5.2.1 base包:apply() 91
5.2.2 plyr包:ddply()函數 93
5.2.3 dplyr包 96
5.3 數據整形 102
5.3.1 reshape2包 102
5.3.2 tidyr包 105
5.4 小結 107
第6章 基礎建模技術 109
6.1 有監督和無監督 109
6.2 誤差及其來源 111
6.2.1 係統誤差和隨機誤差 111
6.2.2 因變量誤差 117
6.2.3 自變量誤差 121
6.3 數據劃分和再抽樣 122
6.3.1 劃分訓練集和測試集 123
6.3.2 重抽樣 131
6.4 小結 135
第7章 模型評估度量 136
7.1 迴歸模型評估度量 136
7.2 分類模型評估度量 139
7.2.1 Kappa統計量 141
7.2.2 ROC麯綫 143
7.2.3 提升圖 145
7.3 小結 146
第8章 特徵工程 148
8.1 特徵構建 149
8.2 特徵提取 152
8.2.1 初步探索特徵 153
8.2.2 主成分分析 158
8.2.3 探索性因子分析 163
8.2.4 高維標度化 167
8.2.5 知識擴展:3種降維特徵提取方法的理論 171
8.3 特徵選擇 177
8.3.1 過濾法 178
8.3.2 繞封法 188
8.4 小結 195
第9章 綫性迴歸及其衍生 196
9.1 普通綫性迴歸 197
9.1.1 最小二乘綫性模型 197
9.1.2 迴歸診斷 201
9.1.3 離群點、高杠杆點和強影響點 204
9.2 收縮方法 205
9.2.1 嶺迴歸 205
9.2.2 Lasso 209
9.2.3 彈性網絡 212
9.3 知識擴展:LASSO的變量選擇功能 213
9.4 主成分和偏最小二乘迴歸 215
9.5 小結 221
第10章 廣義綫性模型壓縮方法 222
10.1 初識GLMNET 223
10.2 收縮綫性迴歸 227
10.3 邏輯迴歸 235
10.3.1 普通邏輯迴歸 235
10.3.2 收縮邏輯迴歸 236
10.3.3 知識擴展:群組lasso邏輯迴歸 239
10.4 收縮多項迴歸 243
10.5 泊鬆收縮迴歸 246
10.6 小結 249
第11章 樹模型 250
11.1 分裂準則 252
11.2 樹的修剪 256
11.3 迴歸樹和決策樹 260
11.4 裝袋樹 268
11.5 隨機森林 273
11.6 助推法 277
11.7 知識擴展:助推法的可加模型框架 283
11.8 知識擴展:助推樹的數學框架 286
11.8.1 數學錶達 286
11.8.2 梯度助推數值優化 289
11.9 小結 290
第12章 神經網絡 292
12.1 投影尋蹤迴歸(PROJECTION PURSUIT REGRESSION) 293
12.2 神經網絡(NEURAL NETWORKS) 296
12.3 神經網絡擬閤 299
12.4 訓練神經網絡 300
12.5 用CARET包訓練神經網絡 302
12.6 小結 311
參考文獻 312

精彩書摘

第1章 白話數據科學

目前數據科學和數據科學傢成為瞭流行詞匯。當有人問你乾什麼,你迴答說數據科學傢,對方會恍然大悟,覺得特彆高大上,噢,數據科學傢啊,聽說過。是啊,沒聽說過數據科學傢那就out瞭。如果接著問,數據科學傢具體乾什麼的?然後就沒有然後瞭。不知道你們有沒有聽說過這樣一則軼事,美國最高法院法官Potter Stewart被問到什麼是淫穢時,他迴答:“看下纔知道。”這和數據科學很類似,很多概念,在大而化之的時候都可以存在,大傢口耳相傳,聊的不亦樂乎,但一追究細節,立即土崩瓦解。那麼什麼是數據科學傢呢?我從榖歌查詢瞭數據科學傢的定義,下麵是其中的一些:

1. 住在加州的數據分析師;

2. 數據科學傢是商業(數據)分析師的進化版;

3. 比軟件學傢更懂統計,比統計學傢更懂軟件科學的人;

4. 擁有齣眾數據分析能力的BI谘詢師,尤其是能用大量數據增加商業競爭力的人;

5. 會編程,懂統計,能通過多種方式從數據中掘金的人。

此外,很多其他職位其職責都和“從數據中獲取信息”有關,比如:數據分析師,BI谘詢師,統計學傢,金融分析師,商業分析師,預測分析師……這些不同職業有什麼區彆?即便都是數據科學傢,教育背景等也是韆差萬彆的。由於媒體的炒作以及對“數據科學傢”這個名稱的濫用,盡管總的分析行業正在飛速發展,但大傢對這個行業從業人員的認識卻越來越混亂。現在大部分商業領域所謂的分析都達不到“科學”的程度,而僅僅是加減乘除的遊戲,數據科學工作職位比較如圖1-1所示。

圖1-1

這些不同的職位要求有何不同?在北美總體說來:

l 金融分析師一般有金融方嚮的MBA學位。他會用電子錶格,知道會計軟件,分析各部門的預算數據,分析實際經營結果和預測之間的差彆,做一些預測,但這裏的預測不會涉及復雜的機器學習和統計模型。

l 數據分析師一般有MBA學位,有一些計算機背景,很擅長使用電子錶格,會用高階的電子錶格編程功能如VBA、自定義函數、宏。根據情況,會使用一些BI的軟件,如Tableau,主要都是用鼠標點拖的方式。會用SQL從數據庫中讀取數據。我所見的商業分析師擁有很少(或沒有)統計知識。所以這部分人有處理數據的知識,但是沒有統計學的知識,能做的分析非常有限。

l 統計學傢一般多在藥廠、生物技術公司,做一些非常傳統的混閤效應模型、方差分析等生物統計分析。由於行業要求,多用SAS而非開源軟件R。

l BI谘詢師,一般也是工商管理專業,有MBA學位,受傳統的商學院教育(熟悉4Ps或6Ps,4Cs,使用SWOT法分析市場),熟練使用電子錶格,很少或沒有其他技術背景。

l 數據科學傢,多是數學/統計、計算機、工程學專業齣身,會使用R, Python等多種編程語言,熟悉數據可視化。大多數在入職前沒有太多市場營銷知識。掌握高等概率統計,熟悉如下概念:抽樣,概率分布,假設檢驗,方差分析,擬閤優度檢驗,迴歸,時間序列預測模型,非參數估計,實驗設計,決策樹,馬爾可夫鏈,貝葉斯統計(很快就能在白闆上寫下貝葉斯定理)。

數據科學傢都分布在哪些行業呢?根據Burtch Works Executive Recruiting在2015年4月發布的“數據科學傢薪資調查報告”,科技(包括互聯網)公司是數據科學傢最大的雇主。其次是一些為其他公司提供如廣告、市場調查、市場分析等商業服務的公司。這兩者之和超過瞭50%。2014年創業公司雇傭瞭29.4%的數據科學傢,2015年這個比例降至14.3%,原因不是創業公司招的數據科學傢職位少瞭,而是大公司招入的數據科學傢增長迅速,整體基數變大。總體來說,數據科學傢就業前景在北美是非常好的。調查還顯示,在北美,大部分(70%)數據科學傢工作經驗還不到10年,因此數據科學還是個很年輕的行業。現在,大傢對數據科學領域應該有個大緻的感覺瞭。下麵我們對其進一步探討。

1.1 什麼是數據科學

50年前,John Tukey他老人傢就預言有個類似今天的數據科學的東西會齣現。早在1962年,他在“數據分析的未來(The Future of Data Analysis)”[1] 中就嚷著要對學術統計進行改革。這篇文章當時發錶在“數理統計年鑒(The Annals of Mathematical Statistics)”上,他的觀點震驚瞭許多統計界的同事,這都是一群根正苗紅的數理統計齣身的大神們,那時數理統計年鑒中的文章都是滿滿的數學公式推導,從定義、定理到證明,邏輯縝密,理論精確。當然牛人最大的特點就是可以隨時任性。John推導瞭大半輩子公式,突然有一天發現統計不是這麼玩的,於是他跳齣來說:

“很長一段時間我覺得自己是統計學傢,對統計推斷情有獨鍾,將從小樣本上研究得到的結論推廣到更大的群體。但隨著數理統計的發展,我越發覺得這個路數不大對……總的來說,我覺得自己感興趣的是數據分析,它包括:分析數據的過程,解釋該過程得到結果的技術,閤理計劃收集數據的方案,使得之後的分析過程更方便準確,以及所有的分析中需要用到的儀器和數學理論。”

用簡短的一句話概括就是:僅僅研究數學理論不是數據科學,數據科學的內容涵蓋更廣。

美國密歇根大學在2015年9月宣布瞭一個1億美金的“數據科學項目(Data Science Initiative)”,計劃在未來4年聘請35名新教授,支持與數據相關的跨學科研究。大學媒體大膽地宣稱:

“數據科學已經成為第4大科學發現手段,前3個為:實驗、模型和計算。”

這裏的數據科學指的是什麼?該項目的網站上有如下對數據科學的描述:

“數據科學是科學發現和實踐的結閤,其包括對大量類型各異的數據進行收集、管理、清理、分析、可視化和結果解釋。其應用遍及各種科學、平移和交叉領域。”

如前所述,數據科學是一個新興領域。在美國,對數據分析類專業人纔的需求不斷上升。研究估計[2],從2015到2018年,美國預計有400~500萬個工作崗位要求數據分析技能,大部分這些崗位的人纔需要經過特殊訓練。前麵已經介紹過各種和數據分析相關的行業,這些行業對專業訓練的要求參差不齊。其中數據科學傢的門檻是最高的。成為一個數據科學傢不是件容易的事。不可否認,即使是數據科學傢這個職業名稱,當前也被濫用瞭。這些工作的本質都是從數據中獲取信息。

我是這樣定義數據科學的:

數據科學=數據+科學=從數據中獲取信息的科學

這是一門新的科學,有各種因素推動瞭這門科學的産生。John提到瞭如下的4個驅動因素:

1. 正統統計學理論;

2. 計算機和電子顯示設備的高速發展;

3. 很多領域內更多更大的數據提齣的挑戰;

4. 定量分析在更廣的領域受到重視。

很難想象這些觀點是在1962年提齣的,現在看來一點也不過時。當前這4個推動力都已經存在,這也是數據科學興起的原因。

7年之後,Tukey和Wilk在1969年又將這門科學和已經存在的科學進行對比,進一步限定瞭統計學在數據科學中所扮演的角色:

“……數據科學是一個睏難的領域。它需要和人們能用數據做什麼和想用數據做什麼這樣的外在條件相適應。從某種意義上說,生物比物理睏難,行為科學比這兩者都難,很可能總體數據科學的問題比這三者還要難。無論在現在還是短期的將來,要建立一個正式的能夠給數據分析實踐提供高效指導的數據科學的結構還有很長的路要走。數據科學可以從正規正統統計學那裏獲得很多,但它們之間也需要保持適當的距離。”

數據科學不僅是個科學領域,而且和其他已經存在很久的科學領域一樣睏難。統計理論隻在數據科學中扮演瞭部分角色。

但數據科學是純科學嗎?

什麼樣的東西能夠稱為科學?我們看看John Tukey在50年前是怎麼說的[1]:

怎樣纔能稱為科學呢?迴答因人而異。但下麵3點大多數人都同意:

1. 智力內容(intellectual content);

2. 用能讓人理解的方式組織起來;

3. 實踐是檢驗其結果的最終標準。

第1條沒有提供太多的信息,畢竟太多東西都有智力的內容,這個沒有區分度。第2條也沒有辦法將科學和藝術區彆開來。第3條我覺得纔真正是區分科學和藝術的硬標準,也就是可證僞性。數據科學符閤前2條,但是不總是可以證僞的。對於預測消費者是否會再次購買這樣的問題,可以用真實發生的行為來評估模型錶現。以及很多交互校驗(cross-validation)的過程也能夠用來評估模型。但對於很多市場調查數據的分析,就難以嚴格地科學證僞,比如分析消費者的品牌認知。對於人類心理學和行為學的研究本身就是有藝術的成分,因此相關的數據科學也同時是一門藝術。但是這和瞎猜並不一樣,或許可以這樣描述:這是在當前信息下能得到的最好猜測。

計算機科學之父高德納(Donald Knuth)在他1974年齣版的圖書《計算機程序設計的藝術》中如此定義科學:

“能夠教給計算機的知識就是科學。”

從這個角度上看,數據科學的藝術部分就更高瞭。計算機是數據科學不可或缺的一部分,可以說是最重要的一部分,但絕對不是全部。我們能完全依賴計算機取代數據科學傢嗎?很難。因為計算機不能和客戶交流,將一個現實的商業問題轉化成數據問題。計算機本身並不能決定什麼數據應該收集,什麼不需要。計算機無法對數據的質量做齣評估。計算機無法嚮人解釋模型結果,更無法將模型結果轉化成商業決策建議。

因此數據科學還有藝術的一麵,藝術部分的發揮就需要數據科學傢啦!


前言/序言

作者自序

首先,感謝你翻開這本書!

這是一本什麼書?

這是一本關於數據的科學和藝術的書。書中介紹瞭數據科學這個行業、數據科學傢需要的技能,以及“分析哲學”。書中對最常用、最有效的模型進行瞭展開。數據科學這個行業的本質是通過分析數據解決實際問題,所以本書很看重讀者能夠真正將書中介紹的知識付諸實踐。書中的數據全部都是公開的,書中的代碼,建模過程都可以重復。一切不能重復的分析都是耍流氓!

l 為什麼寫這本書?

當前關於大數據、人工智能的炒作著實令人眼花繚亂,如大數據平颱(如Hadoop、Spark),以及一些黑箱模型(如神經網絡,深度學習“實際上就是多層神經網絡”)。各路媒體和“磚傢”深諳吃瓜群眾不明覺厲的心態,所以就像個妓院頭牌似的越發擺譜。曾經的我也是吃瓜群眾中的一員,妥妥地迷失在這信息時代造成的漫天泡沫中,仿佛卡在一扇鏇轉門裏,轉瞭很久不知道去哪。瞭解一件事情最有效的方法就是實踐。很幸運的是,在過去的4年裏,我主導瞭大大小小各種分析項目。正是這些實踐經驗造就瞭這本書。我並沒有打算寫一本數據科學的聖經,告訴你所有關於數據科學的一切。隻想盡我所能地給大傢還原一個真實的數據科學和數據科學傢。希望能為後來者提供一些信息,使得你們能夠少走彎路。

l 為什麼學習數據科學?

這個問題的答案因人而異。從事某個行業和同某人結婚一樣,都有很大的隨機性和主觀性。所以下麵隻是我個人喜歡這個行業的理由。

1. 我把數據科學傢定義為匠人。個人很享受作為一個匠人,統帥三軍之能不如薄技在身。當你相信自己在某些領域有專長並且因此産生自我價值感時,就會有激情。激情是有吸引力的,就像愛一樣,這是一種值得為之奮鬥的感覺。

2. 這個世界上的手藝很多,為什麼我做的是數據科學?因為我覺得數據科學這門手藝能夠幫你培養在當今信息海嘯中獨善其身的技能——獨立思考的能力。用數據進行決策能夠讓你看問題更清晰,有邏輯,理性客觀。這種能力不是隻有數據分析師纔需要掌握的,理性思考是貫穿很多人一生的必修課,尤其是在互聯網時代,通過理性思考甄彆過濾信息比之前任何時候都重要。此外,人的大腦是有連貫性的,已經習得某項技能的人,再學另外一項技能的時候,學得會比上一次快一些,因為學習經驗在起作用。而若是習得的基礎知識是可積纍、可擴展的,那麼隨後可能習得的技能可變現價值就會越來越高。通過數據分析進行決策就是一門可擴展性極高的技能,幾乎可以擴展到這個數據時代的方方麵麵,而且隨著社會的數據化趨勢,這種可擴展性産生的“復利效應”將越來越大——有著可怕的潛力。

3. 數據科學是美的,美隻有愛知道,所以熱愛是選擇這個行業的主要理由。不知道從什麼時候開始,中國互聯網上開始流傳一句話:生活不止眼前的苟且,還有詩和遠方。其實問題不在於缺少詩和遠方,而在於你以為眼前的是苟且。如果你熱愛自己當前所做的事情,那就是詩,就是遠方。如果你不熱愛自己所做的事情,在你找到自己真正熱愛的事情之前,到哪裏都是苟且。我希望閱讀這本書的所有人都能夠在數據分析中找到樂趣。歸根結底,快樂並不是什麼深奧的事情,無非是貓吃魚,狗吃肉,奧特曼打小怪獸。

最後,感謝父母的愛和支持,感謝你們幫助我找到自己熱愛的東西。感謝Scott Iverson,他是我在市場營銷領域的導師,沒有他,我無法將數據科學很好地應用於市場營銷。感謝王正林以及所有為本書齣版做齣努力的人,沒有你們就沒有本書的問世。再次感謝你選擇本書!



前 言

數據科學傢目前是北美最熱門的職業之一,平均年薪突破10萬美元。但數據科學並不是一個低門檻的行業,除瞭對數學、統計、計算機等相關學科技術的要求以外,還需要相關應用領域的知識。這個職業聽起來很酷,但如果你對數據分析沒有興趣的話,你也會覺得這個行業很苦。這裏我默認本書的讀者都至少是對這個行業有興趣和激情的。本書的寫作對象是那些現在從事數據分析相關行業,或者之後想從事數據分析行業的人,意在為實踐者提供數據科學傢這門職業的相關信息。讀者可以從閱讀中瞭解到數據科學傢需要的技能,及背後的“分析哲學”。書中會對部分最常用,有效的模型加以展開。關於模型技術部分,我希望讀者有初步統計知識,最好知道綫性迴歸。

數據科學傢這個行業的本質是應用。市麵上有很多文章、齣版物介紹各種數據模型,大多數此類書籍並不能讓讀者重復書中所述的分析過程,對於書中介紹的知識,讀者真正實踐起來會遇到很多睏難。本書著重在於數據科學的實際應用,讓讀者能夠重復書中的結果,這也用到瞭統計軟件R的自動化報告功能。可能有讀者會問,為什麼要可重復?根據個人經驗,學習數據分析技能最好的方式是實踐:動手重復分析的過程,檢查分析結果,發現問題後再去查詢相關模型的背景技術知識。這一過程得到的學習效果遠遠超過死磕一本大部頭的技術理論書籍,但磕瞭一年之後發現碰到實際問題不知道該用什麼工具實踐這些書中講到的模型方法。而且對於新手而言,一開始就直奔艱深的理論,很容易因為睏難而失去興趣最終放棄。本書倡導的是一種循序漸進的啓發性教學路徑,從實際問題入手,抽絲剝繭進入技術內核。

本書主要部分將避免過多的數學公式,但難免有例外。我們在一些地方提到方法背後的技術細節是為瞭幫助讀者理解模型的長處和弱點,而非單純地介紹數理統計知識。這並不意味著這些數理背景知識不重要,相反盡可能多地瞭解模型背後的數學很重要且有意義,為瞭平衡理論和應用,我們會在有的章中加一些選學小節,用來介紹更多的模型數理背景或給齣必要的參考資料來源,如果不感興趣的讀者可以跳過這些小節,不會影響本書主要部分的閱讀。書中的每一章都隻是冰山一角,我並不試圖徹底地介紹模型,而是選擇性地解釋其中部分我覺得重要的地方。我會盡量將想要強調的概念和內容在分析數據的過程中體現齣來,而不僅僅是數學公式符號錶達。想要成為數據科學傢,僅靠閱讀本書是遠遠不夠的,讀者需要進一步查閱書中提到的參考資料,或者選修相關課程。

隨著計算機科學的發展,不僅收集存儲的數據增加瞭,分析數據的軟件包也不斷推陳齣新,這極大地降低瞭應用統計學習方法的壁壘。現在不管會建模的不會建模的,大都聽過綫性迴歸,這個經典統計模型可追根溯源至19世紀Legendre和Gauss發錶的若乾關於最小二乘的論文。現在你要通過最小二乘擬閤一個綫性模型那是就動動指頭兩秒鍾的事情。可在那個計算器都沒有的時代,能優化誤差平方和這樣的東西的大牛都會被認為是火星人。那個年代美國憲法規定每十年必須進行一次人口普查,1880年排山倒海的普查資料花瞭8年時間處理分析,一個名叫Herman Hollerith的品學兼優的美國少年跳齣來,在1890年發明瞭一種排序機,利用打孔卡儲存資料,再由機器感測卡片,協助人口調查局對統計資料進行自動化製錶,結果不齣3年就完成瞭人口普查工作,Herman同學也順帶用這個發明拿個瞭工程學博士學位。你可能要問,計算能力這麼落後那這夥數學傢搗鼓齣來的方法誰用?天文學傢用。綫性模型最早用在天文學研究中。研究中使用統計方法的,那時絕對是小眾邊緣群體,全都可以貼上火星製造的標簽。然後盼星星盼月亮我們終於在1912年6月等到瞭圖靈,如圖1所示這個天纔的降臨。

圖1

若不是圖靈這個孩子被性取嚮拖瞭後腿,數據科學傢這個行業早幾十年可能就火瞭。當然,統計泰鬥們也沒有閑著,Fisher在1936年提齣瞭綫性判彆分析。在20世紀40年代,又一傢喻戶曉的經典統計模型——邏輯迴歸——問世瞭!在20世紀70年代早期,Nelder和Wedderburn發明瞭廣義綫性模型這個詞,這是一個更大的統計模型框架,它將隨機分布函數和係統效應(非隨機效應)通過一個連接函數(link function)連起來,之前的綫性模型和邏輯迴歸都是該框架下的特例。到70年代末,可以用來分析數據的方法已經有好些瞭,但這些方法幾乎都是綫性模型,因為在那時,擬閤非綫性關係的計算量相對當時的計算機水平來說還是太大瞭。等到80年代,計算機技術終於發展到可以使用非綫性模型瞭。Breiman, Fridman, Olshen和Stone提齣瞭分類迴歸樹。隨後的一些機器學習方法進一步豐富瞭數據科學傢可以使用的工具集。計算機軟件的飛速發展使得這些方法模型得以應用在更加廣泛的領域,應用涵蓋瞭商業、健康、基因、社會心理學研究和政策分析,等等。數據科學傢這個行業隨著數據量的增加和分析軟件的進步不斷地嚮前發展。

關於分析軟件,本書使用R。選擇R語言的原因如下:

1. R免費,且可以在不同操作係統上使用。

2. R開源、可擴展:它在通用公共許可(General Public License)下發行,在此構架下任何人可以檢查修改源程序。並且R語言含有很多最新的模型。

3. R有強大圖形可視化和自動化報告功能。

4. 筆者10年使用R的經驗證明:無論在學術還是業界,這都是非常有效的工具。

網上有大量的R入門教程,關於用R進行數據分析的書也有好些,所以這裏就不重復造輪子瞭,不熟悉R語言的讀者可以先學習相關資料,這裏我假設讀者已經有一定的R語言基礎。

本書布局如下,先介紹數據科學傢這個行業的“分析哲學”和數據分析的一般流程。這是非技術的部分,但對於從業者來說非常重要,它幫助你對這個職業設定一個閤理的預期。其中會討論數據科學傢需要的技能。之後的章節會對這裏提到的部分我覺得重要的技能進一步展開討論,由於篇幅所限,不可能詳細討論開始這幾章中提到的所有技能。隨後開始進入技術部分,講分析環節的第一步——數據預處理,這一步雖然不是正式建模,但卻是整個分析過程中最耗時的一個環節。這步沒有到位將嚴重影響模型質量。也正是因為預處理重要,所以單獨作為一個章節,沒有和章其他建模技術閤並起來。第6章“基礎建模技術”介紹的是一些在建模過程中需要的輔助性的技術以及建模需要注意的問題。之後正式介紹各種筆者在從業過程中經常用到的模型。

本書用來展示模型的數據大部分是通過R得到的模擬數據集。為什麼用模擬數據而不是真實數據呢?原因如下:

1. 你可以控製數據生成過程,免去瞭傳輸下載數據的麻煩。

2. 你可以根據需要改變生成數據的代碼,得到新的數據,觀察數據變化對模型結果的影響。

3. 對於自己創建的數據,我們知道數據要錶達的真實信息,那麼就可以評估分析使用的模型的準確性,然後再用於真實數據。

4. 可以通過使用模擬數據在拿到真實數據前準備好代碼模闆,這樣,當你有真實數據時就可以迅速進行分析。

5. 通過重復數據模擬的過程可以加深對模型假設的理解。

同一章後麵的代碼通常建立在之前代碼上,但每章的代碼自成係統,也就是說你不需要以其他章節代碼運行結果為前提重復某章的代碼。有一定R語言基礎的讀者可以通過學習生成數據的代碼瞭解數據的結構以及模型假設。R語言的新手學習這些代碼可能會覺得太睏難,沒有關係,你們可以跳過生成數據的細節,隻需要瞭解數據的語境,都有哪些變量以及變量類型。你可以直接從網站上讀取這些數據。書中的代碼和數據可以在這個github頁麵上找到:

現在開始我們的旅程吧!



《圖解機器學習:從零到一,玩轉數據智能》 開啓你的數據探索之旅,釋放智能的無限潛能 在這個數據爆炸的時代,機器學習早已不再是遙不可及的尖端技術,而是驅動各行各業變革的關鍵力量。從智能推薦係統到自動駕駛,從精準醫療到金融風控,機器學習的應用無處不在,深刻地改變著我們的生活和工作方式。然而,對於許多初學者而言,機器學習的入門門檻似乎並不低,各種復雜的數學公式、晦澀的算法理論常常讓人望而卻步。 《圖解機器學習:從零到一,玩轉數據智能》正是為這樣的你而生。本書旨在打破機器學習的神秘感,以一種更直觀、更易於理解的方式,帶你踏入數據科學的奇妙世界。我們堅信,學習機器學習不應僅僅是死記硬背公式,而是要通過生動的圖示、形象的比喻和貼近實際的應用場景,讓你真正“看懂”機器學習,並能融會貫通,將其應用於解決實際問題。 本書的獨特之處: 告彆枯燥,圖文並茂: 我們將復雜的概念轉化為精美的插圖和流程圖,讓抽象的算法變得具體可見。你無需被密密麻麻的公式淹沒,取而代之的是清晰直觀的視覺引導,幫助你構建對機器學習原理的深刻理解。每一張圖都承載著知識的精華,每一處講解都力求用最簡潔明瞭的方式闡述核心思想。 循序漸進,夯實基礎: 本書從最基礎的數據科學概念講起,包括數據類型、數據預處理、特徵工程等,為後續的學習打下堅實的基礎。我們不跳過任何關鍵步驟,力求讓每一個環節都清晰明瞭,讓你在掌握核心算法之前,對數據的本質有全麵的認識。 核心算法,深度解析: 覆蓋機器學習中最常用、最核心的算法,包括但不限於: 監督學習: 迴歸算法: 綫性迴歸、多項式迴歸,理解如何預測連續數值。 分類算法: 邏輯迴歸、K近鄰(KNN)、支持嚮量機(SVM)、決策樹、隨機森林、樸素貝葉斯,掌握如何對數據進行分類。 集成學習: Bagging(裝袋)、Boosting(提升),探索如何通過組閤多個模型來提升預測精度。 無監督學習: 聚類算法: K-Means、層次聚類,學習如何發現數據中的隱藏模式和分組。 降維算法: 主成分分析(PCA)、t-SNE,理解如何簡化數據維度,保留關鍵信息。 深度學習基礎: 神經網絡: 感知機、多層感知機,揭示神經網絡的基本結構和工作原理。 捲積神經網絡(CNN): 圖像識彆的基石,理解其在圖像處理領域的強大能力。 循環神經網絡(RNN): 處理序列數據的利器,探索其在自然語言處理等領域的應用。 對於每一種算法,我們都將深入淺齣地講解其背後的數學原理(用最易懂的方式呈現),並結閤直觀的圖示來解釋其工作機製。你將瞭解算法的優點、缺點以及適用的場景,從而能夠靈活選擇和運用。 實戰案例,學以緻用: 理論的學習離不開實踐的檢驗。本書精選瞭多個貼近生活和工業應用的實際案例,涵蓋瞭數據分析、預測建模、圖像識彆、文本分類等多個領域。通過動手實踐,你將學會如何將學到的算法應用於解決真實世界的問題,體驗從數據到洞察、從模型到智能的完整過程。每個案例都配有詳細的代碼講解和運行指導,讓你能夠輕鬆復現和擴展。 數據科學工具箱: 除瞭算法講解,本書還將介紹常用的數據科學工具和庫,如Python語言、NumPy、Pandas、Matplotlib、Scikit-learn等。你將學會如何使用這些強大的工具來收集、清洗、分析和可視化數據,以及如何利用它們來構建和評估機器學習模型。 本書適閤哪些讀者? 零基礎的學習者: 對機器學習感到好奇,但不知道如何開始的初學者。 想要係統學習的開發者: 希望將機器學習能力融入到現有技術棧的程序員。 渴望轉型的職場人士: 希望進入數據科學領域,或者提升自己在現有崗位上數據分析和建模能力的職場人。 對數據充滿興趣的學生: 計算機科學、統計學、數學等相關專業的學生。 任何想要理解智能背後原理的探索者: 對人工智能和機器學習的興趣,渴望瞭解其工作機製的讀者。 你將從本書中學到什麼? 建立堅實的機器學習理論基礎,擺脫對數學的恐懼。 掌握從數據預處理到模型評估的完整機器學習流程。 深刻理解主流機器學習算法的原理、優缺點及應用場景。 學會運用Python及常用庫進行數據科學實踐。 通過真實案例,將理論知識轉化為解決實際問題的能力。 培養獨立思考和解決復雜數據問題的能力。 構建起通嚮更高級機器學習和人工智能領域的大門。 加入《圖解機器學習:從零到一,玩轉數據智能》,你將不僅僅是閱讀一本書,更是踏上一段激動人心的探索之旅。 我們將一步步引導你,讓你在輕鬆愉快的氛圍中,掌握數據智能的核心技術, unlock 你的數據潛能,成為那個能夠駕馭數據、創造價值的數據科學傢。 立即開始,用圖解的方式,玩轉機器學習,擁抱智能未來!

用戶評價

評分

這本書的名字真是讓人眼前一亮,特彆是“套路”這個詞,瞬間就擊中瞭我的痛點。我之前嘗試過一些機器學習的書籍,但常常發現自己學瞭半天,還是不知道怎麼把學到的東西用到實際項目裏。感覺就像是學瞭一堆零散的招式,卻不知道怎麼組閤成一套完整的拳法。我猜想,這本書可能就是來解決這個問題的!它不會把機器學習拆解成一個個孤立的算法,而是會從實際問題的角度齣發,告訴你解決這個問題需要哪些“套路”,然後再一步步地講解這些“套路”背後的原理和實現細節。我特彆希望書中能夠包含一些“從零到一”的項目案例,從數據的獲取和清洗開始,一直到模型的部署和評估,能讓我完整地體驗一個機器學習項目的全過程。這樣我就能明白,原來機器學習的學習不僅僅是看書,更重要的是“做”齣來。而且,如果書中還能分享一些數據科學傢在實際工作中遇到的常見問題,以及如何巧妙地繞過或解決它們,那真是太棒瞭。我希望這本書能讓我覺得,學習機器學習不是一項艱巨的任務,而是可以通過掌握一套行之有效的“套路”就能輕鬆實現的目標。

評分

“套路!機器學習:北美數據科學傢的私房課”,這個書名組閤起來,給我一種非常實用的感覺,好像是直接把最精華、最實用的知識提煉齣來瞭。我一直覺得,學習機器學習,最怕的就是那些“紙上談兵”的內容,看完之後還是不知道怎麼落地。這本書的“套路”二字,讓我覺得它一定是以解決實際問題為導嚮的。我猜想,它會跳過那些過於理論化的數學推導,而是直接告訴讀者如何應用這些機器學習方法來解決問題。比如,在預測方麵,有哪些常用的模型和技巧?在分類任務中,如何選擇閤適的評估指標?在處理不平衡數據時,有哪些有效的策略?我期望書中能夠涵蓋一些我在實際工作中經常會遇到的場景,並提供切實可行的解決方案。同時,作為一本“私房課”,它應該還會包含一些作者在長期實踐中積纍的寶貴經驗,可能是關於數據采集的注意事項,可能是關於模型調優的“秘籍”,甚至是關於如何有效溝通和展示成果的技巧。我特彆期待它能夠分享一些能夠快速提升模型性能或者項目效率的“小技巧”,讓我在工作中能夠脫穎而齣。這本書給我的感覺,就是一本可以直接拿來用的“工具箱”,裏麵的每一個“套路”都能幫我解決一個實際問題。

評分

我一直覺得,學習編程或者任何技術,如果能有一個清晰的“路徑圖”,會事半功倍。尤其是在機器學習這樣一個龐大的領域,各種算法、框架、工具層齣不窮,很容易讓人迷失方嚮,不知道從何學起,也不知道學到什麼程度纔算入門。這本書的“套路”二字,恰恰點燃瞭我對這種“捷徑”的嚮往。我猜想,這本書可能不是按照“從基礎到高級”的傳統綫性結構來展開,而是會選擇一些最常用、最有效的機器學習任務,然後針對這些任務,提供一套完整的解決方案,包括數據預處理、特徵工程、模型選擇、訓練調優等一係列步驟。這種“任務導嚮”的學習方式,對於我這種想要快速應用機器學習解決實際問題的人來說,簡直是福音。我希望書中能夠包含一些實際案例的分析,例如如何用機器學習來預測用戶行為、如何進行圖像識彆、如何實現自然語言處理等等。能夠看到這些“套路”如何在真實場景中發揮作用,遠比枯燥的理論更能激發我的學習熱情。當然,如果書中還能指導我如何選擇閤適的工具和庫,例如TensorFlow、PyTorch、Scikit-learn等,那更是再好不過瞭,畢竟實踐齣真知,瞭解並熟練掌握這些工具是邁嚮成功的重要一步。

評分

這本書的名字實在太有意思瞭,“套路!機器學習”,第一眼就吸引瞭我。我一直對機器學習充滿瞭好奇,但又常常被那些動輒上百頁的理論書嚇退。總覺得學習機器學習需要非常深厚的數學功底和大量的抽象概念,而這本書的名字則暗示瞭一種更接地氣、更易於理解的學習方式。我猜想,這本書可能不會像傳統的教材那樣,一開始就擺齣一堆公式和定理,而是會通過一些實用的“套路”或者說是“技巧”,帶領讀者一步步進入機器學習的世界。這種“私房課”的定位也讓我覺得很親切,仿佛一位經驗豐富的前輩,願意把自己多年的心得體會毫無保留地傳授給我。我期待書中能夠分享一些在實際項目中常用的模型和方法,而不是僅僅停留在理論層麵。最好能有大量的代碼示例,讓我能夠邊學邊練,快速上手。同時,我也希望這本書能夠解釋清楚這些“套路”背後的原理,雖然不深究數學細節,但至少能讓我明白為什麼這麼做是有效的。總而言之,我被這本書的名字勾起瞭極大的興趣,它給我一種“原來機器學習可以這樣學”的希望,非常期待它帶來的驚喜。

評分

“北美數據科學傢的私房課”,這個副標題讓我感覺這本書的含金量應該不低。北美,尤其是美國,一直是人工智能和數據科學領域的前沿陣地,匯聚瞭大量的頂尖人纔和領先的研究機構。能夠從中“私房”齣來的課程,必然是經過實踐檢驗、久經考驗的精華。我設想,這本書可能包含瞭一些在北美數據科學領域非常流行的、但國內教材可能相對較少提及的技術或者理念。或許是在模型構建、特徵工程、評估指標選擇,甚至是在項目管理和團隊協作方麵,都有一些獨特的“北美視角”的分享。我非常期待書中能夠講解一些目前最前沿的機器學習模型,或者是一些能夠顯著提升模型性能的技巧。更重要的是,我希望這本書能傳遞一種“數據科學思維”,不僅僅是學習算法,更重要的是理解如何通過數據來驅動決策,如何構建端到方的解決方案。如果書中能包含一些關於如何與非技術背景的人溝通、如何解釋模型結果、以及如何將機器學習成果轉化為商業價值的經驗分享,那將是極大的加分項。我希望能從中學習到一些“內行”的門道,提升自己的技術深度和廣度。

評分

老實說還沒看,這本書是我學習基礎教材之後,進階用的。不過從目錄看應該還不錯。

評分

老實說還沒看,這本書是我學習基礎教材之後,進階用的。不過從目錄看應該還不錯。

評分

算法精簡版,可以操作,不錯

評分

是不是太晚瞭,你就是這樣我就是個不錯的人也許有時候

評分

書籍包裝得很好,書籍內容很實用,專業,應該是正版吧,相信京東

評分

學姐的書,強烈推薦

評分

不錯的書,值得一看,質量也很好,很滿意!

評分

希望有用希望有用希望有用

評分

老實說還沒看,這本書是我學習基礎教材之後,進階用的。不過從目錄看應該還不錯。

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有