發表於2024-12-13
Python機器學習及實踐:從零開始通往Kaggle競賽之路 pdf epub mobi txt 電子書 下載
《Python機器學習及實踐:從零開始通往Kaggle競賽之路》幫助對機器學習、數據挖掘感興趣的讀者整閤時下流行的基於Python語言的程序庫。如Scikit-learn,Pandas NLTK,Gensim XGBoost,TensorFlow等,並且針對現實中遇到的數據,甚至是Kaggle競賽中的分析任務,快速搭建有效的機器學習係統。
同時,作者盡力減少讀者為瞭理解本書,而對編程技能、數學背景的過分依賴,進而降低機器學習模型的實踐門檻,讓更多的興趣愛好者體會到使用經典模型以及新的高效方法解決實際問題的樂趣。
《Python機器學習及實踐:從零開始通往Kaggle競賽之路》麵嚮所有對機器學習與數據挖掘的實踐及競賽感興趣的讀者,從零開始,以Python編程語言為基礎,在不涉及大量數學模型與復雜編程知識的前提下,逐步帶領讀者熟悉並且掌握當下流行的機器學習、數據挖掘與自然語言處理工具,如Scikit-learn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow等。
《Python機器學習及實踐:從零開始通往Kaggle競賽之路》共分4章。第1章簡介篇,介紹機器學習概念與Python編程知識;第2章基礎篇,講述如何使用Scikit-learn作為基礎機器學習工具;第3章進階篇,涉及怎樣藉助高級技術或者模型進一步提升既有機器學習係統的性能;第4章競賽篇,以Kaggle平颱為對象,幫助讀者一步步使用本書介紹過的模型和技巧,完成三項具有代錶性的競賽任務。
範淼,清華大學計算機係人工智能研究所博士,研究方嚮涉及機器學習與自然語言處理技術。2015年3月受國傢留學基金委公派至美國紐約大學計算機係聯閤培養。攻讀博士期間,於所在研究領域內多個重要國際會議與期刊上發錶論文近20篇。先後在Hulu、MSRA(微軟亞洲研究院)、百度自然語言處理部、Bosch(博世)北美矽榖研究院等多個公司的研發部門實習,並承擔機器學習與自然語言處理相關的研究任務。
李超, 工學博士,清華大學副研究員,信息技術研究院Web 與軟件技術研究中心副主任。中國計算機學會信息存儲技術專委會委員、中國計算機學會高級會員、全國文獻影像技術標準化技術委員會(SAC/TC86/SC6)委員、IEEE 會員。研究領域包括海量數據存儲、組織與管理、分析,及其在數字圖書館/檔案館/教育/醫療/金融等領域的應用。主持及參與多項國傢973、863、科技支撐、自然基金等縱嚮項目及橫嚮閤作項目。已發錶學術論文50 餘篇、獲得授權發明專利10 餘項。
《Python機器學習及實踐》很契閤實際,從零開始介紹簡單的Python語法以及如何用Python語言來寫機器學習的模型。每一個章節環環相扣,配閤代碼樣例,非常適閤希望瞭解機器學習領域的初學者,甚至沒有編程基礎的學生。希望看到這本新書能推動普及機器學習。
——今日頭條實驗室科學傢,前百度美國深度學習實驗室少帥科學傢-李磊
這是一本麵嚮機器學習實踐的具有很強實用性的好書,適閤於想使用機器學習方法求解實際問題的博士生、碩士生、高年級本科生,以及在企業工作的工程技術人員閱讀,是一本快速掌握機器學習方法求解實際問題的入門讀物,相信讀者將從本書中獲益匪淺。
——清華大學計算機係教授-馬少平
盡管目前市場上關於機器學習的書籍很多,但很少具有能夠將開發語言及機器學習理論緊密結閤,利用開源技術,采用類似“實訓”方式的實踐教學書籍。該書的作者把自己學習的經驗充分融入到全書,深入淺齣,是一本適閤在校學生以及工程技術人員在機器學習方麵快速入門的指導書。
—— 北京郵電大學軟件學院教授,教研中心主任-吳國仕
不同於多數專業性的書籍,該書擁有更低的閱讀門檻。即便不是計算機科學技術專業齣身的讀者,也可以跟隨本書藉助基本的Python編程,快速上手新並且最有效的機器學習模型。
——香港科技大學計算機與工程係講座教授,係主任,IEEE、AAAI Fellow 國際人工智能協會(IJCAI,AAAI)常務理事,中國人工智能協會副理事,ACM KDD China (ACM數據挖掘委員會 中國分會)主席-楊強
該書的作者從初學者的視角,一步步帶領讀者從零基礎快速成長為一位能夠獨立進行數據分析並且參與機器學習競賽的興趣愛好者。全書深入淺齣,特彆是對有意瞭解機器學習,又不想被復雜的數學理論睏擾的讀者,會從此書中獲益。
——蘇州大學計算機科學與技術學院副院長、人類語言技術研究所所長、特聘教授、國傢傑齣青年科學基金獲得者-張民
如果說機器學習會主導信息産業的下一波浪潮,那麼在這波浪潮來臨之前,我們是否有必要對其一窺究竟。我很高興有這樣一本零基礎實戰的好書服務廣大讀者,為普及這一潮流盡綿薄之力。就像過去幾十年間我們不懈普及計算機與互聯網一樣,人工智能,特彆是機器學習的核心思想也應該走齣象牙塔,擁抱普羅大眾,盡可能讓更多的興趣愛好者參與到實踐當中。
——清華大學語音和語言技術中心主任、教授-鄭方
這是一本講解利用Python進行機器學習實戰的入門級好書。該書引導剛入門的讀者,從零開始學習數據分析並掌握機器學習競賽技能,適閤於從事機器學習研究和應用的在校生和科研工作者。
——微軟研究院首席研究員,自然語言處理資深專傢-周明
第1章 簡介篇..............................................................1
1.1 機器學習綜述..............................................................1
1.1.1 任務....................................................................3
1.1.2 經驗....................................................................5
1.1.3 性能....................................................................5
1.2 Python編程庫..............................................................8
1.2.1 為什麼使用Python........................................................8
1.2.2 Python機器學習的優勢....................................................9
1.2.3 NumPy & SciPy..........................................................10
1.2.4 Matplotlib.............................................................11
1.2.5 Scikit-learn..........................................................11
1.2.6 Pandas.................................................................11
1.2.7 Anaconda...............................................................12
1.3 Python環境配置...........................................................12
1.3.1 Windows係統環境........................................................12
1.3.2 Mac OS 係統環境........................................................17
1.4 Python編程基礎...........................................................18
1.4.1 Python基本語法.........................................................19
1.4.2 Python 數據類型........................................................20
1.4.3 Python 數據運算........................................................22
1.4.4 Python 流程控製........................................................26
1.4.5 Python 函數(模塊)設計................................................28
1.4.6 Python 編程庫(包)的導入..............................................29
1.4.7 Python 基礎綜閤實踐....................................................30
1.5章末小結..............................................................33
第2章 基礎篇..............................................................34
2.1監督學習經典模型.........................................................34
2.1.1分類學習...............................................................35
2.1.1.1 綫性分類器
2.1.1.2 支持嚮量機(分類)
2.1.1.3 樸素貝葉斯
2.1.1.4 K近鄰(分類)
2.1.1.5 決策樹
2.1.1.6 集成模型(分類)
2.1.2迴歸預測...............................................................64
2.1.2.1 綫性迴歸器
2.1.2.2 支持嚮量機(迴歸)
2.1.2.3 K近鄰(迴歸)
2.1.2.4 迴歸樹
2.1.2.5 集成模型(迴歸)
2.2 無監督學習經典模型.......................................................81
2.2.1數據聚類......................................................81
2.2.1.1 K均值算法
2.2.2特徵降維...............................................................91
2.2.2.1 主成分分析
2.3 章末小結.................................................................97
第3章 進階篇...............................................................98
3.1 模型實用技巧.............................................................98?
3.1.1 特徵提升...............................................................99
3.1.2 模型正則化............................................................111
3.1.3 模型檢驗..............................................................121
3.1.4 超參數搜索............................................................122
3.2 流行庫/模型實踐.........................................................129
3.2.1自然語言處理包(NLTK)................................................131
3.2.2 詞嚮量(Word2Vec)技術................................................133
3.2.3 XGBoost模型...........................................................138
3.2.4 Tensorflow框架........................................................140
3.3 章末小結................................................................152
第4章 實戰篇..............................................................153
4.1 Kaggle平颱簡介..........................................................153
4.2 Titanic罹難乘客預測.....................................................157
4.3 IMDB影評得分估計........................................................165
4.4 MNIST手寫體數字圖片識彆.................................................174
4.5 章末小結................................................................180
後記.....................................................................181
參考文獻.................................................................182
第3章 進階篇
在第2章中,我們嚮讀者介紹瞭大量經典的機器學習模型,並且使用Python編程語言分析這些模型在許多不同現實數據上的性能錶現。然而,細心的讀者在深入研究這些數據或者查閱Scikit-learn的文檔之後就會發現: 所有我們在第2章中使用過的數據幾乎都經過瞭規範化處理,而且模型也大多隻是采用瞭默認的初始化配置。換言之,盡管我們可以使用經過處理之後的數據,在默認配置下學習到一套用以擬閤這些數據的參數,並且使用這些參數和默認配置取得一些看似良好的性能錶現;但是我們仍然無法迴答幾個最為關鍵的問題: 實際研究和工作中接觸到的數據都是這樣規整的嗎?難道這些默認配置就是最佳的麼?我們的模型性能是否還有提升的空間?本章"3.1模型使用技巧"節將會幫助讀者朋友解答上述疑問。閱讀完這一節,相信各位讀者朋友就會掌握如何通過抽取或者篩選數據特徵、優化模型配置,進一步提升經典模型的性能錶現。
然而,隨著近些年機器學習研究與應用的快速發展,經典模型漸漸無法滿足日益增長的數據量和復雜的數據分析需求。因此,越來越多更加高效而且強力的學習模型以及對應的程序庫正逐漸被設計和編寫,並慢慢被科研圈和工業界所廣泛接受與采用。這些模型和程序庫包括: 用於自然語言處理的NLTK程序包;詞嚮量技術Word2Vec;能夠提供強大預測能力的XGBoost模型,以及Google發布的用於深度學習的Tensorflow框架等等。更加令人振奮的是,上述這些最為流行的程序庫和模型, 不但提供瞭Python的編程接口API,而且有些成為Python編程語言的工具包,更是方便瞭我們後續的學習和使用。因此,在"3.2流行庫/模型實踐"節將會帶領各位讀者一同領略這些時下最為流行的程序庫和新模型的奧妙。
3.1模型實用及技巧
這一節將嚮讀者朋友傳授一係列更加偏嚮於實戰的模型使用技巧。相信各位讀者在第2章中品味瞭多個經典的機器學習模型之後,就會發現: 一旦我們確定使用某個模型,本書所提供的程序庫就可以幫助我們從標準的訓練數據中,依靠默認的配置學習到模型所需要的參數(Parameters);接下來,我們便可以利用這組得來的參數指導模型在測試數據集上進行預測,進而對模型的錶現性能進行評價。
但是,這套方案並不能保證: (1) 所有用於訓練的數據特徵都是最好的;(2) 學習得到的參數一定是最優的;(3) 默認配置下的模型總是最佳的。也就是說,我們可以從多個角度對在前麵所使用過的模型進行性能提升。本節將嚮大傢介紹多種提升模型性能的方式,包括如何預處理數據、控製參數訓練以及優化模型配置等方法。
3.1.1特徵提升
早期機器學習的研究與應用,受模型種類和運算能力的限製。因此,大部分研發人員把更多的精力放在對數據的預處理上。他們期望通過對數據特徵的抽取或者篩選來達到提升模型性能的目的。所謂特徵抽取,就是逐條將原始數據轉化為特徵嚮量的形式,這個過程同時涉及對數據特徵的量化錶示;而特徵篩選則更進一步,在高維度、已量化的特徵嚮量中選擇對指定任務更有效的特徵組閤,進一步提升模型性能。
3.1.1.1特徵抽取
原始數據的種類有很多種,除瞭數字化的信號數據(聲紋、圖像),還有大量符號化的文本。然而,我們無法直接將符號化的文字本身用於計算任務,而是需要通過某些處理手段,預先將文本量化為特徵嚮量。
有些用符號錶示的數據特徵已經相對結構化,並且以字典這種數據結構進行存儲。這時,我們使用DictVectorizer對特徵進行抽取和嚮量化。比如下麵的代碼55。
代碼55: DictVectorizer對使用字典存儲的數據進行特徵抽取與嚮量化
>>> # 定義一組字典列錶,用來錶示多個數據樣本(每個字典代錶一個數據樣本)。
>>>measurements= [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
>>> # 從sklearn
Python機器學習及實踐:從零開始通往Kaggle競賽之路 下載 mobi epub pdf txt 電子書
還是很不錯的,作者用盡量通俗易懂的方式,讓看書的人能夠掌握,挺好。
評分排除萬難。給予
評分timely manner,distribution staff is also very
評分吾消費京東商城數年,深知各産品琳琅滿目、然,唯此寶物與眾皆不同,為齣淤泥之清蓮,使吾為之動容,心馳神往,以至茶飯不思,寢食難安,輾轉反側無法忘懷,於是乎緊衣縮食,湊齊銀兩,傾吾之所有而能買,東哥之熱心、快遞員之殷切,無不讓人感激涕零,可謂迅雷不及掩耳盜鈴兒響叮當仁不讓世界充滿愛,待打開包裹之時頓時金光四射:屋內升起七彩祥雲,處處皆是祥和之氣。吾驚訝之餘甚是欣喜若狂,嗚呼哀:哉!此寶乃是天上物,人間又得幾迴求!遂沐浴更衣,焚香禱告後與人共賞此寶,人皆贊嘆不已,故生此寶物款型及做工,超高性價比之慨且贊吾獨具慧眼與時尚品位,産品介紹果然句句實言,毫無誇大欺瞞之嫌,實乃大傢之風範,忠義之商!傢,這個商品還真好,非常喜
評分非常棒。好好學習吧,成為大神不是夢!
評分消費京東商城數年,深知各産品琳琅滿目、然,唯此寶物與眾皆不同,為齣淤泥之清蓮,使吾為之動容,心馳神往,以至茶飯不思,寢食難安,輾轉反側無法忘懷,於是乎緊衣縮食,湊齊銀兩,傾吾之所有而能買,東哥之熱心、快遞員之殷切,無不讓人感激涕零,可謂迅雷不及掩耳盜鈴兒響叮當仁不讓世界充滿愛,待打開包裹之時頓時金光四射:屋內升起七彩祥雲,處處皆是祥和之氣。吾驚訝之餘甚是欣喜若狂,嗚呼哀:哉!此寶乃是天上物,人間又得幾迴求!遂沐浴更衣,焚香禱告後與人共賞此寶,人皆贊嘆不已,故生此寶物款型及做工,超高性價比之慨且贊吾獨具慧眼與時尚品位,産品介紹果然句句實言,毫無誇大欺瞞之嫌,實乃大傢之風範,忠義之商!傢,這個商品還真好,非常喜歡,也很欣賞京東的售後服務和配送速度真的不錯,買東西就在京東買,選自營沒有錯更:多正品保障更多售後保障更快到貨和退換速度無人能敵,看!天下網購發貨速度誰最快答京東商城售後服務誰最好答:京東商城配送服務誰最強:京東商城,品質保障誰最棒答:京東商城,正所謂:要問電商哪傢強,中國網購數京東我為!什麼喜歡在京東買東西,因為今天買明天就可以送到!
評分Thank you very much for the excellent service provided by Jingdong mall, and it is very good to do in warehouse management, logistics, distribution and so on. Delivery in a timely manner, distribution staff is also very enthusiastic, and sometimes inconvenient to receive the time, but also arranged for time to
評分receive the time,but also arranged for time
評分收到寶貝,不由得精神為之一振,自覺七經八脈為之一暢,我在京東打滾這麼多年,所謂閱人無數,收到寶貝我隻想說,老闆,你實在是太好瞭。 你的高尚情操太讓人感動瞭。本人對賣傢之仰慕如滔滔江水連綿不絕,海枯石爛,天崩地裂,永不變心。 收到貨後,我的心情竟是久久不能平靜。自古英雄齣少年,賣傢年紀輕輕,就有經天緯地之纔,定國安邦之智,而今,天佑我大中華,滄海桑田5000年,神州平地一聲雷,飛沙走石,大霧迷天,朦朧中,隻見頂天立地一金甲天神立於天地間,花見花開,人見人愛,這人英雄手持雙斧,二目如電,一斧下去,混沌初開,二斧下去,女媧造人,三斧下去,小生傾倒。得此大英雄,實乃國之幸也,民之福,人之初也,怎不叫人喜極而泣 .......看著寶貝,我竟産生齣一種無以名之的悲痛感——啊,這麼好的寶貝,如果將來我再也買不到瞭,那我該怎麼辦?直到我毫不猶豫地把賣傢的這個寶貝收藏瞭,我內心的那種激動纔逐漸平靜下來。可是我立刻想到,這麼好的寶貝,倘若彆人看不到,那麼不是浪費老闆的心血嗎?經過痛苦的思想鬥爭,我終於下定決心,犧牲小我,奉獻大我。我要以此好價奉獻給世人賞閱,我要給好評、給好評……評到所有人都看到為止
Python機器學習及實踐:從零開始通往Kaggle競賽之路 pdf epub mobi txt 電子書 下載