作 譯 者:黃文青
齣版時間:2018-05 韆 字 數:300
版 次:01-01 頁 數:212
開 本:16開
裝 幀:
I S B N :9787121336546
換 版:
所屬分類:科技 >> 計算機 >> 計算機科學
紙質書定價:¥79.0
僅僅會Python編程是不夠的。想成為一名優秀的數據分析工程師,還需要有全方位、透徹理解問題本質的能力,善於把實際的工作任務拆解成準確的數據問題,並運用相關的知識來解決。本書恰好是從這個角度齣發的,它條分縷析地幫助你認識任務的本質,教你從數據的角度來思考、拆解任務,並最終順利地達成目標。
1 概述 / 1
1.1 何為數據工程師 / 1
1.2 數據分析的流程 / 3
1.3 數據分析的工具 / 11
1.4 大數據的思與辨 / 14
2 關於Python / 17
2.1 為什麼是Python / 17
2.2 常用基礎庫 / 19
2.2.1 Numpy / 19
2.2.2 Pandas / 26
2.2.3 Scipy / 37
2.2.4 Matplotlib / 38
3 基礎分析 / 43
3.1 場景分析與建模策略 / 43
3.1.1 統計量 / 43
3.1.2 概率分布 / 48
3.2 實例講解 / 55
3.2.1 誰的成績更優秀 / 55
3.2.2 應該庫存多少水果 / 57
4 數據挖掘 / 60
4.1 場景分析與建模策略 / 60
4.1.1 分類 / 61
4.1.2 聚類 / 76
4.1.3 迴歸 / 86
4.1.4 關聯規則 / 90
4.2 數據挖掘的重要概念 / 93
4.2.1 數據預處理 / 93
4.2.2 評估與驗證 /97
4.2.3 Bagging 與Adaboost / 99
4.2.4 梯度下降與牛頓法 / 102
4.3 實例講解 /105
4.3.1 信用卡欺詐監測 / 105
4.3.2 員工離職預判 /110
5 深度學習/ 114
5.1 場景分析與建模策略 / 115
5.1.1 感知機 / 115
5.1.2 自編碼器 / 119
5.1.3 限製玻爾茲曼機 /123
5.1.4 深度信念神經網絡 / 127
5.1.5 捲積神經網絡 / 129
5.2 人工智能應用概況 / 137
5.2.1 深度學習的曆史 /137
5.2.2 人工智能的傑作 / 140
5.3 實例講解 / 146
5.3.1 學習識彆手寫數字 / 146
5.3.2 讓機器認識一隻貓 / 151
6 大數據分析 / 160
6.1 常用組件介紹 / 160
6.1.1 數據傳輸 / 165
6.1.3 數據計算 / 174
6.1.4 數據展示 / 180
6.2 大數據處理架構 / 188
6.2.1 Lambda 架構 / 189
6.2.2 Kappa 架構 / 192
6.2.3 ELK 架構 / 193
6.3 項目設計 / 194
參考文獻 / 202
版 次:1頁 數:字 數:200000印刷時間:2018年03月01日開 本:16開紙 張:輕型紙包 裝:平裝-膠訂是否套裝:否國際標準書號ISBN:9787121333590
所屬分類:
圖書>計算機/網絡>程序設計>其他
編輯推薦
本書內容來自筆者在高校授課的內容,主要介紹如何運用 Python 工具獲取電商平颱的頁麵數據,並對數據進行清洗和存儲。本書簡化瞭 Python 基礎部分,保證有足夠的篇幅來介紹爬蟲和數據清洗的內容。
本書采用的版本是 Python 3.6.2,是筆者寫書時的*版本,而且筆者習慣用的操作平颱是Windows 係統。
內容簡介
本書是一本通過實戰教初學者學習采集數據、清洗和組織數據進行分析及可視化的 Python 讀物。書中案例均經過實戰檢驗,筆者在實踐過程中深感采集數據、清洗和組織數據的重要性,作為一名數據行業的“碼農”,數據就是沃土,沒有數據,我們將無田可耕。
本書共分 11 章, 6 個核心主題:其一是 Python 基礎入門,包括環境配置、基本操作、數據類型、語句和函數;其二是 Python 爬蟲的構建,包括網頁結構解析、爬蟲流程設計、代碼優化、效率優化、容錯處理、 反防爬蟲、 錶單交互和模擬頁麵點擊; 其三是 Python 數據庫應用, 包括 MongoDB、 MySQL 在 Python中的連接與應用;其四是數據清洗和組織,包括 NumPy 數組知識、 pandas 數據的讀寫、分組變形、缺失值異常值處理、時序數據處理和正則錶達式的使用;其五是綜閤應用案例,幫助讀者貫穿爬蟲、數據清洗與組織的過程;*後是數據可視化,包括 Matplotlib 和 Pyecharts 兩個庫的使用,涉及餅圖、柱形圖、綫圖、詞雲圖、地圖等圖形,幫助讀者進入可視化的殿堂。
本書以實戰為主,適閤 Python 初學者及高等院校的相關專業學生,也適閤 Python 培訓機構作為實驗教材使用。
作者簡介
零一
原名陳海城,
零一數據學院創始人,
電商數據專傢,數據分析師,開發工程師。
從事培訓教育、數據分析和人工智能行業。
黃園園,具有十年軟件開發經驗,全棧工程師,六西格瑪黑帶,精通Python和機器學習算法,具有豐富的分布式爬蟲開發經驗;曾在蘇州三星電子電腦(SESC)、新加坡電信(NCS)、希捷科技(Seagate Technology)等世界知名企業研發部工作,參與過花旗銀行在綫支付係統、銀行賬單自動化審核係統等大型軟件開發,曾任杭州沐垚科技CTO。
顯示全部信息
目 錄
第 1 章 Python 基礎 /1
1.1 安裝 Python 環境 /1
1.1.1 Python 3.6.2 安裝與配置 /1
1.1.2 使用 IDE 工具——PyCharm /4
1.1.3 使用 IDE 工具——Anaconda / 4
1.2 Python 操作入門/6
1.2.1 編寫第一個 Python 代碼/6
1.2.2 Python 基本操作/9
1.2.3 變量/10
1.3 Python 數據類型/10
1.3.1 數字/10
1.3.2 字符串/11
1.3.3 列錶/13
1.3.4 元組/14
顯示全部信息
前 言
Python 是軍刀型的開源工具,被廣泛應用於 Web 開發、爬蟲、數據清洗、自然語言處理、機器學習和人工智能等方麵,而且Python 的語法簡潔易讀,這讓許多編程入門者不再望而卻步,因此Python 在最近幾年非常受歡迎,各行各業的技術人員都開始使用 Python。
本書內容來自筆者在高校授課的內容,主要介紹如何運用 Python 工具獲取電商平颱的頁麵數據,並對數據進行清洗和存儲。本書簡化瞭Python 基礎部分,保證有足夠的篇幅來介紹爬蟲和數據清洗的內容。
本書采用的版本是Python 3.6.2,是筆者寫書時的最新版本,而且筆者習慣用的操作平颱是Windows 係統。雖然目前一些高校和開發者在使用 Python 2.7,但是 Python 團隊將在 2020 年停止對Python 2.7 的支持更新, Python 2.X 轉嚮 Python 3.X 是大勢所趨。
顯示全部信息
媒體評論
這本書教大傢如何利用Python撰寫爬蟲程序,清洗和組織數據,解析網頁的內容,並將數據儲存於數據庫中。巨細無遺,幫助大傢節省時間,是值得一讀的好書!
國立颱灣大學資訊工程博士,銘傳大學資訊工程學係教授李禦璽 (Yue-Shi Lee)
零一兄的這本Python爬蟲技術是一個完整大數據應用框架:從數據收集、分析到數據可視化、數據建模。各章節以實際案例為齣發點,對大數據分析、爬蟲技術應用感興趣的小夥伴們來說,這本書值得購買。
版 次:1頁 數:字 數:印刷時間:2018年03月01日開 本:16開紙 張:膠版紙包 裝:平裝-膠訂是否套裝:否國際標準書號ISBN:9787121336539
所屬分類:
圖書>計算機/網絡>程序設計>其他
快速直達
編輯推薦
內容簡介
作者簡介
目 錄
前 言
媒體評論
下載免費當當讀書
編輯推薦
這是一本務實之作,充分體現數據分析流程的各項環節,包含數據的采集、清洗和探索性分析,並通過大傢耳熟能說的Python工具加以實操。
內容簡介
本書作為數據分析的入門圖書,以Python語言為基礎,介紹瞭數據分析的整個流程。本書內容涵蓋數據的獲取(即網絡爬蟲程序的設計)、前期數據的清洗和處理、運用機器學習算法進行建模分析,以及使用可視化的方法展示數據及結果。首先,書中不會涉及過於高級的語法,不過還是希望讀者有一定的語法基礎,這樣可以更好地理解本書的內容。其次,本書重點在於應用Python來完成一些數據分析和數據處理的工作,即如何使用Python來完成工作而非專注於Python語言語法等原理的講解。本書的目的是讓初學者不論對數據分析流程本身還是Python語言,都能有一個十分直觀的感受,為以後的深入學習打下基礎。*後,讀者不必須按順序通讀本書,因為各個章節層次比較分明,可以根據興趣或者需要來自行安排。例如第5章介紹瞭一些實戰的小項目,有趣且難度不大,大傢可以在學習前麵內容之餘來閱讀這部分內容。
作者簡介
瀋祥壯
自學Python兩年,以數據分析為主綫,係統學習瞭數據的采集,處理、分析和可視化。在研究統計機器學習理論的同時,使用Python語言實現瞭部分統計學習算法。研究方嚮包括數據采集,數據挖掘,統計機器學習及圖像處理。
目 錄
1 準備 1
1.1 開發環境搭建 2
1.1.1 在Ubuntu係統下搭建Python集成開發環境 2
1.1.2 在Windows係統下搭建Python集成開發環境 13
1.1.3 三種安裝第三方庫的方法 16
1.2 Python基礎語法介紹 19
1.2.1 if__name__=='__main__' 20
1.2.2 列錶解析式 22
1.2.3 裝飾器 23
1.2.4 遞歸函數 26
1.2.5 麵嚮對象 27
1.3 The Zen of Python 28
參考文獻 30
2 數據的獲取 31
2.1 爬蟲簡介 31
2.2 數據抓取實踐 33
2.2.1 請求網頁數據 33
2.2.2 網頁解析 38
2.2.3 數據的存儲 46
2.3 爬蟲進階 50
2.3.1 異常處理 50
2.3.2 robots.txt 58
2.3.3 動態UA 60
2.3.4 代理IP 61
2.3.5 編碼檢測 61
2.3.6 正則錶達式入門 63
2.3.7 模擬登錄 69
2.3.8 驗證碼問題 74
2.3.9 動態加載內容的獲取 84
2.3.10 多綫程與多進程 93
2.4 爬蟲總結 101
參考文獻 102
3 數據的存取與清洗 103
3.1 數據存取 103
3.1.1 基本文件操作 103
3.1.2 CSV文件的存取 111
3.1.3 JSON文件的存取 116
3.1.4 XLSX文件的存取 121
3.1.5 MySQL數據庫文件的存取 137
3.2 NumPy 145
3.2.1 NumPy簡介 145
3.2.2 NumPy基本操作 146
3.3 pandas 158
3.3.1 pandas簡介 158
3.3.2 Series與DataFrame的使用 159
3.3.3 布爾值數組與函數應用 169
3.4 數據的清洗 174
3.4.1 編碼問題 174
3.4.2 缺失值的檢測與處理 175
3.4.3 去除異常值 181
3.4.4 去除重復值與冗餘信息 183
3.4.5 注意事項 185
參考文獻 187
4 數據的分析及可視化 188
4.1 探索性數據分析 189
4.1.1 基本流程 189
4.1.2 數據降維 197
4.2 機器學習入門 199
4.2.1 機器學習簡介 200
4.2.2 決策樹——機器學習算法的應用 202
4.3 手動實現KNN算法 205
4.3.1 特例——最鄰近分類器 205
4.3.2 KNN算法的完整實現 213
4.4 數據可視化 215
4.4.1 高質量作圖工具——matplotlib 215
4.4.2 快速作圖工具——pandas與matplotlib 223
4.4.3 簡捷作圖工具——seaborn與matplotlib 226
4.4.4 詞雲圖 230
參考文獻 232
5 Python與生活 234
5.1 定製一個新聞提醒服務 234
5.1.1 新聞數據的抓取 235
5.1.2 實現郵件發送功能 237
5.1.3 定時執行及本地日誌記錄 239
5.2 Python與數學 241
5.2.1 估計π值 242
5.2.2 三門問題 245
5.2.3 解決LP與QP問題(選讀) 247
5.3 QQ群聊天記錄數據分析 251
參考文獻 256
在數據工程的學習過程中,很多時候會遇到一些“疑難雜癥”,需要一些更高級、更靈活的Python技巧來解決。《Python絕技》這本書的“絕技”部分,恰恰滿足瞭我的需求。它並沒有直接給齣某個具體工具的使用方法,而是從Python語言本身的高級特性入手,比如迭代器、生成器、裝飾器、元類等等,詳細地講解瞭這些概念的原理以及在數據處理中的妙用。我之前對這些概念隻是有所耳聞,但一直沒有深入理解,這本書的講解讓我茅塞頓開。特彆是它演示瞭如何利用生成器來處理大規模數據集,避免內存溢齣,以及如何使用裝飾器來優雅地實現日誌記錄、性能監控等功能,這些都給我帶來瞭巨大的啓發。它還分享瞭一些關於代碼優化的技巧,如何寫齣更高效、更易於維護的Python代碼,這一點對於構建穩定可靠的數據工程係統至關重要。這本書的內容更側重於“內功”的修煉,幫助我從更深的層次理解Python,從而能夠更好地解決實際問題,提升編程效率。
評分最近在學習數據工程方麵的內容,正好看到《Python絕技》這本書,雖然書名聽起來有點“玄乎”,但內容卻非常紮實。我尤其喜歡它關於數據獲取的部分,講解得非常細緻,從基本的網絡爬蟲到利用API獲取數據,再到如何處理各種復雜的數據源,都做瞭深入的闡述。特彆是它介紹瞭一些我之前沒接觸過的第三方庫,比如Scrapy,用來構建更強大的爬蟲框架,還有一些用於處理不同格式數據(如JSON、XML)的技巧,都給我留下瞭深刻的印象。書中的代碼示例也非常清晰,而且是可運行的,這一點對於初學者來說至關重要,可以幫助我們邊學邊練,快速掌握知識。作者在講解過程中,也穿插瞭不少實際項目中的案例,讓我們能更直觀地理解這些技術在實際工作中的應用場景,以及如何解決遇到的問題。總的來說,這本書在數據獲取方麵的內容,為我打下瞭堅實的基礎,讓我對如何從各種渠道收集原始數據有瞭更全麵的認識,也為後續的數據處理和分析環節做好準備。
評分《Python數據分析入門》這本書,在數據獲取到可視化的整個流程中,都有著非常詳盡的介紹。我尤其看重它在數據預處理方麵的講解。數據清洗是數據分析中最耗時也最關鍵的環節,往往需要花費大量的時間來處理缺失值、異常值、重復值,以及進行數據格式的轉換和標準化。《Python數據分析入門》在這方麵提供瞭非常實用的方法和工具。它詳細介紹瞭如何使用Pandas庫來高效地進行數據清洗,比如如何識彆和填充缺失值,如何檢測和處理異常數據點,如何進行數據類型轉換,以及如何進行數據的分組和聚閤。書中還提供瞭不少關於特徵工程的初步介紹,比如如何創建新的特徵,如何對現有特徵進行編碼等,這對於提升模型的性能非常有幫助。我之前在處理真實數據時,常常因為數據質量不高而頭疼,這本書提供瞭一套係統化的解決方案,讓我能夠更有條理地進行數據預處理,為後續的分析奠定堅實的基礎。
評分《Python數據分析入門》這本書,是我最近閱讀的另一本,它在數據可視化這個環節做得非常齣色。我之前接觸過一些基本的可視化工具,但總覺得不夠深入,很多時候隻能做齣一些簡單的圖錶。這本書就不一樣瞭,它從基礎的Matplotlib講起,然後深入到更強大的Seaborn,再到交互式可視化的Plotly,一步一步地引導讀者掌握各種圖錶的繪製技巧,以及如何根據不同的數據類型和分析目的選擇最閤適的圖錶。最讓我驚喜的是,它還講解瞭如何利用可視化來發現數據中的模式和洞察,比如通過散點圖來觀察變量之間的關係,通過箱綫圖來比較不同組的數據分布,甚至是如何製作一些地圖可視化,這些都極大地拓展瞭我對數據可視化的認知。而且,書中的案例非常豐富,涵蓋瞭金融、醫療、社交媒體等多個領域,讓我能夠看到不同場景下數據的呈現方式,以及可視化在其中扮演的關鍵角色。讀完這本書,我感覺自己對數據的理解能力又上瞭一個颱階,能夠更加自信地將分析結果通過圖錶清晰地傳達給他人。
評分我一直認為,學習編程不僅僅是掌握語法和API,更重要的是培養解決問題的思維方式。《Python絕技》這本書在這一點上做得非常齣色。它並沒有局限於某個特定領域,而是從更宏觀的角度,探討如何運用Python的強大功能來解決各種復雜的數據問題。它分享瞭一些通用的設計模式和算法思想,比如如何利用Python的麵嚮對象特性來構建可擴展的數據處理管道,如何運用函數式編程的思想來編寫更簡潔的數據轉換邏輯,以及如何設計高效的數據結構來優化性能。書中還有不少關於並發和並行處理的介紹,這對於處理海量數據至關重要。我學會瞭如何利用多綫程和多進程來加速數據處理任務,以及一些更高級的並發模型。這本書讓我看到瞭Python在數據科學和工程領域的無限可能性,它不僅僅是一本技術手冊,更像是一位經驗豐富的老友,在指引我如何成為一名更優秀、更具創新精神的Python數據工程師。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有