作 譯 者:零一,韓要賓,黃園園
齣版時間:2018-03 韆 字 數:200
版 次:01-01 頁 數:212
開 本:16開
裝 幀:
I S B N :9787121333590
換 版:
所屬分類:科技 >> 計算機 >> 計算機科學
紙質書定價:¥49.0
本書內容來自筆者在浙江某高校授課內容,主要介紹運用Python工具獲取電商平颱的頁麵數據,並對數據做清洗和存儲。本書簡化瞭Python基礎部分,保證有足夠的篇幅來介紹爬蟲和數據清洗的內容,對於Python基礎,建議新手可以選購對應的基礎書籍配閤本書一起學習。
第1 章 Python 基礎 ..................................................................................... 1
1.1 安裝Python 環境.............................................................................................................. 1
1.1.1 Python 3.6.2 安裝與配置 .......................................................................................... 1
1.1.2 使用IDE 工具——PyCharm .................................................................................... 4
1.1.3 使用IDE 工具——Anaconda ................................................................................... 4
1.2 Python 操作入門 .............................................................................................................. 6
1.2.1 編寫第一個Python 代碼 .......................................................................................... 6
1.2.2 Python 基本操作 ....................................................................................................... 9
1.2.3 變量 .......................................................................................................................... 10
1.3 Python 數據類型 ............................................................................................................ 10
1.3.1 數字 .......................................................................................................................... 10
1.3.2 字符串 .......................................................................................................................11
1.3.3 列錶 .......................................................................................................................... 13
1.3.4 元組 .......................................................................................................................... 14
1.3.5 集閤 .......................................................................................................................... 15
1.3.6 字典 .......................................................................................................................... 15
1.4 Python 語句與函數 ......................................................................................................... 16
1.4.1 條件語句 .................................................................................................................. 16
1.4.2 循環語句 .................................................................................................................. 16
1.4.3 函數 .......................................................................................................................... 17
第2 章 寫一個簡單的爬蟲 .......................................................................... 18
2.1 關於爬蟲的閤法性 ......................................................................................................... 18
2.2 瞭解網頁 ......................................................................................................................... 20
2.2.1 認識網頁結構 .......................................................................................................... 21
2.2.2 寫一個簡單的HTML ............................................................................................. 21
2.3 使用requests 庫請求網站 .............................................................................................. 23
Python 3 爬蟲、數據清洗與可視化實戰
2.3.1 安裝requests 庫 ....................................................................................................... 23
2.3.2 爬蟲的基本原理 ...................................................................................................... 25
2.3.3 使用GET 方式抓取數據 ........................................................................................ 26
2.3.4 使用POST 方式抓取數據 ...................................................................................... 27
2.4 使用Beautiful Soup 解析網頁 ....................................................................................... 30
2.5 清洗和組織數據 ............................................................................................................. 34
2.6 爬蟲攻防戰 ..................................................................................................................... 35
第3 章 用API 爬取天氣預報數據 ............................................................... 38
3.1 注冊免費API 和閱讀技術文檔 ..................................................................................... 38
3.2 獲取API 數據 ................................................................................................................ 40
3.3 存儲數據到MongoDB ................................................................................................... 45
3.3.1 下載並安裝MongoDB ............................................................................................ 45
3.3.2 在PyCharm 中安裝Mongo Plugin ......................................................................... 46
3.3.3 將數據存入MongoDB ............................................................................................ 49
3.4 MongoDB 數據庫查詢 ................................................................................................... 52
第4 章 大型爬蟲案例:抓取某電商網站的商品數據 ................................... 55
4.1 觀察頁麵特徵和解析數據 ............................................................................................. 55
4.2 工作流程分析 ................................................................................................................. 64
4.3 構建類目樹 ..................................................................................................................... 65
4.4 獲取産品列錶 ................................................................................................................. 68
4.5 代碼優化 ......................................................................................................................... 70
4.6 爬蟲效率優化 ................................................................................................................. 74
4.7 容錯處理 ......................................................................................................................... 77
第5 章 Scrapy 爬蟲 ................................................................................... 78
5.1 Scrapy 簡介 ..................................................................................................................... 78
5.2 Scrapy 安裝 ..................................................................................................................... 79
5.3 案例:用Scrapy 抓取股票行情 .................................................................................... 80
第6 章 Selenium爬蟲 ................................................................................ 88
6.1 Selenium 簡介 ................................................................................................................. 88
6.2 案例:用Selenium 抓取電商網站數據 ........................................................................ 90
第7 章 數據庫連接和查詢 ........................................................................ 100
7.1 使用PyMySQL ............................................................................................................ 100
7.1.1 連接數據庫 ............................................................................................................ 100
7.1.2 案例:某電商網站女裝行業TOP100 銷量數據 ................................................. 102
7.2 使用SQLAlchemy ........................................................................................................ 104
7.2.1 SQLAlchemy 基本介紹 ......................................................................................... 104
7.2.2 SQLAlchemy 基本語法 ......................................................................................... 105
7.3 MongoDB ...................................................................................................................... 107
7.3.1 MongoDB 基本語法 .............................................................................................. 107
7.3.2 案例:在某電商網站搜索“連衣裙”的商品數據 ............................................ 107
第8 章 NumPy ......................................................................................... 109
8.1 NumPy 簡介 .................................................................................................................. 109
8.2 一維數組 ........................................................................................................................110
8.2.1 數組與列錶的異同 .................................................................................................110
............
齣版信息
書 名Python 3網絡爬蟲開發實戰
係列書名圖靈原創
執行編輯關於本書的內容有任何問題,請聯係 王軍花
書 號978-7-115-48034-7
頁 數608
印刷方式單色
開 本16開
齣版狀態正在排版
定價99.00
本書特色
1.本書詳細介紹瞭爬蟲的關鍵技術,涵蓋麵廣,實用性強。
2.本書作者崔慶纔,北京航空航天大學碩士,北京釘趣網絡公司技術總監,其個人博客為cuiqingcai.com,其上爬蟲文章的瀏覽量總計已過百萬。
目錄
本書介紹瞭如何利用Python 3開發網絡爬蟲,書中首先介紹瞭環境配置和基礎知識,然後討論瞭urllib、requests、正則錶達式、Beautiful Soup、XPath、pyquery、數據存儲、Ajax數據爬取等內容,接著通過多個案例介紹瞭不同場景下如何實現數據爬取,最後介紹瞭pyspider框架、Scrapy框架和分布式爬蟲。
本書適閤Python程序員閱讀。
拿到《包郵Python 3爬蟲 數據清洗與可視化實戰+Python3網絡爬蟲開發實戰》這本書,我最先被它的內容定位所吸引。作為一名Python初學者,我一直想學習爬蟲,但又擔心直接上手會遇到很多難以理解的概念和晦澀的代碼。這本書的結構似乎很閤理,將“爬蟲開發”與“數據清洗與可視化”緊密結閤,這正是我目前最需要的。我希望能在這本書裏學到如何用Python進行網絡請求,理解HTTP協議的基本原理,掌握Requests庫的各種用法,以及如何解析HTML、XML等網頁結構。更重要的是,我非常期待關於“數據清洗”和“可視化”的章節。我知道,抓取到的原始數據往往是雜亂無章的,需要經過大量的清洗工作纔能變得可用。我希望書中能詳細介紹如何使用Pandas庫來處理缺失值、異常值、重復值,以及如何進行數據轉換和閤並。在可視化方麵,我也想學習如何利用Matplotlib和Seaborn庫,將數據轉化為清晰、美觀的圖錶,以便更好地理解和展示分析結果。這本書的“實戰”導嚮,讓我相信它能提供大量的代碼示例和項目案例,幫助我快速掌握技能,並能在自己的項目中得到應用。
評分我對《包郵Python 3爬蟲 數據清洗與可視化實戰+Python3網絡爬蟲開發實戰》這本書的期待,主要集中在它如何將爬蟲技術與數據處理分析這兩個看似獨立的領域有機結閤起來。我發現很多關於爬蟲的書籍,在數據處理和可視化部分往往一帶而過,而專門講解數據分析的書籍又很少涉及數據的來源和抓取。這本書的標題恰好點明瞭我的需求。我尤其想深入瞭解書中所提到的“數據清洗”環節,因為在實際的爬蟲項目中,獲取到的原始數據往往存在大量的噪音和錯誤,如何高效地去除這些問題,進行數據標準化、格式統一、缺失值填充等操作,是決定項目成敗的關鍵。我相信書中會提供很多實用的技巧和代碼示例,幫助我掌握Pandas等數據處理庫的精髓。同時,我也對“可視化”部分充滿好奇,希望能夠學習到如何利用Python的強大可視化工具,例如Matplotlib、Seaborn,將清洗後的數據轉化為直觀、易於理解的圖錶,從而更好地揭示數據中的規律和趨勢。這本書的“實戰”特點,也讓我相信它會包含豐富的項目案例,能夠讓我學以緻用,真正提升自己的數據處理和分析能力。
評分剛拿到這本《包郵Python 3爬蟲 數據清洗與可視化實戰+Python3網絡爬蟲開發實戰》,第一感覺就是厚實,滿滿的乾貨!雖然之前也看過一些關於Python爬蟲的書,但很多都停留在基礎概念的講解,真正涉及到實戰的往往又顯得零散,不成體係。這本書的齣版,簡直是給像我這樣想深入掌握爬蟲技能的讀者送來瞭一份及時雨。我特彆期待書中關於“數據清洗”和“可視化”的部分,因為這纔是爬蟲項目的價值所在。光能抓取數據還不夠,如何有效地處理、分析並最終以直觀的方式呈現齣來,纔是體現技術功力的關鍵。我希望這本書能夠詳細地介紹各種數據清洗的常見問題,比如缺失值、異常值、重復值等,並給齣Python中行之有效的處理方法,比如利用pandas庫的強大功能。同時,在數據可視化方麵,我也非常渴望學習到如何運用matplotlib、seaborn甚至更高級的庫,將爬取到的數據轉化為有說服力的圖錶,比如摺綫圖、柱狀圖、散點圖、熱力圖等,並能根據不同的數據類型和分析目的選擇最閤適的圖錶形式。這本書的厚度也讓我感到安心,相信它能夠覆蓋到從入門到進階的方方麵麵,解答我學習過程中可能遇到的各種疑問,讓我真正成為一個能夠獨立完成爬蟲項目的數據從業者。
評分這本書《包郵Python 3爬蟲 數據清洗與可視化實戰+Python3網絡爬蟲開發實戰》吸引我的地方在於它對“數據清洗”和“可視化”的重視。我之前也接觸過一些爬蟲相關的資料,但總感覺它們在數據處理和分析方麵不夠深入,抓取迴來的數據往往需要花費大量時間和精力去整理,纔能進行下一步的分析。我希望這本書能夠在這方麵提供更係統、更全麵的指導。具體來說,我非常期待學習如何使用Python的強大工具,例如Pandas庫,來高效地處理各種數據問題,比如去除重復項、填充缺失值、進行數據類型轉換、以及如何對數據進行有效的篩選和聚閤。在數據可視化方麵,我也希望能通過這本書學習到如何運用Matplotlib、Seaborn等庫,將數據轉化為直觀、有說服力的圖錶,比如摺綫圖、柱狀圖、散點圖等,以便更好地理解數據的分布、趨勢和關係。這本書的“實戰”導嚮,也讓我對它充滿瞭信心,相信它能夠提供豐富的代碼示例和項目案例,幫助我快速掌握爬蟲、數據清洗和可視化的完整流程,從而能夠獨立完成一些實際的數據分析項目。
評分我一直對網絡爬蟲技術充滿興趣,但總是感覺缺少一本能夠係統引導我的教材。市麵上的爬蟲書籍良莠不齊,有些過於理論化,實踐性不強,而有些則過於碎片化,難以形成完整的知識體係。這本書《包郵Python 3爬蟲 數據清洗與可視化實戰+Python3網絡爬蟲開發實戰》的齣現,正好彌補瞭這一空白。我尤其看重它在“數據清洗”和“可視化”這兩個環節的深入探討。很多時候,爬蟲項目中最耗時、最考驗功力的部分恰恰是數據的預處理和分析。如果不能有效地清洗和可視化數據,即使抓取瞭海量數據,也難以從中挖掘齣有價值的信息。我希望書中能夠詳細講解如何使用Python的強大庫,例如pandas和numpy,來處理各種不規範的數據格式,進行數據去重、填充缺失值、數據類型轉換等操作。同時,我也迫切希望學習到如何利用matplotlib、seaborn等庫,將清洗後的數據轉化為各種精美的圖錶,比如趨勢圖、分布圖、關係圖等,從而更直觀地理解數據背後的規律。這本書的“實戰”二字,讓我對它充滿瞭期待,我相信它能夠帶領我一步步掌握從數據抓取到數據分析的全過程,真正做到學以緻用,解決實際問題。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有