目 錄
第壹章?理解網絡爬蟲 1
1.1 爬蟲的定義 1
1.2 爬蟲的類型 2
1.3 爬蟲的原理 3
1.4 爬蟲的搜索策略 5
1.5 反爬蟲技術及解決方案 6
1.6 本章小結 8
第2章?爬蟲開發基礎 9
2.1 HTTP與HTTPS 9
2.2 請求頭 11
2.3 Cookies 13
2.4 HTML 14
2.5 16
2.6 JSON 18
2.7 Ajax 19
2.8 本章小結 20
第3章?Chrome分析網站 21
3.1 Chrome開發工具 21
3.2 Elements標簽 22
3.3 Network標簽 23
3.4 分析QQ音樂 27
3.5 本章小結 29
第4章?Fiddler抓包工具 30
4.1 Fiddler介紹 30
4.2 Fiddler安裝配置 31
4.3 Fiddler抓取手機應用 33
4.4 Toolbar工具欄 36
4.5 Web Session列錶 37
4.6 View選項視圖 40
4.7 Quickexec命令行 41
4.8 本章小結 42
第5章?Urllib數據抓取 43
5.1 Urllib簡介 43
5.2 發送請求 44
5.3 復雜的請求 46
5.4 代理IP 47
5.5 使用Cookies 48
5.6 證書驗證 50
5.7 數據處理 51
5.8 本章小結 52
第6章?Requests數據抓取 54
6.1 Requests簡介及安裝 54
6.2 請求方式 55
6.3 復雜的請求方式 57
6.4 下載與上傳 60
6.5 本章小結 63
第7章?驗證碼識彆 64
7.1 驗證碼類型 64
7.2 OCR技術 66
7.3 第三方平颱 69
7.4 本章小結 72
第8章?數據清洗 74
8.1 字符串操作 74
8.2 正則錶達式 78
8.3 Beautiful Soup介紹及安裝 84
8.4 Beautiful Soup的使用 86
8.5 本章小結 90
第9章?文檔數據存儲 92
9.1 CSV數據寫入和讀取 92
9.2 Excel數據寫入和讀取 94
9.3 Word數據寫入和讀取 99
9.4 本章小結 101
第壹0章?ORM框架 104
10.1 SQLAlchemy介紹 104
10.2 安裝SQLAlchemy 105
10.3 連接數據庫 106
10.4 創建數據錶 108
10.5 添加數據 111
10.6 更新數據 112
10.7 查詢數據 114
10.8 本章小結 116
第壹1章?MongoDB數據庫操作 118
11.1 MongoDB介紹 118
11.2 安裝及使用 120
11.2.1 MongoDB 120
11.2.2 MongoDB可視化工具 121
11.2.3 PyMongo 123
11.3 連接數據庫 123
11.4 添加文檔 125
11.5 更新文檔 126
11.6 查詢文檔 127
11.7 本章小結 130
第壹2章?項目實戰:爬取淘寶商品信息 131
12.1 分析說明 131
12.2 功能實現 134
12.3 數據存儲 136
12.4 本章小結 138
第壹3章?項目實戰:分布式爬蟲——QQ音樂 139
13.1 分析說明 139
13.2 歌麯下載 140
13.3 歌手和歌麯信息 145
13.4 分類歌手列錶 148
13.5 全站歌手列錶 150
13.6 數據存儲 152
13.7 分布式概念 154
13.7.1 GIL是什麼 154
13.7.2 為什麼會有GIL 154
13.8 並發庫concurrent.futures 155
13.9 分布式爬蟲 157
13.10 本章小結 159
係列書名圖靈原創
執行編輯關於本書的內容有任何問題,請聯係 王軍花
書 號978-7-115-48034-7
頁 數608
印刷方式單色
開 本16開
齣版狀態正在排版
定價99.00
本書特色
1.本書詳細介紹瞭爬蟲的關鍵技術,涵蓋麵廣,實用性強。
2.本書作者崔慶纔,北京航空航天大學碩士,北京釘趣網絡公司技術總監,其個人博客為cuiqingcai.com,其上爬蟲文章的瀏覽量總計已過百萬。
目錄
本書介紹瞭如何利用Python 3開發網絡爬蟲,書中首先介紹瞭環境配置和基礎知識,然後討論瞭urllib、requests、正則錶達式、Beautiful Soup、XPath、pyquery、數據存儲、Ajax數據爬取等內容,接著通過多個案例介紹瞭不同場景下如何實現數據爬取,最後介紹瞭pyspider框架、Scrapy框架和分布式爬蟲。
本書適閤Python程序員閱讀。
1-開發環境配置
1.1-Python3的安裝
1.2-請求庫的安裝
1.2.1-Requests的安裝
1.2.2-Selenium的安裝
1.2.3-ChromeDriver的安裝
1.2.4-GeckoDriver的安裝
1.2.5-PhantomJS的安裝
1.2.6-aiohttp的安裝
1.3-解析庫的安裝
1.3.1-lxml的安裝
1.3.2-Beautiful Soup的安裝
1.3.3-pyquery的安裝
1.3.4-tesserocr的安裝
1.4-數據庫的安裝
1.4.1-MySQL的安裝
1.4.2-MongoDB安裝
1.4.3-Redis的安裝
1.5-存儲庫的安裝
1.5.1-PyMySQL的安裝
1.5.2-PyMongo的安裝
1.5.3-redis-py的安裝
1.5.4-RedisDump的安裝
1.6-Web庫的安裝
1.6.1-Flask的安裝
1.6.2-Tornado的安裝
1.7-App爬取相關庫的安裝
1.7.1-Charles的安裝
1.7.2-mitmproxy的安裝
1.7.3-Appium的安裝
1.8-爬蟲框架的安裝
1.8.1-pyspider的安裝
1.8.2-Scrapy的安裝
1.8.3-Scrapy-Splash的安裝
1.8.4-Scrapy-Redis的安裝
1.9-部署相關庫的安裝
1.9.1-Docker的安裝
1.9.2-Scrapyd的安裝
1.9.3-Scrapyd-Client的安裝
1.9.4-Scrapyd API的安裝
1.9.5-Scrapyrt的安裝
1.9.6-Gerapy的安裝
2-爬蟲基礎
2.1-HTTP基本原理
2.2-網頁基礎
2.3-爬蟲的基本原理
2.4-會話和Cookies
2.5-代理的基本原理
3-基本庫的使用
3.1-使用urllib
3.1.1-發送請求
3.1.2-處理異常
3.1.3-解析鏈接
3.1.4-分析Robots協議
3.2-使用requests
3.2.1-基本用法
3.2.2-高級用法
3.3-正則錶達式
3.4-抓取貓眼電影排行
4-解析庫的使用
4.1-使用XPath
4.2-使用Beautiful Soup
4.3-使用pyquery
5-數據存儲
5.1-文件存儲
5.1.1-TXT文本存儲
5.1.2-JSON文件存儲
5.1.3-CSV文件存儲
5.2-關係型數據庫存儲
5.2.1-MySQL存儲
5.3-非關係型數據庫存儲
5.3.1-MongoDB存儲
5.3.2-Redis存儲
6-Ajax數據爬取
6.1-什麼是Ajax
6.2-Ajax分析方法
6.3-Ajax結果提取
6.4-分析Ajax爬取今日頭條街拍美圖
7-動態渲染頁麵爬取
7.1-Selenium的使用
7.2-Splash的使用
7.3-Splash負載均衡配置
7.4-使用Selenium爬取淘寶商品
8-驗證碼的識彆
8.1-圖形驗證碼的識彆
8.2-極驗滑動驗證碼的識彆
8.3-點觸驗證碼的識彆
8.4-微博宮格驗證碼的識彆
9-代理的使用
9.1-代理的設置
9.2-代理池的維護
9.3-付費代理的使用
9.4-ADSL撥號代理
9.5-使用代理爬取微信公眾號文章
10-模擬登錄
10.1-模擬登錄並爬取GitHub
10.2-Cookies池的搭建
11-App的爬取
11.1-Charles的使用
11.2-mitmproxy的使用
11.3-mitmdump爬取“得到”App電子書信息
11.4-Appium的基本使用
11.5-Appium爬取微信朋友圈
11.6-Appium+mitmdump爬取京東商品
12-pyspider框架的使用
12.1-pyspider框架介紹
12.2-pyspider的基本使用
12.3-pyspider用法詳解
13-Scrapy框架的使用
13.1-Scrapy框架介紹
13.2-Scrapy入門
13.3-Selector的用法
13.4-Spider的用法
13.5-Downloader Middleware的用法
13.6-Spider Middleware的用法
13.7-Item Pipeline的用法
13.8-Scrapy對接Selenium
13.9-Scrapy對接Splash
13.10-Scrapy通用爬蟲
13.11-Scrapyrt的使用
13.12-Scrapy對接Docker
13.13-Scrapy爬取新浪微博
14-分布式爬蟲
14.1-分布式爬蟲原理
14.2-Scrapy-Redis源碼解析
14.3-Scrapy分布式實現
14.4-Bloom Filter的對接
15-分布式爬蟲的部署
本書專門針對Python新手量身設計,涵蓋瞭Python 3.5 實際開發的重要知識點。
編者使用通俗易懂的描述和豐富的示例代碼,並結閤日常生活中的一些小事件,使本書讀起來生動有趣,一些復雜的問題也以簡單的形式展現齣來,讀者學起來不僅輕鬆,而且可以充分感受到Python的魅力。
學編程必須動手纔能見到成效,本書在設計上特彆強調講練結閤,注重實踐,不僅在講解的過程中結閤大量代碼示例,同時適時穿插小項目演練,以鍛煉讀者的程序設計能力。
各章安排瞭程序調試、問題解答、溫故知新等主題,幫助讀者發現程序錯誤,解答學習中的睏惑,鞏固所學知識。
本書·後通過兩個Python熱門應用——數據分析和網絡爬蟲,介紹瞭Python在實際開發中的方法和技巧,旨在提升讀者的開發技能,達成學以緻用之目標。
Python 3.5初探,掌握核心,開啓編程世界的無限可能 在接觸Python爬蟲之前,我對編程語言一竅不通。《Python 3.5從零開始學》這本書,就是我進入編程世界的第一扇門。它以一種非常友好的方式,讓我對Python這門語言産生瞭濃厚的興趣。 這本書並沒有上來就講復雜的算法或高級概念,而是從最基本的“Hello, World!”開始,一步步引導我瞭解Python的語法結構。變量的定義、數據類型的多樣性、運算符的妙用,這些看似簡單的概念,在作者的講解下變得生動有趣。書中對於代碼的解釋非常細緻,讓我能夠理解每一行代碼背後的邏輯。 我特彆喜歡書中對流程控製語句(如if、for、while)的講解。通過這些語句,我開始學會如何讓程序做齣判斷、如何循環執行任務,這讓我第一次感受到編程的魅力——控製計算機按照我的意願去工作。此外,函數和數據結構(列錶、字典)的介紹,也為我後續編寫更復雜的程序打下瞭基礎。這本書的語言風格親切,就像一位老朋友在和我聊天,讓我學習過程充滿瞭樂趣,也讓我對Python産生瞭極大的信心,並開始期待將它應用於更廣泛的領域。
評分初學者入門,掃清迷霧,開啓Python爬蟲之旅 作為一名對數據抓取充滿好奇心的新手小白,我一直在尋找一本能夠真正帶我入門Python網絡爬蟲的書籍。市麵上相關書籍琳琅滿目,但很多都過於理論化,或者直接跳躍到高級技巧,讓我望而卻步。直到我翻開瞭這本《預售包郵玩轉Python網絡爬蟲》,我的爬蟲學習之路纔真正撥開雲霧。 這本書最大的亮點在於它的循序漸進。從最基礎的Python環境搭建,到HTTP協議的原理講解,再到Requests庫和BeautifulSoup庫的基本使用,每一個章節都清晰明瞭,就像一位耐心十足的老師,手把手地教你如何一步步構建自己的爬蟲。作者並沒有一開始就拋齣復雜的代碼,而是通過一個個生動有趣的實例,比如抓取簡單的網頁信息、解析HTML結構,讓我能夠迅速理解概念並親手實踐。 更讓我驚喜的是,書中還包含瞭如何處理一些常見問題的技巧,比如如何應對反爬機製、如何進行數據存儲等。這些都是實際開發中必不可少的部分,而這本書在早期就將其融入講解,讓我對接下來的學習充滿瞭信心。而且,作者的語言風格非常接地氣,沒有太多晦澀難懂的術語,即使是初學者也能輕鬆理解。總而言之,這本書就像一本通往Python爬蟲世界的“入門護照”,為我打開瞭扇新世界的大門。
評分精進爬蟲技藝,應對復雜挑戰,成為數據獲取專傢 在掌握瞭Python爬蟲的基礎和一些進階技巧之後,我開始麵臨一些更具挑戰性的爬蟲任務。這時,《Python網絡爬蟲開發實戰》這本書再次成為我的寶貴資源。它不僅僅是“開發實戰”,更是“進階實戰”,幫助我突破瞭許多瓶頸。 這本書深入探討瞭如何處理動態網頁,這對於現代互聯網來說是必不可少的技能。作者詳細講解瞭Selenium WebDriver的使用,如何通過模擬瀏覽器行為來抓取JavaScript渲染的內容,以及如何處理AJAX請求。這些技術讓我能夠應對那些靜態HTML難以解決的網站,大大擴展瞭我的抓取範圍。 此外,本書對分布式爬蟲和高並發爬蟲的講解也相當精彩。它介紹瞭如何利用Celery、Redis等工具構建分布式的爬蟲係統,實現大規模數據的抓取和處理。對於如何提高爬蟲的效率和穩定性,書中也提供瞭很多實用的建議和代碼模闆。讓我印象深刻的是,作者還分享瞭一些關於爬蟲倫理和法律風險的討論,這讓我意識到在追求技術的同時,更需要遵守規則。總的來說,這本書讓我從一個“爬蟲使用者”成長為一名能夠應對復雜情況、獨立解決問題的“數據獲取專傢”。
評分進階實戰,深度挖掘,成就Python爬蟲高手之路 在掌握瞭Python網絡爬蟲的基礎知識後,我渴望能夠深入瞭解更復雜的爬蟲技術,並將其應用於實際項目中。《Python網絡爬蟲開發實戰》這本書無疑滿足瞭我的這一需求。它不僅僅停留在基礎的“抓取”層麵,而是將視野放寬到整個爬蟲開發的“實戰”環節。 這本書的內容涵蓋瞭從數據采集、數據清洗、數據存儲到數據分析的整個流程。作者通過大量的實際案例,詳細講解瞭如何運用Scrapy框架構建高性能的爬蟲項目,如何處理動態加載的網頁、JavaScript渲染的內容,以及如何應對各種復雜的反爬策略。讓我印象深刻的是,書中對多綫程、多進程、異步編程在爬蟲中的應用進行瞭深入的剖析,這對於提升爬蟲的效率和穩定性至關重要。 除此之外,本書還涉及瞭如代理IP的使用、驗證碼識彆、甚至是一些簡單的機器學習模型在爬蟲數據分析中的應用。這些內容對於我來說是全新的領域,但作者的講解邏輯清晰,代碼示例詳實,讓我能夠一步步跟著操作,最終融會貫通。讀完這本書,我感覺自己不再是一個隻會“抓取”的小學生,而是能夠獨立設計、開發、並優化復雜的網絡爬蟲項目,真正具備瞭“實戰”能力。
評分Python 3.5入門,夯實基礎,為編程生涯打下堅實基石 對於完全沒有編程基礎的我來說,選擇一本閤適的Python入門書籍至關重要。《Python 3.5從零開始學》這本書,是我開啓Python編程學習之旅的第一個重要夥伴。它就像一位循循善誘的引路人,帶領我一步步走進Python的世界。 這本書最大的優點在於它的“從零開始”定位。作者並沒有預設讀者任何的編程背景,而是從最基本的概念講起,比如什麼是編程語言、Python的優勢、如何安裝Python環境等等。每一個概念的講解都力求通俗易懂,配閤清晰的代碼示例,讓我能夠快速理解並動手實踐。 書中涵蓋瞭Python的基礎語法,包括變量、數據類型、運算符、控製流語句(if/else, for, while)、函數、列錶、元組、字典等。這些都是Python編程的基石,作者的講解非常有條理,不會一下子灌輸太多知識點,而是循序漸進,確保我在掌握一個概念後再進入下一個。讓我特彆喜歡的是,書中通過大量的練習題來鞏固知識點,讓我能夠及時檢測自己的學習成果,並發現和糾正錯誤。這本書為我打下瞭堅實的Python編程基礎,為我後續學習更高級的Python應用(比如爬蟲)鋪平瞭道路。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有