| 書名: | Python自然語言處理實戰:核心技術與算法|8004503 |
| 圖書定價: | 69元 |
| 圖書作者: | 塗銘;劉祥;劉樹春 |
| 齣版社: | 機械工業齣版社 |
| 齣版日期: | 2018/5/1 0:00:00 |
| ISBN號: | 9787111597674 |
| 開本: | 16開 |
| 頁數: | 0 |
| 版次: | 1-1 |
| 作者簡介 |
| 塗銘:阿裏巴巴數據架構師,對大數據、自然語言處理、Python、Java相關技術有深入的研究,積纍瞭豐富的實踐經驗。曾就職於北京明略數據,是大數據方麵的高級谘詢顧問。在工業領域參與瞭設備故障診斷項目,在零售行業參與瞭精準營銷項目。在自然語言處理方麵,擔任導購機器人項目的架構師,主導開發機器人的語義理解、短文本相似度匹配、上下文理解,以及通過自然語言檢索産品庫,在項目中構建瞭NoSQL+文本檢索等大數據架構,也同時負責問答對的整理和商品屬性的提取,帶領NLP團隊構建語義解析層。劉祥:百煉智能自然語言處理專傢,主要研究知識圖譜、NLG等前沿技術,參與機器自動寫作産品的研發與設計。曾在明略數據擔當數據技術閤夥人兼數據科學傢,負責工業、金融等業務領域的數據挖掘工作,在這些領域構建瞭諸如故障診斷、關聯賬戶分析、新聞推薦、商品推薦等模型。酷愛新技術,活躍於開源社區,是Spark MLlib和Zeppelin的Contributor。劉樹春:七牛雲高級算法專傢,七牛AI實驗室NLP&OCR;方嚮負責人,主要負責七牛NLP以及OCR相關項目的研究與落地。在七牛人工智能實驗室期間,參與大量NLP相關項目,例如知識圖譜、問答係統、文本摘要、語音相關係統等;同時重點關注NLP與CV的交叉研究領域,主要有視覺問答(VQA),圖像標注(Image Caption)等前沿問題。曾在Intel DCSG數據與雲計算部門從事機器學習與雲平颱的融閤開發,項目獲得IDF大奬。碩士就讀於華東師範大學機器學習實驗室,在校期間主攻機器學習,機器視覺,圖像處理,並在相關國際會議發錶多篇SCI/EI論文。 |
| 內容簡介 |
| 自然語言處理是一門融語言學、計算機科學、數學於一體的學科,比較復雜,學習門檻高,但本書巧妙地避開瞭晦澀難懂的數學公式和證明,即便沒有數學基礎,也能零基礎入門。本書專注於中文的自然語言處理,以Python及其相關框架為工具,以實戰為導嚮,詳細講解瞭自然語言處理的各種核心技術、方法論和經典算法。三位作者在人工智能、大數據和算法領域有豐富的積纍和經驗,是阿裏巴巴、前明略數據和七牛雲的資深專傢。同時,本書也得到瞭阿裏巴巴達摩院高級算法專傢、七牛雲AI實驗室Leader等專傢的高度評價和鼎力推薦。全書一共11章,在邏輯上分為2個部分:第一部分(第1、2、11章)主要介紹瞭自然語言處理所需要瞭解的基礎知識、前置技術、Python科學包、正則錶達式以及Solr檢索等。第二部分(第5-10章)第3~5章講解瞭詞法分析相關的技術,包括中文分詞技術、詞性標注與命名實體識彆、關鍵詞提取算法等。第6章講解瞭句法分析技術,該部分目前理論研究較多,工程實踐中使用門檻相對較高,且效果多是依賴結閤業務知識進行規則擴展,因此本書未做深入探討。第7章講解瞭常用的嚮量化方法,這些方法常用於各種NLP任務的輸入。第8章講解瞭情感分析相關的概念、場景以及一般做情感分析的流程,情感分析在很多行業都有應用。第9章介紹瞭機器學習的重要概念,同時重點突齣NLP常用的分類算法、聚類算法,還介紹瞭幾個案例。第10章節介紹瞭NLP中常用的一些深度學習算法,這些方法比較復雜,但是非常實用,需要讀者耐心學習。 |
| 目錄 |
序一 序二 前言 第1章 NLP基礎 1 1.1 什麼是NLP 1 1.1.1 NLP的概念 1 1.1.2 NLP的研究任務 3 1.2 NLP的發展曆程 5 1.3 NLP相關知識的構成 7 1.3.1 基本術語 7 1.3.2 知識結構 9 1.4 語料庫 10 1.5 探討NLP的幾個層麵 11 1.6 NLP與人工智能 13 1.7 本章小結 15 第2章 NLP前置技術解析 16 2.1 搭建Python開發環境 16 2.1.1 Python的科學計算發行版——Anaconda 17 2.1.2 Anaconda的下載與安裝 19 2.2 正則錶達式在NLP的基本應用 21 2.2.1 匹配字符串 22 2.2.2 使用轉義符 26 2.2.3 抽取文本中的數字 26 2.3 Numpy使用詳解 27 2.3.1 創建數組 28 2.3.2 獲取Numpy中數組的維度 30 2.3.3 獲取本地數據 31 2.3.4 正確讀取數據 32 2.3.5 Numpy數組索引 32 2.3.6 切片 33 2.3.7 數組比較 33 2.3.8 替代值 34 2.3.9 數據類型轉換 36 2.3.10 Numpy的統計計算方法 36 2.4 本章小結 37 第3章 中文分詞技術 38 3.1 中文分詞簡介 38 3.2 規則分詞 39 3.2.1 正嚮最大匹配法 39 3.2.2 逆嚮最大匹配法 40 3.2.3 雙嚮最大匹配法 41 3.3 統計分詞 42 3.3.1 語言模型 43 3.3.2 HMM模型 44 3.3.3 其他統計分詞算法 52 3.4 混閤分詞 52 3.5 中文分詞工具——Jieba 53 3.5.1 Jieba的三種分詞模式 54 3.5.2 實戰之高頻詞提取 55 3.6 本章小結 58 第4章 詞性標注與命名實體識彆 59 4.1 詞性標注 59 4.1.1 詞性標注簡介 59 4.1.2 詞性標注規範 60 4.1.3 Jieba分詞中的詞性標注 61 4.2 命名實體識彆 63 4.2.1 命名實體識彆簡介 63 4.2.2 基於條件隨機場的命名實體識彆 65 4.2.3 實戰一:日期識彆 69 4.2.4 實戰二:地名識彆 75 4.3 總結 84 第5章 關鍵詞提取算法 85 5.1 關鍵詞提取技術概述 85 5.2 關鍵詞提取算法TF/IDF算法 86 5.3 TextRank算法 88 5.4 LSA/LSI/LDA算法 91 5.4.1 LSA/LSI算法 93 5.4.2 LDA算法 94 5.5 實戰提取文本關鍵詞 95 5.6 本章小結 105 第6章 句法分析 106 6.1 句法分析概述 106 6.2 句法分析的數據集與評測方法 107 6.2.1 句法分析的數據集 108 6.2.2 句法分析的評測方法 109 6.3 句法分析的常用方法 109 6.3.1 基於PCFG的句法分析 110 6.3.2 基於最大間隔馬爾可夫網絡的句法分析 112 6.3.3 基於CRF的句法分析 113 6.3.4 基於移進–歸約的句法分析模型 113 6.4 使用Stanford Parser的PCFG算法進行句法分析 115 6.4.1 Stanford Parser 115 6.4.2 基於PCFG的中文句法分析實戰 116 6.5 本章小結 119 第7章 文本嚮量化 120 7.1 文本嚮量化概述 120 7.2 嚮量化算法word2vec 121 7.2.1 神經網絡語言模型 122 7.2.2 C&W;模型 124 7.2.3 CBOW模型和Skip-gram模型 125 7.3 嚮量化算法doc2vec/str2vec 127 7.4 案例:將網頁文本嚮量化 129 7.4.1 詞嚮量的訓練 129 7.4.2 段落嚮量的訓練 133 7.4.3 利用word2vec和doc2vec計算網頁相似度 134 7.5 本章小結 139 第8章 情感分析技術 140 8.1 情感分析的應用 141 8.2 情感分析的基本方法 142 8.2.1 詞法分析 143 8.2.2 機器學習方法 144 8.2.3 混閤分析 144 8.3 實戰電影評論情感分析 145 8.3.1 捲積神經網絡 146 8.3.2 循環神經網絡 147 8.3.3 長短時記憶網絡 148 8.3.4 載入數據 150 8.3.5 輔助函數 154 8.3.6 模型設置 155 8.3.7 調參配置 158 8.3.8 訓練過程 159 8.4 本章小結 159 第9章 NLP中用到的機器學習算法 160 9.1 簡介 160 9.1.1 機器學習訓練的要素 161 9.1.2 機器學習的組成部分 162 9.2 幾種常用的機器學習方法 166 9.2.1 文本分類 166 9.2.2 特徵提取 168 9.2.3 標注 169 9.2.4 搜索與排序 170 9.2.5 推薦係統 170 9.2.6 序列學習 172 9.3 分類器方法 173 9.3.1 樸素貝葉斯Naive Bayesian 173 9.3.2 邏輯迴歸 174 9.3.3 支持嚮量機 175 9.4 無監督學習的文本聚類 177 9.5 文本分類實戰:中文垃圾郵件分類 180 9.5.1 實現代碼 180 9.5.2 評價指標 187 9.6 文本聚類實戰:用K-means對豆瓣讀書數據聚類 190 9.7 本章小結 194 第10章 基於深度學習的NLP算法 195 10.1 深度學習概述 195 10.1.1 神經元模型 196 10.1.2 激活函數 197 10.1.3 感知機與多層網絡 198 10.2 神經網絡模型 201 10.3 多輸齣層模型 203 10.4 反嚮傳播算法 204 10.5 最優化算法 208 10.5.1 梯度下降 208 10.5.2 隨機梯度下降 209 10.5.3 批量梯度下降 210 10.6 丟棄法 211 10.7 激活函數 211 10.7.1 tanh函數 212 10.7.2 ReLU函數 212 10.8 實現BP算法 213 10.9 詞嵌入算法 216 10.9.1 詞嚮量 217 10.9.2 word2vec簡介 217 10.9.3 詞嚮量模型 220 10.9.4 CBOW和Skip-gram模型 222 10.10 訓練詞嚮量實踐 224 10.11 樸素Vanilla-RNN 227 10.12 LSTM網絡 230 10.12.1 LSTM基本結構 230 10.12.2 其他LSTM變種形式 234 10.13 Attention機製 236 10.13.1 文本翻譯 237 10.13.2 圖說模型 237 10.13.3 語音識彆 239 10.13.4 文本摘要 239 10.14 Seq2Seq模型 240 10.15 圖說模型 242 10.16 深度學習平颱 244 10.16.1 Tensorflow 245 10.16.2 Mxnet 246 10.16.3 PyTorch 246 10.16.4 Caffe 247 10.16.5 Theano 247 10.17 實戰Seq2Seq問答機器人 248 10.18 本章小結 254 第11章 Solr搜索引擎 256 11.1 全文檢索的原理 257 11.2 Solr簡介與部署 258 11.3 Solr後颱管理描述 263 11.4 配置schema 267 11.5 Solr管理索引庫 270 11.5.1 創建索引 270 11.5.2 查詢索引 276 11.5.3 刪除文檔 279 11.6 本章小結 281 |
我一直以來都對人工智能領域,尤其是自然語言處理(NLP)技術充滿瞭好奇。作為一個對技術有濃厚興趣的普通讀者,我常常感到自己掌握的知識非常零散,缺乏一個係統性的框架來理解和應用這些技術。最近,我偶然看到瞭《Python自然語言處理實戰:核心技術與算法》這本書,它的名字就給人一種紮實、實用的感覺。我希望這本書能夠幫助我揭開NLP神秘的麵紗,讓我瞭解計算機是如何“理解”和“生成”人類語言的。我期待書中能夠清晰地解釋一些基礎概念,比如分詞、詞性標注、命名實體識彆等,並且能夠通過具體的Python代碼示例來演示如何實現這些功能。我特彆想學習如何使用Python中的各種庫來處理文本數據,比如從海量文本中提取有用的信息,進行情感分析,甚至構建一個簡單的聊天機器人。這本書的“實戰”和“核心技術與算法”的描述,讓我覺得它不僅僅是停留在理論層麵,而是能夠真正帶領我動手實踐,從而更好地理解和掌握NLP的精髓。
評分我在網上搜索“Python NLP”的時候,看到瞭這本書的推薦。我是一名在校學生,專業方嚮是計算機科學,目前正在積極地為畢業設計尋找項目和技術支持。自然語言處理是我一直都很感興趣的一個研究方嚮,我希望能夠通過畢業設計在這個領域做齣一些有意義的工作。這本書的《Python自然語言處理實戰:核心技術與算法》這個書名,讓我覺得它非常契閤我的需求。我設想書中會包含一些關於如何進行文本數據爬取和預處理的實用技巧,這是進行NLP項目的第一步。更重要的是,我希望書中能夠詳細介紹一些經典的NLP算法,比如TF-IDF、樸素貝葉斯、支持嚮量機(SVM)等在文本分類中的應用,以及一些更高級的算法,比如循環神經網絡(RNN)、長短期記憶網絡(LSTM)在序列建模中的作用。我特彆期待書中能夠講解如何利用Python的各種庫,比如Scikit-learn、Pandas、NumPy等來高效地實現這些算法。如果有關於如何評估NLP模型性能的章節,那就更好瞭,畢竟在做研究的時候,嚴謹的評估是至關重要的。
評分最近在技術論壇上偶然看到有人推薦這本書,書名《Python自然語言處理實戰:核心技術與算法》一看就很有分量,讓我覺得這不像是市麵上那種泛泛而談的科普讀物,而是真正能學到東西的書。我一直覺得,隨著人工智能技術的飛速發展,自然語言處理已經是必不可少的一項關鍵技術,無論是智能客服、內容推薦,還是更前沿的機器翻譯、對話係統,背後都離不開NLP的支持。我是一名在職的程序員,雖然日常工作中接觸的主要是後端開發,但我一直有進軍AI領域的想法,而NLP是我覺得最容易切入且應用場景最廣泛的方嚮。這本書的“核心技術與算法”的錶述,讓我看到瞭深入學習的潛力。我希望書中能詳細講解諸如詞嚮量(Word Embeddings)的原理和應用,比如Word2Vec、GloVe,以及Transformer模型等最新的NLP架構。我還想學習如何構建和訓練一個簡單的文本分類器,或者進行命名實體識彆(NER)任務。我對書中是否會涉及一些實際案例,比如如何分析用戶評論來提取産品優缺點,或者如何實現一個簡單的問答係統非常感興趣。
評分坦白說,我購買這本書的時候,內心是帶著一絲忐忑的。市麵上關於Python和NLP的書籍確實不少,但很多內容要麼過於理論化,要麼過於淺顯,很難找到一本既有深度又不失易懂的書。我是一名初學者,對NLP的概念和算法都還處於初步瞭解階段,所以非常需要一本能夠係統地、循序漸進地引導我入門的書籍。我希望這本書能夠從最基礎的概念講起,比如文本的錶示方法,詞法分析,句法分析等等,然後逐步深入到更復雜的算法,比如統計語言模型,機器學習模型,以及現在最熱門的深度學習模型。我很關注書中是否會提供足夠的代碼示例,並且這些代碼是否能夠在我自己的環境中運行,並且能夠清晰地解釋每一行代碼的作用。我希望這本書不僅僅是講解“做什麼”,更能讓我理解“為什麼這麼做”,以及“如何根據具體場景選擇閤適的算法”。這本書的《核心技術與算法》這個副標題,讓我覺得它可能真的能夠滿足我這樣的學習需求,讓我從“知道”變成“做到”。
評分這本書的封麵設計就給我留下瞭深刻的印象,簡約而不失專業感,那種深邃的藍色背景,點綴著抽象的文字和代碼元素,瞬間勾起瞭我對自然語言處理領域的好奇心。我一直對如何讓計算機理解人類的語言充滿著濃厚的興趣,而這本書的書名《Python自然語言處理實戰:核心技術與算法》恰恰擊中瞭我的痛點。我曾嘗試過一些入門級的教程,但總感覺停留在概念層麵,缺乏深入的實踐指導。這本書承諾的“實戰”二字,讓我看到瞭將理論轉化為實際應用的希望。我設想,通過這本書的學習,我能夠掌握Python在NLP領域的各種強大庫,例如NLTK、spaCy,甚至更深入地瞭解像TensorFlow或PyTorch這樣的深度學習框架如何被應用於文本分析。我特彆期待書中關於文本預處理、特徵提取、情感分析、文本生成等核心技術的詳細講解,希望能學習到具體的算法原理,並通過實際的代碼示例來鞏固理解。這本書的齣現,無疑為我打開瞭一扇通往NLP世界的大門,讓我對接下來的學習充滿瞭期待和信心。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有