基本信息
原書名:Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from Your Data
作者: (印)迪潘簡·撒卡爾(Dipanjan Sarkar)
譯者: 閆龍川 高德荃 李君婷
叢書名: 數據科學與工程技術叢書
齣版社:機械工業齣版社
ISBN:9787111593249
上架時間:2018-4-23
齣版日期:2018 年4月
開本:16開
版次:1-1
所屬分類:計算機
目錄
譯者序
前言
第1章自然語言基礎
1��1自然語言
1��1��1什麼是自然語言
1��1��2語言哲學
1��1��3語言習得和用法
1��2語言學
1��3語言句法和結構
1��3��1詞
1��3��2短語
1��3��3從句
1��3��4語法
1��3��5語序類型學
1��4語言語義
1��4��1詞匯語義關係
1��4��2語義網絡和模型
1��4��3語義錶示
1��5文本語料庫
1��5��1文本語料庫標注及使用
1��5��2熱門的語料庫
1��5��3訪問文本語料庫
1��6自然語言處理
1��6��1機器翻譯
1��6��2語音識彆係統
1��6��3問答係統
1��6��4語境識彆與消解
1��6��5文本摘要
1��6��6文本分類
1��7文本分析
1��8小結
第2章Python語言迴顧
2��1瞭解Python
2��1��1Python之禪
2��1��2應用:何時使用Python
2��1��3缺點:何時不用Python
2��1��4Python實現和版本
2��2安裝和設置
2��2��1用哪個Python版本
2��2��2用哪個操作係統
2��2��3集成開發環境
2��2��4環境設置
2��2��5虛擬環境
2��3Python句法和結構
2��4數據結構和類型
2��4��1數值類型
2��4��2字符串
2��4��3列錶
2��4��4集閤
2��4��5字典
2��4��6元組
2��4��7文件
2��4��8雜項
2��5控製代碼流
2��5��1條件結構
2��5��2循環結構
2��5��3處理異常
2��6函數編程
2��6��1函數
2��6��2遞歸函數
2��6��3匿名函數
2��6��4迭代器
2��6��5分析器
2��6��6生成器
2��6��7itertools和functools模塊
2��7類
2��8使用文本
2��8��1字符串文字
2��8��2字符串操作和方法
2��9文本分析框架
2��10小結
第3章處理和理解文本
3��1文本切分
3��1��1句子切分
3��1��2詞語切分
3��2文本規範化
3��2��1文本清洗
3��2��2文本切分
3��2��3刪除特殊字符
3��2��4擴展縮寫詞
3��2��5大小寫轉換
3��2��6刪除停用詞
3��2��7詞語校正
3��2��8詞乾提取
3��2��9詞形還原
3��3理解文本句法和結構
3��3��1安裝必要的依賴項
3��3��2機器學習重要概念
3��3��3詞性標注
3��3��4淺層分析
3��3��5基於依存關係的分析
3��3��6基於成分結構的分析
3��4小結
第4章文本分類
4��1什麼是文本分類
4��2自動文本分類
4��3文本分類的藍圖
4��4文本規範化處理
4��5特徵提取
4��5��1詞袋模型
4��5��2TF�睮DF模型
4��5��3高級詞嚮量模型
4��6分類算法
4��6��1多項式樸素貝葉斯
4��6��2支持嚮量機
4��7評估分類模型
4��8建立一個多類分類係統
4��9應用
4��10小結
第5章文本摘要
5��1文本摘要和信息提取
5��2重要概念
5��2��1文檔
5��2��2文本規範化
5��2��3特徵提取
5��2��4特徵矩陣
5��2��5奇異值分解
5��3文本規範化
5��4特徵提取
5��5關鍵短語提取
5��5��1搭配
5��5��2基於權重標簽的短語提取
5��6主題建模
5��6��1隱含語義索引
5��6��2隱含Dirichlet分布
5��6��3非負矩陣分解
5��6��4從産品評論中提取主題
5��7自動文檔摘要
5��7��1隱含語義分析
5��7��2TextRank算法
5��7��3生成産品說明摘要
5��8小結
第6章文本相似度和聚類
6��1重要概念
6��1��1信息檢索
6��1��2特徵工程
6��1��3相似度測量
6��1��4無監督的機器學習算法
6��2文本規範化
6��3特徵提取
6��4文本相似度
6��5詞項相似度分析
6��5��1漢明距離
6��5��2曼哈頓距離
6��5��3歐幾裏得距離
6��5��4萊文斯坦編輯距離
6��5��5餘弦距離和相似度
6��6文檔相似度分析
6��6��1餘弦相似度
6��6��2海靈格-巴塔恰亞距離
6��6��3Okapi BM25排名
6��7文檔聚類
6��8佳影片聚類分析
6��8��1k�瞞eans聚類
6��8��2近鄰傳播聚類
6��8��3沃德凝聚層次聚類
6��9小結
第7章語義與情感分析
7��1語義分析
7��2探索WordNet
7��2��1理解同義詞集
7��2��2分析詞匯的語義關係
7��3詞義消歧
7��4命名實體識彆
7��5分析語義錶徵
7��5��1命題邏輯
7��5��2一階邏輯
7��6情感分析
7��7IMDb電影評論的情感分析
7��7��1安裝依賴程序包
7��7��2準備數據集
7��7��3有監督的機器學習技術
7��7��4無監督的詞典技術
7��7��5模型性能比較
7��8小結
↑摺 疊
譯者序
自然語言處理和文本分析是當今人工智能研究和應用的重要方嚮,因其在人機交互方麵的廣泛應用和前景,吸引瞭學術界和産業界投入巨大的力量。目前,已經有一些産品陸續麵世,在機器翻譯、問答係統、語音助理、情感分析等方麵取得瞭非常不錯的進展,也給人們的生活帶來瞭便利。
本書作者Sarkar是Intel公司的數據科學傢,研究領域涉及數據科學與軟件工程,有著豐富的文本分析研究和工程方麵的經驗,齣版過多本R語言和機器學習方麵的書籍。作者在GitHub上(sgithub./dipanjanS/text�瞐nalytics�瞱ith�瞤ython)開源瞭本書相關的程序代碼和數據集,感興趣的讀者可以下載研究。
本書首先介紹瞭與文本分析相關的自然語言基本概念以及Python語言的特點、特性和常用功能。然後,結閤示例代碼詳細闡述瞭文本理解與處理、文本分類、文本摘要、文本相似性與聚類、語義與情感分析等內容,具有很強的實用性,內容覆蓋瞭文本分析的重要方麵,為相關應用的開發和研究提供瞭很好的參考藉鑒。
本書是關於自然語言處理的實踐教程,通過學習本書,讀者可以全麵地掌握文本分析的基礎技術和機器學習的一些經典方法,包括SVM、貝葉斯分類器、k�瞞eans聚類、層次聚類等,為進一步的學習和研究奠定基礎。感興趣的讀者可以繼續研究和探索深度學習技術在文本分析中的應用,這是人工智能應用中發展非常迅速的領域,相信閱讀本書打下的基礎會對你大有幫助。
後,感謝本書的作者和機械工業齣版社華章公司的編輯,是他們的鼓勵和支持使得本書能與讀者見麵。感謝我們傢人的理解。盡管我們努力準確地錶達作者的思想和方法,但仍難免有不當之處。譯文中的錯誤,敬請指齣,我們將非常感激,請將相關意見發往yanlongchuan@iie�盿c�薄�
閆龍川 高德荃 李君婷
2017年12月
前言
從高中開始接觸數學和統計學以來,我就一直對數字著迷。分析學(analytics)、數據科學以及近的文本分析技術均齣現較晚,大概是在幾年前,當時關於大數據(big data)和數據分析的炒作越來越猛烈,甚至有些瘋狂。就個人而言,我認為其中很多都是過度炒作,但是也有一些令人興奮的東西,因為這些技術在新工作、新發現以及解決人們先前認為不可能解決的問題方麵展現瞭巨大的可能性。
自然語言處理(Natural Language Processing,NLP)一直深深吸引著我,因為人腦科學和人類認知能力確實令人著迷。如果嘗試在機器中重塑這種傳遞信息、復雜思維和情緒的能力,那一定是令人驚喜的。當然,盡管我們在認知計算(cognitive puting)和人工智能(Artificial Intelligence,AI)方麵的發展突飛猛進,但現在尚且無法實現這一點。僅通過圖靈測試可能是不夠的,機器真正能復製人的方方麵麵嗎?
當今,對於NLP和文本分析應用,迫切需求從非結構化、原始文本數據中提取有用信息和可行見解的能力。到目前為止,我一直在努力解決各種問題,麵臨諸多挑戰,並隨著時間的推移吸取瞭各種各樣的經驗教訓。本書涵蓋瞭我在文本分析領域學到的大部分知識,僅僅從一堆文本文檔中建立一個花哨的詞雲是不夠的。
在學習文本分析方麵,大的問題或許不是信息缺乏,而是信息過多,通常這稱為信息過載(information overload)。海量的資源、文檔、論文、書籍和期刊包含瞭大量的理論資料、概念、技術和算法,它們常常使該領域的新手不知所措。解決問題的正確技術是什麼?文本摘要如何真正有效?哪些纔是解決多類文本分類的佳框架?通過將數學和理論概念與現實用例的Python實現相結閤,本書嘗試解決這個問題,並幫助讀者避免迄今為止我所遇到的一些急迫問題。
本書采用瞭全麵的和結構化的介紹方法。首先,它在前幾章中介紹瞭自然語言理解和Python結構的基礎知識。熟悉瞭基礎知識之後,其餘章節將解決文本分析中的一些有趣問題,包括文本分類、聚類、相似性分析、文本摘要和主題模型。本書還將分析文本的結構、語義、情感和觀點。對於每個主題,將介紹基本概念,並使用一些現實世界中的場景和數據來實現涵蓋每個概念的技術。本書的構想是呈現一幅文本分析和NLP的藍海,並提供必要的工具、技術和知識以處理和解決工作中遇到的問題。我希望你能覺得本書很有幫助,並祝你在文本分析的世界中旅途愉快!
讀完《Python文本分析:自然語言處理NLP技術書籍》後,我感覺自己對NLP的理解上升到瞭一個新的層次。我之前嘗試過一些NLP的入門讀物,但總覺得缺瞭點什麼,尤其是在模型層麵,往往是知其然而不知其所以然。這本書在這方麵做得非常齣色,它沒有迴避模型背後的原理,而是用清晰易懂的方式解釋瞭各種算法,例如在討論詞匯語義關係網絡時,作者詳細講解瞭如何構建知識圖譜,如何利用embedding技術來錶示詞語的語義,以及如何通過圖神經網絡來捕捉詞語之間的復雜關係。這種深入的講解讓我不僅學會瞭如何“用”,更學會瞭“為什麼這麼用”。句法分析的部分也很有啓發性,我瞭解瞭依存句法分析和成分句法分析的區彆,以及它們在實際應用中的優劣。通過書中提供的Python代碼,我能夠親手實現這些模型,並對實驗結果進行分析,這極大地增強瞭我的學習信心。這本書的內容之豐富、講解之細緻,絕對是NLP領域一本值得反復研讀的寶藏。
評分作為一名多年從事數據挖掘的工程師,我對文本分析一直有著濃厚的興趣,但苦於找不到一本能夠真正上手操作的書籍。《Python文本分析:自然語言處理NLP技術書籍》的齣現,無疑是我的福音。這本書非常務實,它從Python語言的角度齣發,係統地介紹瞭NLP的核心技術。我尤其欣賞書中對詞匯語義關係網絡的講解,它不僅介紹瞭PageRank等經典的算法,還深入探討瞭如何利用現代的深度學習模型,如Word2Vec、GloVe來構建語義網絡,並進一步分析文本的主題和情感。這些內容對於我理解用戶評論、社交媒體信息等非常有價值。此外,句法分析章節的講解也讓我受益匪淺,我學會瞭如何利用NLTK、spaCy等庫進行分詞、詞性標注、命名實體識彆,以及更高級的依存句法分析。書中提供的代碼示例可以直接在我的工作中復用,大大縮短瞭開發周期。這本書的實踐性極強,讓我能夠快速地將NLP技術應用到實際業務中,解決實際問題。
評分我對NLP的熱情很大程度上源於對語言本身的著迷,而《Python文本分析:自然語言處理NLP技術書籍》這本書,則將這種熱情與技術完美地結閤在瞭一起。它不僅僅是一本技術手冊,更像是一場關於語言智慧的探索之旅。在詞匯語義關係網絡的部分,作者通過生動的例子,展示瞭如何用數學和計算機的語言來理解詞語之間的“親疏遠近”,如何構建一個能夠反映語言精妙之處的網絡。我曾為理解某些比喻或者引申義而苦惱,但通過書中對語義網絡的講解,我似乎找到瞭理解這些現象的鑰匙。句法分析的章節則讓我看到瞭語言結構之美,原來看似雜亂無章的句子,背後隱藏著如此嚴謹的規則和邏輯。通過Python代碼,我得以親手“解剖”句子,體會語法在信息傳遞中的關鍵作用。這本書的敘述方式非常引人入勝,讓我即便在閱讀技術細節時,也能感受到探索的樂趣,而非枯燥的填鴨式學習。
評分一直以來,我都覺得NLP是一個既迷人又充滿挑戰的領域,而《Python文本分析:自然語言處理NLP技術書籍》這本書,為我打開瞭一扇通往這個世界的大門。它並沒有一開始就拋齣晦澀難懂的模型,而是從最基礎的文本預處理講起,讓我在舒適的Python環境中逐步建立起對NLP的認知。當我讀到詞匯語義關係網絡時,我纔真正理解瞭“語義”二字的分量,不再是簡單地將詞語視為獨立的符號,而是看到瞭它們之間韆絲萬縷的聯係,看到瞭如何通過網絡的力量來捕捉這種聯係,進而理解文本的深層含義。句法分析的部分更是讓我驚嘆於語言的結構之精巧,它讓我明白瞭為什麼同幾個詞語組閤在一起,有時意思卻截然不同。書中豐富的Python代碼示例,不僅讓我鞏固瞭理論知識,更讓我獲得瞭獨立解決問題的能力,我現在可以用書中學到的技術去分析各種文本數據,發掘其中的有價值信息。這本書真的讓我感覺受益匪淺。
評分這本《Python文本分析:自然語言處理NLP技術書籍》真是讓我眼前一亮。我一直對NLP領域充滿好奇,但市麵上大部分書籍要麼過於理論化,要麼案例不夠深入。這本書恰好填補瞭這個空白。它從Python的視角切入,將抽象的NLP概念具象化,使得初學者也能快速上手。書中詳細介紹瞭從文本預處理、詞嚮量構建到更復雜的模型如詞匯語義關係網絡和句法分析。最讓我驚喜的是,它不僅僅是羅列概念,而是通過大量的Python代碼示例,一步步引導讀者實現各種NLP任務。我尤其喜歡其中關於詞匯語義關係網絡的章節,它解釋瞭如何利用圖論和機器學習模型來捕捉詞語之間的深層含義和聯係,這對於理解文本的情感傾嚮、主題演變等非常有幫助。句法分析的部分也解釋得非常透徹,讓我明白瞭如何解析句子結構,提取主謂賓等關鍵信息,這為後續的信息抽取和機器翻譯打下瞭堅實基礎。總的來說,這是一本兼具理論深度和實踐可操作性的優秀教材,強烈推薦給所有想深入瞭解NLP的Python開發者。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有