發表於2024-12-21
Python文本分析 自然語言處理NLP技術書籍 詞匯語義關係網絡模型 Python句法數 pdf epub mobi txt 電子書 下載
基本信息
原書名:Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from Your Data
作者: (印)迪潘簡·撒卡爾(Dipanjan Sarkar)
譯者: 閆龍川 高德荃 李君婷
叢書名: 數據科學與工程技術叢書
齣版社:機械工業齣版社
ISBN:9787111593249
上架時間:2018-4-23
齣版日期:2018 年4月
開本:16開
版次:1-1
所屬分類:計算機
目錄
譯者序
前言
第1章自然語言基礎
1��1自然語言
1��1��1什麼是自然語言
1��1��2語言哲學
1��1��3語言習得和用法
1��2語言學
1��3語言句法和結構
1��3��1詞
1��3��2短語
1��3��3從句
1��3��4語法
1��3��5語序類型學
1��4語言語義
1��4��1詞匯語義關係
1��4��2語義網絡和模型
1��4��3語義錶示
1��5文本語料庫
1��5��1文本語料庫標注及使用
1��5��2熱門的語料庫
1��5��3訪問文本語料庫
1��6自然語言處理
1��6��1機器翻譯
1��6��2語音識彆係統
1��6��3問答係統
1��6��4語境識彆與消解
1��6��5文本摘要
1��6��6文本分類
1��7文本分析
1��8小結
第2章Python語言迴顧
2��1瞭解Python
2��1��1Python之禪
2��1��2應用:何時使用Python
2��1��3缺點:何時不用Python
2��1��4Python實現和版本
2��2安裝和設置
2��2��1用哪個Python版本
2��2��2用哪個操作係統
2��2��3集成開發環境
2��2��4環境設置
2��2��5虛擬環境
2��3Python句法和結構
2��4數據結構和類型
2��4��1數值類型
2��4��2字符串
2��4��3列錶
2��4��4集閤
2��4��5字典
2��4��6元組
2��4��7文件
2��4��8雜項
2��5控製代碼流
2��5��1條件結構
2��5��2循環結構
2��5��3處理異常
2��6函數編程
2��6��1函數
2��6��2遞歸函數
2��6��3匿名函數
2��6��4迭代器
2��6��5分析器
2��6��6生成器
2��6��7itertools和functools模塊
2��7類
2��8使用文本
2��8��1字符串文字
2��8��2字符串操作和方法
2��9文本分析框架
2��10小結
第3章處理和理解文本
3��1文本切分
3��1��1句子切分
3��1��2詞語切分
3��2文本規範化
3��2��1文本清洗
3��2��2文本切分
3��2��3刪除特殊字符
3��2��4擴展縮寫詞
3��2��5大小寫轉換
3��2��6刪除停用詞
3��2��7詞語校正
3��2��8詞乾提取
3��2��9詞形還原
3��3理解文本句法和結構
3��3��1安裝必要的依賴項
3��3��2機器學習重要概念
3��3��3詞性標注
3��3��4淺層分析
3��3��5基於依存關係的分析
3��3��6基於成分結構的分析
3��4小結
第4章文本分類
4��1什麼是文本分類
4��2自動文本分類
4��3文本分類的藍圖
4��4文本規範化處理
4��5特徵提取
4��5��1詞袋模型
4��5��2TF�睮DF模型
4��5��3高級詞嚮量模型
4��6分類算法
4��6��1多項式樸素貝葉斯
4��6��2支持嚮量機
4��7評估分類模型
4��8建立一個多類分類係統
4��9應用
4��10小結
第5章文本摘要
5��1文本摘要和信息提取
5��2重要概念
5��2��1文檔
5��2��2文本規範化
5��2��3特徵提取
5��2��4特徵矩陣
5��2��5奇異值分解
5��3文本規範化
5��4特徵提取
5��5關鍵短語提取
5��5��1搭配
5��5��2基於權重標簽的短語提取
5��6主題建模
5��6��1隱含語義索引
5��6��2隱含Dirichlet分布
5��6��3非負矩陣分解
5��6��4從産品評論中提取主題
5��7自動文檔摘要
5��7��1隱含語義分析
5��7��2TextRank算法
5��7��3生成産品說明摘要
5��8小結
第6章文本相似度和聚類
6��1重要概念
6��1��1信息檢索
6��1��2特徵工程
6��1��3相似度測量
6��1��4無監督的機器學習算法
6��2文本規範化
6��3特徵提取
6��4文本相似度
6��5詞項相似度分析
6��5��1漢明距離
6��5��2曼哈頓距離
6��5��3歐幾裏得距離
6��5��4萊文斯坦編輯距離
6��5��5餘弦距離和相似度
6��6文檔相似度分析
6��6��1餘弦相似度
6��6��2海靈格-巴塔恰亞距離
6��6��3Okapi BM25排名
6��7文檔聚類
6��8佳影片聚類分析
6��8��1k�瞞eans聚類
6��8��2近鄰傳播聚類
6��8��3沃德凝聚層次聚類
6��9小結
第7章語義與情感分析
7��1語義分析
7��2探索WordNet
7��2��1理解同義詞集
7��2��2分析詞匯的語義關係
7��3詞義消歧
7��4命名實體識彆
7��5分析語義錶徵
7��5��1命題邏輯
7��5��2一階邏輯
7��6情感分析
7��7IMDb電影評論的情感分析
7��7��1安裝依賴程序包
7��7��2準備數據集
7��7��3有監督的機器學習技術
7��7��4無監督的詞典技術
7��7��5模型性能比較
7��8小結
↑摺 疊
譯者序
自然語言處理和文本分析是當今人工智能研究和應用的重要方嚮,因其在人機交互方麵的廣泛應用和前景,吸引瞭學術界和産業界投入巨大的力量。目前,已經有一些産品陸續麵世,在機器翻譯、問答係統、語音助理、情感分析等方麵取得瞭非常不錯的進展,也給人們的生活帶來瞭便利。
本書作者Sarkar是Intel公司的數據科學傢,研究領域涉及數據科學與軟件工程,有著豐富的文本分析研究和工程方麵的經驗,齣版過多本R語言和機器學習方麵的書籍。作者在GitHub上(sgithub./dipanjanS/text�瞐nalytics�瞱ith�瞤ython)開源瞭本書相關的程序代碼和數據集,感興趣的讀者可以下載研究。
本書首先介紹瞭與文本分析相關的自然語言基本概念以及Python語言的特點、特性和常用功能。然後,結閤示例代碼詳細闡述瞭文本理解與處理、文本分類、文本摘要、文本相似性與聚類、語義與情感分析等內容,具有很強的實用性,內容覆蓋瞭文本分析的重要方麵,為相關應用的開發和研究提供瞭很好的參考藉鑒。
本書是關於自然語言處理的實踐教程,通過學習本書,讀者可以全麵地掌握文本分析的基礎技術和機器學習的一些經典方法,包括SVM、貝葉斯分類器、k�瞞eans聚類、層次聚類等,為進一步的學習和研究奠定基礎。感興趣的讀者可以繼續研究和探索深度學習技術在文本分析中的應用,這是人工智能應用中發展非常迅速的領域,相信閱讀本書打下的基礎會對你大有幫助。
後,感謝本書的作者和機械工業齣版社華章公司的編輯,是他們的鼓勵和支持使得本書能與讀者見麵。感謝我們傢人的理解。盡管我們努力準確地錶達作者的思想和方法,但仍難免有不當之處。譯文中的錯誤,敬請指齣,我們將非常感激,請將相關意見發往yanlongchuan@iie�盿c�薄�
閆龍川 高德荃 李君婷
2017年12月
前言
從高中開始接觸數學和統計學以來,我就一直對數字著迷。分析學(analytics)、數據科學以及近的文本分析技術均齣現較晚,大概是在幾年前,當時關於大數據(big data)和數據分析的炒作越來越猛烈,甚至有些瘋狂。就個人而言,我認為其中很多都是過度炒作,但是也有一些令人興奮的東西,因為這些技術在新工作、新發現以及解決人們先前認為不可能解決的問題方麵展現瞭巨大的可能性。
自然語言處理(Natural Language Processing,NLP)一直深深吸引著我,因為人腦科學和人類認知能力確實令人著迷。如果嘗試在機器中重塑這種傳遞信息、復雜思維和情緒的能力,那一定是令人驚喜的。當然,盡管我們在認知計算(cognitive puting)和人工智能(Artificial Intelligence,AI)方麵的發展突飛猛進,但現在尚且無法實現這一點。僅通過圖靈測試可能是不夠的,機器真正能復製人的方方麵麵嗎?
當今,對於NLP和文本分析應用,迫切需求從非結構化、原始文本數據中提取有用信息和可行見解的能力。到目前為止,我一直在努力解決各種問題,麵臨諸多挑戰,並隨著時間的推移吸取瞭各種各樣的經驗教訓。本書涵蓋瞭我在文本分析領域學到的大部分知識,僅僅從一堆文本文檔中建立一個花哨的詞雲是不夠的。
在學習文本分析方麵,大的問題或許不是信息缺乏,而是信息過多,通常這稱為信息過載(information overload)。海量的資源、文檔、論文、書籍和期刊包含瞭大量的理論資料、概念、技術和算法,它們常常使該領域的新手不知所措。解決問題的正確技術是什麼?文本摘要如何真正有效?哪些纔是解決多類文本分類的佳框架?通過將數學和理論概念與現實用例的Python實現相結閤,本書嘗試解決這個問題,並幫助讀者避免迄今為止我所遇到的一些急迫問題。
本書采用瞭全麵的和結構化的介紹方法。首先,它在前幾章中介紹瞭自然語言理解和Python結構的基礎知識。熟悉瞭基礎知識之後,其餘章節將解決文本分析中的一些有趣問題,包括文本分類、聚類、相似性分析、文本摘要和主題模型。本書還將分析文本的結構、語義、情感和觀點。對於每個主題,將介紹基本概念,並使用一些現實世界中的場景和數據來實現涵蓋每個概念的技術。本書的構想是呈現一幅文本分析和NLP的藍海,並提供必要的工具、技術和知識以處理和解決工作中遇到的問題。我希望你能覺得本書很有幫助,並祝你在文本分析的世界中旅途愉快!
Python文本分析 自然語言處理NLP技術書籍 詞匯語義關係網絡模型 Python句法數 pdf epub mobi txt 電子書 下載