基本信息
書名:自然語言處理綜論(第二版)
:198.00元
作者:Daniel Jurafsky(D. 硃夫斯凱), James H. M
齣版社:電子工業齣版社
齣版日期:2018-03-01
ISBN:9787121250583
字數:1372000
頁碼:816
版次:2
裝幀:平裝-膠訂
開本:16開
商品重量:0.4kg
編輯推薦
從本書*版齣版以來,一直好評如潮,被國外許多大學選作自然語言處理或計算語言學的教材,被認為該領域教材的“黃金標準”。
本書*版綜閤瞭自然語言處理、計算語言學和語音識彆的內容,全麵論述計算機自然語言處理,深入探討計算機處理自然語言的詞匯、句法、
語義、語用等各個方麵的問題,介紹瞭自然語言處理的各種現代技術。該版對於*版做瞭全麵的改寫,增加瞭大量反映自然語言處理*成就
的內容,特彆是增加瞭語音處理和統計技術方麵的內容,全書麵貌為之一新。
本書四大特色:
覆蓋全麵 強調實用 注重評測 語料為本
內容提要
從本書*版齣版以來,一直好評如潮,被國外許多大學選作自然語言處理或計算語言學的教材,被認為該領域教材的“黃金標準”。本書*版綜閤瞭自然語言處理、計算語言學和語音識彆的內容,全麵論述計算機自然語言處理,深入探討計算機處理自然語言的詞匯、句法、語義、語用等各個方麵的問題,介紹瞭自然語言處理的各種現代技術。該版對於*版做瞭全麵的改寫,增加瞭大量反映自然語言處理*成就的內容,特彆是增加瞭語音處理和統計技術方麵的內容,全書麵貌為之一新。本書四大特色: 覆蓋全麵 強調實用 注重評測 語料為本內容簡介本書全麵論述瞭自然語言處理技術。本書在*版的基礎上增加瞭自然語言處理的*成就,特彆是增加瞭語音處理和統計技術方麵的內容,全書麵貌為之一新。本書共分五個部分。*部分“詞匯的計算機處理”,講述單詞的計算機處理,包括單詞切分、單詞的形態學、*小編輯距離、詞類,以及單詞計算機處理的各種算法,包括正則錶達式、有限狀態自動機、有限狀態轉錄機、N元語法模型、隱馬爾可夫模型、*熵模型等。第二部分“語音的計算機處理”,介紹語音學、語音閤成、語音自動識彆以及計算音係學。第三部分“句法的計算機處理”,介紹英語的形式語法,講述句法剖析的主要算法,包括CKY剖析算法、Earley剖析算法、統計剖析,並介紹閤一與類型特徵結構、Chomsky層級分類、抽吸引理等分析工具。第四部分“語義和語用的計算機處理”,介紹語義的各種錶示方法、計算語義學、詞匯語義學、計算詞匯語義學,並介紹同指、連貫等計算機話語分析問題。第五部分“應用”,講述信息抽取、問答係統、自動文摘、對話和會話智能代理、機器翻譯等自然語言處理的應用技術。本書寫作風格深入淺齣,實例豐富,引人入勝。本書可作為高等學校自然語言處理或計算語言學的本科生和研究生的教材,也可以作為從事人工智能、自然語言處理等領域的研究人員和技術人員的必備參考。
目錄
第1章導論
1.1語音與語言處理中的知識
1.2歧義
1.3模型和算法
1.4語言、思維和理解
1.5學科現狀與近期發展
1.6語音和語言處理簡史
1.6.1基礎研究:20世紀40年代和20世紀50年代
1.6.2兩個陣營:1957年至1970年
1.6.3四個範型:1970年至1983年
1.6.4經驗主義和有限狀態模型的復蘇:1983年至1993年
1.6.5不同領域的閤流:1994年至1999年
1.6.6機器學習的興起:2000年至2008年
1.6.7關於多重發現
1.6.8心理學的簡要注記
1.7小結
1.8文獻和曆史說明
部分 詞匯的計算機處理
第2章正則錶達式與自動機
2.1正則錶達式
2.1.1基本正則錶達式模式
2.1.2析取、組閤與優先關係
2.1.3一個簡單的例子
2.1.4一個比較復雜的例子
2.1.5高級算符
2.1.6正則錶達式中的替換、存儲器與ELIZA
2.2有限狀態自動機
2.2.1用FSA來識彆羊的語言
2.2.2形式語言
2.2.3其他例子
2.2.4非確定FSA
2.2.5使用NFSA接收符號串
2.2.6識彆就是搜索
2.2.7確定自動機與非確定自動機的關係
2.3正則語言與 FSA
2.4小結
2.5文獻和曆史說明
第3章 詞與轉錄機
3.1英語形態學概觀
3.1.1屈摺形態學
3.1.2派生形態學
3.1.3附著
3.1.4非毗連形態學
3.1.5一緻關係
3.2有限狀態形態剖析
3.3有限狀態詞錶的建造
3.4有限狀態轉錄機
3.4.1定序轉錄機和確定性
3.5用於形態剖析的FST
3.6轉錄機和正詞法規則
3.7把FST詞錶與規則相結閤
3.8與詞錶無關的FST:Porter詞乾處理器
3.9單詞和句子的詞例還原
3.9.1中文的自動切詞
3.10拼寫錯誤的檢查與更正
3.11小編輯距離
3.12人是怎樣進行形態處理的
3.13小結
3.14文獻和曆史說明
第4章 N元語法
4.1語料庫中單詞數目的計算
4.2簡單的(非平滑的)N元語法
4.3訓練集和測試集
4.3.1N元語法及其對訓練語料庫的敏感性
4.3.2未知詞:開放詞匯與封閉詞匯
4.4N元語法的評測:睏惑度
4.5平滑
4.5.1Laplace平滑
4.5.2Good Turing打摺法
4.5.3Good Turing估計的一些高級專題
4.6插值法
4.7迴退法
4.7.1高級專題:計算Katz迴退的α和P*
4.8實際問題:工具包和數據格式
4.9語言模型建模中的高級專題
4.9.1高級的平滑方法:Kneser Ney平滑法
4.9.2基於類彆的N元語法
4.9.3語言模型的自適應和網絡(Web)應用
4.9.4長距離信息的使用:簡要的綜述
4.10信息論背景
4.10.1用於比較模型的交叉熵
4.11高級問題:英語的熵和熵率均衡性
4.12小結
4.13文獻和曆史說明
第5章詞類標注
5.1(大多數)英語詞的分類
5.2英語的標記集
5.3詞類標注
5.4基於規則的詞類標注
5.5基於隱馬爾可夫模型的詞類標注
5.5.1計算可能的標記序列: 一個實例
5.5.2隱馬爾可夫標注算法的形式化
5.5.3使用Viterbi算法來進行HMM標注
5.5.4把HMM擴充到三元語法
5.6基於轉換的標注
5.6.1怎樣應用TBL規則
5.6.2怎樣學習TBL規則
5.7評測和錯誤分析
5.7.1錯誤分析
5.8詞類標注中的高級專題
5.8.1實際問題:標記的不確定性與詞例還原
5.8.2未知詞
5.8.3其他語言中的詞類標注
5.8.4標注算法的結閤
5.9高級專題:拼寫中的噪聲信道模型
5.9.1上下文錯拼更正
5.10小結
5.11文獻和曆史說明
第6章隱馬爾可夫模型與大熵模型
6.1馬爾可夫鏈
6.2隱馬爾可夫模型
6.3似然度的計算:嚮前算法
6.4解碼:Viterbi算法
6.5HMM的訓練:嚮前嚮後算法
6.6大熵模型:背景
6.6.1綫性迴歸
6.6.2邏輯迴歸
6.6.3邏輯迴歸:分類
6.6.4高級專題:邏輯迴歸的訓練
6.7大熵模型
6.7.1為什麼稱為大熵
6.8大熵馬爾可夫模型
6.8.1MEMM的解碼和訓練
6.9小結
6.10文獻和曆史說明
第二部分 語音的計算機處理
第7章語音學
7.1言語語音與語音標音法
7.2發音語音學
7.2.1發音器官
7.2.2輔音:發音部位
7.2.3輔音:發音方法
7.2.4元音
7.2.5音節
7.3音位範疇與發音變異
7.3.1語音特徵
7.3.2語音變異的預測
7.3.3影響語音變異的因素
7.4聲學語音學和信號
7.4.1波
7.4.2語音的聲波
7.4.3頻率與振幅:音高和響度
7.4.4從波形來解釋音子
7.4.5聲譜和頻域
7.4.6聲源濾波器模型
7.5語音資源
7.6高級問題:發音音係學與姿態音係學
7.7小結
7.8文獻和曆史說明
第8章 語音閤成
8.1文本歸一化
8.1.1句子的詞例還原
8.1.2非標準詞
8.1.3同形異義詞的排歧
8.2語音分析
8.2.1查詞典
8.2.2名稱
8.2.3字位-音位轉換
8.3韻律分析
8.3.1韻律的結構
8.3.2韻律的突顯度
8.3.3音調
8.3.4更精巧的模型:ToBI
8.3.5從韻律標記計算音延
8.3.6從韻律標記計算F0
8.3.7文本分析的後結果:內部錶示
8.4雙音子波形閤成
8.4.1建立雙音子數據庫的步驟
8.4.2雙音子毗連和用於韻律的TD-PSOLA
8.5單元選擇(波形)閤成
8.6評測
8.7文獻和曆史說明
第9章語音自動識彆
9.1語音識彆的總體結構
9.2隱馬爾可夫模型應用於語音識彆
9.3特徵抽取:MFCC矢量
9.3.1預加重
9.3.2加窗
9.3.3離散傅裏葉變換
9.3.4Mel濾波器組和對數
9.3.5倒譜:逆嚮傅裏葉變換
9.3.6Delta特徵與能量
9.3.7總結:MFCC
9.4 聲學似然度的計算
9.4.1矢量量化
9.4.2高斯概率密度函數
9.4.3概率、對數概率和距離函數
9.5詞典和語言模型
9.6搜索與解碼
9.7嵌入式訓練
9.8評測:詞錯誤率
9.9小結
9.10文獻和曆史說明
第10章語音識彆:高級專題
10.1多遍解碼:N佳錶和格
10.2A*解碼算法(“棧”解碼算法)
10.3依賴於上下文的聲學模型:三音子
10.4分辨訓練
10.4.1大互信息估計
10.4.2基於後驗分類器的聲學模型
10.5語音變異的建模
10.5.1環境語音變異和噪聲
10.5.2說話人變異和說話人適應
10.5.3發音建模:由於語類的差彆而産生的變異
10.6元數據:邊界、標點符號和不流利現象
10.7人的語音識彆
10.8小結
10.9文獻和曆史說明
第11章計算音係學
11.1有限狀態音係學
11.2高級有限狀態音係學
11.2.1元音和諧
11.2.2模闆式形態學
11.3計算優選理論
11.3.1優選理論中的有限狀態轉錄機模型
11.3.2優選理論的隨機模型
11.4音節切分
11.5音位規則和形態規則的機器學習
11.5.1音位規則的機器學習
11.5.2形態規則的機器學習
11.5.3優選理論中的機器學習
11.6小結
11.7文獻和曆史說明
第三部分句法的計算機處理
第12章英語的形式語法
12.1組成性
12.2上下文無關語法
12.2.1上下文無關語法的形式定義
12.3英語的一些語法規則
12.3.1句子一級的結構
12.3.2子句與句子
12.3.3名詞短語
12.3.4一緻關係
12.3.5動詞短語和次範疇化
12.3.6助動詞
12.3.7並列關係
12.4樹庫
12.4.1樹庫的例子:賓州樹庫課題
12.4.2作為語法的樹庫
12.4.3樹庫搜索
12.4.4中心詞與中心詞的發現
12.5語法等價與範式
12.6有限狀態語法和上下文無關語法
12.7依存語法
12.7.1依存和中心詞之間的關係
12.7.2範疇語法
12.8口語的句法
12.8.1不流暢現象與口語修正
12.8.2口語樹庫
12.9語法和人的語言處理
12.10小結
12.11文獻和曆史說明
第13章句法剖析
13.1剖析就是搜索
13.1.1自頂嚮下剖析
13.1.2自底嚮上剖析
13.1.3自頂嚮下剖析與自底嚮上剖析比較
13.2歧義
13.3麵對歧義的搜索
13.4動態規劃剖析方法
13.4.1CKY剖析
13.4.2Earley算法
13.4.3綫圖剖析
13.5局部剖析
13.5.1基於規則的有限狀態組塊分析
13.5.2基於機器學習的組塊分析方法
13.5.3組塊分析係統的評測
13.6小結
13.7文獻和曆史說明
第14章統計剖析
14.1概率上下文無關語法
14.1.1 PCFG用於排歧
14.1.2PCFG用於語言建模
14.2PCFG的概率CKY剖析
14.3PCFG規則概率的學習途徑
14.4PCFG的問題
14.4.1獨立性假設忽略瞭規則之間的結構依存關係
14.4.2缺乏對詞匯依存關係的敏感性
14.5使用分離非符號的辦法來改進PCFG
14.6概率詞匯化的CFG
14.6.1Collins剖析器
14.6.2高級問題:Collins剖析器更多的細節
14.7剖析器的評測
14.8高級問題:分辨再排序
14.9高級問題:基於剖析器的語言模型
14.10人的剖析
14.11小結
14.12文獻和曆史說明
第15章特徵與閤一
15.1特徵結構
15.2特徵結構的閤一
15.3語法中的特徵結構
15.3.1一緻關係
15.3.2中心語特徵
15.3.3次範疇化
15.3.4長距離依存關係
15.4閤一的實現
15.4.1閤一的數據結構
15.4.2閤一算法
15.5帶有閤一約束的剖析
15.5.1把閤一結閤到Earley剖析器中
15.5.2基於閤一的剖析
15.6類型與繼承
15.6.1高級問題:類型的擴充
15.6.2閤一的其他擴充
15.7小結
15.8文獻和曆史說明
第16章語言和復雜性
16.1Chomsky 層級
16.2怎麼判斷一種語言不是正則的
16.2.1抽吸引理
16.2.2證明各種自然語言不是正則語言
16.3自然語言是上下文無關的嗎
16.4計算復雜性和人的語言處理
16.5小結
16.6文獻和曆史說明
第四部分語義和語用的計算機處理
第17章意義的錶示
17.1意義錶示的計算要求
17.1.1可驗證性
17.1.2無歧義性
17.1.3規範形式
17.1.4推理與變量
17.1.5錶達能力
17.2模型論語義學
17.3一階邏輯
17.3.1一階邏輯基礎
17.3.2變量和量詞
17.3.3λ錶示法
17.3.4一階邏輯的語義
17.3.5推理
17.4事件與狀態的錶示
17.4.1時間錶示
17.4.2體
17.5描述邏輯
作者介紹
Daniel Jurafsky現任斯坦福大學語言學係和計算機科學係副教授。在此之前,他曾在博爾德的科羅拉多大學語言學係、計算機科學係和認知科學研究所任職。他齣生於紐約州的Yonkers,1983年獲語言學學士,1992年獲計算機科學博士,兩個學位都在伯剋利加利福尼亞大學獲得。他於1998年獲得美國國傢基金會CAREER奬,2002年獲得Mac-Arthur奬。他發錶過90多篇論文,內容涉及語音和語音處理的廣泛領域。James H. Martin現任博爾德的科羅拉多大學語言學係、計算機科學係教授,認知科學研究所研究員。他齣生於紐約市,1981年獲可倫比亞大學計算機科學學士,1988年獲伯剋利加利福尼亞大學計算機科學博士。他寫過70多篇關於計算機科學的論著,齣版過《隱喻解釋的計算機模型》(A Computational Model of Metaphor Interpretation)一書。
馮誌偉:先後在北京大學和中國科學技術大學研究生院兩次研究生畢業,獲雙碩士學位。任中國科學技術信息研究所計算中心機器翻譯研究組組長、教育部語言文字應用研究所計算語言學研究室主任、杭州師範大學外國語學院高端特聘教授。長期從事語言學和計算機科學的跨學科研究,是我國計算語言學事業的開拓者之一。在中國,他是中國語文現代化學會副會長、中國應用語言學學會常務理事、中國人工智能學會理事、國傢語言文字工作委員會21世紀語言文字規範(標準)審定委員會委員、全國科學技術名詞審定委員會委員、全國術語標準化技術委員會委員、中國外語教育研究中心學術委員會委員、《數學辭海》總編輯委員會委員、《中國大百科全書》(《語言文字捲》)編輯委員會成員。在國際上,他是TELRI(Trans-European Language Resources Infrastructure)、LREC(Language Resources and Evaluation Conference)、COLING-2010(Computational Linguistics Conference)的顧問委員會委員,並擔任IJCL(International Journal of Corpus Linguistics)、IJCC(International Journal of Chinese and Computing)等重要學術期刊編委以及英國Continuum齣版公司係列叢書Research in Corpus and Discourse編委。承擔國傢自然科學基金項目和國傢社會科學基金項目多項,齣版專著30餘部,發錶論文300餘篇。孫樂:1998年5月畢業於南京理工大學,獲博士學位。1998年9月至2000年10月在中國科學院軟件研究所從事博士後研究,博士後齣站後留研究所工作至今,現為中國科學院軟件研究所基礎軟件國傢工程中心研究員,博士生導師。曾於2003年和2004年,先後在英國Birmingham大學、加拿大Montreal大學做訪問學者,從事平行語料庫和高精度信息檢索方麵的研究。目前主要研究方嚮:基於知識的自然語言理解、下一代信息檢索模型、信息抽取與問答係統等。作為項目負責人承擔國傢自然科學基金項目、國傢“863”項目和國際閤作項目等10餘項,在國內外重要學術刊物和會議上發錶論文80多篇。
文摘
序言
這本書的章節安排非常閤理,循序漸進,層層深入。我最開始關注的是基礎部分的介紹,包括語言的構成、文本預處理的方法,以及一些基本的統計模型。這些內容雖然看似基礎,但卻為後續更復雜的模型打下瞭堅實的基礎。我記得有一個章節詳細介紹瞭各種分詞算法,從傳統的基於詞典的方法到基於統計模型和深度學習的方法,作者都進行瞭深入的分析,並指齣瞭它們各自的優缺點。這讓我意識到,即使是看似簡單的“分詞”,背後也蘊含著如此多的技術細節和研究成果。隨後,我開始接觸到一些更高級的主題,比如語言模型、句法分析、語義理解等。作者在講解這些內容時,並沒有迴避其中的復雜性,而是通過清晰的邏輯和恰當的比喻,將它們化繁為簡。我尤其對書中關於深度學習在自然語言處理中應用的討論印象深刻,例如RNN、LSTM、Transformer等模型的介紹,讓我對當前最前沿的技術有瞭初步的認識。
評分這本書的封麵設計簡潔大氣,黑白為主色調,點綴著一些抽象的綫條,暗示著語言的復雜與精妙。翻開扉頁,墨香撲鼻,紙張的質感也很不錯,這讓我對即將開始的閱讀之旅充滿瞭期待。我一直對人工智能,特彆是它如何理解和生成人類語言的奧秘非常著迷。市麵上關於這個領域的書籍不少,但很多要麼過於淺顯,要麼過於晦澀,難以找到一本真正能夠兼顧深度與廣度,並且能夠引導我深入理解的入門讀物。當我看到這本書的書名,並瞭解到它已經齣瞭第二版,我感到非常興奮。通常來說,第二版意味著作者在第一版的基礎上進行瞭內容更新和修訂,加入瞭最新的研究成果和技術發展,這對於一本快速發展的學科領域來說至關重要。我希望這本書能夠為我打下堅實的理論基礎,讓我能夠理解自然語言處理的基本概念、核心算法和常用技術,並且能夠逐步建立起對更高級話題的認知框架。我尤其希望能夠通過這本書,瞭解當前自然語言處理在實際應用中的一些典型案例,例如智能客服、機器翻譯、文本情感分析等,這樣能夠幫助我更好地將理論知識與實際場景聯係起來。
評分在閱讀過程中,我發現這本書不僅是一本教科書,更像是一位經驗豐富的嚮導,帶領我深入探索自然語言處理的各個分支。我特彆欣賞作者對於不同技術路綫的權衡和對比。例如,在介紹文本分類方法時,作者不僅講解瞭傳統的機器學習方法,如SVM、Naive Bayes,還詳細闡述瞭深度學習方法,如CNN、RNN在文本分類上的應用。通過這樣的對比,我能夠更清晰地認識到不同方法的適用場景和性能差異,從而更好地根據實際需求選擇閤適的技術。書中還涉及瞭非常多的實際應用案例,這讓我的學習不再是紙上談兵。比如,在講到機器翻譯時,作者不僅介紹瞭Seq2Seq模型,還討論瞭Attention機製如何提升翻譯質量,並且引用瞭相關的研究論文和公開數據集,這讓我有機會去進一步查閱和實踐。這種理論與實踐相結閤的講解方式,極大地激發瞭我深入學習的興趣。
評分這本書給我帶來的最大收獲,是讓我建立起瞭一個係統性的知識框架,並深刻體會到瞭自然語言處理學科的博大精深。在閱讀之前,我對這個領域的感覺是零散的、不成體係的。而通過這本書,我仿佛看到瞭一個完整的地圖,清晰地勾勒齣自然語言處理的各個組成部分,以及它們之間的聯係。我理解瞭從最基礎的文本處理到復雜的語義理解,再到最終的應用落地,整個鏈條是如何運作的。作者在書的結尾部分,還對未來發展趨勢進行瞭展望,這讓我對這個領域充滿瞭好奇和期待。我感覺自己已經不再是那個對人工智能一知半解的門外漢,而是能夠站在一個更高的視角,去審視和理解這個正在飛速發展的學科。這本書無疑為我進一步深入研究和學習打開瞭一扇新的大門,我迫不及待地想要將所學的知識應用到實際項目中去。
評分閱讀這本書的過程,我感覺像是踏上瞭一段知識探索的奇妙旅程。作者的文筆流暢生動,即使是復雜的概念,也能用清晰易懂的語言進行闡述,這對於我這樣一個對理論知識的學習者來說,無疑是一種福音。在書中,我仿佛看到瞭一個個鮮活的算法在紙麵上跳躍,感受到瞭模型訓練的嚴謹與精妙。我特彆喜歡書中對每一個核心概念的詳細解讀,不僅僅是給齣定義,更深入地剖析瞭其背後的原理和意義。例如,關於詞嚮量的章節,我不僅瞭解瞭Word2Vec、GloVe等經典模型,還對它們如何捕捉詞語之間的語義關係有瞭更深刻的理解。作者還非常善於通過圖示和實例來輔助說明,這使得抽象的概念變得具象化,大大降低瞭理解的門檻。我甚至可以在腦海中勾勒齣詞嚮量在多維空間中的分布,以及它們如何通過數學運算來反映語言的相似性。這種循序漸進的講解方式,讓我感覺每讀完一個章節,都能感受到自己在知識上的飛躍,信心也隨之倍增。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有