| 書[0名0]: | 基於深度學]習的自然語言處理|7891598 |
| 圖書定價: | 69元 |
| 圖書作者: | (以)約阿夫·戈爾德貝格(Yoav Goldberg) |
| 齣版社: | 機械工業齣版社 |
| 齣版日期: | 2018/5/1 0:00:00 |
| ISBN號: | 9787111593737 |
| 開本: | 16開 |
| 頁數: | 0 |
| 版次: | 1-1 |
| 內容簡介 |
| 本書重點介紹瞭神經網絡模型在自然語言處理中的應用。先介紹有監督的 機器學習和前饋神經網絡的基本知識,如何將機器學習方法應用在自然語言處理中,以及詞嚮量錶示(而不是符號錶示)的應用。然後介紹更多專門的神經網絡結構,包括一維捲積神經網絡、循環神經網絡、條件生成模型和基於注意力的模型。後討論樹形網絡、結構化預測以及多任務學習的前景。 |
| 目錄 |
譯者序 |
| 譯者序 |
| 自然語言處理(Natural Language Processing,NLP)主要研究用計算機來處理、理解以及運用人類語言(又稱自然語言)的各種理論和方法,屬於人工智能領域的一個重要研究方嚮,是計算機科學與語言學的交叉學科,又常被稱為計算語言學。隨著互聯網的快速發展,網絡文本尤其是用戶生成的文本呈爆炸性增長,為自然語言處理帶來瞭巨大的應用需求。同時,自然語言處理研究的進步,也為人們更深刻地理解語言的機理和社會的機製提供瞭一種新的途徑,因此具有重要的科學意義。 然而,自然語言具有歧義性、動態性和非規範性,同時語言理解通常需要豐富的知識和一定的推理能力,這些都給自然語言處理帶來瞭極大的挑戰。目前,統計機器學習技術為以上問題提供瞭一種可行的解決方案,成為研究的主流,該研究領域又被稱為統計自然語言處理。一個統計自然語言處理係統通常由兩部分組成,即訓練數據(也稱樣本)和統計模型(也稱算法)。 但是,傳統的機器學習方法在數據獲取和模型構建等諸多方麵都存在嚴重的問題。首先,為獲得大規模的標注數據,傳統方法需要花費大量的人力、物力、財力,雇用語言學專傢進行繁瑣的標注工作。由於這種方法存在標注代價高、規範性差等問題,很難獲得大規模、高質量的人工標注數據,由此帶來瞭嚴重的數據稀疏問題。其次,在傳統的自然語言處理模型中,通常需要人工設計模型所需要的特徵以及特徵組閤。這種人工設計特徵的方式,需要開發人員對所麵對的問題有深刻的理解和豐富的經驗,這會消耗大量的人力和時間,即便如此也往往很難獲得有效的特徵。 近年來,如火如荼的深度學習技術為這兩方麵的問題提供瞭一種可能的解決思路,有效推動瞭自然語言處理技術的發展。深度學習一般是指建立在含有多層非綫性變換的神經網絡結構之上,對數據的錶示進行抽象和學習的一係列機器學習算法。該方法已對語音識彆、圖像處理等領域的進步起到瞭極大的推動作用,同時也引起瞭自然語言處理領域學者的廣泛關注。 深度學習主要為自然語言處理的研究帶來瞭兩方麵的變化:一方麵是使用統一的分布式(低維、稠密、連續)嚮量錶示不同粒度的語言單元,如詞、短語、句子和篇章等;另一方麵是使用循環、捲積、遞歸等神經網絡模型對不同的語言單元嚮量進行組閤,獲得更大語言單元的錶示。除瞭不同粒度的單語語言單元外,不同種類的語言甚至不同模態(語言、圖像等)的數據都可以通過類似的組閤方式錶示在相同的語義嚮量空間中,然後通過在嚮量空間中的運算來實現分類、推理、生成等各種任務並應用於各種相關的任務之中。 雖然將深度學習技術應用於自然語言處理的研究目前非常熱門,但是市麵上還沒有一本書係統地闡述這方麵的研究進展,初學者往往通過學習一些在綫課程(如斯坦福的CS224N課程)來掌握相關的內容。本書恰好彌補瞭這一不足,深入淺齣地介紹瞭深度學習的基本知識及各種常用的網絡結構,並重點介紹瞭如何使用這些技術處理自然語言。 本書的作者Yoav Goldberg現就職於以色列巴伊蘭大學,是自然語言處理領域一位非常活躍的青年學者。Goldberg博士期間的主要研究方嚮為依存句法分析,隨著深度學習的興起,他也將研究興趣轉移至此,並成功地將該技術應用於依存句法分析等任務。與此同時,他在理論上對詞嵌入和傳統矩陣分解方法的對比分析也具有廣泛的影響力。另外,他還是DyNet深度學習庫的主要開發者之一。可見,無論在理論上還是實踐上,他對深度學習以及自然語言處理都具有非常深的造詣。這些都為本書的寫作奠定瞭良好的基礎。 由於基於深度學習的自然語言處理是一個非常活躍的研究領域,新的理論和技術層齣不窮,因此本書很難涵蓋所有的最新技術。不過,本書基本涵蓋瞭目前已經被證明非常有效的技術。關於這方麵的進展,讀者可以參閱自然語言處理領域最新的論文。 我們要感謝對本書的翻譯有所襄助的老師和學生。本書由哈爾濱工業大學的車萬翔、郭江、張偉男、劉銘四位老師主譯,劉挺教授主審。侯宇泰、薑天文、李傢琦、覃立波、宋皓宇、滕德川、王宇軒、嚮政鵬、張楊子、鄭桂東、硃海潮、硃慶福等對本書部分內容的初譯做瞭很多工作,機械工業齣版社華章公司策劃編輯硃劼和姚蕾在本書的整個翻譯過程中提供瞭許多幫助,在此一並予以衷心感謝。 譯文雖經多次修改和校對,但由於譯者的水平有限,加之時間倉促,疏漏及錯誤在所難免,我們真誠地希望讀者不吝賜教,不勝感激。 車萬翔 2017年10月於哈爾濱工業大學 |
| 前言 |
| 自然語言處理(Natural Language Processing,NLP)這一術語指的是對人類語言進行自動的計算處理。它包括兩類算法:將人類産生的文本作為輸入;産生看上去很自然的文本作為輸齣。由於人類産生的文本每年都在不停增加,同時人們期望使用人類的語言與計算機進行交流,因此人們對該類算法的需求在不斷增加。然而,由於人類語言固有的歧義、不斷變化以及病態性(not well defined),導緻自然語言處理極具挑戰性。 自然語言本質上是符號化的,因此人們最開始也嘗試使用符號化的方式處理語言,即基於邏輯、規則以及本體的方法。然而,自然語言具有很強的歧義性和可變性,這就需要使用統計的方法。事實上,如今自然語言處理的主流方法都是基於統計機器學習(Statistical Machine Learning)的。過去十幾年,核心的NLP技術都是以有監督學習的綫性模型為主導,核心算法如感知機、綫性支持嚮量機、邏輯迴歸等都是在非常高維和稀疏的特徵嚮量上進行訓練的。 2014年左右,該領域開始看到一些從基於稀疏嚮量的綫性模型嚮基於稠密嚮量的非綫性神經網絡模型(Nonlinear Neural Network Model)切換的成功案例。一些神經網絡技術是綫性模型的簡單推廣,可用於替代綫性分類器。另一些神經網絡技術更進一步提齣瞭新的建模方法,這需要改變現有的思維方式。特彆是一係列基於循環神經網絡(Recurrent Neural Network,RNN)的方法,減輕瞭對馬爾可夫假設的依賴性,這曾普遍用於序列模型中。循環神經網絡可以處理任意長度的序列數據,並生成有效的特徵抽取器。這些進展導緻瞭語言模型、自動機器翻譯以及其他一些應用的突破。 雖然神經網絡方法很強大,但是由於各種原因,入門並不容易。本書中,我將試圖為自然語言處理的從業者以及剛入門的讀者介紹神經網絡的基本背景、術語、工具和方法論,幫助他們理解將神經網絡用於自然語言處理的原理,並且能夠應用於他們自己的工作中。我也希望為機器學習和神經網絡的從業者介紹自然語言處理的基本背景、術語、工具以及思維模式,以便他們能有效地處理語言數據。 最後,我希望本書能夠作為自然語言處理以及機器學習這兩個領域新手的一個較好的入門指導。 目標讀者 本書的目標讀者應具有計算機或相關領域的技術背景,他們想使用神經網絡技術來加速自然語言處理的研究。雖然本書的主要讀者是自然語言處理和機器學習領域的研究生,但是我試圖(通過介紹一些高級材料)使自然語言處理或者機器學習領域的研究者,甚至對這兩個領域都不瞭解的人也能閱讀本書,後者顯然需要更加努力。 雖然本書是自包含的,我仍然假設讀者具有數學知識,特彆是本科水平的概率、代數和微積分以及基本的算法和數據結構知識。有機器學習的先驗知識會很有幫助,但這並不是必需的。 本書是對一篇綜述文章[Goldberg, 2016]的擴展,內容上進行瞭重新組織,提供瞭更寬泛的介紹,涵蓋瞭一些更深入的主題,由於各種原因,這些主題沒有在那篇綜述文章中提及。本書也包括一些綜述文章中沒有的,將神經網絡用於語言數據的更具體的應用實例。本書試圖對那些沒有自然語言處理和機器學習背景的讀者也能有用,然而綜述文章假設他們對這些領域已經具備瞭一些知識。事實上,熟悉2006年到2014年期間自然語言處理實踐的讀者,可能發現期刊版本讀起來更快並且對於他們的需求組織得更好,這是因為那段時期人們大量使用基於綫性模型的機器學習技術。然而,這些讀者可能也會願意閱讀關於詞嵌入的章節(第10和11章)、使用循環神經網絡有條件生成的章節(第17章),以及結構化預測和多任務學習(Multi�瞭ask Learning,MTL)的章節(第19和20章)。 本書的焦點 本書試圖是自包含的,因此將不同的方法在統一的錶示和框架下加以錶述。然而,本書的主要目的是介紹神經網絡(深度學習)的機製及其在語言數據上的應用,而不是深入介紹機器學習理論和自然語言處理技術。如果需要這些內容,建議讀者參考外部資源。 類似地,對於那些想開發新的神經網絡機製的人,本書不是一個全麵的資源(雖然本書可能是一個很好的入門)。確切地講,本書的目標讀者是那些對現有技術感興趣,並且想將其以創造性的方式應用於他們喜歡的語言處理任務的人。 擴展閱讀對神經網絡更深入、一般性的討論以及它們背後的理論、最新的優化方法和其他主題,讀者可以參考其他資源。強烈推薦Bengio等人[2016]的書。 對於更友好而且更嚴密的實用機器學習介紹,強烈推薦Daumé III [2015]的免費書。對於機器學習更理論化的介紹,參見Shalev�睸hwartz和Ben�睤avid [2014]的免費書以及Mohri等人[2012]的教科書。 對於自然語言處理的更深入介紹參見Jurafsky和Martin [2008]的書。Manning等人[2008]的信息檢索書也包括語言數據處理的一些相關信息。 最後,如要快速瞭解語言學的背景,Bender [2013]的書提供瞭簡單但全麵的介紹,對於有計算思維的讀者有指導意義。Sag等人[2003]的介紹性語法書的前幾章也值得一讀。 本書寫作之際,神經網絡和深度學習的研究也在快速進展之中。最好的方法在不斷變化,所以我不能保證介紹的都是最新、最好的方法。因此,我會專注於涵蓋更確定、更魯棒的技術(它們在很多場景下都被證明有效),同時選取那些還沒完全發揮作用但有前途的技術。 Yoav Goldberg 2017年3月 |
作為一個對科技發展有著濃厚興趣的普通讀者,我一直很關注人工智能領域的最新動態。這本書的名字聽起來就很吸引人,雖然我不是專業人士,但“深度學習”和“自然語言處理”這兩個詞匯充滿瞭未來感。我一直覺得,能夠讓電腦聽懂我們說話,甚至和我們流暢交流,是一件非常神奇的事情。這本書讓我看到瞭實現這一夢想的可能性。我還沒開始閱讀,隻是被它所傳遞齣的信息所吸引。我希望這本書能夠用比較易懂的方式,嚮我這樣的普通讀者介紹這個復雜的領域,讓我能夠對人工智能的最新進展有一個大概的瞭解,不至於被日新月異的科技浪潮所拋棄。我尤其想知道,這些技術是如何被應用到我們日常生活的方方麵麵的,比如智能手機上的語音助手,或者一些社交媒體上的推薦算法。
評分我是一名在校的計算機科學專業學生,正在尋找能夠加深我對自然語言處理理解的參考書。這本書的名字非常符閤我的學習需求,並且“計算機與互聯網”這個定位也與我的專業方嚮高度契閤。我關注到這本書提及“深度學習”,這正是我目前學習的重點之一。我希望這本書能夠深入講解深度學習在NLP領域的各種模型和算法,比如RNN、LSTM、Transformer等等,並且能夠提供清晰的理論解釋和數學推導。同時,我也希望書中能夠包含一些實際的項目案例和代碼實現,幫助我將理論知識與實踐相結閤。這本書的齣版信息看起來很權威,我已經開始期待它的內容瞭。我希望它能夠成為我學習NLP過程中不可或缺的助手,幫助我更好地掌握這門技術。
評分我是一名軟件開發工程師,日常工作中接觸到很多與互聯網相關的技術,但對於深度學習在自然語言處理領域的應用,我還是處於一個比較初級的階段。聽說這本書在這方麵的內容很紮實,所以就入手瞭。拿到書後,我首先關注的是它的技術深度和理論嚴謹性。我希望這本書能夠提供一些前沿的算法和模型介紹,並且能夠有清晰的數學推導和代碼實現示例。雖然我可能不會立刻將書中的技術應用到我的工作中,但瞭解這些最新的研究成果,能夠幫助我拓寬技術視野,為未來的技術選型和方嚮把握提供參考。這本書的裝幀質量也不錯,紙張的手感很好,排版也比較舒適,適閤長時間閱讀。我現在最想看到的是書中對一些經典NLP任務的深入解析,以及對未來發展趨勢的預測。
評分這本書我前段時間剛拿到手,當時就被它的封麵吸引瞭。簡約大氣的設計,加上“基於深度學習的自然語言處理”這個書名,瞬間就勾起瞭我的興趣。我一直在關注人工智能在各個領域的應用,尤其是自然語言處理,感覺這個方嚮是未來發展的趨勢。這本書的齣現,正好填補瞭我對這方麵知識的空白。拿到書後,我迫不及待地翻開,就被裏麵嚴謹的排版和清晰的圖錶所吸引。雖然我不是專業的計算機科學傢,但我有一定的技術背景,對一些基本概念有所瞭解,所以閱讀起來並沒有感到特彆吃力。我尤其喜歡作者在介紹一些復雜的算法時,能夠循序漸進,從淺入深,用通俗易懂的語言進行解釋,這對於我這種非科班齣身的讀者來說,簡直是福音。我還在猶豫要不要深入學習,畢竟深度學習和自然語言處理都是挺有挑戰性的領域,但這本書的質量和內容的深度,確實讓我動心瞭。
評分最近迷上瞭關於人工智能的書籍,也算是趕上瞭科技發展的潮流吧。這本書的名字聽起來就很高大上,雖然我對於“深度學習”和“自然語言處理”這些術語還不是特彆熟悉,但“計算機與互聯網”這個標簽讓我覺得它應該和我現有的知識體係能接得上。我一直對互聯網的背後技術很感興趣,尤其是那些能夠讓機器“理解”人類語言的技術,感覺像是科幻電影裏的場景,現在竟然變成瞭現實。我還沒來得及仔細閱讀,隻是粗略地翻瞭一下目錄,裏麵的章節安排得很有條理,從基礎概念到具體應用,似乎都有涵蓋。我最期待的是能夠瞭解一些實際的案例,比如機器翻譯、智能客服、情感分析等等,看看這些技術是如何改變我們生活的。這本書會不會成為我打開新世界大門的鑰匙呢?我充滿瞭好奇和期待。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有