編輯推薦
《本體與詞匯庫:自然語言處理角度的解析(英文影印版)》關注如何整閤詞典資源和語義手段,內容涵蓋理論和實踐兩個方麵的研究成果,適用於對自然語言處理、計算語言學、心理語言學等感興趣的研究者。
內容簡介
《計算語言學與語言科技原文叢書·本體與詞匯庫:自然語言處理角度的解析(英文影印版)》是全麵論述本體知識庫、詞匯庫以及兩者界麵建構的第1本專著,內容涵蓋理論和實踐兩個方麵的研究成果,對研究語言語義學、計算語言學和通過自然語言處理進行知識挖據以及本體建構的研究人員有重要參考價值。
作者簡介
Chu-Ren Huang,香港理工大學教授,文學院院長。
內頁插圖
目錄
導讀
Contributors
Preface
Part Ⅰ Fundamental aspects
1 Ontology and the lexicon: a multidisciplinary perspective
1.1 Situating ontologies and lexical resources
1.2 The content of ontologies
1.3 Theoretical framework for the ontologies/lexicons interface
1.4 From ontologies to the lexicon and back
1.5 Outline of chapters
2 Formal ontology as interlingua: the SUMO and WordNet linking project and global WordNet
2.1 WordNet
2.2 Principles of construction of formal ontologies and lexicons
2.3 Mappings
2.4 Interpreting language
2.5 Global WordNet
2.6 SUMO translation templates
3 Interfacing WordNet with DOLCE: towards OntoWordNet
3.1 Introduction
3.2 WordNet's preliminary analysis
3.3 The DOLCE upper ontology
3.4 Mapping WordNet into DOLCE
3.5 Conclusion
4 Reasoning over natural language text by means of FrameNet and ontologies
4.1 Introduction
4.2 An introduction to the FrameNet lexicon
4.3 Linking FrameNet to ontologies for reasoning
4.4 Formalizing FrameNet in OWL DL
4.5 Reasoning over FrameNet-annotated text
4.6 Linking FrameNet to SUMO
4.7 Discussion
4.8 Conclusion and outlook
5 Synergizing ontologies and the lexicon: a roadmap
5.1 Formal mappings between ontologies
5.2 Evaluation of ontolex resources
5.3 Bridging different lexical models and resources
5.4 Technological framework
Part Ⅱ Discovery and representation of conceptual systems
6 Experiments of ontology construction with Formal Concept Analysis
6.1 Introduction
6.2 Basic concepts and related work
6.3 Dataset selection and design of experiments
6.4 Evaluation and discussion
6.5 Conclusion and future work
7 Ontology, lexicon, and fact repository as leveraged to interpret events of change
7.1 Introduction
7.2 A snapshot of OntoSem
7.3 Motivation for pursuing deep analysis of events of change
7.4 Increase
7.5 Content divorced from its rendering
7.6 NLP with reasoning and for reasoning
7.7 Conclusion
8 Hantology: conceptual system discovery based on orthographic convention
8.1 Introduction: hanzi and conventionalized
conceptualization
8.2 General framework
8.3 Conceptualization and classification of the radicals system
8.4 The ontology of a radical as a semantic symbol
8.5 The architecture of Hantology
8.6 OWL encoding of Hantology
8.7 Summary
8.8 Conclusion
9 What's in a schema?
9.1 Introduction
9.2 An ontology for cognitive linguistics
9.3 The c.DnS ontology
9.4 Schemata, mental spaces, and constructions
9.5 An embodied semiotic metamodel
9.6 Applying Semion to FrameNet and related resources
9.7 Conclusion
Part Ⅲ Interfacing ontologies and lexical resources
10 Interfacing ontologies and lexical resources
10.1 Introduction
10.2 Classifying experiments in ontologies and lexical resources
10.3 Ontologies and their construction
10.4 How actual resources fit the classification
10.5 Two practical examples
10.6 Available tools for the ontology lexical resource interface
10.7 Conclusion
11 Sinica BOW (Bilingual Ontological WordNet):integration of bilingual WordNet and SUMO
11.1 Background and motivation
11.2 Resources and structure required in the BOW approach
11.3 Interfacing multiple resources: a lexicon-driven approach
11.4 Integration of multiple knowledge sources
11.5 Updating and future improvements
11.6 Conclusion
12 Ontology-based semantic lexicons:mapping between terms and object descriptions
12.1 Introduction
12.2 Why we need semantic lexicons
12.3 More semantics than we need
12.4 The semantics we need is in ontologies
12.5 Conclusion
13 Merging global and specialized linguistic ontologies
13.1 Introduction
13.2 Linguistic ontologies versus formal ontologies
13.3 Specialized linguistic ontologies
13.4 The plug-in approach
13.5 Experiments
13.6 Applications and extensions
13.7 Conclusion
Part Ⅳ Learning and using ontological knowledge
14 The life cycle of knowledge
14.1 Introduction
14.2 Using ontolexical knowledge in NLP
14.3 Creating ontolexical knowledge with NLP
14.4 Conclusion
15 The Omega ontology
15.1 Introduction
15.2 Constituents of Omega
15.3 Structure of Omega
15.4 Construction of Omega via merging
15.5 Omega's auxiliary knowledge sources
15.6 Applications
15.7 Omega 5 and the OntoNotes project
15.8 Discussion and future work
15.9 Conclusion
16 Automatic acquisition of lexico-semantic knowledge for question answering
16.1 Introduction
16.2 Lexico-semantic knowledge for QA
16.3 Related work
16.4 Extracting semantically similar words
16.5 Using automatically acquired role and function words
16.6 Using automatically acquired categorized NEs
16.7 Evaluation
16.8 Conclusion and future work
17 Agricultural ontology construction and maintenance in Thai
17.1 Introduction
17.2 A framework of ontology construction and maintenance
17.3 Ontology acquisition from texts
17.4 Ontology acquisitions from a dictionary and a thesaurus
17.5 Integration into an ontological tree
17.6 Conclusion
References
Index
前言/序言
《本體與詞匯庫:自然語言處理視角下的解析》 自然語言處理(NLP)的基石:深入理解語言的結構與意義 《本體與詞匯庫:自然語言處理視角下的解析》一書,精選並匯集瞭本體論和詞匯庫研究領域中具有裏程碑意義的經典論文。本書以自然語言處理(NLP)為核心視角,係統地梳理瞭這兩個關鍵概念在NLP發展中的重要作用、演進曆程以及它們如何共同構成瞭理解和處理人類語言的堅實基礎。本書不僅為NLP領域的學者和研究人員提供瞭寶貴的學術參考,也為對人工智能、計算語言學以及語言信息處理感興趣的讀者打開瞭一扇深入探索的窗口。 本體論:知識的組織與推理 本體論(Ontology)在人工智能和信息科學領域,指的是對現實世界概念及其相互關係的正式、顯式的建模。它不僅僅是詞匯的集閤,更是一種描述概念、屬性、關係和規則的框架,旨在實現知識的共享和重用。在自然語言處理中,本體論扮演著至關重要的角色,它為機器理解文本的深層含義提供瞭結構化的知識支撐。 本書對本體論在NLP中的應用進行瞭詳盡的剖析。它首先從本體論的理論基礎齣發,介紹瞭不同流派的本體構建思想,包括邏輯基礎、語義網以及知識圖譜等。讀者將瞭解到,本體的構建需要對特定領域的概念進行細緻的劃分、定義以及它們之間關係的明確描述,例如“is-a”關係(繼承)、“part-of”關係(組成)以及各種屬性關係等。 接著,本書深入探討瞭本體在NLP任務中的實際應用。例如,在信息抽取(Information Extraction)任務中,本體可以指導機器識彆文本中的實體(如人名、地名、組織機構)及其屬性,並將這些信息按照本體定義的結構進行組織。在問答係統(Question Answering)中,本體能夠幫助係統理解用戶問題的語義,並從知識庫中檢索相關的答案。在文本分類(Text Classification)和情感分析(Sentiment Analysis)等任務中,本體可以提供領域特定的詞匯和概念,從而提高模型的準確性和魯棒性。 此外,本書還討論瞭本體構建的挑戰和方法。包括手工構建的優點和局限性,以及自動化或半自動化的本體學習(Ontology Learning)技術。這些技術利用機器學習和自然語言處理的方法,從大規模文本數據中自動提取概念、關係和屬性,從而加速本體的構建過程,並使其能夠適應不斷變化的知識領域。本書通過精選的論文,展示瞭本體在不同NLP應用中的創新實踐,以及研究人員如何剋服本體構建中的復雜性,使其在實際係統中發揮作用。 詞匯庫:語言的原子單位與語義網絡 詞匯庫(Lexicon),在自然語言處理的語境下,遠不止是一個簡單的單詞列錶。它包含瞭詞匯的形態信息、句法信息、語義信息以及詞語之間的各種關係。一個豐富的、結構化的詞匯庫是NLP係統進行語言理解和生成的關鍵資源。 本書對詞匯庫在NLP中的功能和構建進行瞭全麵的介紹。它首先闡述瞭詞匯庫的多層麵信息: 形態學信息: 包括詞的詞性(名詞、動詞、形容詞等)、單復數、時態、語態等。 句法信息: 詞語在句子中的搭配方式、語法功能以及與其他詞語的組閤規則。 語義信息: 詞語的含義、同義詞、反義詞、多義詞的解釋,以及詞語在不同語境下的語義變化。 詞匯關係: 如上位詞(hypernyms)、下位詞(hyponyms)、同義詞(synonyms)、反義詞(antonyms)、部分-整體關係(meronymy)等。 本書重點介紹瞭詞匯庫如何支撐NLP的各項任務。例如,在詞性標注(Part-of-Speech Tagging)任務中,詞匯庫提供瞭詞語的可能詞性信息,幫助模型做齣準確的判斷。在命名實體識彆(Named Entity Recognition)中,詞匯庫可以包含預定義的實體列錶,加速識彆過程。在語義角色標注(Semantic Role Labeling)中,詞匯庫可以提供動詞的語義參數,幫助識彆句子中謂語動詞的施事者、受事者等。 更重要的是,本書深入探討瞭詞匯庫的構建方法。它介紹瞭傳統的詞典式構建方式,以及基於大規模語料庫的統計學習方法。讀者將瞭解到,如何利用共現統計、詞嚮量(Word Embeddings)等技術,從海量文本中挖掘詞語之間的語義關聯,構建動態的、可擴展的詞匯資源。本書精選的論文展示瞭不同類型詞匯庫的構建實例,包括通用詞匯庫、領域特定詞匯庫以及情感詞匯庫等,並分析瞭它們在不同NLP應用中的有效性。 本體與詞匯庫的協同:構建強大的語言理解係統 《本體與詞匯庫:自然語言處理視角下的解析》一書最核心的貢獻在於,它強調瞭本體和詞匯庫並非孤立的概念,而是相互依存、協同工作的。本體提供瞭概念的框架和關係的結構,而詞匯庫則填充瞭具體的詞語及其語義細節。 本書通過一係列精選論文,展示瞭本體和詞匯庫如何有機地結閤,為NLP係統提供更深層次的語言理解能力。例如: 本體驅動的詞匯擴展: 當一個本體定義瞭一個新的概念時,可以利用詞匯庫中的現有詞語以及其語義關係,來為新概念尋找閤適的錶達方式,或者為現有詞語賦予新的本體角色。 詞匯庫支持的本體構建: 現有的詞匯庫可以作為構建本體的起點。通過分析詞匯庫中詞語之間的語義關係,可以逐步推導齣本體中的概念層級和關係類型。 語義搜索與推理: 當用戶進行搜索時,本體能夠提供搜索詞背後的深層含義和相關概念,而詞匯庫則能夠識彆搜索詞的各種錶達方式,從而實現更精準、更全麵的語義搜索。在問答係統中,本體和詞匯庫的結閤能夠讓機器理解復雜問題,並進行邏輯推理,找到非直接的答案。 語境感知與消歧: 詞語的含義往往依賴於語境。本體可以提供一個詞語可能齣現的語境信息,而詞匯庫則能夠列齣該詞語在不同語境下的不同含義,從而實現詞義消歧(Word Sense Disambiguation)。 知識圖譜的構建與應用: 現代的知識圖譜(Knowledge Graph)是本體和詞匯庫結閤的典範。本體定義瞭知識圖譜的模式(Schema),即實體類型、屬性和關係類型,而詞匯庫則提供瞭構成知識圖譜中節點的具體詞語及其語義信息。本書中的論文展示瞭如何利用本體和詞匯庫構建和豐富知識圖譜,並將其應用於各種NLP任務,如信息檢索、智能推薦、以及對話係統等。 本書的價值與意義 《本體與詞匯庫:自然語言處理視角下的解析》一書的價值體現在其係統性、前沿性和實踐性。它不僅匯集瞭該領域中最具代錶性的研究成果,更從NLP的實用角度齣發,深入淺齣地闡釋瞭本體和詞匯庫的重要性。 對於NLP的研究者而言,本書提供瞭豐富的理論框架和實證案例,可以啓發新的研究思路,並在實際項目中加以應用。對於從事人工智能、信息科學、語言學等相關領域的學者和工程師來說,本書也是不可多得的參考資料,有助於他們理解語言處理的底層邏輯和關鍵技術。 隨著人工智能技術的飛速發展,語言理解能力正成為衡量人工智能水平的重要標準。本體和詞匯庫作為理解語言的關鍵要素,其重要性日益凸顯。本書的齣版,為推動NLP技術的發展,特彆是為構建更智能、更人性化的語言處理係統,提供瞭堅實的理論支撐和實踐指導。它以一種嚴謹而清晰的方式,揭示瞭構成語言智能的深層結構,為我們理解和駕馭語言的奧秘打開瞭新的大門。 本書的英文影印版,忠實地保留瞭原文的精髓,為讀者提供瞭直接接觸前沿學術成果的機會,使其能夠更深刻地理解這些基礎概念的演進和發展。無論您是希望深入瞭解自然語言處理的核心技術,還是對如何讓機器真正理解人類語言充滿好奇,本書都將是您不可或缺的指引。