内容简介
计算语言学研究滥觞于上世纪五六十年代的机器翻译研究。中文的相关研究也几乎同步开始,1960年起在柏克莱加州大学研究室,王士元、邹嘉彦、C.Y.Dougherty等人已开始研究中英、中俄机器翻译。他们的中文计算语言学研究,可说是与世界最尖端科技同步的。
内页插图
目录
导读
Preface
Acknowledgements
Introduction
1.1 What This Book Is About
1.1.1 Why Do Spoken Language Translation?
1.1.2 What Are the Basic Problems?
1.1.3 What Is It Realistic to Attempt Today?
1.1.4 What Have We Achieved?
1.2 Overall System Architecture
1.3 An Illustrative Example
1.4 In Defence of Hand-Coded Grammars
1.5 Hybrid Transfer
1.5.1 The Need for Grammatical Knowledge
1.5.2 The Need for Preferences
1.6 Speech Processing
1.7 Corpora
Part 1 Language Processing and Corpora
Translation Using the Core Language Engine
2.1 Introduction: Multi-Engine Translation
2.2 Word-to-Word Translation
2.3 Quasi Logical Form
2.3.1 Introduction
2.3.2 Structure of QLF
2.3.3 QLF as a Transfer Formalism: Examples
2.3.4 Head-Head Relations in QLF
2.4 Unification Grammar and QLFs
2.4.1 The CLE Unification Grammar Formalism
2.4.2 Unification Grammar Example: French Noun Phrases
2.4.3 Example 2a: Clauses in Swedish
2.4.4 Example 2b: Relative Clauses in Swedish
2.5 Orthographic Analysis and the Lexicon
2.6 Transfer Rules
2.6.1 Pre- and Posttransfer
2.7 The QLF-Based Processing Path
2.7.1 Linguistic Analysis
2.7.2 Transfer and Transfer Preferences
2.7.3 Generation
2.8 Summary
Grammar Specialisation
3.1 Introduction
3.2 Explanation-Based Learning for Grammar
Specialisation
3.2.1 A Definition of Explanation-Based Learning
3.2.2 Explanation-Based Learning on Unification Grammars
3.2.3 Category Specialisation
3.2.4 Elaborate Cutting-Up Criteria
3.3 An LR Parsing Method for Specialised Grammars
3.3.1 Basic LR Parsing
3.3.2 Prefix Merging
3.3.3 Abstraction
3.4 Empirical Results
3.4.1 Experimental Setup
3.4.2 Discussion of Results
3.5 Conclusions
Choosing among Interpretations
4.1 Properties and Discriminants
4.2 Constituent Pruning
4.2.1 Discriminants for Pruning
4.2.2 Deciding Which Edges to Prune
4.2.3 Probability Estimates for Discriminants
4.2.4 Relation to Other Pruning Methods
4.3 Choosing among QLF Analyses
4.3.1 Analysis Choice: An Example
4.3.2 Further Advantages of a Discriminant Scheme .
4.3.3 Numerical Metrics
4.4 Choosing among Transferred QLFs
4.5 Choosing Paths in the Chart
The TreeBanker
5.1 Motivation
5.2 Representational Issues
5.3 Overview of the TreeBanker
5.4 The Supervised Training Process
5.4.1 Properties and Discriminants in Training
5.4.2 Additional Functionality
5.5 Training for Transfer Choice
5.6 Evaluation and Conclusions
Acquisition of Lexical Entries
6. 1 The Lexical Acquisition Tool, LexMake
6.2 Acquiring Word-to-Word Transfer Rules
6.3 Evaluation and Conclusions
Spelling and Morphology
7.1 Introduction
7.2 The Description Language
7.2.1 Morphophonology
7.2.2 Word Formation and Interfacing to Syntax
7.3 Compilation
7.3.1 Compiling Spelling Patterns
7.3.2 Representing Lexical Roots
7.3.3 Applying Obligatory Rules
7.3.4 Interword Rules
7.3.5 Timings
7.4 Some Examples
7.4.1 Multiple-Letter Spelling Changes
7.4.2 Using Features to Control Rule Application
7.4.3 Interword Spelling Changes
7.5 Debugging the Rules
……
Part 2 Linguistic Coverage
Part 3 Speech Processing
精彩书摘
棒性和系统的自适应能力。同书面语相比,口语的声学特性有一定的特殊性,这类语音的基频、时长、幅度等特征都随表达内容、感情色彩等不同,变化的范围比朗读语音大得多,同时还有非语声信号和噪声,充分研究这些特性,建立精细的声学模型非常重要。而且,讲话人往往是在较强的背景噪声或多讲话人环境下发音的,如果是电话自动语音翻译系统,还存在通讯干扰等其他因素的影响,因此,提高语音识别在不同说话人、不同声学环境及通道条件下的鲁棒性,在口语翻译系统中尤其重要。另外,在语言学层面,口语句子中含有大量的修正、重复、口头语、省略等非规范语言现象,研究这些特征,对语言模型进行完善,包括建模、算法和训练等各个方面,将有助于提高语音识别的正确率。
(2)翻译方法有待于进一步研究。尽管统计翻译方法具有较高的鲁棒性,但是,对非规范语言现象和噪声的处理能力仍然十分有限,而且这种方法与训练语料的规模和质量密切相关。统计方法与规则方法的结合一直是人们所追求的,但是具体如何融合,多翻译引擎以什么样的集成方式可以获得最好的系统性能,统计模型赖以训练的语料规模达到多大才算充分,非语言信息(手势、表情、说话人角色等)如何融人翻译模型等,诸多问题都远远没有得到解决。
……
前言/序言
计算语言学(Computational Lingljistics,CL)在语言科学与信息科学的研究领域扮演关键性的角色。语言学理论寻求对语言现象规律性的揭示与完整的解释。计算语言学正好提供了验证与应用这些规律与解释的大好机会。作为语言学、信息科学乃至于心理学与认知科学结合的交叉学科,计算语言学更提供了语言学基础研究与应用研究的绝佳界面。事实上,计算语言学与人类语言科技(Human Langllage Technology,HLT)可以视为一体两面,不可分割。
计算语言学研究滥觞于上世纪五六十年代的机器翻译研究。中文的相关研究也几乎同步开始,1960年起在柏克莱加州大学研究室,王士元、邹嘉彦、C.Y.Dougherty等人已开始研究中英、中俄机器翻译。他们的中文计算语言学研究,可说是与世界最尖端科技同步的。中国国内中俄翻译研究也不遑多让,大约在上世纪50年代中期便已开始。可惜的是,这些中文相关早期机器翻译研究,由于硬件与软件的限制,没能延续下来。中文计算语言学研究比较有系统的进展,还要等到1986年;海峡两岸在同一年成立了两个致力于中文计算语言学基础架构建立的研究群。北京大学的计算语言学研究所在朱德熙先生倡导下成立,随后一段时间由陆俭明、俞士汶主持。而台湾“中研院”的中文词知识库小组,由谢清俊创立,陈克健主持,黄居仁1987年返台后加入。
口语机器翻译 电子书 下载 mobi epub pdf txt