编辑推荐
《词汇频率分布(英文影印版)》充分展示了词频分布的理论模型与实际数据之间统一与多元的关系、数值指标和直观图示之间矛盾与和谐的地方,其中很多开放问题有待于进一步探索;导读也力图在书中发现一些值得进一步思考和探索的问题,帮助读者更快速地接近前沿。
内容简介
《词汇频率分布(英文影印版)》是“计算语言学与语言科技原文丛书”中的一册,在GoogleScholar上已被引用数百次,以直观的图形,简练的文字对词频分布作了一次系统梳理,并有作者的一些独到见解,开此领域先河,也为不同领域的读者了解词频分布规律开启了一扇窗,为有志进一步探索词频分布奥秘的研究者打开了一扇门。
作者简介
(荷兰)巴因,荷兰奈梅亨大学教授。
目录
List of Figures
List of Tables
导 读
Introduction
1 Word Frequencies
1.1 Introduction
1.2 The frequency spectrum
1.3 Zipf
1.4 The quest for characteristic constants
1.5 The lognormal distribution
1.6 Discussion
1.7 Bibliographical Comments
1.8 Questions
2 Non-parametric models
2.1 Basic concepts .
2.2 The Um model .
2.3 The Structural Type Distribution
2.4 The LNRE zone
2.5 Good-Turing estimates
2.6 Interpolation and Extrapolation
2.6.1 Interpolation
2.6.2 Extrapolation
2.7 Discussion
2.8 Bibliographical Comments
2.9 Questions
3 Parametric models
3.1 Introduction
3.2 LNRE models
3.2.1 The Lognormal Structural Type Distribution
3.2.2 The Generalized Inverse Gauss-Poisson Structural Type
Distribution
3.2.3 The Zipfian Family of LNRE Models
3.3 Evaluating Goodness of Fit
3.4 Parameter estimation
3.5 A comparative study
3.6 Comparing Lexical Measures Across Texts
3.7 Discussion
3.8 Bibliographical Comments
3.9 Questions
4 Mixture distribution尽
4.1 Introduction
4.2 Expectations, variances, and covariances
4.3 Examples of mixture distributions
4.3.1 A text-level mixture model
4.3.2 Morphological mixtures
4.4 Morphological Productivity
4.5 Discussion
4.6 Bibliographical Comments
4.7 Questions
5 The Randomness Assumption
5.1 The Randomness Assumption
5.1.1 Non-randomness and lexical specialization
5.1.2 Consequences of non-randomness
5.2 Adjusted LNRE models
5.2.1 Partition-based adjustment
5.2.2 Parameter-based adjustment
5.3 Discussion
5.4 Bibliographical Comments
6 Examples of Applications
6.1 Distributional properties of the lexicon
6.1.1 Word leng? and sample size
6.1.2 Matching reliability across corpora
6.2 Morphological productivity
6.2.1 Global analyses
6.2.2 Productivity and register
6.3 Authorship and Style
6.4 Beyond word frequency distributions
6.4.1 Counts of filarial worms on mites on rats
6.4.2 Year references
6.3 CV-structures .
6.4.4 Word pairs
6.4.5 Discussion
6.5 Some practical guidelines
A List of Symbols
B Solutions to the exercises
C Software
D Data sets
Bibliography
Index
前言/序言
《词汇频率分布》(英文影印版)背后的世界:语言的脉搏与思维的疆域 语言,是人类最伟大的发明之一,它不仅是沟通的工具,更是思维的载体,是文化传承的基石。而在这浩瀚无垠的语言海洋中,词汇的出现频率,就像潮汐的涨落,隐藏着关于语言结构、认知规律以及人类文明演变的深刻信息。本书,即《词汇频率分布》(英文影印版),正是致力于揭示这一语言学中最基本却又至关重要的现象。它并非孤立的学术研究,而是通往理解人类语言运作机制、探索认知科学前沿,乃至洞察社会文化变迁的一扇重要窗口。 一、 词汇频率:语言的“指纹”与“DNA” 想象一下,如果将世界上所有的书籍、文章、对话、新闻报道乃至社交媒体上的文字进行一次史无前例的统计,我们会发现,并非所有的词汇都拥有同样的身家。有些词,如“的”、“是”、“一”、“个”,以惊人的密度出现在我们日常的交流中,它们构成了语言的骨架,支撑着句子的基本结构。而另一些词,例如“量子纠缠”、“星际穿越”、“新古典主义”,则相对稀少,它们可能出现在特定学科领域、文学作品中,或是代表着新近产生的概念。 这种“多寡不一”的现象,便是词汇频率分布(Lexical Frequency Distribution)。它揭示了一个普遍存在的规律:在任何自然语言中,少数词汇的出现频率极高,而绝大多数词汇的出现频率则相对较低。这个规律,在语言学中被称为“齐夫定律”(Zipf's Law),它不仅仅是一个统计学上的发现,更深刻地反映了语言的经济性原则——人类倾向于使用最有效率的表达方式,而高频词正是这种效率的集中体现。 《词汇频率分布》(英文影印版)正是从这个基础出发,深入剖析了词汇频率分布的形成机制、数学模型及其在语言学研究中的意义。它会引导读者认识到,词汇频率并非随意分布,而是受到多种因素的共同作用: 语言的内在结构: 语法功能词(如冠词、介词、连词)由于承担着连接词语、构建句法结构的重要功能,其出现频率自然会远高于内容词(名词、动词、形容词)。 人类的认知与记忆: 人类的大脑在处理和记忆信息时,倾向于优先掌握和使用那些最为常见、最为核心的元素。高频词因此更容易被识别、理解和产出。 社会文化的需求: 语言是社会生活的反映。社会生活中频繁出现的事物、概念、行为,其对应的词汇自然也就拥有更高的使用频率。例如,在信息时代,“互联网”、“社交”、“数据”等词汇的频率显著上升。 语言的演变与发展: 随着时间的推移,语言也在不断变化。新词汇的产生、旧词汇的消亡、词汇含义的演变,都可能影响其频率分布。 通过对这些因素的细致探讨,本书将揭示词汇频率分布不仅仅是文字的简单计数,更是语言活力、使用者习惯乃至社会文化变迁的“活化石”。 二、 跨越学科的视角:从语言学到认知科学与计算科学 《词汇频率分布》(英文影印版)的价值,远不止于语言学本身。它提供的视角,具有强大的跨学科渗透力,能够为其他领域的研究者带来深刻的启发: 语言学研究的基石: 对于语言学家而言,词汇频率分布是分析语言结构、研究语言演变、构建语言理论的根本性依据。例如,在词典编纂中,高频词是首先被收录和详尽解释的对象;在句法分析中,高频词的出现模式往往具有显著的规律性;在语言习得研究中,学习者对高频词的掌握程度是衡量其语言能力的重要指标。本书的深入分析,将为语言学研究提供坚实的理论与实证支持。 认知科学的窗口: 人类的大脑是如何处理和理解语言的?词汇频率分布为我们提供了一个独特的观察视角。研究发现,大脑对高频词的加工速度更快,更容易被提取和识别。这与我们对事物经验的积累以及记忆的存储方式息息相关。本书的讨论,将有助于认知科学家理解语言信息在人脑中的表征与加工机制,探索语言与记忆、注意、学习等认知过程之间的复杂联系。例如,通过分析不同年龄段、不同语言背景人群的词汇频率分布差异,可以揭示语言发展与认知能力发展的同步性。 计算语言学与自然语言处理的引擎: 在当今人工智能飞速发展的时代,计算语言学和自然语言处理(NLP)已经成为热门领域。《词汇频率分布》为这些领域提供了至关重要的基础理论和数据支持。 文本分析与信息检索: 搜索引擎、智能推荐系统等,都需要基于对文本中词汇频率的理解来构建索引、进行匹配和排序。高频词和低频词在信息检索中的作用是截然不同的。 机器翻译: 翻译模型需要准确预测源语言和目标语言中的词汇出现概率,以生成最自然的翻译结果。词汇频率是影响翻译质量的重要因素之一。 文本生成与摘要: 智能写作工具、自动摘要系统等,也需要模拟人类的语言习惯,合理运用词汇,而词汇频率正是模拟这种习惯的关键参数。 语言建模: 语言模型的核心任务之一就是预测下一个词的出现概率,而词汇频率是构建有效语言模型的基础。 本书的内容,将为从事这些计算科学研究的工程师和学者提供理论上的指导和实践上的参考。 三、 《词汇频率分布》(英文影印版)的探索之旅 《词汇频率分布》(英文影印版)并非一本简单的统计报告,它是一次深入的探索之旅,将带领读者: 认识词汇频率的测量方法: 从语料库的构建,到词汇的统计与清洗,再到各种度量指标(如绝对频率、相对频率、TF-IDF等)的介绍,本书将清晰地展示如何科学地测量和分析词汇频率。 理解词汇频率的数学模型: 深入探讨齐夫定律及其各种变体,理解幂律分布(power-law distribution)在词汇频率中的体现,并可能涉及更复杂的统计模型,以解释高频词和低频词的分布规律。 分析词汇频率与语言现象的关联: 探讨词汇频率如何影响词语的意义稳定性、学习难度、语音加工速度,以及在不同语篇类型(如科学论文、新闻报道、口语对话)中的差异。 洞察词汇频率在跨语言研究中的应用: 比较不同语言的词汇频率分布特点,揭示语言共性与特性,为语言习得、对外汉语教学等提供依据。 探索词汇频率在社会文化变迁中的痕迹: 通过比较不同时期语料库的词汇频率分布,可以观察社会热点、科技发展、文化思潮的变迁,例如,某一时期某个领域的词汇频率急剧上升,往往预示着该领域的研究或应用进入了爆发期。 结语: 《词汇频率分布》(英文影印版)是一部关于语言本质、认知规律以及信息时代技术基石的深刻著作。它以严谨的科学态度,揭示了隐藏在日常交流中的深刻规律,为语言学、认知科学、计算科学等领域的研究者和实践者提供了宝贵的知识财富。阅读此书,如同聆听语言的脉搏,触摸思维的疆域,最终将帮助我们更深刻地理解人类自身以及我们所构建的这个充满语言的丰富世界。它不仅仅是提供知识,更是一种思维方式的启发,一种探索未知的邀请。