词汇频率分布（英文影印版） pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[荷兰] 巴因（Baayen，R.，H.）著

图书标签:

词汇
频率
分布
英文
语言学
语料库
文本分析
统计语言学
英语学习
词汇研究

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

book.coffeedeals.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：北京大学出版社

ISBN：9787301263570

版次：1

商品编码：11876395

包装：平装

丛书名：计算语言学与语言科技原文丛书

开本：16开

出版时间：2016-02-01

用纸：胶版纸

页数：376

字数：409000

具体描述

编辑推荐

　　《词汇频率分布（英文影印版）》充分展示了词频分布的理论模型与实际数据之间统一与多元的关系、数值指标和直观图示之间矛盾与和谐的地方，其中很多开放问题有待于进一步探索；导读也力图在书中发现一些值得进一步思考和探索的问题，帮助读者更快速地接近前沿。

内容简介

　　《词汇频率分布（英文影印版）》是“计算语言学与语言科技原文丛书”中的一册，在GoogleScholar上已被引用数百次，以直观的图形，简练的文字对词频分布作了一次系统梳理，并有作者的一些独到见解，开此领域先河，也为不同领域的读者了解词频分布规律开启了一扇窗，为有志进一步探索词频分布奥秘的研究者打开了一扇门。

作者简介

　　（荷兰）巴因，荷兰奈梅亨大学教授。

List of Figures
List of Tables
导读
Introduction

1 Word Frequencies
1.1 Introduction
1.2 The frequency spectrum
1.3 Zipf
1.4 The quest for characteristic constants
1.5 The lognormal distribution
1.6 Discussion
1.7 Bibliographical Comments
1.8 Questions
2 Non-parametric models
2.1 Basic concepts .
2.2 The Um model .
2.3 The Structural Type Distribution
2.4 The LNRE zone
2.5 Good-Turing estimates
2.6 Interpolation and Extrapolation
2.6.1 Interpolation
2.6.2 Extrapolation
2.7 Discussion
2.8 Bibliographical Comments
2.9 Questions
3 Parametric models
3.1 Introduction
3.2 LNRE models
3.2.1 The Lognormal Structural Type Distribution
3.2.2 The Generalized Inverse Gauss-Poisson Structural Type
Distribution
3.2.3 The Zipfian Family of LNRE Models
3.3 Evaluating Goodness of Fit
3.4 Parameter estimation
3.5 A comparative study
3.6 Comparing Lexical Measures Across Texts
3.7 Discussion
3.8 Bibliographical Comments
3.9 Questions
4 Mixture distribution尽
4.1 Introduction
4.2 Expectations, variances, and covariances
4.3 Examples of mixture distributions
4.3.1 A text-level mixture model
4.3.2 Morphological mixtures
4.4 Morphological Productivity
4.5 Discussion
4.6 Bibliographical Comments
4.7 Questions
5 The Randomness Assumption
5.1 The Randomness Assumption
5.1.1 Non-randomness and lexical specialization
5.1.2 Consequences of non-randomness
5.2 Adjusted LNRE models
5.2.1 Partition-based adjustment
5.2.2 Parameter-based adjustment
5.3 Discussion
5.4 Bibliographical Comments
6 Examples of Applications
6.1 Distributional properties of the lexicon
6.1.1 Word leng? and sample size
6.1.2 Matching reliability across corpora
6.2 Morphological productivity
6.2.1 Global analyses
6.2.2 Productivity and register
6.3 Authorship and Style
6.4 Beyond word frequency distributions
6.4.1 Counts of filarial worms on mites on rats
6.4.2 Year references
6.3 CV-structures .
6.4.4 Word pairs
6.4.5 Discussion
6.5 Some practical guidelines
A List of Symbols
B Solutions to the exercises
C Software
D Data sets
Bibliography
Index

前言/序言

《词汇频率分布》（英文影印版）背后的世界：语言的脉搏与思维的疆域语言，是人类最伟大的发明之一，它不仅是沟通的工具，更是思维的载体，是文化传承的基石。而在这浩瀚无垠的语言海洋中，词汇的出现频率，就像潮汐的涨落，隐藏着关于语言结构、认知规律以及人类文明演变的深刻信息。本书，即《词汇频率分布》（英文影印版），正是致力于揭示这一语言学中最基本却又至关重要的现象。它并非孤立的学术研究，而是通往理解人类语言运作机制、探索认知科学前沿，乃至洞察社会文化变迁的一扇重要窗口。一、词汇频率：语言的“指纹”与“DNA” 想象一下，如果将世界上所有的书籍、文章、对话、新闻报道乃至社交媒体上的文字进行一次史无前例的统计，我们会发现，并非所有的词汇都拥有同样的身家。有些词，如“的”、“是”、“一”、“个”，以惊人的密度出现在我们日常的交流中，它们构成了语言的骨架，支撑着句子的基本结构。而另一些词，例如“量子纠缠”、“星际穿越”、“新古典主义”，则相对稀少，它们可能出现在特定学科领域、文学作品中，或是代表着新近产生的概念。这种“多寡不一”的现象，便是词汇频率分布（Lexical Frequency Distribution）。它揭示了一个普遍存在的规律：在任何自然语言中，少数词汇的出现频率极高，而绝大多数词汇的出现频率则相对较低。这个规律，在语言学中被称为“齐夫定律”（Zipf's Law），它不仅仅是一个统计学上的发现，更深刻地反映了语言的经济性原则——人类倾向于使用最有效率的表达方式，而高频词正是这种效率的集中体现。《词汇频率分布》（英文影印版）正是从这个基础出发，深入剖析了词汇频率分布的形成机制、数学模型及其在语言学研究中的意义。它会引导读者认识到，词汇频率并非随意分布，而是受到多种因素的共同作用：语言的内在结构：语法功能词（如冠词、介词、连词）由于承担着连接词语、构建句法结构的重要功能，其出现频率自然会远高于内容词（名词、动词、形容词）。人类的认知与记忆：人类的大脑在处理和记忆信息时，倾向于优先掌握和使用那些最为常见、最为核心的元素。高频词因此更容易被识别、理解和产出。社会文化的需求：语言是社会生活的反映。社会生活中频繁出现的事物、概念、行为，其对应的词汇自然也就拥有更高的使用频率。例如，在信息时代，“互联网”、“社交”、“数据”等词汇的频率显著上升。语言的演变与发展：随着时间的推移，语言也在不断变化。新词汇的产生、旧词汇的消亡、词汇含义的演变，都可能影响其频率分布。通过对这些因素的细致探讨，本书将揭示词汇频率分布不仅仅是文字的简单计数，更是语言活力、使用者习惯乃至社会文化变迁的“活化石”。二、跨越学科的视角：从语言学到认知科学与计算科学《词汇频率分布》（英文影印版）的价值，远不止于语言学本身。它提供的视角，具有强大的跨学科渗透力，能够为其他领域的研究者带来深刻的启发：语言学研究的基石：对于语言学家而言，词汇频率分布是分析语言结构、研究语言演变、构建语言理论的根本性依据。例如，在词典编纂中，高频词是首先被收录和详尽解释的对象；在句法分析中，高频词的出现模式往往具有显著的规律性；在语言习得研究中，学习者对高频词的掌握程度是衡量其语言能力的重要指标。本书的深入分析，将为语言学研究提供坚实的理论与实证支持。认知科学的窗口：人类的大脑是如何处理和理解语言的？词汇频率分布为我们提供了一个独特的观察视角。研究发现，大脑对高频词的加工速度更快，更容易被提取和识别。这与我们对事物经验的积累以及记忆的存储方式息息相关。本书的讨论，将有助于认知科学家理解语言信息在人脑中的表征与加工机制，探索语言与记忆、注意、学习等认知过程之间的复杂联系。例如，通过分析不同年龄段、不同语言背景人群的词汇频率分布差异，可以揭示语言发展与认知能力发展的同步性。计算语言学与自然语言处理的引擎：在当今人工智能飞速发展的时代，计算语言学和自然语言处理（NLP）已经成为热门领域。《词汇频率分布》为这些领域提供了至关重要的基础理论和数据支持。文本分析与信息检索：搜索引擎、智能推荐系统等，都需要基于对文本中词汇频率的理解来构建索引、进行匹配和排序。高频词和低频词在信息检索中的作用是截然不同的。机器翻译：翻译模型需要准确预测源语言和目标语言中的词汇出现概率，以生成最自然的翻译结果。词汇频率是影响翻译质量的重要因素之一。文本生成与摘要：智能写作工具、自动摘要系统等，也需要模拟人类的语言习惯，合理运用词汇，而词汇频率正是模拟这种习惯的关键参数。语言建模：语言模型的核心任务之一就是预测下一个词的出现概率，而词汇频率是构建有效语言模型的基础。本书的内容，将为从事这些计算科学研究的工程师和学者提供理论上的指导和实践上的参考。三、《词汇频率分布》（英文影印版）的探索之旅《词汇频率分布》（英文影印版）并非一本简单的统计报告，它是一次深入的探索之旅，将带领读者：认识词汇频率的测量方法：从语料库的构建，到词汇的统计与清洗，再到各种度量指标（如绝对频率、相对频率、TF-IDF等）的介绍，本书将清晰地展示如何科学地测量和分析词汇频率。理解词汇频率的数学模型：深入探讨齐夫定律及其各种变体，理解幂律分布（power-law distribution）在词汇频率中的体现，并可能涉及更复杂的统计模型，以解释高频词和低频词的分布规律。分析词汇频率与语言现象的关联：探讨词汇频率如何影响词语的意义稳定性、学习难度、语音加工速度，以及在不同语篇类型（如科学论文、新闻报道、口语对话）中的差异。洞察词汇频率在跨语言研究中的应用：比较不同语言的词汇频率分布特点，揭示语言共性与特性，为语言习得、对外汉语教学等提供依据。探索词汇频率在社会文化变迁中的痕迹：通过比较不同时期语料库的词汇频率分布，可以观察社会热点、科技发展、文化思潮的变迁，例如，某一时期某个领域的词汇频率急剧上升，往往预示着该领域的研究或应用进入了爆发期。结语：《词汇频率分布》（英文影印版）是一部关于语言本质、认知规律以及信息时代技术基石的深刻著作。它以严谨的科学态度，揭示了隐藏在日常交流中的深刻规律，为语言学、认知科学、计算科学等领域的研究者和实践者提供了宝贵的知识财富。阅读此书，如同聆听语言的脉搏，触摸思维的疆域，最终将帮助我们更深刻地理解人类自身以及我们所构建的这个充满语言的丰富世界。它不仅仅是提供知识，更是一种思维方式的启发，一种探索未知的邀请。

用户评价

评分☆☆☆☆☆

坦白讲，我对于需要大量图表和公式支撑的学术材料天生就有一种抗拒感。我的阅读习惯更偏向于叙事性和体验性更强的作品。我更享受那种跟随一个引人入胜的故事线，沉浸在作者精心构建的世界里，体验角色的喜怒哀乐，或者跟随一位历史学家的脚步，重温一段波澜壮阔的历史进程。比如，我最近读的一本关于中世纪手抄本制作过程的非虚构作品，详细描述了羊皮纸的准备、墨水的熬制，以及抄写员在昏暗烛光下工作的每一个细节，那种身临其境的感受是无与伦比的。而《词汇频率分布》，恕我直言，它似乎将语言的生命力压缩在了枯燥的数字区间内。对我而言，词汇的“价值”不在于它出现的次数，而在于它在特定语境下所能激发的联想和情感共鸣。我更愿意花时间去研究一本古典诗集中的某个生僻字，探究它在不同朝代中的意义漂移，而不是去统计它在整个语料库中的出现率。这本书的取向，与我追求的“有血有肉”的阅读体验背道而驰。

评分☆☆☆☆☆

这本书的英文影印版特性也让我有些犹豫。我深知原版的重要性，但作为一个非专业的语言学研究者，面对原版的学术术语和复杂的表达方式，常常需要花费大量的精力去理解字面意思，这极大地分散了我对核心概念的把握。我通常更喜欢那些经过精心翻译和本土化处理的中文版本，尤其是一些优秀译者会加入翔实的注释和背景介绍，这些“润滑剂”能帮助我这样的普通读者更顺畅地消化深奥的知识。我更热衷于那些能够跨越语言障碍，直接触及人类共通情感和智慧的作品，比如古希腊的悲剧选集，即使是通过译本阅读，其普世的人性探讨依旧震撼人心。这本《词汇频率分布》如果放在书架上，很可能因为其专业性和阅读门槛，成为一本“只供瞻仰”的摆设。我更愿意去读那些能够立刻引发我思考，并且能够用日常语言进行有效交流的著作，而不是需要我反复查阅词典才能勉强跟上节奏的硬核文献。

评分☆☆☆☆☆

说实话，当我翻开这本书的封面时，心里涌起的是一种复杂的情绪——敬畏中带着一丝疏离。我一直认为，阅读的乐趣在于探索未知、感受思想的碰撞，最好是能被作者的个人魅力和独到见解所深深吸引。我更倾向于那些充满思辨色彩的哲学著作，比如早年读过的关于时间本质的讨论，那种层层递进的逻辑推演和对宏大命题的追问，能让我感觉自己的思维边界被不断拓宽。这本书给我的直观感受是，它似乎将语言——这个人类最富于创造力和变幻莫测的工具——硬生生地切割、量化，然后铺陈成一张密密麻麻的表格。这就像是欣赏一幅印象派大师的画作，别人看到了色彩的流动和光影的捕捉，而我却只想知道画家当时的心情和画笔的轨迹。我更喜欢那种能够带着我一同进入文本“内部”的作品，比如一本优秀的文学批评，它会像一把精巧的手术刀，剖开作品的肌理，展示其内部的运作机制，但同时又会充满了对创作者的同理心。这本《词汇频率分布》，给我的感觉更像是一份详尽的材料清单，虽然重要，但终究缺乏了最终产品的灵魂与温度。

评分☆☆☆☆☆

这本赫然摆在书架上的《词汇频率分布（英文影印版）》，光是书名就透着一股冷峻的学术气息，想必是为那些对语言的底层结构有着近乎痴迷的学者或高阶学习者准备的“兵器”。我拿到它时，首先被它厚重的装帧和略显陈旧的排版所吸引，那种纸张特有的、略带霉味的陈旧感，仿佛能触摸到几十年前语言学研究的原始脉搏。我个人更偏爱那些充满人文色彩和历史沉淀的著作，比如那些探讨词语演变背后社会风貌的散文集，或是那些对文学大师的创作心路进行深度剖析的传记。我总觉得，语言的魅力，更在于它负载的情感和文化基因，而非冰冷的数字统计。例如，我最近沉迷于一本关于维多利亚时代日常用语的书籍，书中细致描绘了“好”、“坏”这些看似简单的词汇，在不同阶层和场合下所蕴含的微妙区别，那种细腻的洞察力远比单纯的频率统计要来得令人着迷。这本《词汇频率分布》，看起来更像是一本工具书，它关注的是“多少”而非“为何”，对我这种追求叙事和情感连接的读者来说，或许只能束之高阁，成为书房里一个安静的知识符号，而非随时翻阅的心灵伴侣。

评分☆☆☆☆☆

我一直相信，一本好书应该能够像一位博学的导师，带着你进行一场思想的漫步，而不是像一份详尽的说明书，告诉你每一个零件的规格。我偏爱那种充满论证的深度和广度的书籍，比如探讨全球化背景下文化身份认同危机的著作，这类书需要你不断地进行自我审视和批判性思考。阅读对我来说，是一个主动构建意义的过程，我希望作者提供的是“原材料”和“逻辑框架”，而不是直接给出最终的“统计结果”。这本《词汇频率分布》，听起来像是一个“黑箱操作”的结果展示，虽然其严谨性毋庸置疑，但却缺乏那种引导读者自己去发现规律的乐趣。我更期待的是一本能够启发我提出新的问题的书，而不是一本似乎已经把所有问题都量化并给出答案的参考书。因此，对于追求阅读过程中的主动探索和个人思想激发的我来说，这本书的实用价值和精神吸引力，都远不如那些探讨人类境遇和社会变迁的文学或社科经典来得诱人。