内容简介
《基于网络媒体监测语料库的性别语言差异研究》的研究依托国家语言资源监测与研究中心(网络媒体语言分中心)所建的网络媒体监测语料库,研究对象主要包括字、词、句式、话题优先序列、话语量大小等方面的性别语言差异。作为首次基于目前规模较大的汉语网络媒体监测语料库的汉语本体研究,主要采用语料库语言学的研究手段,在定量和定性相结合的基础上,以统计数据和语言事实为研究依据,通过处理大规模的真实文本得出了具有统计学依据的语言数据,更深入地揭示两性在汉语使用中的一些普遍规律,挖掘自媒体中性别语言呈现的一些特有的语言现象和规律,既符合当前性别语言差异研究的多元化、动态化、微观化和本土化的发展趋势,也对应用语言学、社会语言学等方面的研究有一定的理论价值。
目录
目录
当一个语言学研究的排头兵
序言
第一篇 字词篇
第一章 汉字使用的性别差异 3
第一节 网络媒体监测语料库及语料来源 3
一、语料库的选择及依据 3
二、博客语料筛选的过程 4
第二节 汉字使用性别差异的总体情况 6
一、总字次、字种数和使用频率比较 6
二、汉字覆盖率比较 6
第三节 汉字字频的性别差异 8
一、高频字比较 8
二、低频字比较 9
三、高频字与《现代汉语常用字表》比较 10
四、高频字构词能力的性别差异 11
第四节 男女两性共用字与独用字 13
第五节 本章小结 16
第二章 词汇使用的性别差异 17
第一节 词汇使用性别差异的总体情况 17
一、总词次、词种数和词汇多样性的性别差异 17
二、词汇覆盖率的性别差异 18
第二节 词汇使用频率的性别差异 19
一、不同频次范围的词种数 19
二、高频词比较 21
三、高频词与字种数关系 23
四、高频词词性分布的性别差异 24
第三节 两性共用词与独用词 27
第四节 文本数与词种数关系的性别差异 28
第五节 词长分布的性别差异 29
一、词长与平均频次 29
二、词长与词种数 31
第六节 本章小结 32
第三章 微博意见领袖字词使用的性别差异 33
第一节 微博意见领袖字频组间差异 33
一、意见领袖排行榜制定 33
二、高频字总体使用状况 35
三、高频字性别差异 37
四、其他身份特征的组间差异 39
第二节 微博意见领袖的词汇计量特征 44
一、词汇密度差异 44
二、词汇多样性比较 46
三、词类分布比较 48
四、词汇丰富度与微博活跃度 49
第三节 本章小结 50
第二篇 句法篇
第四章 独词句使用的性别差异 53
第一节 性别语言研究中的独词句 53
一、独词句的性别差异研究 53
二、博客语料中的独词句 54
第二节 独词型独词句 54
一、独词型独词句的范围 54
二、独词句的不同词汇类别 56
第三节 独词句使用差异的概况 58
一、独词句句总数统计 58
二、各词类独词句的使用情况考察 58
第四节 独词句使用差异的统计学分析 60
一、数据正态分布验证 60
二、两性独词句使用差异的显著性检验 61
第五节 各类型独词句的性别差异 61
第六节 “得”字独词句性别差异的个案研究 63
一、“得”字独词句的语气类型 63
二、女性博客“得”字独词句 67
三、男性博客“得”字独词句 69
四、北京口语中“得/得了”独词句的性别差异 71
第七节 本章小结 73
第五章 感叹句使用的性别差异 75
第一节 感叹句使用的总体情况 75
第二节 感叹句中语气词的使用情况 76
一、带句尾语气词的感叹句 77
二、句尾语气词的使用情况对比 78
三、感叹句中的高频语气词 82
四、语气词句总数差值的分析 84
第三节 感叹词使用的性别差异 87
一、感叹词使用总体情况对比 88
二、高频感叹词使用情况对比 90
三、两性使用感叹词差异显著性 92
第四节 女性句尾语助词“的说”个案研究 92
一、现代汉语方言中句末言说词 93
二、台湾地区的现代标准汉语句末言说词产生的机制 96
三、网络语言句末言说词“的说”产生的机制 99
四、网络语言中“的说”的词汇化 103
五、结语 106
第五节 本章小结 107
第六章 疑问句使用的性别差异 108
第一节 疑问句使用的总体情况 108
一、疑问句的考察范围 108
二、总体情况比较 109
第二节 带疑问语气标记的疑问句 110
第三节 带疑问代词标记的疑问句 113
一、带疑问代词的疑问句使用情况比较 113
二、高频疑问代词标记 114
三、句总数次多的疑问代词标记使用情况比较 116
四、总数最少的疑问代词 117
五、疑问代词的句总数差值比较 118
第四节 男女选择问句的使用特点 120
一、选择问句的三种类型 121
二、三种类型选择问句使用情况的性别差异 122
第五节 两性正反问句的使用特点 123
一、两性正反问句使用的总体情况 123
二、完整形式的正反问句 123
三、正反问句的缩略形式 126
四、三种典型正反问句 128
五、两性正反问句使用特点小结 129
第六节 两性疑问句使用情况的整体比较 129
第七节 本章小结 130
第三篇 话语篇
第七章 话题选择的性别差异 133
第一节 引言 133
第二节 博客话题的文本分类过程 134
一、选择博客文本的原因 134
二、文本分类过程 135
第三节 两性话题选择的优先序列 140
一、男性话题的优先序列 140
二、女性话题的优先序列 141
三、高位序话题的稳定与变化 142
四、稳定的机制及变化的动因 143
第四节 两性话题选择的组间差异 144
一、话题序差比较 144
二、话题量的组间差异显著性检验 145
第五节 本章小结 146
第八章 话语量大小的性别差异 147
第一节 引言 147
第二节 不同语境下的话语量变化 147
第三节 话题量大小分类统计 149
第四节 话语量离散度 150
一、话语量离散度的组间差异 150
二、话语量离散趋势 151
第五节 组间差异显著性检验 153
第六节 本章小结 155
参考文献 156
附录 165
精彩书摘
《基于网络媒体监测语料库的性别语言差异研究》:
第一篇 字词篇
第一章 汉字使用的性别差异
第一节 网络媒体监测语料库及语料来源
一、语料库的选择及依据
国家语言资源监测与研究中心(网络媒体分中心)从2005年开始对网络媒体进行动态监测,已采集了包括网络新闻、网络论坛、网络文学、博客、微博等在内的网络媒体语料,并在此基础上建立网络媒体监测语料库。其中,博客语料主要来源于新浪博客(blog.sina.com.cn)、搜狐博客(blog.sohu.com)、中国博客、博客网(bokee.com)、和讯博客(blog.hexun.com)、博客大巴等网站规模大、网络访问量大的知名中文博客网站。《基于网络媒体监测语料库的性别语言差异研究》的研究主要基于网络媒体监测语料库中的博客语料和微博语料,博客语料主要用于字、词汇、句法、话题、话语量的研究,微博语料用于汉字和词汇章节的个案研究。
选取博客语料主要基于两个方面的原因:首先,便于通过作者的元信息筛选出具有性别标签的作者。博客、微博、论坛的作者在社交媒体平台上注册时,会提供包括性别在内的作者身份信息,因此,在语料爬取过程中可对作者身份信息进行元数据标注,进而提取出有性别信息的作者。其次,博客文本更便于进行文本分类,有利于开展话题选择等方面的性别语言差异研究。微博文本比较短小,计算机对其进行文本自动分类处理时效度不高,难度较大。而博客文本相对较长,比微博等其他新媒体语料能更有效地进行话题分类,且分类效果更好。
二、博客语料筛选的过程
博客语料库包括网页和纯文本,我们对语料的基本元数据全部做了标注,并采用自动分词工具做自动分词和词性标注等处理。
……
基于网络媒体监测语料库的性别语言差异研究 电子书 下载 mobi epub pdf txt