基于网络媒体监测语料库的性别语言差异研究

基于网络媒体监测语料库的性别语言差异研究 pdf epub mobi txt 电子书 下载 2025

图书标签:
  • 性别语言学
  • 网络语言学
  • 语料库语言学
  • 社会语言学
  • 计算语言学
  • 性别研究
  • 网络媒体
  • 语言差异
  • 文本分析
  • 大数据分析
想要找书就要到 静流书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 金卫文化图书专营店
出版社: 科学出版社
ISBN:9787030545947
商品编码:29914400471
丛书名: 基于网络媒体监测语料库的性别语言差异研究
出版时间:2017-10-01

具体描述


商品参数
基于网络媒体监测语料库的性别语言差异研究
曾用价 72.00
出版社 科学出版社
版次 1
出版时间 2017年11月
开本 16
作者 王宇波
装帧 平装
页数 204
字数 200
ISBN编码 9787030545947

目录
目录
当一个语言学研究的排头兵
序言
第*篇 字词篇
第*章 汉字使用的性别差异 3
第*节 网络媒体监测语料库及语料来源 3
一、语料库的选择及依据 3
二、博客语料筛选的过程 4
第二节 汉字使用性别差异的总体情况 6
一、总字次、字种数和使用频率比较 6
二、汉字覆盖率比较 6
第三节 汉字字频的性别差异 8
一、高频字比较 8
二、低频字比较 9
三、高频字与《现代汉语常用字表》比较 10
四、高频字构词能力的性别差异 11
第四节 男女两性共用字与独用字 13
第五节 本章小结 16
第二章 词汇使用的性别差异 17
第*节 词汇使用性别差异的总体情况 17
一、总词次、词种数和词汇多样性的性别差异 17
二、词汇覆盖率的性别差异 18
第二节 词汇使用频率的性别差异 19
一、不同频次范围的词种数 19
二、高频词比较 21
三、高频词与字种数关系 23
四、高频词词性分布的性别差异 24
第三节 两性共用词与独用词 27
第四节 文本数与词种数关系的性别差异 28
第五节 词长分布的性别差异 29
一、词长与平均频次 29
二、词长与词种数 31
第六节 本章小结 32
第三章 微博意见字词使用的性别差异 33
第*节 微博意见字频组间差异 33
一、意见排行榜制定 33
二、高频字总体使用状况 35
三、高频字性别差异 37
四、其他身份特征的组间差异 39
第二节 微博意见的词汇计量特征 44
一、词汇密度差异 44
二、词汇多样性比较 46
三、词类分布比较 48
四、词汇丰富度与微博活跃度 49
第三节 本章小结 50
第二篇 句法篇
第四章 独词句使用的性别差异 53
第*节 性别语言研究中的独词句 53
一、独词句的性别差异研究 53
二、博客语料中的独词句 54
第二节 独词型独词句 54
一、独词型独词句的范围 54
二、独词句的不同词汇类别 56
第三节 独词句使用差异的概况 58
一、独词句句总数统计 58
二、各词类独词句的使用情况考察 58
第四节 独词句使用差异的统计学分析 60
一、数据正态分布验证 60
二、两性独词句使用差异的显著性检验 61
第五节 各类型独词句的性别差异 61
第六节 “得”字独词句性别差异的个案研究 63
一、“得”字独词句的语气类型 63
二、女性博客“得”字独词句 67
三、男性博客“得”字独词句 69
四、北京口语中“得/得了”独词句的性别差异 71
第七节 本章小结 73
第五章 感叹句使用的性别差异 75
第*节 感叹句使用的总体情况 75
第二节 感叹句中语气词的使用情况 76
一、带句尾语气词的感叹句 77
二、句尾语气词的使用情况对比 78
三、感叹句中的高频语气词 82
四、语气词句总数差值的分析 84
第三节 感叹词使用的性别差异 87
一、感叹词使用总体情况对比 88
二、高频感叹词使用情况对比 90
三、两性使用感叹词差异显著性 92
第四节 女性句尾语助词“的说”个案研究 92
一、现代汉语方言中句末言说词 93
二、台湾地区的现代标准汉语句末言说词产生的机制 96
三、网络语言句末言说词“的说”产生的机制 99
四、网络语言中“的说”的词汇化 103
五、结语 106
第五节 本章小结 107
第六章 疑问句使用的性别差异 108
第*节 疑问句使用的总体情况 108
一、疑问句的考察范围 108
二、总体情况比较 109
第二节 带疑问语气标记的疑问句 110
第三节 带疑问代词标记的疑问句 113
一、带疑问代词的疑问句使用情况比较 113
二、高频疑问代词标记 114
三、句总数次多的疑问代词标记使用情况比较 116
四、总数zui少的疑问代词 117
五、疑问代词的句总数差值比较 118
第四节 男女选择问句的使用特点 120
一、选择问句的三种类型 121
二、三种类型选择问句使用情况的性别差异 122
第五节 两性正反问句的使用特点 123
一、两性正反问句使用的总体情况 123
二、完整形式的正反问句 123
三、正反问句的缩略形式 126
四、三种典型正反问句 128
五、两性正反问句使用特点小结 129
第六节 两性疑问句使用情况的整体比较 129
第七节 本章小结 130
第三篇 话语篇
第七章 话题选择的性别差异 133
第*节 引言 133
第二节 博客话题的文本分类过程 134
一、选择博客文本的原因 134
二、文本分类过程 135
第三节 两性话题选择的优先序列 140
一、男性话题的优先序列 140
二、女性话题的优先序列 141
三、高位序话题的稳定与变化 142
四、稳定的机制及变化的动因 143
第四节 两性话题选择的组间差异 144
一、话题序差比较 144
二、话题量的组间差异显著性检验 145
第五节 本章小结 146
第八章 话语量大小的性别差异 147
第*节 引言 147
第二节 不同语境下的话语量变化 147
第三节 话题量大小分类统计 149
第四节 话语量离散度 150
一、话语量离散度的组间差异 150
二、话语量离散趋势 151
第五节 组间差异显著性检验 153
第六节 本章小结 155
参考文献 156
附录 165
在线试读
第*篇 字词篇
  第*章 汉字使用的性别差异
  第*节 网络媒体监测语料库及语料来源
  一、语料库的选择及依据
  国家语言资源监测与研究中心(网络媒体分中心)从2005年开始对网络媒体进行动态监测,已采集了包括网络新闻、网络论坛、网络文学、博客、微博等在内的网络媒体语料,并在此基础上建立网络媒体监测语料库。其中,博客语料主要来源于新浪博客(blog.sina.com.cn)、搜狐博客(blog.sohu.com)、中国博客、博客网(bokee.com)、和讯博客(blog.hexun.com)、博客大巴等网站规模大、网络访问量大的知名中文博客网站。本书的研究主要基于网络媒体监测语料库中的博客语料和微博语料,博客语料主要用于字、词汇、句法、话题、话语量的研究,微博语料用于汉字和词汇章节的个案研究。
  选取博客语料主要基于两个方面的原因:首先,便于通过作者的元信息筛选出具有性别标签的作者。博客、微博、论坛的作者在社交媒体平台上注册时,会提供包括性别在内的作者身份信息,因此,在语料爬取过程中可对作者身份信息进行元数据标注,进而提取出有性别信息的作者。其次,博客文本更便于进行文本分类,有利于开展话题选择等方面的性别语言差异研究。微博文本比较短小,计算机对其进行文本自动分类处理时效度不高,难度较大。而博客文本相对较长,比微博等其他新媒体语料能更有效地进行话题分类,且分类效果更好。
  二、博客语料筛选的过程
  博客语料库包括网页和纯文本,我们对语料的基本元数据全部做了标注,并采用自动分词工具做自动分词和词性标注等处理。
  第*步,下载博客网页,统一博客数据。首先,构造一个线程池,池内开启6个爬行线程,分别下载要搜集的六大博客网站的博客网页。其次,针对每个网站分析、构造视图—模板映射规则,将页面内容按照映射规则进行解析(见图1.1)。
  图1.1 博客数据爬行示意图
  不同的博客网站具有不同的页面特征,我们需要统计的博客属性之一“作者性别”,在不同的博客页面上的表示方式都不尽相同。所以针对不同的博客网站都必须定义不同的视图—模板映射规则。其中视图就是网站呈现给用户的页面内容,而模板,则是调查所关心的博客文章及博客作者的属性集合。对于不同的博客网站都有不同的视图—模板映射关系。依靠这样的关系,我们就可以把不同博客网站上的所有作者及文章都归一化为同一存储格式,从而方便我们的统计。表1.1和表1.2给出我们需要提取的博客作者及博客文章的属性集合。
  表1.1 博客作者
  表1.2 博客文章格式
  第二步,博客正文词汇切分。利用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)对文本进行自动分词和词性标注。博客正文中的句子处理前后情况如表1.3所示,切分后的句子变成了带词性标注的词汇线性结构。
  表1.3 博客正文词汇切分
  两性博客语料的筛选步骤如下:
  第*步,甄别性别信息真实的作者,以便筛选出真实可靠的两性博客文本。博客文本在抓取的过程中对作者身份的元数据信息进行了采集和标注,可在此基础上初步筛选出标注了性别信息的作者。同时,考虑到部分作者登记的性别并不一定真实,如果把这类文本用作语料分析,将会影响统计结果的可靠性和真实性。为了在海量博客语料库中抽取作者性别相对真实、可信度高的博文,可以依据博客作者的“博客等级”和“博客积分”高低、“博客访问量”和“博客关注量”大小,以及是否为“加V博客认证”等标准进行甄别。博客等级和积分较高、访问量和关注量较大,同时为加V认证的作者,其博客活跃度较高,作者身份信息较为真实可信。
  第二步,经甄选后,筛选了符合条件的作者131989位,其中男性作者54982位,女性作者77007位。博客文本共计2275826篇,404314658字符次。其中,男性文本773777篇,女性文本1502049篇。为有效地进行对比,从女性文本中又随机抽取与男性文本相近的数量,共计773700篇。
  第二节 汉字使用性别差异的总体情况
  一、总字次、字种数和使用频率比较
  杨信彰(2010)认为“语料库的使用为语言与性别的研究提供了良好的工具”,“在研究手段上,语料库的使用能帮助我们更好地审视语言与性别的关系”。统计博客语料库中两性的总字次、字种数、使用频率等相关数据,能客观、真实地反映汉字使用的性别差异。
  如表1.4所示,男性博客中的总字种数为20917个,女性为13558个,男性的字种数是女性的1.54倍,明显高于女性;总字次上两性差别不大,女性字种数的平均使用频次为14206次,高于男性的11135次。从字种数上看,男性掌握和使用的汉字字种数量高于女性,男性的汉字丰富性高于女性。从平均频次上看,女性的汉字字种数密度高于男性。
  表1.4 男女博客中汉字总体使用情况
  二、汉字覆盖率比较
  本书有关覆盖率的统计方法依据国家语言资源监测与研究中心编辑的《中国语言生活状况报告》(2008)中的定义,指被调查语料内指定调查对象占所有调查对象总量的百分比,计算方法与累加频率相同,即每一调查对象的频次同其前调查对象的频次的累加和,与所有语料中调查对象总次数的比值。汉字的覆盖率是衡量汉字在所属语料库中是否常用的标准之一。
  表1.5中以覆盖率10%为增长的基准,在同一覆盖率的标准下,统计对比了男女博客中所使用的汉字字种数以及在总字种数中所占的比例,可以得出的结论是:要达到相同的覆盖率,男性比女性要使用更多的字种数,而女性所使用的字种数在总字种数中所占的比例则高于男性。这进一步印
内容介绍
  本书的研究依托国家语言资源监测与研究中心(网络媒体语言分中心)所建的网络媒体监测语料库,研究对象主要包括字、词、句式、话题优先序列、话语量大小等方面的性别语言差异。作为基于目前规模zui大的汉语网络媒体监测语料库的汉语本体研究,主要采用语料库语言学的研究手段,在定量和定性相结合的基础上,以统计数据和语言事实为研究依据,通过处理大规模的真实文本得出了具有统计学依据的语言数据,更深入地揭示两性在汉语使用中的一些普遍规律,挖掘自媒体中性别语言呈现的一些特有的语言现象和规律,既符合当前性别语言差异研究的多元化、动态化、微观化和本土化的发展趋势,也对应用语言学、社会语言学等方面的研究有一定的理论价值。
好的,这是一份关于一本名为《新媒体语境下人际交往模式的演变与影响》的图书简介。 --- 图书简介: 《新媒体语境下人际交往模式的演变与影响》 作者: [此处留空,作者信息] 出版社: [此处留空,出版社信息] 出版日期: [此处留空,出版日期信息] 内容概述: 本书深入探讨了自二十世纪末以来,随着互联网技术和移动通信的飞速发展,个体之间交流方式所发生的深刻变革。在数字媒体日益成为社会基础设施的今天,传统的人际交往结构正面临前所未有的挑战与重塑。本书旨在提供一个多维度的分析框架,考察新媒体平台如何改变了我们建立、维持和终止人际关系的过程,并评估这些变化对社会结构、个体心理乃至文化认同产生的深远影响。 全书结构严谨,逻辑清晰,通过结合社会学理论、传播学研究、心理学观察以及大量的案例分析,力求描绘一幅复杂而生动的新媒体时代交往图景。 第一部分:技术驱动的交往结构重塑 本部分着重于技术平台本身对交往行为的结构性影响。我们分析了从早期的电子邮件、BBS到当前的主流社交媒体(如微信、微博、抖音、Instagram等)的发展历程,探讨了这些媒介技术在信息传递效率、关系维护成本以及社交资本积累方面带来的变革。 即时性与超文本化: 探讨了即时通讯如何模糊了工作与生活的界限,以及超文本链接和多模态信息(如表情符号、GIF动图)如何取代了传统书面语中的微妙语境和非语言线索。 平台算法与信息茧房: 深入剖析了推荐算法在构建“社交圈子”中的作用,分析了算法如何通过强化相似性而非促进接触,从而在宏观层面影响社会群体间的理解与隔阂。 虚拟与现实的边界消融: 考察了数字身份的构建与管理,探讨了线上“表演性自我”与线下真实自我的互动关系,以及这种二元结构如何影响信任的建立与维持。 第二部分:交往模式的深度分析 本部分聚焦于具体的人际交往行为和心理机制。我们不再仅仅关注“我们如何使用技术”,而是探究“技术如何改变了我们的人性”。 关系强弱的辨析: 区分了“弱联系”与“强联系”在新媒体环境下的动态平衡。本书提出了一种观点,即新媒体极大地便利了弱联系的维持,但也可能以牺牲强联系所需的深度投入为代价。分析了“点赞文化”和“评论互动”在多大程度上能替代面对面交流中的情感共振。 亲密关系的数字化表达: 探讨了浪漫关系、家庭关系在屏幕中被重新定义的过程。从共同在线状态的监控到情感表达的符号化,分析了数字化沟通如何处理冲突、表达爱意和进行依恋维系。 群体认同与社群构建: 考察了基于兴趣、立场或身份的网络社群的形成、扩张与内聚力。分析了“圈层文化”的形成机制,以及这种封闭性社群在提供归属感的同时,可能导致的排他性和极端化倾向。 第三部分:社会影响与伦理考量 本书的第三部分将视野放大至社会层面,探讨交往模式转变所带来的宏观后果和伦理挑战。 公共表达与私人领域的侵蚀: 探讨了“在场感”与“被观看感”对个体行为的影响。社交媒体将私人生活推向公共领域,引发了对隐私边界、自我暴露的度量衡以及“数字足迹”长期影响的讨论。 数字素养与情感连接的缺失: 分析了当代年轻群体在高度依赖屏幕交流后,其非语言沟通能力(如解读面部表情、倾听沉默)是否出现退化。本书强调了培养数字时代所需的新型“情感素养”的紧迫性。 权力关系与话语权重构: 考察了新媒体如何赋权给个体,但也同时催生了新型的审查机制、网络暴力和舆论操控。分析了信息传播的去中心化如何影响了传统权威的解释权。 本书特色: 本书避免了对技术进行简单的褒贬,而是采取一种批判性继承的态度。它不仅梳理了过去二十年的关键研究成果,更立足于当前的快速迭代环境,提出了若干前瞻性的研究方向。通过对跨文化案例的对比分析,本书为理解人类在数字化浪潮中的社会适应性提供了坚实的理论基础和丰富的实证材料。无论您是传播学研究者、社会学家、心理学专业人士,还是对现代生活方式充满好奇的普通读者,本书都将为您提供一个深入理解人际交往复杂性的全新视角。 --- (约1500字)

用户评价

评分

这书名,直击我心!“基于网络媒体监测语料库的性别语言差异研究”,听起来就像是把我日常生活中模糊的感受,用一种严谨、科学的方式给具象化了。我们每天都在网上接触无数的文字和声音,总觉得,男生和女生在评论、发帖、甚至写文章的时候,好像真的会不一样。这本书的主题就是来解剖这个“不一样”的。我尤其好奇的是“网络媒体监测语料库”这个概念。这得需要多大的努力去收集和整理数据啊!是抓取了论坛的帖子、社交媒体的评论,还是新闻报道下的读者留言?又是如何从中提炼出跟性别相关的语言特征的?这本书会不会涉及到一些量化的分析方法,比如统计一些词频、句式的使用率,或者是情感色彩的倾向性?我非常想知道,作者最终发现了哪些具体、可量化的性别语言差异,这些差异是普遍存在的,还是在特定情境下才显现?这本书的价值,在于它用大数据和科学的分析,去触碰了一个很多人都有感知但难以言说的现象,这无疑会带来一种“原来如此”的惊喜感,并且能让我们对网络交流有更深刻的认识。

评分

哇,这本书的题目就很有意思!“基于网络媒体监测语料库的性别语言差异研究”,光听名字就觉得内容会很丰富,而且非常贴近我们现在的生活。现在网络媒体这么发达,我们每天都在上面看各种信息,听到各种声音,但有没有想过,男生和女生在网络上的表达方式是不是真的不一样?这本书似乎就要揭开这个神秘的面纱。我一直对语言学和传播学交叉的领域很感兴趣,尤其是这种能够深入挖掘社会现象的实证研究。作者能够收集和分析这么庞大的网络媒体监测语料库,这本身就是一项巨大的工程,可见其研究的严谨性和深度。我特别期待书中能呈现出具体的研究方法和数据分析结果,比如他们是如何界定“性别语言差异”的,用了哪些技术手段来捕捉和量化这些差异,以及最终得出了哪些令人信服的结论。而且,这本书会不会探讨这些差异产生的原因?是生理上的,还是社会文化上的,抑或是网络环境本身的特性?这些都是我非常好奇的。总而言之,这是一本让我充满期待的书,相信它能为我们理解网络语言现象提供一个全新的视角。

评分

不得不说,这本书的题目听起来就非常吸引人。当今社会,网络媒体几乎渗透到我们生活的方方面面,而语言又是人类最基本、最重要的沟通工具。“性别语言差异”这个话题,更是人类社会长期以来一直关注的焦点。将这两者结合起来,利用“网络媒体监测语料库”进行研究,这绝对是一个非常有前瞻性和现实意义的课题。我设想,作者肯定花费了大量的时间和精力去构建这样一个庞大的语料库,并且运用了先进的语言学和计算方法来分析数据。书中会不会深入探讨不同性别在网络交流中的词汇选择、语气语调、话题偏好,甚至是表达情感的方式上存在的差异?我特别期待看到作者如何界定和测量这些差异,以及他们是如何克服在网络数据中区分性别可能遇到的挑战的。这本书的意义,不仅仅在于揭示语言现象,更在于它能够帮助我们更深入地理解性别在社会文化语境中的影响,以及网络环境如何塑造和改变着我们的语言表达方式,这对于促进性别平等和改善人际沟通都具有重要的参考价值。

评分

这本书的题目,嗯,听起来挺学术的,但仔细想想,又和我们的日常生活息息相关。我们每天都在网上冲浪,接触各种各样的信息,也发出自己的声音。我常常会想,为什么有时候觉得男生和女生的说话方式、表达内容会有一些微妙的差别?这本书似乎就是要用科学的方法来验证这一点。它不是那种空谈理论的书,而是基于“网络媒体监测语料库”,这听起来就像是作者深入到了互联网这个巨大的数据海洋里,捞出了很多真实的数据来分析。我很好奇,他们是怎么“监测”语料库的?是用什么工具?又从海量的信息里筛选出了哪些有代表性的样本?而且,“性别语言差异”到底指的是什么?是词汇的选择?句子的结构?还是情感的表达?我特别期待书中能够清晰地解释这些概念,并用实际的例子来说明。读完这本书,我希望能够更深刻地理解网络语言的运作机制,也能够更敏锐地察觉到语言背后的性别信息。这本书的价值,可能不仅仅是学术上的,更能帮助我们更好地理解自己和他人,以及在这个信息爆炸的时代如何更有效地沟通。

评分

光看这个书名,就觉得这本书的研究非常有深度和价值。“基于网络媒体监测语料库的性别语言差异研究”,这明显不是一本泛泛而谈的理论书,而是有扎实的数据支撑的实证研究。如今,网络媒体已成为信息传播和人际互动的主要平台,而语言作为承载信息和表达思想的载体,其性别差异是一个值得深入探究的议题。我迫切想知道,作者是如何构建和管理这个“网络媒体监测语料库”的?他们采用了哪些技术手段来收集、清洗和标注语料?更重要的是,书中会详细阐述哪些具体的语言学指标来衡量性别差异?例如,是分析词汇使用的倾向性,还是句式结构的特点,亦或是情感色彩的表达模式?我特别好奇,作者通过对海量数据的分析,究竟揭示了哪些令人意想不到的性别语言差异,以及这些差异的产生机制是什么?这本书不仅能为语言学研究提供新的视角和数据,更可能对我们理解性别在网络社会中的身份构建、信息传播以及人际交往模式提供深刻的洞见,具有重要的理论和现实意义。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有