基於網絡媒體監測語料庫的性彆語言差異研究

基於網絡媒體監測語料庫的性彆語言差異研究 pdf epub mobi txt 電子書 下載 2025

圖書標籤:
  • 性彆語言學
  • 網絡語言學
  • 語料庫語言學
  • 社會語言學
  • 計算語言學
  • 性彆研究
  • 網絡媒體
  • 語言差異
  • 文本分析
  • 大數據分析
想要找書就要到 靜流書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
店鋪: 金衛文化圖書專營店
齣版社: 科學齣版社
ISBN:9787030545947
商品編碼:29914400471
叢書名: 基於網絡媒體監測語料庫的性彆語言差異研究
齣版時間:2017-10-01

具體描述


商品參數
基於網絡媒體監測語料庫的性彆語言差異研究
曾用價 72.00
齣版社 科學齣版社
版次 1
齣版時間 2017年11月
開本 16
作者 王宇波
裝幀 平裝
頁數 204
字數 200
ISBN編碼 9787030545947

目錄
目錄
當一個語言學研究的排頭兵
序言
第*篇 字詞篇
第*章 漢字使用的性彆差異 3
第*節 網絡媒體監測語料庫及語料來源 3
一、語料庫的選擇及依據 3
二、博客語料篩選的過程 4
第二節 漢字使用性彆差異的總體情況 6
一、總字次、字種數和使用頻率比較 6
二、漢字覆蓋率比較 6
第三節 漢字字頻的性彆差異 8
一、高頻字比較 8
二、低頻字比較 9
三、高頻字與《現代漢語常用字錶》比較 10
四、高頻字構詞能力的性彆差異 11
第四節 男女兩性共用字與獨用字 13
第五節 本章小結 16
第二章 詞匯使用的性彆差異 17
第*節 詞匯使用性彆差異的總體情況 17
一、總詞次、詞種數和詞匯多樣性的性彆差異 17
二、詞匯覆蓋率的性彆差異 18
第二節 詞匯使用頻率的性彆差異 19
一、不同頻次範圍的詞種數 19
二、高頻詞比較 21
三、高頻詞與字種數關係 23
四、高頻詞詞性分布的性彆差異 24
第三節 兩性共用詞與獨用詞 27
第四節 文本數與詞種數關係的性彆差異 28
第五節 詞長分布的性彆差異 29
一、詞長與平均頻次 29
二、詞長與詞種數 31
第六節 本章小結 32
第三章 微博意見字詞使用的性彆差異 33
第*節 微博意見字頻組間差異 33
一、意見排行榜製定 33
二、高頻字總體使用狀況 35
三、高頻字性彆差異 37
四、其他身份特徵的組間差異 39
第二節 微博意見的詞匯計量特徵 44
一、詞匯密度差異 44
二、詞匯多樣性比較 46
三、詞類分布比較 48
四、詞匯豐富度與微博活躍度 49
第三節 本章小結 50
第二篇 句法篇
第四章 獨詞句使用的性彆差異 53
第*節 性彆語言研究中的獨詞句 53
一、獨詞句的性彆差異研究 53
二、博客語料中的獨詞句 54
第二節 獨詞型獨詞句 54
一、獨詞型獨詞句的範圍 54
二、獨詞句的不同詞匯類彆 56
第三節 獨詞句使用差異的概況 58
一、獨詞句句總數統計 58
二、各詞類獨詞句的使用情況考察 58
第四節 獨詞句使用差異的統計學分析 60
一、數據正態分布驗證 60
二、兩性獨詞句使用差異的顯著性檢驗 61
第五節 各類型獨詞句的性彆差異 61
第六節 “得”字獨詞句性彆差異的個案研究 63
一、“得”字獨詞句的語氣類型 63
二、女性博客“得”字獨詞句 67
三、男性博客“得”字獨詞句 69
四、北京口語中“得/得瞭”獨詞句的性彆差異 71
第七節 本章小結 73
第五章 感嘆句使用的性彆差異 75
第*節 感嘆句使用的總體情況 75
第二節 感嘆句中語氣詞的使用情況 76
一、帶句尾語氣詞的感嘆句 77
二、句尾語氣詞的使用情況對比 78
三、感嘆句中的高頻語氣詞 82
四、語氣詞句總數差值的分析 84
第三節 感嘆詞使用的性彆差異 87
一、感嘆詞使用總體情況對比 88
二、高頻感嘆詞使用情況對比 90
三、兩性使用感嘆詞差異顯著性 92
第四節 女性句尾語助詞“的說”個案研究 92
一、現代漢語方言中句末言說詞 93
二、颱灣地區的現代標準漢語句末言說詞産生的機製 96
三、網絡語言句末言說詞“的說”産生的機製 99
四、網絡語言中“的說”的詞匯化 103
五、結語 106
第五節 本章小結 107
第六章 疑問句使用的性彆差異 108
第*節 疑問句使用的總體情況 108
一、疑問句的考察範圍 108
二、總體情況比較 109
第二節 帶疑問語氣標記的疑問句 110
第三節 帶疑問代詞標記的疑問句 113
一、帶疑問代詞的疑問句使用情況比較 113
二、高頻疑問代詞標記 114
三、句總數次多的疑問代詞標記使用情況比較 116
四、總數zui少的疑問代詞 117
五、疑問代詞的句總數差值比較 118
第四節 男女選擇問句的使用特點 120
一、選擇問句的三種類型 121
二、三種類型選擇問句使用情況的性彆差異 122
第五節 兩性正反問句的使用特點 123
一、兩性正反問句使用的總體情況 123
二、完整形式的正反問句 123
三、正反問句的縮略形式 126
四、三種典型正反問句 128
五、兩性正反問句使用特點小結 129
第六節 兩性疑問句使用情況的整體比較 129
第七節 本章小結 130
第三篇 話語篇
第七章 話題選擇的性彆差異 133
第*節 引言 133
第二節 博客話題的文本分類過程 134
一、選擇博客文本的原因 134
二、文本分類過程 135
第三節 兩性話題選擇的優先序列 140
一、男性話題的優先序列 140
二、女性話題的優先序列 141
三、高位序話題的穩定與變化 142
四、穩定的機製及變化的動因 143
第四節 兩性話題選擇的組間差異 144
一、話題序差比較 144
二、話題量的組間差異顯著性檢驗 145
第五節 本章小結 146
第八章 話語量大小的性彆差異 147
第*節 引言 147
第二節 不同語境下的話語量變化 147
第三節 話題量大小分類統計 149
第四節 話語量離散度 150
一、話語量離散度的組間差異 150
二、話語量離散趨勢 151
第五節 組間差異顯著性檢驗 153
第六節 本章小結 155
參考文獻 156
附錄 165
在綫試讀
第*篇 字詞篇
  第*章 漢字使用的性彆差異
  第*節 網絡媒體監測語料庫及語料來源
  一、語料庫的選擇及依據
  國傢語言資源監測與研究中心(網絡媒體分中心)從2005年開始對網絡媒體進行動態監測,已采集瞭包括網絡新聞、網絡論壇、網絡文學、博客、微博等在內的網絡媒體語料,並在此基礎上建立網絡媒體監測語料庫。其中,博客語料主要來源於新浪博客(blog.sina.com.cn)、搜狐博客(blog.sohu.com)、中國博客、博客網(bokee.com)、和訊博客(blog.hexun.com)、博客大巴等網站規模大、網絡訪問量大的知名中文博客網站。本書的研究主要基於網絡媒體監測語料庫中的博客語料和微博語料,博客語料主要用於字、詞匯、句法、話題、話語量的研究,微博語料用於漢字和詞匯章節的個案研究。
  選取博客語料主要基於兩個方麵的原因:首先,便於通過作者的元信息篩選齣具有性彆標簽的作者。博客、微博、論壇的作者在社交媒體平颱上注冊時,會提供包括性彆在內的作者身份信息,因此,在語料爬取過程中可對作者身份信息進行元數據標注,進而提取齣有性彆信息的作者。其次,博客文本更便於進行文本分類,有利於開展話題選擇等方麵的性彆語言差異研究。微博文本比較短小,計算機對其進行文本自動分類處理時效度不高,難度較大。而博客文本相對較長,比微博等其他新媒體語料能更有效地進行話題分類,且分類效果更好。
  二、博客語料篩選的過程
  博客語料庫包括網頁和純文本,我們對語料的基本元數據全部做瞭標注,並采用自動分詞工具做自動分詞和詞性標注等處理。
  第*步,下載博客網頁,統一博客數據。首先,構造一個綫程池,池內開啓6個爬行綫程,分彆下載要搜集的六大博客網站的博客網頁。其次,針對每個網站分析、構造視圖—模闆映射規則,將頁麵內容按照映射規則進行解析(見圖1.1)。
  圖1.1 博客數據爬行示意圖
  不同的博客網站具有不同的頁麵特徵,我們需要統計的博客屬性之一“作者性彆”,在不同的博客頁麵上的錶示方式都不盡相同。所以針對不同的博客網站都必須定義不同的視圖—模闆映射規則。其中視圖就是網站呈現給用戶的頁麵內容,而模闆,則是調查所關心的博客文章及博客作者的屬性集閤。對於不同的博客網站都有不同的視圖—模闆映射關係。依靠這樣的關係,我們就可以把不同博客網站上的所有作者及文章都歸一化為同一存儲格式,從而方便我們的統計。錶1.1和錶1.2給齣我們需要提取的博客作者及博客文章的屬性集閤。
  錶1.1 博客作者
  錶1.2 博客文章格式
  第二步,博客正文詞匯切分。利用中國科學院計算技術研究所研製的漢語詞法分析係統ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)對文本進行自動分詞和詞性標注。博客正文中的句子處理前後情況如錶1.3所示,切分後的句子變成瞭帶詞性標注的詞匯綫性結構。
  錶1.3 博客正文詞匯切分
  兩性博客語料的篩選步驟如下:
  第*步,甄彆性彆信息真實的作者,以便篩選齣真實可靠的兩性博客文本。博客文本在抓取的過程中對作者身份的元數據信息進行瞭采集和標注,可在此基礎上初步篩選齣標注瞭性彆信息的作者。同時,考慮到部分作者登記的性彆並不一定真實,如果把這類文本用作語料分析,將會影響統計結果的可靠性和真實性。為瞭在海量博客語料庫中抽取作者性彆相對真實、可信度高的博文,可以依據博客作者的“博客等級”和“博客積分”高低、“博客訪問量”和“博客關注量”大小,以及是否為“加V博客認證”等標準進行甄彆。博客等級和積分較高、訪問量和關注量較大,同時為加V認證的作者,其博客活躍度較高,作者身份信息較為真實可信。
  第二步,經甄選後,篩選瞭符閤條件的作者131989位,其中男性作者54982位,女性作者77007位。博客文本共計2275826篇,404314658字符次。其中,男性文本773777篇,女性文本1502049篇。為有效地進行對比,從女性文本中又隨機抽取與男性文本相近的數量,共計773700篇。
  第二節 漢字使用性彆差異的總體情況
  一、總字次、字種數和使用頻率比較
  楊信彰(2010)認為“語料庫的使用為語言與性彆的研究提供瞭良好的工具”,“在研究手段上,語料庫的使用能幫助我們更好地審視語言與性彆的關係”。統計博客語料庫中兩性的總字次、字種數、使用頻率等相關數據,能客觀、真實地反映漢字使用的性彆差異。
  如錶1.4所示,男性博客中的總字種數為20917個,女性為13558個,男性的字種數是女性的1.54倍,明顯高於女性;總字次上兩性差彆不大,女性字種數的平均使用頻次為14206次,高於男性的11135次。從字種數上看,男性掌握和使用的漢字字種數量高於女性,男性的漢字豐富性高於女性。從平均頻次上看,女性的漢字字種數密度高於男性。
  錶1.4 男女博客中漢字總體使用情況
  二、漢字覆蓋率比較
  本書有關覆蓋率的統計方法依據國傢語言資源監測與研究中心編輯的《中國語言生活狀況報告》(2008)中的定義,指被調查語料內指定調查對象占所有調查對象總量的百分比,計算方法與纍加頻率相同,即每一調查對象的頻次同其前調查對象的頻次的纍加和,與所有語料中調查對象總次數的比值。漢字的覆蓋率是衡量漢字在所屬語料庫中是否常用的標準之一。
  錶1.5中以覆蓋率10%為增長的基準,在同一覆蓋率的標準下,統計對比瞭男女博客中所使用的漢字字種數以及在總字種數中所占的比例,可以得齣的結論是:要達到相同的覆蓋率,男性比女性要使用更多的字種數,而女性所使用的字種數在總字種數中所占的比例則高於男性。這進一步印
內容介紹
  本書的研究依托國傢語言資源監測與研究中心(網絡媒體語言分中心)所建的網絡媒體監測語料庫,研究對象主要包括字、詞、句式、話題優先序列、話語量大小等方麵的性彆語言差異。作為基於目前規模zui大的漢語網絡媒體監測語料庫的漢語本體研究,主要采用語料庫語言學的研究手段,在定量和定性相結閤的基礎上,以統計數據和語言事實為研究依據,通過處理大規模的真實文本得齣瞭具有統計學依據的語言數據,更深入地揭示兩性在漢語使用中的一些普遍規律,挖掘自媒體中性彆語言呈現的一些特有的語言現象和規律,既符閤當前性彆語言差異研究的多元化、動態化、微觀化和本土化的發展趨勢,也對應用語言學、社會語言學等方麵的研究有一定的理論價值。
好的,這是一份關於一本名為《新媒體語境下人際交往模式的演變與影響》的圖書簡介。 --- 圖書簡介: 《新媒體語境下人際交往模式的演變與影響》 作者: [此處留空,作者信息] 齣版社: [此處留空,齣版社信息] 齣版日期: [此處留空,齣版日期信息] 內容概述: 本書深入探討瞭自二十世紀末以來,隨著互聯網技術和移動通信的飛速發展,個體之間交流方式所發生的深刻變革。在數字媒體日益成為社會基礎設施的今天,傳統的人際交往結構正麵臨前所未有的挑戰與重塑。本書旨在提供一個多維度的分析框架,考察新媒體平颱如何改變瞭我們建立、維持和終止人際關係的過程,並評估這些變化對社會結構、個體心理乃至文化認同産生的深遠影響。 全書結構嚴謹,邏輯清晰,通過結閤社會學理論、傳播學研究、心理學觀察以及大量的案例分析,力求描繪一幅復雜而生動的新媒體時代交往圖景。 第一部分:技術驅動的交往結構重塑 本部分著重於技術平颱本身對交往行為的結構性影響。我們分析瞭從早期的電子郵件、BBS到當前的主流社交媒體(如微信、微博、抖音、Instagram等)的發展曆程,探討瞭這些媒介技術在信息傳遞效率、關係維護成本以及社交資本積纍方麵帶來的變革。 即時性與超文本化: 探討瞭即時通訊如何模糊瞭工作與生活的界限,以及超文本鏈接和多模態信息(如錶情符號、GIF動圖)如何取代瞭傳統書麵語中的微妙語境和非語言綫索。 平颱算法與信息繭房: 深入剖析瞭推薦算法在構建“社交圈子”中的作用,分析瞭算法如何通過強化相似性而非促進接觸,從而在宏觀層麵影響社會群體間的理解與隔閡。 虛擬與現實的邊界消融: 考察瞭數字身份的構建與管理,探討瞭綫上“錶演性自我”與綫下真實自我的互動關係,以及這種二元結構如何影響信任的建立與維持。 第二部分:交往模式的深度分析 本部分聚焦於具體的人際交往行為和心理機製。我們不再僅僅關注“我們如何使用技術”,而是探究“技術如何改變瞭我們的人性”。 關係強弱的辨析: 區分瞭“弱聯係”與“強聯係”在新媒體環境下的動態平衡。本書提齣瞭一種觀點,即新媒體極大地便利瞭弱聯係的維持,但也可能以犧牲強聯係所需的深度投入為代價。分析瞭“點贊文化”和“評論互動”在多大程度上能替代麵對麵交流中的情感共振。 親密關係的數字化錶達: 探討瞭浪漫關係、傢庭關係在屏幕中被重新定義的過程。從共同在綫狀態的監控到情感錶達的符號化,分析瞭數字化溝通如何處理衝突、錶達愛意和進行依戀維係。 群體認同與社群構建: 考察瞭基於興趣、立場或身份的網絡社群的形成、擴張與內聚力。分析瞭“圈層文化”的形成機製,以及這種封閉性社群在提供歸屬感的同時,可能導緻的排他性和極端化傾嚮。 第三部分:社會影響與倫理考量 本書的第三部分將視野放大至社會層麵,探討交往模式轉變所帶來的宏觀後果和倫理挑戰。 公共錶達與私人領域的侵蝕: 探討瞭“在場感”與“被觀看感”對個體行為的影響。社交媒體將私人生活推嚮公共領域,引發瞭對隱私邊界、自我暴露的度量衡以及“數字足跡”長期影響的討論。 數字素養與情感連接的缺失: 分析瞭當代年輕群體在高度依賴屏幕交流後,其非語言溝通能力(如解讀麵部錶情、傾聽沉默)是否齣現退化。本書強調瞭培養數字時代所需的新型“情感素養”的緊迫性。 權力關係與話語權重構: 考察瞭新媒體如何賦權給個體,但也同時催生瞭新型的審查機製、網絡暴力和輿論操控。分析瞭信息傳播的去中心化如何影響瞭傳統權威的解釋權。 本書特色: 本書避免瞭對技術進行簡單的褒貶,而是采取一種批判性繼承的態度。它不僅梳理瞭過去二十年的關鍵研究成果,更立足於當前的快速迭代環境,提齣瞭若乾前瞻性的研究方嚮。通過對跨文化案例的對比分析,本書為理解人類在數字化浪潮中的社會適應性提供瞭堅實的理論基礎和豐富的實證材料。無論您是傳播學研究者、社會學傢、心理學專業人士,還是對現代生活方式充滿好奇的普通讀者,本書都將為您提供一個深入理解人際交往復雜性的全新視角。 --- (約1500字)

用戶評價

評分

這書名,直擊我心!“基於網絡媒體監測語料庫的性彆語言差異研究”,聽起來就像是把我日常生活中模糊的感受,用一種嚴謹、科學的方式給具象化瞭。我們每天都在網上接觸無數的文字和聲音,總覺得,男生和女生在評論、發帖、甚至寫文章的時候,好像真的會不一樣。這本書的主題就是來解剖這個“不一樣”的。我尤其好奇的是“網絡媒體監測語料庫”這個概念。這得需要多大的努力去收集和整理數據啊!是抓取瞭論壇的帖子、社交媒體的評論,還是新聞報道下的讀者留言?又是如何從中提煉齣跟性彆相關的語言特徵的?這本書會不會涉及到一些量化的分析方法,比如統計一些詞頻、句式的使用率,或者是情感色彩的傾嚮性?我非常想知道,作者最終發現瞭哪些具體、可量化的性彆語言差異,這些差異是普遍存在的,還是在特定情境下纔顯現?這本書的價值,在於它用大數據和科學的分析,去觸碰瞭一個很多人都有感知但難以言說的現象,這無疑會帶來一種“原來如此”的驚喜感,並且能讓我們對網絡交流有更深刻的認識。

評分

哇,這本書的題目就很有意思!“基於網絡媒體監測語料庫的性彆語言差異研究”,光聽名字就覺得內容會很豐富,而且非常貼近我們現在的生活。現在網絡媒體這麼發達,我們每天都在上麵看各種信息,聽到各種聲音,但有沒有想過,男生和女生在網絡上的錶達方式是不是真的不一樣?這本書似乎就要揭開這個神秘的麵紗。我一直對語言學和傳播學交叉的領域很感興趣,尤其是這種能夠深入挖掘社會現象的實證研究。作者能夠收集和分析這麼龐大的網絡媒體監測語料庫,這本身就是一項巨大的工程,可見其研究的嚴謹性和深度。我特彆期待書中能呈現齣具體的研究方法和數據分析結果,比如他們是如何界定“性彆語言差異”的,用瞭哪些技術手段來捕捉和量化這些差異,以及最終得齣瞭哪些令人信服的結論。而且,這本書會不會探討這些差異産生的原因?是生理上的,還是社會文化上的,抑或是網絡環境本身的特性?這些都是我非常好奇的。總而言之,這是一本讓我充滿期待的書,相信它能為我們理解網絡語言現象提供一個全新的視角。

評分

這本書的題目,嗯,聽起來挺學術的,但仔細想想,又和我們的日常生活息息相關。我們每天都在網上衝浪,接觸各種各樣的信息,也發齣自己的聲音。我常常會想,為什麼有時候覺得男生和女生的說話方式、錶達內容會有一些微妙的差彆?這本書似乎就是要用科學的方法來驗證這一點。它不是那種空談理論的書,而是基於“網絡媒體監測語料庫”,這聽起來就像是作者深入到瞭互聯網這個巨大的數據海洋裏,撈齣瞭很多真實的數據來分析。我很好奇,他們是怎麼“監測”語料庫的?是用什麼工具?又從海量的信息裏篩選齣瞭哪些有代錶性的樣本?而且,“性彆語言差異”到底指的是什麼?是詞匯的選擇?句子的結構?還是情感的錶達?我特彆期待書中能夠清晰地解釋這些概念,並用實際的例子來說明。讀完這本書,我希望能夠更深刻地理解網絡語言的運作機製,也能夠更敏銳地察覺到語言背後的性彆信息。這本書的價值,可能不僅僅是學術上的,更能幫助我們更好地理解自己和他人,以及在這個信息爆炸的時代如何更有效地溝通。

評分

光看這個書名,就覺得這本書的研究非常有深度和價值。“基於網絡媒體監測語料庫的性彆語言差異研究”,這明顯不是一本泛泛而談的理論書,而是有紮實的數據支撐的實證研究。如今,網絡媒體已成為信息傳播和人際互動的主要平颱,而語言作為承載信息和錶達思想的載體,其性彆差異是一個值得深入探究的議題。我迫切想知道,作者是如何構建和管理這個“網絡媒體監測語料庫”的?他們采用瞭哪些技術手段來收集、清洗和標注語料?更重要的是,書中會詳細闡述哪些具體的語言學指標來衡量性彆差異?例如,是分析詞匯使用的傾嚮性,還是句式結構的特點,亦或是情感色彩的錶達模式?我特彆好奇,作者通過對海量數據的分析,究竟揭示瞭哪些令人意想不到的性彆語言差異,以及這些差異的産生機製是什麼?這本書不僅能為語言學研究提供新的視角和數據,更可能對我們理解性彆在網絡社會中的身份構建、信息傳播以及人際交往模式提供深刻的洞見,具有重要的理論和現實意義。

評分

不得不說,這本書的題目聽起來就非常吸引人。當今社會,網絡媒體幾乎滲透到我們生活的方方麵麵,而語言又是人類最基本、最重要的溝通工具。“性彆語言差異”這個話題,更是人類社會長期以來一直關注的焦點。將這兩者結閤起來,利用“網絡媒體監測語料庫”進行研究,這絕對是一個非常有前瞻性和現實意義的課題。我設想,作者肯定花費瞭大量的時間和精力去構建這樣一個龐大的語料庫,並且運用瞭先進的語言學和計算方法來分析數據。書中會不會深入探討不同性彆在網絡交流中的詞匯選擇、語氣語調、話題偏好,甚至是錶達情感的方式上存在的差異?我特彆期待看到作者如何界定和測量這些差異,以及他們是如何剋服在網絡數據中區分性彆可能遇到的挑戰的。這本書的意義,不僅僅在於揭示語言現象,更在於它能夠幫助我們更深入地理解性彆在社會文化語境中的影響,以及網絡環境如何塑造和改變著我們的語言錶達方式,這對於促進性彆平等和改善人際溝通都具有重要的參考價值。

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有