发表于2024-12-14
网络舆情分析技术 pdf epub mobi txt 电子书 下载
随着互联网技术的快速发展和广泛应用,网络媒体已经成为重要的信息传播和交流平台,同时也是网络舆情形成和传播的主要载体。网络舆情通常由突发社会公共事件触发,反映了人们对某一公共事件所表达的认知、态度、情感和倾向性,具有虚拟化、快捷化、多元化、开放性、匿名性及互动性等特点。随着网络舆论影响力的增强,网络舆情已经成为各级政府了解社情民意的重要窗口。 随着网络舆论对社会和公众影响的不断增大,出现了网络炒作、造谣传谣等不良的现象,损害了网络媒体公信力,扰乱了网络正常传播秩序,产生了错误的舆论导向,极易引发社会群体性事件。因此,加强互联网管理和舆论治理非常重要和必要。 国家大力推进网络舆情监控体系建设,加强对网络舆情监测和引导。网络舆情监测系统在互联网舆情监测中发挥了重要的作用,其系统核心技术就是网络舆情分析技术。网络舆情分析技术主要涉及网络信息采集技术、网络舆情传播机制、话题检测与跟踪技术、文本分割技术、文本情感分析技术等。本书主要介绍了网络舆情分析所涉及的主要方法和关键技术,全书共有7章,分别介绍了网络舆情概论、网络信息采集技术、微博网络信息传播机制、网络论坛舆情传播机制、话题检测与跟踪技术、文本分割技术和文本情感分析技术。在介绍主要模型和算法时,还给出了模型和算法的实验验证,以便读者加深对模型和算法的理解。本书可作为网络空间安全学科相关专业的研究生和本科生教材,也可作为从事相关工作的科技人员及管理人员的参考书。
目 录
第1章 网络舆情概论 1
1.1 网络舆情概述 1
1.1.1 舆情与舆论 1
1.1.2 网络舆情 2
1.1.3 网络舆情演化 3
1.1.4 网络舆情实例 5
1.2 网络舆论空间治理 8
1.2.1 网络炒作问题 8
1.2.2 网络大V问题 9
1.2.3 政务微博作用 10
1.3 网络舆情传播平台 13
1.3.1 微博网络 13
1.3.2 网络论坛 15
1.4 网络舆情分析技术 16
1.4.1 网络舆情监测系统 16
1.4.2 网络信息采集技术 17
1.4.3 话题检测与跟踪技术 20
1.4.4 文本情感分析技术 22
第2章 网络信息采集技术 25
2.1 引言 25
2.2 搜索引擎概念 25
2.2.1 通用搜索引擎 25
2.2.2 主题搜索引擎 27
2.3 网络蜘蛛概念 29
2.3.1 基本概念 29
2.3.2 通用蜘蛛 29
2.3.3 主题蜘蛛 32
2.4 网页搜索算法 34
2.4.1 网页特征选取 34
2.4.2 网页搜索算法 36
2.4.3 链接分级搜索 41
2.5 网页相似度计算 43
2.5.1 向量空间模型 44
2.5.2 相似度计算 45
2.6 主题蜘蛛组成 48
2.6.1 系统结构 48
2.6.2 主题确立模块 49
2.6.3 爬行模块 49
2.6.4 相似度计算模块 53
2.6.5 搜索策略模块 53
2.6.6 系统界面 54
第3章 微博网络信息传播机制 56
3.1 引言 56
3.2 微博用户转发特性 57
3.2.1 转发行为特性 57
3.2.2 转发特性分析 61
3.3 微博转发行为预测 66
3.3.1 预测算法 66
3.3.2 算法验证 72
3.4 微博转发峰值分析 76
3.4.1 时间序列概念 76
3.4.2 峰值特性分析 77
3.5 微博意见领袖识别 87
3.5.1 识别方法 87
3.5.2 算法验证 89
第4章 网络论坛舆情传播机制 94
4.1 引言 94
4.2 网络论坛舆情形成模型 95
4.2.1 网络论坛结构 95
4.2.2 舆情形成模型 96
4.2.3 模型验证 98
4.3 网络论坛意见领袖识别 100
4.3.1 论坛有向网络图模型 101
4.3.2 论坛意见领袖识别算法 102
4.3.3 算法验证 103
4.4 网络水军热帖检测 106
4.4.1 热点话题特征提取 107
4.4.2 水军热帖检测算法 110
4.4.3 算法验证 110
4.5 网络水军账号检测 112
4.5.1 检测算法 113
4.5.2 算法验证 116
第5章 话题检测与跟踪技术 119
5.1 引言 119
5.2 基本概念 120
5.2.1 TDT目标和任务 120
5.2.2 TDT语料 122
5.2.3 TDT评价指标 122
5.3 相关技术 124
5.3.1 表示模型 124
5.3.2 相似度计算 125
5.3.3 特征项选取 126
5.3.4 文本聚类 127
5.3.5 文本分类 130
5.4 话题检测算法 133
5.4.1 K-MEANS算法 133
5.4.2 模糊聚类方法 135
5.4.3 蚁群聚类算法 138
5.4.4 算法验证 139
5.5 话题跟踪算法 145
5.5.1 KNN算法及改进 145
5.5.2 算法验证 146
5.6 热点话题检测 148
5.6.1 检测方法 148
5.6.2 算法验证 151
第6章 文本分割技术 155
6.1 引言 155
6.2 基本概念 156
6.2.1 文本分割点 156
6.2.2 文本分割方法 157
6.2.3 文本分割算法评价 159
6.3 基于LDA模型的文本分割 161
6.3.1 LDA模型 161
6.3.2 LDA模型改进 165
6.3.3 相似度计算 167
6.3.4 边界识别策略 168
6.3.5 算法验证 169
6.4 基于VSM模型的文本分割 174
6.4.1 特征项选取 174
6.4.2 语义段分割方法 176
6.4.3 算法验证 179
第7章 文本情感分析技术 181
7.1 引言 181
7.2 基本概念 182
7.2.1 文本情感分析层次 182
7.2.2 文本情感分析方法 184
7.2.3 语言建模方法 184
7.3 句子情感分析方法 185
7.3.1 主题句识别方法 185
7.3.2 主观句识别方法 189
7.3.3 主观关系识别方法 192
7.3.4 算法验证 195
7.4 段落情感分析方法 198
7.4.1 语义段句子情感标注 199
7.4.2 语义段句子权重计算 199
7.4.3 语义段情感计算方法 200
7.4.4 算法验证 202
7.5 文本情感分析模型 205
7.5.1 文本情感模型 205
7.5.2 模型参数估计 208
7.5.3 语言模型评价 209
7.5.4 算法验证 211
参考文献 214
前 言
随着互联网技术的快速发展和广泛应用,网络媒体已经成为重要的信息传播和交流平台,网络媒体被称为继报纸、杂志、广播、电视四大传统媒体之后的第五媒体,人们通过网络媒体提供的新闻、微博、论坛、博客等网络服务可以快捷地交流和共享信息资源,实现广泛的沟通交流,受众不仅仅是信息的接收者,同时也是信息的传播者。因此,网络媒体成为民众表达民意、交流情感的主要窗口,同时也是网络舆情形成和传播的载体。
网络舆情通常由突发社会公共事件触发,反映了人们对某一公共事件所表达的认知、态度、情感和倾向性,具有虚拟化、快捷化、多元化、开放性、匿名性及互动性等特点,主要通过网络新闻、微博、论坛帖子、博客博文等网络媒体进行传播,其中微博网站和网络论坛是主要的信息传播平台。随着网络舆论影响力的增强,网络舆情已经成为各级政府了解社情民意、改进工作作风、提高执政能力的重要窗口。
随着网络舆论对社会和公众影响的不断增大,出现了以网络炒作为营生的网络公关公司、网络推手、网络水军等。网络公关公司以营利为目的,为了炒作某个话题、人物或产品,雇佣了大量的网络水军,在网络推手的组织下,短时期内在互联网的各大网络论坛上大量地发布煽动性帖子,并通过跟帖、转帖及编发评论等方式炮制网络热点事件,营造虚假民意,从而形成虚假的网络舆情。网络公关公司、网络推手、网络水军等形成了灰色利益链,他们在实现“客户”利益的同时也获得自身利益。随着微博的兴起,网络水军把造谣和传谣的主要阵地从网络论坛转至微博,形成了网络推手、网络水军造势和网络大V的转发影响力相结合的网络谣言制造和传播的灰色利益链,个别网络大V在突发重大公共事件中发表不当言论,或者以“求辟谣”、“求证”等方式故意扩散谣言,导致不明真相的网民盲目跟风,损害了网络媒体公信力,扰乱了网络正常传播秩序,产生了错误的舆论导向,危及政府的公信力,极易引发社会群体性事件。
中央高度重视互联网管理和舆论治理,在《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》中指出,“牢牢把握正确舆论导向,健全社会舆情引导机制,传播正能量。加强网上思想文化阵地建设,实施网络内容建设工程,发展积极向上的网络文化,净化网络环境”。国家通过开展打击网络谣言等专项行动,依法惩戒了利用互联网进行造谣惑众的“秦火火”、“立二拆四”等网络大V,使不法网络大V和网络谣言遭到压制性打击,一些被称为“推墙派”、“凿船派”、“体制婊”的网络负能量群体被有效遏制,网络舆论空间逐步呈现风清气正之势。
由于网络舆情已成为各级政府了解社情民意的重要窗口,因此国家大力推进网络舆情监控体系建设,各级宣传主管部门以及主流新闻媒体等都设立了网络舆情监测机构,加强对网络舆情监测和引导。在网络舆情监测中,面对海量的网络信息,必须借助于信息技术来实现网络舆情监测的自动化和智能化。于是,各种网络舆情监测系统便应运而生,其系统核心技术就是网络舆情分析技术。
网络舆情分析技术是一种大数据应用,首先需要对网络舆情来源的网络信息进行实时监测和采集,然后对采集到的网络信息进行处理和分析,主要涉及网络信息采集技术、网络舆情传播机制、话题检测与跟踪技术、文本分割技术、文本情感分析技术等。网络舆情分析技术属于交叉性技术,涉及自然语言处理、计算语言学、人工智能、机器学习、信息检索、数据挖掘等多个研究领域和学科方向。
本书主要介绍网络舆情分析所涉及的主要方法和关键技术,全书共有7章,第1章为网络舆情概论,主要介绍网络舆情概述、网络舆论空间治理、网络舆情传播平台、网络舆情分析技术等内容;第2章为网络信息采集技术,主要介绍搜索引擎概念、网络蜘蛛概念、网页搜索算法、网页相似度计算、主题蜘蛛组成等内容;第3章为微博网络信息传播机制,主要介绍微博用户转发特性、微博转发行为预测、微博转发峰值分析、微博意见领袖识别等内容;第4章为网络论坛舆情传播机制,主要介绍网络论坛舆情形成模型、网络论坛意见领袖识别、网络水军热帖检测、网络水军账号检测等内容;第5章为话题检测与跟踪技术,主要介绍话题检测与跟踪的基本概念、相关技术、话题检测算法、话题跟踪算法、热点话题检测等内容;第6章为文本分割技术,主要介绍文本分割的基本概念、基于LDA模型的文本分割、基于VSM模型的文本分割等内容;第7章为文本情感分析技术,主要介绍文本情感分析的基本概念、句子情感分析方法、段落情感分析方法、文本情感分析模型等内容。
本书在介绍主要模型和算法时,还给出了模型和算法的实验验证,以便读者加深对相关模型和算法的理解。本书可以作为网络空间安全学科相关专业的研究生和本科生教材,对从事相关工作的科技人员及管理人员也能起到很好的参考和启示作用。
由于网络舆情分析技术比较复杂,本书很难覆盖相关技术的方方面面,难免存在不足和疏漏之处,欢迎广大读者批评指正。
本书的主要内容来自于作者及其研究团队的工作总结,张博、罗知林、徐会杰、石磊、杨惠、樊娜及彭冬等同志参与了相关研究工作,并为本书的撰写做出了贡献,对此表示感谢。
最后,感谢西北工业大学教材专著出版基金对本书的大力资助。
作 者
于西北工业大学
网络舆情分析技术 pdf epub mobi txt 电子书 下载