编辑推荐
作为数据分析的利器,与其它流行的统计分析软件(如Excel、Matlab、SAS、SPSS等)相比,R语言的优势主要体现在:开源免费、易于扩展、数据包丰富、可视化功能强大、可运行于多种平台。
本书力求简明扼要、提供干货,以*浅显的语言、详尽的R语言实现代码向读者循序渐进地展现网络舆情分析的完整过程。
内容简介
进入互联网时代后,网络舆情形成迅速,影响着社会生活的方方面面,如何高效全面地采集舆情数据并利用数据挖掘算法及数据分析工具将舆情文本中有价值的信息挖掘出来,对于舆情监管、舆情研判、舆情引导至关重要。本书以R语言作为舆情分析的工具,在阐述相关原理的基础上,介绍了网络舆情信息采集、舆情信息预处理、舆情文本分类、舆情文本聚类、舆情数据关联规则挖掘、舆情相关指标预测等舆情分析环节,所有分析都使用R语言进行实现,给出了完整的过程和代码。本书可以作为舆情处理、数据分析等教学或科研的技术参考书,适于本科生、研究生、数据分析爱好者、舆情分析工作者及研究人员等阅读参考。
目录
目录
第1章网络舆情与舆情分析概述
1.1舆情与网络舆情的基本概念
1.1.1舆情的起源及定义
1.1.2网络舆情
1.2网络舆情的特征及表现形式
1.3网络舆情分析技术
1.3.1网络舆情分析的研究热点
1.3.2网络舆情分析的步骤
1.3.3网络舆情分析的常用技术
第2章R语言基础
2.1R语言简介
2.1.1R语言的起源、特点及安装
2.1.2R语言的基本操作
2.1.3R语言的常用命令
2.1.4包的安装与加载
2.2数据操作
2.2.1基本数据类型
2.2.2数据结构
2.2.3数据读写
2.2.4数据的描述性统计
2.3R语言语法
2.3.1分支结构
2.3.2循环结构
2.3.3R语言函数
2.3.4apply函数族
2.4R语言绘图
2.4.1条形图
2.4.2饼图
2.4.3直方图
2.4.4散点图
第3章网络舆情信息采集及R爬虫的实现
3.1网络舆情信息采集的基本原理
3.1.1网络爬虫及其主要类型
3.1.2爬虫的工作流程
3.2免费的网络舆情采集利器——八爪鱼数据采集器
3.2.1简介
3.2.2下载、安装、启动与注册账号
3.2.3八爪鱼采集器的使用
3.3基于R语言的信息采集爬虫的开发
3.3.1HTTP
3.3.2RCurl包
3.3.3XML包
3.3.4基于RCurl包与XML包的爬虫示例
第4章基于R语言的舆情信息预处理
4.1分词处理
4.1.1分词的基本原理
4.1.2使用Rwordseg包进行分词
4.1.3使用jiebaR包进行分词
4.2去停用词
4.2.1什么是停用词
4.2.2R语言中去停用词的方法
4.3词频统计
4.3.1词频统计常用函数
4.3.2词云可视化
4.4文本向量化
4.4.1语料库与文本向量空间
4.4.2R语言中语料库的构建
4.4.3R语言中文本向量的构建——文档词条矩阵
第5章基于R语言的网络舆情分类
5.1分类的定义及其基本原理
5.1.1分类的定义
5.1.2分类的基本原理
5.2经典的分类算法——决策树算法
5.2.1什么是决策树
5.2.2决策树算法的基本思想
5.3分类算法在舆情分析中的应用
5.3.1网络舆情分类的基本原理
5.3.2网络舆情分类的常用算法及其R语言实现
5.4基于R语言的网络舆情分类示例——微信公众号文章分类
5.4.1问题描述
5.4.2数据采集
5.4.3微信公众号文章分类的R语言实现
第6章基于R语言的网络舆情热点话题聚类
6.1聚类的定义及其基本原理
6.1.1聚类的定义
6.1.2聚类的基本原理
6.2经典的聚类算法
6.2.1K�睲eans聚类
6.2.2层次聚类
6.3聚类算法在舆情分析中的应用及其R语言实现
6.4基于R语言的网络舆情聚类分析示例——电商顾客评论热点话题聚类
6.4.1问题描述
6.4.2数据采集
6.4.3电商商品评论聚类分析的R语言实现
第7章基于R语言的网络舆情关联规则挖掘
7.1关联规则挖掘的定义及其基本原理
7.1.1什么是关联规则挖掘
7.1.2关联规则挖掘的基本原理
7.2常用的关联规则挖掘算法
7.2.1Apriori算法
7.2.2Eclat算法
7.3关联规则挖掘在舆情分析中的应用及其R语言实现
7.4基于R语言的网络舆情关联分析示例——雾霾舆情热点词关联
模式挖掘
7.4.1问题描述
7.4.2数据采集
7.4.3雾霾舆情热点词关联模式挖掘的R语言实现
第8章基于R语言与BP神经网络的网络舆情分析
8.1BP神经网络概述
8.1.1什么是人工神经网络
8.1.2什么是BP神经网络
8.2BP神经网络的算法原理
8.2.1BP神经网络的算法流程
8.2.2数据的归一化处理
8.3BP神经网络在舆情分析中的应用及其R语言实现
8.4基于R语言与神经网络的舆情分析示例——微博转发数与评论数预测
8.4.1问题描述
8.4.2数据采集
8.4.3基于R语言与神经网络的微博转发数与评论数预测的实现
参考文献
精彩书摘
第3章网络舆情信息采集及R爬虫的实现
3.1网络舆情信息采集的基本原理
3.1.1网络爬虫及其主要类型
舆情分析的基础是数据。数据从哪里来?目前舆情分析所使用的数据大都是通过网络爬虫从互联网各个媒体抓取的,这些媒体主要包括新闻、论坛、博客、微博、微信、贴吧、社区等。毫无疑问,网络爬虫是舆情分析必备的武器。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型: 通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
1. 通用网络爬虫
通用网络爬虫又称全网爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。由于商业原因,它们的技术细节很少公布出来。这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。虽然存在一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。
通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有深度优先策略、广度优先策略。
(1) 深度优先策略: 其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其他链接。当所有链接遍历完后,爬行任务结束。这种策略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
(2) 广度优先策略: 此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无须存储大量中间节点,不足之处在于需较长时间才能爬行到目录层次较深的页面。
2. 聚焦网络爬虫
聚焦网络爬虫又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。
聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。常用的爬行策略包括: 基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略。
(1) 基于内容评价的爬行策略: DeBra将文本相似度的计算方法引入到网络爬虫中,提出了Fish Search算法,它将用户输入的查询词作为主题,包含查询词的页面被视为与主题相关,其局限性在于无法评价页面与主题相关度的高低。Herseovic对Fish Search算法进行了改进,提出了Sharksearch算法,利用空间向量模型计算页面与主题的相关度大小。
(2) 基于链接结构评价的爬行策略: Web页面作为一种半结构化文档,包含很多结构信息,可用来评价链接重要性。PageRank算法最初用于搜索引擎信息检索中对查询结果进行排序,也可用于评价链接重要性,具体做法就是每次选择PageRank值较大页面中的链接来访问。另一个利用Web结构评价链接价值的方法是HITS方法,它通过计算每个已访问页面的Authority权重和Hub权重,来决定链接的访问顺序。
(3) 基于增强学习的爬行策略: Rennie和McCallum将增强学习引入聚焦爬虫,利用贝叶斯分类器,根据整个网页文本和链接文本对超链接进行分类,为每个链接计算出重要性,从而决定链接的访问顺序。
(4) 基于语境图的爬行策略: Diligenti等人提出通过建立语境图(Context Graphs)学习网页之间的相关度,训练一个机器学习系统,通过该系统可计算当前页面到相关Web页面的距离,距离越近的页面中的链接优先访问。
前言/序言
前言
2013年8月19日和20日,习近平总书记出席全国宣传思想工作会议并发表重要讲话; 2014年10月15日,习近平总书记主持召开文艺工作座谈会并发表重要讲话; 2015年12月25日,习近平总书记视察解放军报社并发表重要讲话; 2016年2月19日,习近平总书记到人民日报社、新华社、中央电视台三家中央新闻单位进行了实地调研后,主持召开党的新闻舆论工作座谈会并发表重要讲话。从这些讲话中,我们可以深刻地领会到: 党中央高度重视舆论宣传工作,根据形势发展的需要,更是把网络舆情监督和引导当作重中之重来抓。
在当前的互联网及大数据的时代背景下,网络舆情形成迅速,影响着社会生活的方方面面,如何高效全面地采集舆情数据并利用数据挖掘算法及数据分析工具将舆情文本中有价值的信息挖掘出来,对于舆情监管、舆情研判、舆情引导至关重要。网络信息的不断膨胀给舆情工作提出了新的挑战,为了更好地进行舆情收集、舆情研判、加快构建舆情引导新格局,舆情工作方式、舆情管理思维、舆情数据分析技术等都需要不断创新。
作者在本书的写作过程中阅读了大量的相关文献。文献研究表明,目前,越来越多的学者加入到了网络舆情的基础理论、支撑技术和演化机制等的研究中,网络舆情的研究视角日益多样化,研究内容也越来越深入。从网络舆情分析的视角来看,其核心技术主要包括自然语言处理、文本分类、文本聚类、关联分析、智能预测等,相应的理论、算法等也日臻成熟。但是,在实际的网络舆情分析各个环节中,舆情信息如何有效地采集、舆情分析算法如何高效地实现、舆情分析结果如何可视化展示等问题仍然困扰着很多研究者和舆情分析人员。
基于上述考虑,本书以R语言作为舆情分析工具,在阐述相关原理的基础上,介绍了网络舆情信息采集、舆情信息预处理、舆情文本分类、舆情文本聚类、舆情数据关联规则挖掘、舆情预测等的技术和方法。作为数据分析的利器,与其他流行的统计分析软件(如Excel、Matlab、SAS、SPSS等)相比,R语言的优势主要体现在开源免费、易于扩展、数据包丰富、可视化功能强大、可运行于多种平台。
本书力求简明扼要、提供有价值的知识,以最浅显的语言、详尽的R语言实现代码向读者循序渐进地展现网络舆情分析的完整过程。本书共8章,具体章节结构如下。
第1章网络舆情与舆情分析概述: 主要介绍了网络舆情的定义及特征,并对网络舆情的研究热点及相关技术做了概述。
第2章R语言基础: 为了帮助不熟悉R语言的读者尽快入门,本章主要从数据读写、基本语法、绘图三方面对R语言的使用做了言简意赅的介绍。
第3章网络舆情信息采集及R爬虫的实现: 介绍了网络舆情信息采集的基本原理、八爪鱼数据采集器的使用,并通过示例讲解了如何使用R语言开发一个简单的信息采集爬虫。
第4章基于R语言的舆情信息预处理: 介绍舆情信息预处理中分词、去停用词、词频统计、文本向量化等的基本原理以及R语言实现方法。
第5章基于R语言的网络舆情分类: 从分类的基本原理入手,介绍了决策树分类算法、网络舆情分类的基本原理,并通过“微信公众号文章分类”这一示例讲解了使用R语言进行网络舆情分类的方法和步骤。
第6章基于R语言的网络舆情热点话题聚类: 介绍了聚类的基本原理、经典的聚类算法、聚类算法在舆情分析中的应用,并通过“电商顾客评论热点话题聚类”这一商务舆情分析示例讲解了使用R语言进行网络舆情聚类的方法和步骤。
第7章基于R语言的网络舆情关联规则挖掘: 介绍了关联规则挖掘的基本原理、常用的关联规则挖掘算法、关联规则在舆情分析中的应用,并通过“雾霾舆情热点词关联模式挖掘”这一示例讲解了使用R语言进行网络舆情关联分析的方法和步骤。
第8章基于R语言与BP神经网络的网络舆情分析: 介绍了BP神经网络的算法原理、BP神经网络在舆情分析中的应用,并通过“微博转发数与评论数预测”这一示例讲解了使用R语言与神经网络进行网络舆情相关指标预测的方法和步骤。
本书系2015年度教育部人文社会科学研究规划基金项目“微信环境下基于大数据的高校舆情监管机制研究”(项目编号: 15YJAZH102)研究成果之一。本书内容浅显易懂、代码详尽,希望能对舆情工作者及研究人员有所裨益。由于作者学识有限,书中难免有所疏漏,在此表示歉意,并请读者朋友们不吝赐教。最后感谢清华大学出版社为本书的出版所做的努力。
大连海事大学于卫红
2017年3月
R语言与网络舆情处理 电子书 下载 mobi epub pdf txt
评分
☆☆☆☆☆
喜欢这个作者的书,要努力学习才行,加油(? •?_•?)?
评分
☆☆☆☆☆
内容很新,内容也比较全,作为一般的文本挖掘是够了,就两点不足,第一是书上给的下载地址没有课件和代码下载,书中代码有很多,第二是没有文档摘要方面的内容,估计作者也没有涉及到
评分
☆☆☆☆☆
喜欢这个作者的书,要努力学习才行,加油(? •?_•?)?
评分
☆☆☆☆☆
喜欢这个作者的书,要努力学习才行,加油(? •?_•?)?
评分
☆☆☆☆☆
包括网络内容抓取、汉语文本分词、热点话题聚类分析等内容,很实用。
评分
☆☆☆☆☆
内容很新,内容也比较全,作为一般的文本挖掘是够了,就两点不足,第一是书上给的下载地址没有课件和代码下载,书中代码有很多,第二是没有文档摘要方面的内容,估计作者也没有涉及到
评分
☆☆☆☆☆
喜欢这个作者的书,要努力学习才行,加油(? •?_•?)?
评分
☆☆☆☆☆
喜欢这个作者的书,要努力学习才行,加油(? •?_•?)?
评分
☆☆☆☆☆
内容很新,内容也比较全,作为一般的文本挖掘是够了,就两点不足,第一是书上给的下载地址没有课件和代码下载,书中代码有很多,第二是没有文档摘要方面的内容,估计作者也没有涉及到