編輯推薦
作為數據分析的利器,與其它流行的統計分析軟件(如Excel、Matlab、SAS、SPSS等)相比,R語言的優勢主要體現在:開源免費、易於擴展、數據包豐富、可視化功能強大、可運行於多種平颱。
本書力求簡明扼要、提供乾貨,以*淺顯的語言、詳盡的R語言實現代碼嚮讀者循序漸進地展現網絡輿情分析的完整過程。
內容簡介
進入互聯網時代後,網絡輿情形成迅速,影響著社會生活的方方麵麵,如何高效全麵地采集輿情數據並利用數據挖掘算法及數據分析工具將輿情文本中有價值的信息挖掘齣來,對於輿情監管、輿情研判、輿情引導至關重要。本書以R語言作為輿情分析的工具,在闡述相關原理的基礎上,介紹瞭網絡輿情信息采集、輿情信息預處理、輿情文本分類、輿情文本聚類、輿情數據關聯規則挖掘、輿情相關指標預測等輿情分析環節,所有分析都使用R語言進行實現,給齣瞭完整的過程和代碼。本書可以作為輿情處理、數據分析等教學或科研的技術參考書,適於本科生、研究生、數據分析愛好者、輿情分析工作者及研究人員等閱讀參考。
目錄
目錄
第1章網絡輿情與輿情分析概述
1.1輿情與網絡輿情的基本概念
1.1.1輿情的起源及定義
1.1.2網絡輿情
1.2網絡輿情的特徵及錶現形式
1.3網絡輿情分析技術
1.3.1網絡輿情分析的研究熱點
1.3.2網絡輿情分析的步驟
1.3.3網絡輿情分析的常用技術
第2章R語言基礎
2.1R語言簡介
2.1.1R語言的起源、特點及安裝
2.1.2R語言的基本操作
2.1.3R語言的常用命令
2.1.4包的安裝與加載
2.2數據操作
2.2.1基本數據類型
2.2.2數據結構
2.2.3數據讀寫
2.2.4數據的描述性統計
2.3R語言語法
2.3.1分支結構
2.3.2循環結構
2.3.3R語言函數
2.3.4apply函數族
2.4R語言繪圖
2.4.1條形圖
2.4.2餅圖
2.4.3直方圖
2.4.4散點圖
第3章網絡輿情信息采集及R爬蟲的實現
3.1網絡輿情信息采集的基本原理
3.1.1網絡爬蟲及其主要類型
3.1.2爬蟲的工作流程
3.2免費的網絡輿情采集利器——八爪魚數據采集器
3.2.1簡介
3.2.2下載、安裝、啓動與注冊賬號
3.2.3八爪魚采集器的使用
3.3基於R語言的信息采集爬蟲的開發
3.3.1HTTP
3.3.2RCurl包
3.3.3XML包
3.3.4基於RCurl包與XML包的爬蟲示例
第4章基於R語言的輿情信息預處理
4.1分詞處理
4.1.1分詞的基本原理
4.1.2使用Rwordseg包進行分詞
4.1.3使用jiebaR包進行分詞
4.2去停用詞
4.2.1什麼是停用詞
4.2.2R語言中去停用詞的方法
4.3詞頻統計
4.3.1詞頻統計常用函數
4.3.2詞雲可視化
4.4文本嚮量化
4.4.1語料庫與文本嚮量空間
4.4.2R語言中語料庫的構建
4.4.3R語言中文本嚮量的構建——文檔詞條矩陣
第5章基於R語言的網絡輿情分類
5.1分類的定義及其基本原理
5.1.1分類的定義
5.1.2分類的基本原理
5.2經典的分類算法——決策樹算法
5.2.1什麼是決策樹
5.2.2決策樹算法的基本思想
5.3分類算法在輿情分析中的應用
5.3.1網絡輿情分類的基本原理
5.3.2網絡輿情分類的常用算法及其R語言實現
5.4基於R語言的網絡輿情分類示例——微信公眾號文章分類
5.4.1問題描述
5.4.2數據采集
5.4.3微信公眾號文章分類的R語言實現
第6章基於R語言的網絡輿情熱點話題聚類
6.1聚類的定義及其基本原理
6.1.1聚類的定義
6.1.2聚類的基本原理
6.2經典的聚類算法
6.2.1K�睲eans聚類
6.2.2層次聚類
6.3聚類算法在輿情分析中的應用及其R語言實現
6.4基於R語言的網絡輿情聚類分析示例——電商顧客評論熱點話題聚類
6.4.1問題描述
6.4.2數據采集
6.4.3電商商品評論聚類分析的R語言實現
第7章基於R語言的網絡輿情關聯規則挖掘
7.1關聯規則挖掘的定義及其基本原理
7.1.1什麼是關聯規則挖掘
7.1.2關聯規則挖掘的基本原理
7.2常用的關聯規則挖掘算法
7.2.1Apriori算法
7.2.2Eclat算法
7.3關聯規則挖掘在輿情分析中的應用及其R語言實現
7.4基於R語言的網絡輿情關聯分析示例——霧霾輿情熱點詞關聯
模式挖掘
7.4.1問題描述
7.4.2數據采集
7.4.3霧霾輿情熱點詞關聯模式挖掘的R語言實現
第8章基於R語言與BP神經網絡的網絡輿情分析
8.1BP神經網絡概述
8.1.1什麼是人工神經網絡
8.1.2什麼是BP神經網絡
8.2BP神經網絡的算法原理
8.2.1BP神經網絡的算法流程
8.2.2數據的歸一化處理
8.3BP神經網絡在輿情分析中的應用及其R語言實現
8.4基於R語言與神經網絡的輿情分析示例——微博轉發數與評論數預測
8.4.1問題描述
8.4.2數據采集
8.4.3基於R語言與神經網絡的微博轉發數與評論數預測的實現
參考文獻
精彩書摘
第3章網絡輿情信息采集及R爬蟲的實現
3.1網絡輿情信息采集的基本原理
3.1.1網絡爬蟲及其主要類型
輿情分析的基礎是數據。數據從哪裏來?目前輿情分析所使用的數據大都是通過網絡爬蟲從互聯網各個媒體抓取的,這些媒體主要包括新聞、論壇、博客、微博、微信、貼吧、社區等。毫無疑問,網絡爬蟲是輿情分析必備的武器。
網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。網絡爬蟲按照係統結構和實現技術,大緻可以分為以下幾種類型: 通用網絡爬蟲(General Purpose Web Crawler)、聚焦網絡爬蟲(Focused Web Crawler)、增量式網絡爬蟲(Incremental Web Crawler)、深層網絡爬蟲(Deep Web Crawler)。實際的網絡爬蟲係統通常是幾種爬蟲技術相結閤實現的。
1. 通用網絡爬蟲
通用網絡爬蟲又稱全網爬蟲,爬行對象從一些種子URL擴充到整個Web,主要為門戶站點搜索引擎和大型Web服務提供商采集數據。由於商業原因,它們的技術細節很少公布齣來。這類網絡爬蟲的爬行範圍和數量巨大,對於爬行速度和存儲空間要求較高,對於爬行頁麵的順序要求相對較低,同時由於待刷新的頁麵太多,通常采用並行工作方式,但需要較長時間纔能刷新一次頁麵。雖然存在一定缺陷,通用網絡爬蟲適用於為搜索引擎搜索廣泛的主題,有較強的應用價值。
通用網絡爬蟲的結構大緻可以分為頁麵爬行模塊、頁麵分析模塊、鏈接過濾模塊、頁麵數據庫、URL隊列、初始URL集閤幾個部分。為提高工作效率,通用網絡爬蟲會采取一定的爬行策略。常用的爬行策略有深度優先策略、廣度優先策略。
(1) 深度優先策略: 其基本方法是按照深度由低到高的順序,依次訪問下一級網頁鏈接,直到不能再深入為止。爬蟲在完成一個爬行分支後返迴到上一鏈接節點進一步搜索其他鏈接。當所有鏈接遍曆完後,爬行任務結束。這種策略比較適閤垂直搜索或站內搜索,但爬行頁麵內容層次較深的站點時會造成資源的巨大浪費。
(2) 廣度優先策略: 此策略按照網頁內容目錄層次深淺來爬行頁麵,處於較淺目錄層次的頁麵首先被爬行。當同一層次中的頁麵爬行完畢後,爬蟲再深入下一層繼續爬行。這種策略能夠有效控製頁麵的爬行深度,避免遇到一個無窮深層分支時無法結束爬行的問題,實現方便,無須存儲大量中間節點,不足之處在於需較長時間纔能爬行到目錄層次較深的頁麵。
2. 聚焦網絡爬蟲
聚焦網絡爬蟲又稱主題網絡爬蟲,是指選擇性地爬行那些與預先定義好的主題相關頁麵的網絡爬蟲。和通用網絡爬蟲相比,聚焦爬蟲隻需要爬行與主題相關的頁麵,極大地節省瞭硬件和網絡資源,保存的頁麵也由於數量少而更新快,還可以很好地滿足一些特定人群對特定領域信息的需求。
聚焦網絡爬蟲和通用網絡爬蟲相比,增加瞭鏈接評價模塊以及內容評價模塊。聚焦爬蟲爬行策略實現的關鍵是評價頁麵內容和鏈接的重要性,不同的方法計算齣的重要性不同,由此導緻鏈接的訪問順序也不同。常用的爬行策略包括: 基於內容評價的爬行策略、基於鏈接結構評價的爬行策略、基於增強學習的爬行策略、基於語境圖的爬行策略。
(1) 基於內容評價的爬行策略: DeBra將文本相似度的計算方法引入到網絡爬蟲中,提齣瞭Fish Search算法,它將用戶輸入的查詢詞作為主題,包含查詢詞的頁麵被視為與主題相關,其局限性在於無法評價頁麵與主題相關度的高低。Herseovic對Fish Search算法進行瞭改進,提齣瞭Sharksearch算法,利用空間嚮量模型計算頁麵與主題的相關度大小。
(2) 基於鏈接結構評價的爬行策略: Web頁麵作為一種半結構化文檔,包含很多結構信息,可用來評價鏈接重要性。PageRank算法最初用於搜索引擎信息檢索中對查詢結果進行排序,也可用於評價鏈接重要性,具體做法就是每次選擇PageRank值較大頁麵中的鏈接來訪問。另一個利用Web結構評價鏈接價值的方法是HITS方法,它通過計算每個已訪問頁麵的Authority權重和Hub權重,來決定鏈接的訪問順序。
(3) 基於增強學習的爬行策略: Rennie和McCallum將增強學習引入聚焦爬蟲,利用貝葉斯分類器,根據整個網頁文本和鏈接文本對超鏈接進行分類,為每個鏈接計算齣重要性,從而決定鏈接的訪問順序。
(4) 基於語境圖的爬行策略: Diligenti等人提齣通過建立語境圖(Context Graphs)學習網頁之間的相關度,訓練一個機器學習係統,通過該係統可計算當前頁麵到相關Web頁麵的距離,距離越近的頁麵中的鏈接優先訪問。
前言/序言
前言
2013年8月19日和20日,習近平總書記齣席全國宣傳思想工作會議並發錶重要講話; 2014年10月15日,習近平總書記主持召開文藝工作座談會並發錶重要講話; 2015年12月25日,習近平總書記視察解放軍報社並發錶重要講話; 2016年2月19日,習近平總書記到人民日報社、新華社、中央電視颱三傢中央新聞單位進行瞭實地調研後,主持召開黨的新聞輿論工作座談會並發錶重要講話。從這些講話中,我們可以深刻地領會到: 黨中央高度重視輿論宣傳工作,根據形勢發展的需要,更是把網絡輿情監督和引導當作重中之重來抓。
在當前的互聯網及大數據的時代背景下,網絡輿情形成迅速,影響著社會生活的方方麵麵,如何高效全麵地采集輿情數據並利用數據挖掘算法及數據分析工具將輿情文本中有價值的信息挖掘齣來,對於輿情監管、輿情研判、輿情引導至關重要。網絡信息的不斷膨脹給輿情工作提齣瞭新的挑戰,為瞭更好地進行輿情收集、輿情研判、加快構建輿情引導新格局,輿情工作方式、輿情管理思維、輿情數據分析技術等都需要不斷創新。
作者在本書的寫作過程中閱讀瞭大量的相關文獻。文獻研究錶明,目前,越來越多的學者加入到瞭網絡輿情的基礎理論、支撐技術和演化機製等的研究中,網絡輿情的研究視角日益多樣化,研究內容也越來越深入。從網絡輿情分析的視角來看,其核心技術主要包括自然語言處理、文本分類、文本聚類、關聯分析、智能預測等,相應的理論、算法等也日臻成熟。但是,在實際的網絡輿情分析各個環節中,輿情信息如何有效地采集、輿情分析算法如何高效地實現、輿情分析結果如何可視化展示等問題仍然睏擾著很多研究者和輿情分析人員。
基於上述考慮,本書以R語言作為輿情分析工具,在闡述相關原理的基礎上,介紹瞭網絡輿情信息采集、輿情信息預處理、輿情文本分類、輿情文本聚類、輿情數據關聯規則挖掘、輿情預測等的技術和方法。作為數據分析的利器,與其他流行的統計分析軟件(如Excel、Matlab、SAS、SPSS等)相比,R語言的優勢主要體現在開源免費、易於擴展、數據包豐富、可視化功能強大、可運行於多種平颱。
本書力求簡明扼要、提供有價值的知識,以最淺顯的語言、詳盡的R語言實現代碼嚮讀者循序漸進地展現網絡輿情分析的完整過程。本書共8章,具體章節結構如下。
第1章網絡輿情與輿情分析概述: 主要介紹瞭網絡輿情的定義及特徵,並對網絡輿情的研究熱點及相關技術做瞭概述。
第2章R語言基礎: 為瞭幫助不熟悉R語言的讀者盡快入門,本章主要從數據讀寫、基本語法、繪圖三方麵對R語言的使用做瞭言簡意賅的介紹。
第3章網絡輿情信息采集及R爬蟲的實現: 介紹瞭網絡輿情信息采集的基本原理、八爪魚數據采集器的使用,並通過示例講解瞭如何使用R語言開發一個簡單的信息采集爬蟲。
第4章基於R語言的輿情信息預處理: 介紹輿情信息預處理中分詞、去停用詞、詞頻統計、文本嚮量化等的基本原理以及R語言實現方法。
第5章基於R語言的網絡輿情分類: 從分類的基本原理入手,介紹瞭決策樹分類算法、網絡輿情分類的基本原理,並通過“微信公眾號文章分類”這一示例講解瞭使用R語言進行網絡輿情分類的方法和步驟。
第6章基於R語言的網絡輿情熱點話題聚類: 介紹瞭聚類的基本原理、經典的聚類算法、聚類算法在輿情分析中的應用,並通過“電商顧客評論熱點話題聚類”這一商務輿情分析示例講解瞭使用R語言進行網絡輿情聚類的方法和步驟。
第7章基於R語言的網絡輿情關聯規則挖掘: 介紹瞭關聯規則挖掘的基本原理、常用的關聯規則挖掘算法、關聯規則在輿情分析中的應用,並通過“霧霾輿情熱點詞關聯模式挖掘”這一示例講解瞭使用R語言進行網絡輿情關聯分析的方法和步驟。
第8章基於R語言與BP神經網絡的網絡輿情分析: 介紹瞭BP神經網絡的算法原理、BP神經網絡在輿情分析中的應用,並通過“微博轉發數與評論數預測”這一示例講解瞭使用R語言與神經網絡進行網絡輿情相關指標預測的方法和步驟。
本書係2015年度教育部人文社會科學研究規劃基金項目“微信環境下基於大數據的高校輿情監管機製研究”(項目編號: 15YJAZH102)研究成果之一。本書內容淺顯易懂、代碼詳盡,希望能對輿情工作者及研究人員有所裨益。由於作者學識有限,書中難免有所疏漏,在此錶示歉意,並請讀者朋友們不吝賜教。最後感謝清華大學齣版社為本書的齣版所做的努力。
大連海事大學於衛紅
2017年3月
R語言與網絡輿情處理 下載 mobi epub pdf txt 電子書
評分
☆☆☆☆☆
包括網絡內容抓取、漢語文本分詞、熱點話題聚類分析等內容,很實用。
評分
☆☆☆☆☆
喜歡這個作者的書,要努力學習纔行,加油(? •?_•?)?
評分
☆☆☆☆☆
包括網絡內容抓取、漢語文本分詞、熱點話題聚類分析等內容,很實用。
評分
☆☆☆☆☆
喜歡這個作者的書,要努力學習纔行,加油(? •?_•?)?
評分
☆☆☆☆☆
包括網絡內容抓取、漢語文本分詞、熱點話題聚類分析等內容,很實用。
評分
☆☆☆☆☆
內容很新,內容也比較全,作為一般的文本挖掘是夠瞭,就兩點不足,第一是書上給的下載地址沒有課件和代碼下載,書中代碼有很多,第二是沒有文檔摘要方麵的內容,估計作者也沒有涉及到
評分
☆☆☆☆☆
包括網絡內容抓取、漢語文本分詞、熱點話題聚類分析等內容,很實用。
評分
☆☆☆☆☆
包括網絡內容抓取、漢語文本分詞、熱點話題聚類分析等內容,很實用。
評分
☆☆☆☆☆
包括網絡內容抓取、漢語文本分詞、熱點話題聚類分析等內容,很實用。