發表於2024-12-15
新媒體數據挖掘——基於R語言 pdf epub mobi txt 電子書 下載
計算傳播領域尤其是新媒體數據挖掘方嚮一直缺乏係統的教材,《新媒體數據挖掘——基於R語言》旨在為計算傳播和計算社會科學領域的讀者提供學習R編程語言和開發平颱的捷徑,希望能夠填補這方麵的空白。“讓學習層次變得更宏觀,讓學習過程變得更輕鬆,讓學習所獲變得更通用”是《新媒體數據挖掘——基於R語言》的編寫理念與特色。《新媒體數據挖掘——基於R語言》首先剖析瞭社會科學研究範式的革新,介紹瞭R語言的作用和特點;然後係統講解瞭編程語言的通用學習方法和R語言的基本組成;最後展開實戰應用,包括網絡數據采集、文本挖掘和情感分析、社會網絡分析、社交編程平颱協作等非常有趣且有意義的內容。
《新媒體數據挖掘——基於R語言》適閤作為計算傳播和計算社會科學領域相關專業本科和研究生教材。高職高專學校也可以選用部分內容開展教學。《新媒體數據挖掘——基於R語言》還適閤作為計算傳播學和計算社會科學科研人員的自學書籍。
作者簡介
王小峰,深圳大學傳播學院網絡新媒體係教師,計算機博士(武漢理工大學)、公共管理博士後(武漢大學),網頁設計師、Redhat工程師。長期緻力於計算機編程語言的教學與實踐,精通C/C++、Java、PHP、JavaScript、Python、R、Go等十餘種編程語言。研究方嚮主要有機器學習(自然語言處理)、數學文化傳播、區塊鏈應用係統開發等。編寫《高級語言程序設計(C語言版)》《深度學習(人工智能)》《PHP動態網頁設計與網站架設》等教材七部,發錶國內外核心論文十餘篇。近三年來主持中國博士後科學基金項目“深圳市區級衛生信息平颱的集約化建設與第三方監管模式研究”(編號:2016M602370)、深圳市教育科學“十三五”規劃重點項目“基於全棧開源的創客課題體係的規劃與實施研究”(編號:zdfz16003)、科技創新課題“基於區塊鏈技術的電子文件保護研究”“基於聯盟區塊鏈網絡的電子病曆防篡改研究”等項目和課題。
第1章 為什麼學習R語言 1
1.1 R是什麼 2
1.1.1 R是一款優秀的現代科研軟件 2
1.1.2 R的優勢與不足 3
1.1.3 R和Python的區彆 3
1.2 計算社會科學的興起——以計算傳播學為例 4
1.2.1 什麼是計算社會科學 4
1.2.2 計算傳播學的起源和概念 7
1.3 R在計算傳播學中的典型應用 9
1.3.1 用R進行文本分析初探 9
1.3.2 互聯網在綫數據收集 10
1.3.3 社會網絡分析 12
1.4 總結與提高 13
1.5 習題 14
第2章 R語言開發環境 15
2.1 R的獲取、安裝和基本使用 16
2.1.1 RGui的下載與安裝 16
2.1.2 RGui的使用介紹 19
2.1.3 示例:使用R Commander實現統計功能 21
2.1.4 R的內置數據集和擴展功能包 26
2.1.5 R的幫助係統 27
2.1.6 R的工作空間和工作目錄 27
2.2 R的IDE開發環境——RStudio 27
2.2.1 RStudio的下載和安裝 28
2.2.2 RStudio的最簡標準操作 28
2.2.3 RStudio的工作界麵 31
2.2.4 RStudio的用戶自定義配置 32
2.3 示例:我的第一個R項目“網頁爬蟲” 32
2.3.1 組織項目需求 33
2.3.2 新建項目環境 33
2.3.3 編寫應用程序代碼並運行 34
2.3.4 執行代碼並根據實際結果修改和再次運行 35
2.4 總結與提高 37
2.5 習題 38
第3章 R語言基礎——數據 39
3.1 無障礙學習編程語言的兩個訣竅 40
3.1.1 從“哲學”的角度瞭解編程語言 40
3.1.2 從“語言學”的角度學習編程語言語法 41
3.2 R的基本數據類型(數值、字符、邏輯) 42
3.2.1 基本數據類型 42
3.2.2 數據類型的兩個屬性:模式和長度 43
3.2.3 兩個特殊常量 44
3.3 R的復閤數據類型 45
3.3.1 嚮量 46
3.3.2 矩陣 46
3.3.3 數組 47
3.3.4 數據框 48
3.3.5 列錶 49
3.3.6 因子 51
3.3.7 時間序列 52
3.4 數據的導入和導齣 54
3.4.1 數據的導入 55
3.4.2 數據的導齣 59
3.5 總結與提高 59
3.6 習題 59
第4章 R語言基礎——代碼 61
4.1 R代碼的基本單位:語句=數據+運算符; 62
4.1.1 基本運算符 62
4.1.2 錶達式、語句、語句塊 65
4.2 R的流程控製 66
4.2.1 順序結構 66
4.2.2 選擇/分支結構 67
4.2.3 循環結構 70
4.3 R代碼復用——函數和過程 73
4.3.1 “模塊化”編程思想與函數 73
4.3.2 函數的定義與調用 75
4.3.3 過程的定義與調用 76
4.4 總結與提高 77
4.5 習題 77
第5章 R繪圖——數據可視化呈現 79
5.1 概述 80
5.2 R的繪圖函數 81
5.2.1 圖形窗口繪圖操作函數(圖形的創建和保存) 82
5.2.2 R圖形參數 83
5.2.3 高級繪圖函數 86
5.2.4 低級繪圖函數 89
5.3 常用的R可視化功能包 91
5.3.1 ggplot2功能包 91
5.3.2 rCharts功能包 93
5.3.3 plotly功能包 95
5.3.4 map功能包 96
5.4 總結與提高 97
5.5 習題 98
第6章 網絡數據程序化采集 99
6.1 網絡數據的獲取途徑及相關基礎知識 100
6.1.1 Web數據的獲取途徑 100
6.1.2 Web的結構與原理 101
6.2 使用R收集Web數據 106
6.2.1 獲取靜態Web內容 107
6.2.2 網絡數據的應用級API采集(以豆瓣為例) 109
6.2.3 獲取動態Web內容 111
6.3 總結與提高 114
6.4 習題 114
第7章 文本挖掘和情感分析 115
7.1 R環境下的文本挖掘 116
7.1.1 中文分詞 117
7.1.2 分詞包jiebaR的使用 118
7.1.3 詞雲包wordcloud2的使用 127
7.2 情感分析 129
7.2.1 情感分析概述 129
7.2.2 情感分析的簡單實現 131
7.3 總結與提高 133
7.4 習題 133
第8章 社會網絡分析 135
8.1 網絡社會與社會網絡分析 136
8.1.1 社會的構成 136
8.1.2 網絡社會與社會網絡分析 137
8.1.3 現代網絡社會與社會網絡分析 140
8.1.4 網絡與關係的描述 142
8.2 社會網絡分析的發展、意義和步驟 143
8.2.1 社會網絡分析的三個方嚮 143
8.2.2 社會網絡分析的幾個主要步驟 144
8.2.3 社會網絡分析的幾個重要指標 144
8.3 社會網絡分析的常用工具 146
8.3.1 NodeXL的使用 146
8.3.2 R的iGraph功能包 147
8.3.3 UCINET 149
8.4 總結與提高 149
8.5 習題 150
第9章 社交編程平颱:GitHub 151
9.1 自己架設PHP實驗站點並深入探索RCurl功能包 152
9.1.1 基於PHP網頁服務器端技術架設網站實驗環境 152
9.1.2 深入探索RCurl包 157
9.2 挖掘和分析社交編程平颱GitHub的信息 162
9.2.1 GitHub的基本使用 162
9.2.2 探索GitHub API 165
9.3 總結與提高 175
9.4 習題 175
附錄 177
附錄1 計算社會科學宣言 177
附錄2 計算傳播學:宣言與版圖 182
附錄3 服務器版RStudio的安裝與配置(基於Ubuntu14.04) 191
附錄4 RStudio的常用快捷鍵 192
附錄5 使用devtools包從GitHub中安裝R包 196
附錄6 使用Rtools自製R擴展軟件包 197
參考文獻 203
隨著互聯網、大數據、人工智能等技術的發展,科學技術已經不再隻是人類社會的生活背景,而是真正關係到人類整體的生存與發展。多學科相結閤、以各學科的視角和專業背景促成人類的自由與科學的發展,是科研工作者在當今時代最重要的研究論題,這反映在人文社會科學領域,正是“哲學社會科學”。
如果說自然科學的使命是研究和預測宇宙,那麼哲學社會科學則是研究和預測人類社會。如今“計算範式”已經開始引發社會科學領域的科學範式革命,社會科學的實證研究已經形成“計算範式”與“計量範式”並駕齊驅的格局。
在這樣的時代與科研背景下,近些年“人人都要學編程”“人人都要會數據統計”在人文社會科學領域顯得越來越重要。由於具有開源、強大的網絡擴展功能,廣泛的社區支持,強大的數據處理/統計分析和可視化功能,R語言和Python語言儼然已成為當前人文社會科學領域的師生們必須掌握的學習和科研工具。該如何選擇這些軟件工具?如何真正地高效學習編程語言?如何以最簡單但又最標準、最正確的姿態選擇和學習一門網絡編程語言?這些對人文社會科學領域的師生們來說並不是一件簡單的事情。
筆者由於跨學科的背景:十年從事計算機領域的教學與開發工作,轉型並進入深圳大學新聞與傳播學院(人文社會科學領域)任教,在梳理人文社科、自然哲學的脈絡關係中得到瞭“讓世界在內心中逐漸閤理起來”的哲學愉悅;為滿足教學科研的需要,現將“十年來對計算機編程語言教與學的方法”和“對人文社科、自然哲學的統一觀察”一並寫成《新媒體數據挖掘——基於R語言》,作為這些年來工作與學習的總結。
《新媒體數據挖掘——基於R語言》的全部章節安排如下:
第1章首先從計算社會科學、計算傳播學在國內學術圈中的興起入題,介紹R語言的誕生、功能和在科研工作中的作用,對比幾種科研工具的優缺點,並強調“R是一種自帶編程環境的統計軟件,Python是一種自帶統計功能的編程語言”,以供讀者做齣符閤自己實際情況的正確選擇。
第2章以R為選擇對象,先引入R的核心軟件RGui,然後介紹R的綜閤IDE開發環境RStudio的下載、安裝和基本使用。
第3章和第4章本著“程序=數據+代碼”的宏觀架構,本著將“編程語言作為語言來學習”的核心主綫,選擇大傢熟悉的英語語法為參照物,對R語言的語法進行平緩、細緻、精確的講解,讓讀者能夠真正掌握一種學習任何編程語言的“萬能通用方法”:英語被稱為動詞的語言,名詞(相當於數據類型)和以動詞(相當於運算符)為核心的謂語構成簡單句(相當於錶達式語句),為錶達更復雜的邏輯,英語語法又擴充齣瞭並列句、復閤句等語法結構(相當於流程控製)。讀者會發現,幾乎所有計算機語言的圖書,其前幾章必然是“數據類型”“運算符”“流程控製”,這其實就是《新媒體數據挖掘——基於R語言》提齣的“編程語言通用學習主綫”;主綫之外其他語法項目無外乎錦上添花,例如函數是為瞭提高代碼復用率,軟件包是為瞭引入第三方擴充。
第5章至第8章分彆講述如何用R的核心功能包和擴展功能包實現可視化繪圖、互聯網數據采集、文本挖掘與情感分析、社會網絡分析等功能,這些內容不僅非常有趣,而且非常有應用和科研意義。
第9章引入一個案例學習社交編程平颱GitHub,不僅加深對第6章中網絡數據采集的學習和應用,還可結閤附錄中的R軟件包的製作、發布與引入方法,真正認識到GitHub作為社交編程平颱的重要性和意義:程序員世界的重建巴彆塔。
在《新媒體數據挖掘——基於R語言》的編寫分工上,深圳大學傳播學院網絡與新媒體係的王小峰老師負責全書的規劃、主編與統稿,並參與撰寫瞭第1、第3、第4、第6、第9章;福建師範大學福清分校電子與信息工程學院的方捷老師撰寫瞭第2、第5、第7、第8章和全部附錄內容。
由於時間倉促、作者水平有限,《新媒體數據挖掘——基於R語言》難免存在遺漏與不足,編者敬請讀者批評與指正,我們將會在後續的工作中不斷地調整、改進。
深圳大學 王小峰
2017年10月30日夜
於深圳市福田區安托山
新媒體數據挖掘——基於R語言 pdf epub mobi txt 電子書 下載