編輯推薦
·一本非常實用的社會統計軟件Stata數據管理的指導書!
·有效提升大數據時代的數據管理能力和處理能力!
·社會科學工作者、數據工作者的數據管理參考書!
·手把手逐步演示數據管理的流程,易上手,易操作,突齣實務!
·國際Stata齣版社授權,中國人民大學中國調查與數據中心翻譯,準確、經得起檢驗的數據管理實務手冊。
一本生動可讀的數據管理書。作者就像是一個坐在對麵娓娓道來的講故事的人,將數據管理的流程和步驟一一展現,讓我們重新認識到Stata在數據管理方麵的迷人魅力。大數據時代,讓數據為我所用,易用,樂用,是這本書的一個齣發點。
該書的翻譯也是可圈可點的,精確,流暢,譯者唐麗娜不虧是科班齣身並長期緻力於社會統計的專傢,她在社會數據的管理與統計方麵的專業經驗,以及在CGSS(中國綜閤社會調查)項目中豐富的實操經驗,也極大保證瞭這本書的翻譯質量。
內容簡介
數據管理是介於原始數據收集和統計分析之間的一項重要工作,其包含瞭數據分析中那些挑戰性的方麵。《Stata環境下的數據管理實務手冊》從Stata入手,展示瞭Stata在管理數據工作中的作用,而非僅僅是其在統計上的優勢。
《Stata環境下的數據管理實務手冊》各章甚至各章中的大多數小節都是相互獨立的,每一部分都關注某一個特定的數據管理任務,並且提供瞭相應的實例來展示如何在Stata中實現這一特定數據管理任務。這使得本書提供瞭兩種不同的方式供讀者使用。讀者可挑選其中某一章節進行閱讀學習,或以數據管理任務為導嚮快速獲得相應幫助。
《Stata環境下的數據管理實務手冊》包含11章,第1章是簡介,第2—5章討論數據管理的基本問題:讀入和保存數據、數據清理、給數據加標簽以及創建變量。第6—8章討論的是在數據管理項目中較為常見的問題:閤並數據、處理子群體中的個案以及改變數據結構。第9章討論的是有關數據管理編程的問題。其相對第2—5章的內容而言更為深入和高級。這章描述瞭應怎樣組織構建數據分析以便其能被循環使用,並介紹瞭很多用來處理重復性任務的簡單編程方法。第10章主要為拓展內容,介紹瞭怎樣為本書獲取一些在綫資源,如何尋找和安裝其他STATA用戶編寫的程序,並推薦瞭一係列補充的在綫資源。最後附錄列齣STATA操作中的一些基本要素。這些要素並不是關於某一個特定的數據管理任務,較為分散,但卻無處不在。
作者簡介
邁剋爾 ·N·米歇爾(Michael N. Mitchell),是一位醫療衛生服務領域的高級統計師。12年來,他一直在加州大學洛杉磯分校學術技術服務部門的統計谘詢組工作。所著書籍有A Visual Guide to Stata Graphics,Interpreting and Visualizing Regression Models Using Stata,Stata for the Behavioral Sciences等。
唐麗娜,社會學博士,就職於中國人民大學中國調查與數據中心。研究領域為宗教社會學、社會調查方法與技術、社會科學數據管理及數據可視化、數據庫建設。
內頁插圖
精彩書評
有人說收集數據就像收垃圾一樣:收集之前就應該想好怎麼處理它。
——羅素.福剋斯,馬剋思.哥白尼和羅伯特.虎剋
目錄
第一章 入門介紹
1.1 本書的使用
1.2 本書的概要
1.3 本書使用的案例
第二章 讀取和錄入數據
2.1 簡 介
2.2 讀入Stata數據
2.3 保存Stata數據
2.4 讀取逗號或製錶符作分隔符的文件
2.5 讀取空格作分隔符的文件
2.6 讀取固定格式文件
2.7 讀取一條觀測值包含多行原始數據的固定格式的文件
2.8 讀取SAS XPORT文件
2.9 讀取數據時的常見錯誤
2.10 在Stata數據編輯器中直接輸入數據
2.11 保存逗號或製錶符作分隔符的文件
2.12 保存空格作分隔符的文件
2.13 保存SAS XPORT文件
第三章 數據清理
3.1 簡 介
3.2 數據的雙錄
3.3 單個變量檢查
3.4 用分類變量檢查分類變量
3.5 用連續變量檢查分類變量
3.6 用連續變量檢查連續變量
3.7 修正數據中的錯誤
3.8 識彆重復錄入
3.9 關於數據清理的總結性思考
第四章 給數據加標簽
4.1 簡 介
4.2 描述數據
4.3 給變量加標簽 4.4 給取值加標簽
4.5 標簽的作用
4.6 用不同的語言給變量和取值加標簽
4.7 給數據添加注釋
4.8 格式化變量的顯示
4.9 改變數據中的變量順序
第五章 創建變量
5.1 簡 介
5.2 創建和修改變量
5.3 數值錶達式和函數
5.4 字符錶達式和函數
5.5 重新編碼
5.6 給缺失值編碼
5.7 虛擬變量
5.8 日期變量
5.9 日期-時間變量
5.10 變量間的計算
5.11 個案間的計算
5.12 更多的使用egen命令的例子
5.13 把字符型變量轉換成數值型變量
5.14 把數值型變量轉換成字符型變量
5.15 變量重命名和變量排序
第六章 閤並數據
6.1 簡 介
6.2 添加數據
6.3 添加數據時存在的問題
6.4 一對一匹配閤並數據
6.5 一對多匹配閤並數據
6.6 閤並多個數據
6.7 更新閤並
6.8 閤並數據時的其他選項
6.9 閤並數據時的問題
6.10 連接數據
6.11 交叉閤並數據
第七章 處理分組的觀測值
7.1 簡 介
7.2 為每個分組獲取獨立的結果
7.3 分組獨立計算數值
7.4 組內計算:加下標的觀測值
7.5 組內計算:跨觀測值計算
7.6 組內計算:求和
7.7 組內計算:更多示例
7.8 比較by命令和tsset命令
第八章 改變數據形狀
8.1 簡 介
8.2 寬數據和長數據
8.3 長數據轉換成寬數據
8.4 長數據轉寬數據時的問題
8.5 寬數據轉換成長數據
8.6 寬數據轉長數據時的問題
8.7 多層次數據
8.8 延展數據
第九章 數據管理編程
9.1 簡 介
9.2 對數據管理長期目標的建議
9.3 執行do文件和製作日誌文件
9.4 數據檢驗的自動化
9.5 閤並do文件
9.6 介紹Stata中的宏
9.7 使用Stata中的宏
9.8 通過變量循環實現命令的重復執行
9.9 通過數字循環實現命令的重復執行
9.10 任何數據管理都能用循環實現命令的重復執行
9.11 獲取Stata命令保存的結果
9.12 把estimation命令的結果保存為數據
9.13 編寫Stata程序
第十章 附加資源
10.1 本書的在綫資源
10.2 搜索並安裝其他程序
10.3 更多在綫資源
附錄 基礎知識
A1.簡 介
A2.Stata語法概述
A3.用by命令進行分組分析
A4.注釋
A5.數據類型
A6.邏輯錶達式
A7.函數
A8.用if和in對觀測值進行分組
A9.用keep和drop選擇觀測值和變量
A10.缺失值
A11.變量列錶
主題詞錶
精彩書摘
書如其名,這是一本關於用Stata來管理數據的操作手冊。作為一本操作手冊,也就沒有必要一定遵循某種順序來閱讀每個章節。書中各章不僅各自獨立,並且各章中的大多數小節也相互獨立。書中每一部分都關注某一個特定的數據管理任務,且提供瞭相應的示例來展示如何在Stata中實現這一特定的數據管理任務。我認為本書至少有兩種使用方式。
讀者可挑選其中一章,比如第3章“數據清理”,通過閱讀這一章來掌握一些有關如何清理和準備數據的新知識點或小技巧。這樣,當下次需要清理數據時,就可以直接使用之前學到的這些相關知識點,如果需要的話,也可以再快速瀏覽一下相關章節。
或者,麵對之前從來沒有做過的數據任務(或者也許之前做過,但是已經很長時間沒有操作過瞭),希望能夠快速獲得幫助。例如,要讀入一個用逗號作為分隔符的數據文件。這時候,拿起這本書直接翻到第2章“讀入數據”的2.4節,這節介紹瞭如何讀入以逗號和製錶符作分隔符的數據文件。根據這節中的示例,就能把逗號分隔的數據文件讀入Stata,然後繼續你的數據處理工作。
當閱讀這本書的時候,讀者會發現本書的每個章節都是為解決某個具體問題而設計的,但韆萬不要迷失在一些附屬或難懂的細節之中。如果發現自己需要瞭解一些更深的知識,本書的每個小節也列齣瞭一些Stata幫助文件中的相關參考文件,這些參考中包含瞭更多的知識。如果讀者用的是Stata 11.0版本,那麼這些幫助文件中還包含瞭在綫參考手冊的鏈接。由於本書是按照實際數據管理中會遇到的不同任務來組織的,而Stata的參考手冊是根據命令來組織的,因此我希望本書能夠幫助讀者將手頭上要處理的數據管理任務和手冊中與這些任務相關的對應條目聯係起來。從這個角度來看,本書並不是Stata參考手冊的競爭者,相反是它們的使用指南。
建議讀者能夠自己去操作和運行書中的示例。和被動學習(比如僅閱讀本書)相比,實際操作讓你進入一種主動學習的狀態。如果讀者主動在Stata中敲入命令,查看運行結果,自己試驗同一命令的變體,那麼相信這時你對知識的理解,和被動學習相比,會更好且更深入。
為瞭方便讀者重復操作書中列齣的示例,書中所有的數據都可以從網絡上直接下載。通過在Stata中鍵入下麵的命令,將書中涉及到的所有數據直接讀入Stata的當前工作目錄下:
執行完這些命令後,就可以使用這些數據瞭,比如:要用數據wws.data,隻需鍵入如下命令即可:
. use wws
書中每個小節都是獨立的,因此可以在每個小節開時,鍵入相關命令,直接重復運行本節中的示例。有時,甚至可以在某個小節的中間重復運行一個示例,但並不是在所有的小節中都能這麼操作。此時,需要重新迴到這一小節的開頭來重復這些示例。盡管大部分的章節是獨立的,但有些部分仍是建立在之前章節的基礎上。即使在這種情況下,數據也是可用的,以便讀者能從任何一個給定小節開頭部分來運行這些示例。
盡管書中講的所有示例都可以通過點擊Stata菜單中的相關條目來實現,但本書的重點是使用Stata的命令行進行操作。但,有一點需要說明:Stata裏有兩個非常方便的交互界麵/點擊的功能,即使一些以寫命令為主的用戶(包括我自己)也會發現這些功能很有用。數據編輯器(Data Editor,2.10節會介紹)是一個非常有用的用來把數據錄入Stata的交互界麵。在這節中,還介紹瞭變量管理器(Variable Manager)的使用。雖然這是在給一個新創建的數據添加標簽的背景中,介紹變量管理器,但它對修改(或增加)一個既存數據的標簽同樣非常有用。
需要說明的是本書是在Stata 11.0下寫成的。書中大部分示例在11.0之前的版本中也同樣有效。但是,有些示例在11.0之前的版本下是無效的,最明顯的是第6章中那些用來講解數據閤並的例子。
這就提齣瞭一個問題,讀者要一直保持自己所用的Stata是最新的,這也是一個不錯的練習。要想證實你的Stata是最新版並獲取所有免費更新,輸入下麵這個命令:
然後根據提示操作。升級完成後,可鍵入命令 help whatsnew來查看剛剛都更新瞭些什麼以及此前Stata的更新記錄。
在下載完所需數據並實現Stata的全麵升級後,便可投入到本書的學習中,並親自操作書中的所有示例。在此之前,希望讀者能看完下麵一節,它是對本書的總體介紹,能夠幫助讀者選擇可能是你想最先閱讀的章節。
……
前言/序言
探尋數據價值:精準、高效、科學的數據管理之道 在信息爆炸的時代,數據已然成為驅動社會進步、企業決策和科研探索的核心動力。然而,海量數據的存在本身並不能自動轉化為有價值的洞見。數據管理的優劣,直接決定瞭我們能否從錯綜復雜的數據海洋中有效地提取、清洗、轉換、整閤並最終應用信息,以達成我們的目標。本書並非一本操作手冊,它深入剖析數據管理的核心理念、關鍵技術及其在實際應用中的重要性,旨在為讀者構建一套嚴謹、係統的數據管理思維框架。我們將一起踏上一段探索數據內在價值的旅程,學習如何以科學、嚴謹的態度對待數據,確保數據的準確性、一緻性、完整性和可用性,從而在紛繁復雜的數據環境中,做齣更明智的決策,取得更卓越的成就。 數據管理的基石:理解與原則 在深入技術細節之前,理解數據管理的基本原則至關重要。本書將從數據管理的概念入手,闡釋其在現代社會中的角色和意義。我們將探討數據生命周期的各個階段,包括數據的産生、收集、存儲、處理、分析、歸檔和銷毀,並強調在每個階段都應遵循的 best practices。本書將重點介紹數據管理的核心原則,例如: 準確性 (Accuracy): 確保數據的真實性和精確性,消除錯誤和偏差。我們將討論數據校驗、驗證和糾錯的策略,以及如何建立有效的質量控製機製。 一緻性 (Consistency): 保證數據在不同來源、不同係統之間保持統一的格式、定義和值。我們將探討數據標準化、集成和同步的技術,以及如何避免數據冗餘和衝突。 完整性 (Completeness): 確保數據的覆蓋度和可用性,避免缺失和遺漏。我們將討論缺失數據的原因,以及填充、插補和處理缺失數據的各種方法。 及時性 (Timeliness): 保證數據的最新狀態,使其能夠及時反映現實情況。我們將探討數據更新、同步和緩存的策略,以及如何優化數據訪問速度。 安全性 (Security): 保護數據的機密性、完整性和可用性,防止未經授權的訪問、泄露或損壞。我們將討論數據加密、訪問控製、備份和恢復等安全措施。 閤規性 (Compliance): 遵循相關的法律法規、行業標準和組織政策,確保數據的使用和管理符閤規定。我們將探討數據隱私保護、數據主權等議題。 通過對這些基本原則的深刻理解,讀者將能夠從宏觀層麵把握數據管理的脈絡,為後續的技術應用和實踐奠定堅實的基礎。 數據清洗與預處理:數據的“煉金術” 原始數據往往是“粗糙”的,充滿瞭錯誤、噪聲、不一緻和缺失值。數據清洗和預處理是數據管理中最具挑戰性但又至關重要的環節,其目標是將原始數據轉化為高質量、可用於分析的“乾淨”數據。本書將係統地介紹數據清洗和預處理的各個方麵,包括: 識彆和處理異常值 (Outlier Detection and Handling): 異常值可能是測量錯誤、數據輸入錯誤或真實但極端的觀測值。我們將探討多種識彆異常值的方法,如統計方法(Z-score、IQR)、可視化方法(箱綫圖、散點圖)和機器學習方法,並討論如何根據異常值的性質選擇閤適的處理策略(刪除、轉換、替換)。 處理缺失值 (Missing Value Imputation): 缺失值是數據分析中的常見問題。本書將深入探討不同類型的缺失值(MCAR, MAR, MNAR),以及各種缺失值處理技術,包括刪除法(列錶刪除、成對刪除)、均值/中位數/眾數填充、迴歸填充、K近鄰填充以及更高級的機器學習插補方法。我們將分析不同方法的優缺點及其適用場景。 數據標準化與歸一化 (Data Standardization and Normalization): 許多機器學習算法對數據的尺度敏感。本書將介紹常用的標準化(均值為0,標準差為1)和歸一化(縮放到[0,1]或[-1,1]區間)技術,並討論它們在不同算法中的應用。 數據格式轉換與統一 (Data Format Conversion and Unification): 不同來源的數據可能存在格式不一緻的問題(如日期格式、數值格式、文本編碼)。我們將講解如何進行格式轉換,以及如何統一不同數據源的錶示方式。 文本數據清洗 (Text Data Cleaning): 對於包含文本信息的數據,需要進行去除標點符號、停用詞、數字、進行大小寫轉換、詞乾提取或詞形還原等操作,以提高文本分析的效率和準確性。 重復數據檢測與刪除 (Duplicate Data Detection and Removal): 重復數據會導緻分析結果的偏差。我們將介紹識彆和刪除重復記錄的方法,包括基於精確匹配和模糊匹配的策略。 通過掌握這些數據清洗和預處理的技術,讀者將能夠有效地提升數據的質量,為後續的數據分析和建模打下堅實的基礎,確保分析結果的可靠性。 數據整閤與轉換:構建統一視圖 在現實世界中,數據往往分散在不同的數據庫、文件係統或應用程序中。將這些分散的數據整閤起來,形成一個統一、連貫的視圖,是數據管理的重要任務。本書將深入探討數據整閤的策略和技術: 數據抽取、轉換、加載 (ETL - Extract, Transform, Load): ETL是數據倉庫和數據集成領域的核心過程。我們將詳細闡述ETL的三個階段,包括從源係統中抽取數據,根據預定的規則進行轉換(清洗、標準化、聚閤等),以及將轉換後的數據加載到目標係統中。 數據集成方法 (Data Integration Methods): 除瞭ETL,我們還將介紹其他數據集成方法,如數據聯邦 (Data Federation)、數據虛擬化 (Data Virtualization) 和數據服務 (Data Services)。每種方法都有其獨特的優勢和適用場景,我們將進行深入的比較和分析。 數據模型設計與應用 (Data Modeling Design and Application): 為瞭有效地組織和管理整閤後的數據,數據模型的設計至關重要。本書將介紹常用的數據模型類型(如關係模型、維度模型),以及在數據倉庫和數據庫設計中的應用。我們將探討實體-關係模型 (ER Model) 和星型模型 (Star Schema)、雪花模型 (Snowflake Schema) 等,並講解如何根據業務需求設計閤理的數據模型。 數據字典與元數據管理 (Data Dictionaries and Metadata Management): 數據字典是描述數據結構、含義和關係的寶貴資源。我們將強調元數據管理的重要性,包括如何創建和維護數據字典,以及如何利用元數據來提升數據的可理解性和可追溯性。 數據轉換技術 (Data Transformation Techniques): 數據轉換是為瞭滿足特定分析或應用需求而對數據進行的修改。我們將介紹各種數據轉換技術,如聚閤 (Aggregation)、分解 (Decomposition)、派生 (Derivation) 和映射 (Mapping),以及如何根據業務邏輯設計有效的轉換規則。 通過對數據整閤與轉換的深入學習,讀者將能夠打破數據孤島,構建統一的數據視圖,為數據分析和決策提供更全麵、更可靠的信息支持。 數據質量管理:保障數據的生命力 高質量的數據是有效數據管理和數據分析的前提。本書將 dedicate 章節深入探討數據質量管理 (Data Quality Management, DQM) 的概念、框架和實踐。我們將: 定義和衡量數據質量維度 (Defining and Measuring Data Quality Dimensions): 除瞭前麵提到的準確性、一緻性、完整性、及時性,我們還將探討其他重要的數據質量維度,如有效性 (Validity)、唯一性 (Uniqueness)、可訪問性 (Accessibility) 等,並介紹如何針對這些維度製定衡量指標。 建立數據質量規則 (Establishing Data Quality Rules): 書中將指導讀者如何根據業務需求和數據特性,製定具體、可執行的數據質量規則。例如,某個字段的長度限製、某個字段必須是特定枚舉值之一、或者兩個字段之間必須滿足某種邏輯關係。 數據質量評估與監控 (Data Quality Assessment and Monitoring): 我們將介紹常用的數據質量評估方法,包括抽樣檢查、全量檢查以及自動化工具的應用。同時,也將討論如何建立持續的數據質量監控機製,及時發現和預警潛在的數據質量問題。 數據質量改進策略 (Data Quality Improvement Strategies): 一旦發現數據質量問題,需要采取有效的改進措施。本書將介紹數據清洗、數據修復、數據源改進、流程優化等多種數據質量改進策略,並討論如何根據問題的根源選擇閤適的解決方案。 數據質量工具的應用 (Application of Data Quality Tools): 雖然本書側重於理念和方法,但也會提及一些市麵上常見的數據質量管理工具的類型和功能,幫助讀者瞭解如何利用技術手段來提升數據質量管理的能力。 通過建立完善的數據質量管理體係,讀者能夠確保數據的可靠性,減少因數據質量問題而産生的錯誤決策和資源浪費。 數據安全與隱私保護:守護數據的信任 在數據日益重要的今天,數據安全和隱私保護已成為不容忽視的議題。本書將從數據管理的角度,深入探討相關概念和實踐: 數據安全的基本原則 (Fundamental Principles of Data Security): 我們將迴顧CIA三元組(機密性、完整性、可用性)以及其他重要的安全原則,如最小權限原則、職責分離原則等。 數據加密技術 (Data Encryption Techniques): 瞭解對稱加密和非對稱加密的工作原理,以及如何在存儲和傳輸過程中應用加密技術來保護數據的機密性。 訪問控製與身份認證 (Access Control and Authentication): 探討如何通過用戶角色、權限管理和身份認證機製,限製對敏感數據的訪問。 數據備份與災難恢復 (Data Backup and Disaster Recovery): 學習如何製定有效的備份策略,以及在發生災難時如何快速恢復數據,確保業務的連續性。 隱私法規與閤規性 (Privacy Regulations and Compliance): 介紹常見的隱私法規(如GDPR、CCPA)的基本要求,以及如何在數據管理過程中確保閤規性。 匿名化與假名化技術 (Anonymization and Pseudonymization Techniques): 探討如何通過對敏感數據進行處理,以保護個人隱私,同時仍能用於分析。 通過掌握數據安全與隱私保護的相關知識,讀者能夠建立起對數據安全的敬畏之心,並在數據管理過程中采取有效的防護措施,贏得用戶和利益相關者的信任。 數據管理在不同場景下的應用 本書的討論將不僅僅局限於理論層麵,還將通過案例分析,展示數據管理在不同領域的實際應用。我們將探討: 商業智能與數據分析 (Business Intelligence and Data Analytics): 如何通過良好的數據管理,為商業智能和數據分析提供可靠的數據基礎,驅動企業決策。 科學研究與學術探索 (Scientific Research and Academic Exploration): 在科研領域,嚴謹的數據管理對於研究的 Reproducibility 和 Validity 至關重要。 政府與公共服務 (Government and Public Services): 如何利用數據管理提升政府效率,優化公共服務,並保障公民數據的安全。 金融與風險管理 (Finance and Risk Management): 在高風險的金融行業,數據管理的準確性和及時性直接關係到風險控製和業務閤規。 通過這些案例,讀者將能夠更直觀地理解數據管理的重要性和價值,並能夠將所學的知識應用到自己的具體工作場景中。 結語:擁抱數據驅動的未來 數據管理是一項持續的、動態的工程,需要持續的學習和實踐。本書的目標是為你提供一個堅實的理論基礎和一套可行的實踐指南,讓你能夠更有信心地麵對數據世界的挑戰。掌握瞭強大的數據管理能力,你將能夠更有效地挖掘數據的潛力,發現隱藏的規律,做齣更明智的決策,並在快速發展的數據驅動時代中,占據有利的地位。這本書將是你開啓高效、精準、科學數據管理之旅的理想夥伴。