書名:數據湖架構
:49.00元
售價:34.3元,便宜14.7元,摺扣70
作者: Bill Inmon 恩門
齣版社:人民郵電齣版社
齣版日期:2017-04-01
ISBN:9787115451736
字數:123
頁碼:145
版次:1
裝幀:平裝
開本:小16開
商品重量:0.4kg
眾多公司花費瞭大量的時間和金錢獲取數據,並將大量的數據保存在一個叫做數據湖的數據容器中。但是,其中又能有多少公司把數據從數據湖中取迴並加以利用呢?事實上,很少有公司能把數據湖當成信息的金礦來使用。多數公司**終得到的僅僅是一個垃圾場。本書將會告訴你如何去構建一個有用的數據湖,從而讓數據科學傢與數據分析師能夠麵對業務挑戰並發現新的商機。通過閱讀本書,你將能夠學習如何:?構建數據湖並模擬數據;?應用數據及基於文本的數據池,從而將業務價值**da化;?理解原始數據池的角色定位;?掌握使用歸檔數據池的時機;?利用4大核心組件:元數據、業務的整閤對應,語境及元過程信息。本書的作者曾經讓我們放眼於數據倉庫的架構與成效,如今他又將我們帶入到數據湖架構的新高度。
隨著大數據的蓬勃發展,不少機構開始將源源不斷的數據流導入到一個叫“數據湖”的設備中去。數據湖架構 是“數據倉庫”之父撰寫的全新著作,是幫助讀者認識數據湖架構,並把數據湖打造成公司資産的指導手冊。數據湖架構 共15章,分彆涉及數據湖簡介、數據池據湖內部結構、數據池及其結構、各種類型的數據池等技術話題,目的在於講解如何構建有用的數據湖,以便數據科學傢和數據分析師能夠解決商業挑戰並找齣新的商業機會。數據湖架構 適閤數據管理者、學生、係統開發人員、架構師、程序員以及**終用戶閱讀。
第1章 數據的湖泊 1
1.1 大數據來瞭 1
1.2 數據湖來瞭 2
1.3 “單嚮”的數據湖 3
1.4 小結 6
第2章 改造數據湖 7
2.1 元數據 7
2.2 整閤圖譜 8
2.3 數據科學傢 11
2.4 通用性 12
2.5 小結 13
第3章 數據湖內部 14
3.1 模擬信號數據 15
3.2 應用程序數據 17
3.3 文本數據 18
3.4 另一個視角 20
3.5 小結 21
第4章 數據池 22
4.1 數據修整 23
4.2 初始數據池 23
4.3 模擬信號數據池 24
4.4 應用程序數據池 25
4.5 文本數據池 25
4.6 將數據直接傳入數據池 26
4.7 歸檔數據池 26
4.8 小結 27
第5章 數據池的通用結構 28
5.1 數據池描述 29
5.2 數據池目標 30
5.3 數據池數據 30
5.4 數據池元數據 31
5.5 數據池元過程 32
5.6 數據轉換標準 33
5.7 小結 34
第6章 模擬信號數據池 35
6.1 模擬信號數據問題 35
6.2 數據描述 36
6.3 捕獲初始數據、轉換初始數據 37
6.4 轉換/調整 初始模擬信號數據 38
6.5 數據切除 40
6.6 聚類數據 41
6.7 數據關係 42
6.8 未來使用的可能性 44
6.9 異常值 45
6.10 臨時性的特定分析 47
6.11 小結 47
第7章 應用程序數據池 49
7.1 數據的基因 49
7.2 數據描述 50
7.3 標準數據庫格式 51
7.4 數據的基本組織 52
7.5 數據的整閤 52
7.6 數據模型 53
7.6 整閤的必要性 54
7.7 從一個應用指嚮到下一個應用 56
7.8 交並應用 57
7.9 應用程序數據池內的數據子集 58
7.10 小結 58
第8章 文本數據池 60
8.1 文本消歧 62
8.2 傳入數據池的文本 62
8.3 文本消歧的輸齣 63
8.4 固有的復雜性 64
8.5 文本消歧的功能 66
8.6 分類與本體 66
8.7 文本與語境的價值 68
8.8 對文本追根溯源 69
8.9 消歧的機製 69
8.10 分析數據庫 70
8.11 將結果可視化 71
8.12 小結 73
第9章 數據池間的對比 74
9.1 數據池的相似性 74
9.2 數據池間的差異性 75
9.3 數據終狀態的關係型格式 75
9.4 技術間差異 76
9.5 數據池中數據的總預期容量 76
9.6 數據池間的數據移動 77
9.7 在多個數據池進行分析 78
9.8 使用元數據來關聯不同數據池內的數據 78
9.9 假如……? 79
9.10 小結 80
第10章 利用基礎架構 82
10.1 “單嚮”數據湖 83
10.2 改造數據湖 83
10.3 轉換技術 84
10.4 一些分析問題 84
10.5 查詢文本數據 87
10.6 真實的分析 88
10.7 小結 89
第11章 搜索與分析 90
11.1 供應商所散布的睏惑 95
11.2 小結 96
第12章 數據池中的業務價值 97
12.1 模擬信號數據池中的業務價值 97
12.2 應用程序數據池中的業務價值 99
12.3 文本數據池中的業務價值 100
12.4 記錄中的業務價值比例 101
12.5 小結 102
第13章 一些額外話題 104
13.1 高層係統級彆文檔 104
13.2 詳細的數據池級彆文檔 105
13.3 什麼樣的數據會流入數據湖/數據池 105
13.4 分析在何處發生 107
13.5 數據的年齡 110
13.6 數據的安全 110
13.7 小結 111
第14章 分析與整閤工具 112
14.1 可視化 112
14.2 搜索與修正 113
14.3 文本消歧 114
14.4 統計分析 114
14.5 **的ETL處理 115
14.6 小結 116
第15章 歸檔數據池 117
15.1 數據的移除標準 118
15.2 結構性改動 118
15.3 小結 119
術語錶 120
參考資料 124
Bill Inmon是“數據倉庫之父”,他著有57本書,並以9種語言在**齣版。Bill近期的創舉是建立瞭叫做“文本消歧”的技術,這項技術能以敘述性格式讀取初始文本,並能夠將文本置於常規的數據庫中,以便使用標準的分析技術進行分析處理,從而為大數據/非結構化數據創造獨特的業務價值。Bill曾被《計算機世界雜誌(ComputerWorld)》評選為“曆史上對計算機行業影響**da的十個人之一”。Bill住在美國科羅拉多州的堡石城(Castle Rock)。關於文本消歧的更多資料,請訪問 .forestrimtech.。
最近公司正在考慮引入新的數據存儲和分析方案,而“數據湖”正是大傢討論的焦點之一。作為團隊的一員,我肩負著研究和評估新技術的重要任務。我需要瞭解數據湖到底能為我們帶來什麼,它與傳統的數據倉庫有什麼本質區彆,以及在實際落地過程中會遇到哪些挑戰。這本書的齣現,對於我來說無疑是一份及時雨。我非常期待它能夠提供一套完整的、可操作的數據湖構建指南,從概念的普及到技術的選型,再到實施的步驟,都能夠有詳盡的介紹。特彆是關於數據湖的安全性、閤規性以及與其他係統(如機器學習平颱、BI工具)的集成方麵,我希望能夠有深入的講解。我需要這本書能幫助我建立起對數據湖的全麵認知,從而能夠自信地嚮管理層匯報,並推動項目的順利進行。
評分我在工作中經常接觸到大量來自不同源頭的數據,如何有效地整閤、管理和分析這些數據,一直是睏擾我的一個難題。數據倉庫雖然能夠提供結構化的數據分析,但對於非結構化和半結構化數據的處理能力相對有限。數據湖的齣現,讓我看到瞭解決這一挑戰的曙光。我希望這本書能夠深入剖析數據湖的設計理念,並提供切實可行的技術方案。我特彆關注書中是否會講解如何構建一個靈活且可擴展的數據湖,以應對不斷增長的數據量和多樣化的數據類型。同時,我也希望書中能夠提供一些關於數據治理的最佳實踐,例如數據生命周期管理、數據訪問控製和數據安全策略等。這本書的齣現,給瞭我一個機會,去深入瞭解這個能夠顛覆傳統數據處理模式的技術。
評分這本書的封麵設計簡潔而專業,純色的背景搭配一抹抽象的藍色綫條,仿佛勾勒齣數據流動的脈絡。我在書店裏偶然翻開它,立刻被書名的“數據湖”三個字吸引住瞭。數據湖,這個概念對我來說既熟悉又陌生。我知道它是一種存儲海量、多樣化數據的方式,但具體的架構、技術實現以及它如何為企業帶來價值,我一直感到模糊。我常常思考,在當今數據爆炸的時代,如何纔能更有效地管理和利用這些寶貴的信息資産,而不是讓它們變成難以觸及的“數據沼澤”。這本書的書名直接切入瞭我的痛點,讓我産生瞭強烈的閱讀欲望,渴望從中找到答案。我尤其期待書中能詳細闡述構建一個成功的數據湖需要考慮哪些關鍵因素,比如數據采集、存儲、處理、治理以及安全等方麵。是否會有一些實際的案例分析,幫助我理解不同行業如何應用數據湖來驅動業務增長?這本書的齣現,讓我看到瞭解決這些睏惑的希望。
評分我一直對數據處理和分析領域的技術演進保持著高度關注,而“數據湖”這個概念近幾年無疑是最熱門的詞匯之一。然而,市麵上關於它的書籍,要麼過於理論化,要麼過於碎片化,很難係統性地梳理清楚。我曾嘗試閱讀過幾篇技術文章,但它們往往隻聚焦於某個具體的工具或技術,缺乏整體的架構視角。我希望這本書能夠填補這一空白,為我提供一個清晰、全麵的數據湖架構藍圖。我期待書中能夠詳細講解不同類型的數據湖實現方式,例如基於Hadoop的、基於雲存儲的,以及它們各自的優缺點。此外,對於數據湖中的數據治理、元數據管理、數據質量保障等核心問題,我希望能夠有深入的探討。畢竟,一個雜亂無章的數據湖,其價值將大打摺扣。這本書的書名恰好點齣瞭核心——“架構”,這讓我相信它能夠從更高的層麵,提供一種係統性的解決方案,幫助我構建一個健壯、可擴展且易於管理的數據湖。
評分我是一名對新技術充滿好奇心的技術愛好者,尤其關注那些能夠解決實際業務問題的創新性方案。數據湖的概念雖然聽起來很吸引人,但我一直缺乏一個係統性的學習途徑,來理解其背後的原理和實現細節。我希望能通過閱讀這本書,對數據湖的“是什麼”、“為什麼”以及“怎麼做”有一個深入的瞭解。我非常期待書中能夠用通俗易懂的語言,講解數據湖的核心組件,例如分布式文件係統、數據處理引擎、數據目錄等,並說明它們是如何協同工作的。同時,我也希望能瞭解到在不同業務場景下,如何設計和優化數據湖的架構,以滿足特定的需求。這本書的齣現,讓我看到瞭一個全麵掌握數據湖技術的可能性,我相信它會成為我學習道路上的重要指引。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有