本書作者在多年研究傳統數據集成的基礎上,著重分析瞭大數據背景下的大數據集成。和傳統的數據集成相比,大數據集成具有一些新的挑戰,例如數據和數據源的海量性、數據的多樣性和數據的動態性等。本書共分6章,包括大數據集成的挑戰和機遇、模式對齊、記錄鏈接、數據融閤、齣現的新問題和結論,係統地討論瞭解決大數據集成中關鍵問題的一些重要研究成果和方法,對大數據集成的研究者和實踐者都很有幫助。另外本書也可以作為學生學習該領域的入門讀物。
Xin Luna Dong(董欣), 2013年加入榖歌公司擔任高級研究員,研究興趣包括數據集成、數據清洗和知識管理。在加入榖歌之前,她是AT&T;實驗室的研究員。董欣博士碩士畢業於北京大學,本科畢業於南開大學。
Divesh Srivastava AT&T;實驗室數據庫領域首席科學傢.
叢書前言
譯者序
前言
第1章 大數據集成的挑戰和機遇1
1.1 傳統數據集成2
1.1.1 航班示例:數據源2
1.1.2 航班示例:數據集成7
1.1.3 數據集成:體係結構和三個主要步驟10
1.2 大數據集成:挑戰12
1.2.1 “V”維度13
1.2.2 案例研究:深網數據量15
1.2.3 案例研究:抽取的領域數據18
1.2.4 案例研究:深網數據的質量22
1.2.5 案例研究:淺網結構化數據25
1.2.6 案例研究:抽取的知識三元組28
1.3 大數據集成:機遇30
1.3.1 數據冗餘性31
1.3.2 長數據32
1.3.3 大數據平颱33
1.4 章節安排33
第2章 模式對齊34
2.1 傳統模式對齊:快速導覽35
2.1.1 中間模式35
2.1.2 屬性匹配36
2.1.3 模式映射37
2.1.4 查詢問答38
2.2 應對多樣性和高速性的挑戰39
2.2.1 概率模式對齊39
2.2.2 按需集成用戶反饋52
2.3 應對多樣性和海量性的挑戰54
2.3.1 集成深網數據55
2.3.2 集成Web錶格59
第3章 記錄鏈接68
3.1 傳統記錄鏈接:快速導覽69
3.1.1 兩兩匹配71
3.1.2 聚類72
3.1.3 分塊74
3.2 應對海量性挑戰76
3.2.1 使用MapReduce並行分塊77
3.2.2 meta-blocking:修剪兩兩匹配83
3.3 應對高速性挑戰88
3.4 應對多樣性挑戰95
3.5 應對真實性挑戰100
3.5.1 時態記錄鏈接100
3.5.2 具有唯一性約束的記錄鏈接107
第4章 大數據集成:數據融閤113
4.1 傳統數據融閤:快速導覽114
4.2 應對真實性挑戰116
4.2.1 數據源的準確度117
4.2.2 值為真的概率118
4.2.3 數據源之間的復製關係121
4.2.4 端到端的解決方案128
4.2.5 擴展性和適應性131
4.3 應對海量性挑戰134
4.3.1 基於MapReduce框架做離綫融閤135
4.3.2 在綫數據融閤136
4.4 應對高速性挑戰142
4.5 應對多樣性挑戰146
第5章 大數據集成:齣現的新問題149
5.1 眾包的角色149
5.1.1 利用傳遞關係150
5.1.2 眾包端到端的工作流155
5.1.3 未來的工作158
5.2 數據源選擇158
5.2.1 靜態數據源160
5.2.2 動態數據源162
5.2.3 未來的工作166
5.3 數據源分析166
5.3.1 Bellman係統167
5.3.2 概述數據源170
5.3.3 未來的工作174
第6章 結論175
參考文獻177
索引184
前言大數據集成是兩大重要工作的結閤:一個是相對較老的“數據集成”工作;另一個是相對較新的“大數據”工作。
隻要存在人們要將多個數據集鏈接並融閤起來以提升它們價值的情況,數據集成就必不可少。早在計算機科學傢開始研究這一領域之前,統計學傢們就已經取得瞭許多進展,因為他們迫切需要關聯和分析隨時間不斷積纍的普查數據集。數據集成具有很大的挑戰性是由多種原因造成的,不僅僅因為我們錶示現實世界中實體的方式多種多樣。為瞭有效地應對這些挑戰,在過去幾十年裏,數據集成研究者們已經在一些基礎問題(如模式對齊、記錄鏈接和數據融閤),尤其是結構化數據的研究上,取得瞭巨大進步。
近年來,我們在將現實世界中的每個事件和交互都捕獲成數字化數據方麵的能力增長十分顯著。伴隨著這種能力的增長,我們渴望從這些數據中分析和抽取齣價值,從而迎來瞭大數據時代。在大數據時代,數據的數量和異構性以及數據源的數目,都極大地增長瞭,而且許多數據源是非常動態的並且質量韆差萬彆。不同數據進行鏈接和融閤會使數據的價值爆炸性地增大,因而大數據要能使我們做齣改變社會各方麵的有價值的、數據驅動的決策,數據集成是關鍵。
大數據上的數據集成稱為大數據集成。本書探討數據集成研究界在應對大數據集成帶來的新的挑戰方麵已經取得的進展。它的目的是可以作為研究者、從業者和學生想要瞭解更多關於大數據集成的一個起點。我們試圖覆蓋該領域內各種各樣的研究問題和工作,但顯然要全麵覆蓋這樣一個動態發展的領域是不可能的。我們希望本書的讀者能對這個重要領域有所貢獻,幫助發展大數據的美好願景。
緻謝本書在成書過程中得到瞭許多人的幫助。衷心感謝Tamer?zsu邀請我們寫這本書,感謝DianeCerra管理整個齣版過程,並感謝PaulAnagnostopoulos製作本書。沒有他們溫和的提醒、定期的推動和提示編輯,本書的完成將花費長得多的時間。
本書的大部分內容從我們在以下學校開的講習班和會議上做的大會報告演化而來,這些會議和學校包括:ICDE2013、VLDB2013、COMAD2013、蘇黎世大學、ADC2014和BDA2014的博士學校。感謝許多同行在報告進行中或之後所給的建設性的反饋。
我們也想感謝許多閤作者,他們多年來影響瞭我們對該研究領域的思考和理解。
最後,感謝我們的傢人,他們持續的鼓勵和愛的支持使所有的付齣更加值得。
XinLunaDong和DiveshSrivastava2014年12月
實用指南,解鎖數據價值的鑰匙。 《大數據集成》這本書,於我而言,更像是一本厚實的“工具箱”,裏麵裝滿瞭解決實際問題的“零件”和“說明書”。我是一名從事數據分析工作的從業者,在日常工作中,經常會遇到來自不同源頭、不同格式的數據,如何有效地將它們匯集、清洗、轉化為可供分析的形態,一直是我的痛點。而這本書,恰恰為我提供瞭係統性的解決方案。 從數據源接入的多樣性,到數據模型設計的原則,再到ETL流程的構建和優化,每一個章節都緊密圍繞著“如何把數據集成起來並用起來”這個核心。作者提供的不僅僅是理論知識,更多的是一些經過實踐檢驗的“方法論”和“最佳實踐”。例如,在描述數據質量問題時,書中列舉瞭多種常見的髒數據現象,並提供瞭針對性的檢測和修復策略,這些內容直接就可以應用到我的日常工作中,極大地提高瞭效率。 我尤其欣賞書中關於數據標準化的部分。在企業內部,不同部門、不同係統的數據標準不一緻,是導緻數據集成睏難的根源之一。這本書詳細介紹瞭如何建立和維護統一的數據字典、命名規範,以及如何通過元數據管理來追蹤和控製數據的來源和含義。這對於解決“信息孤島”問題,建立企業級的數據資産管理體係,有著非常重要的指導意義。 此外,書中對於大數據集成架構的選擇,也給齣瞭非常實用的建議。無論是基於數據倉庫的傳統集成,還是利用數據湖進行更靈活的數據管理,作者都深入分析瞭各種方案的優缺點,並結閤實際應用場景,給齣瞭選擇的考量因素。這使得我能夠根據自身業務需求,做齣更明智的技術決策,避免盲目跟風。 總而言之,《大數據集成》這本書,是一本真正能夠幫助我們解決實際問題的“實戰手冊”。它不是紙上談兵,而是充滿瞭可操作性的指導,讓我對如何更好地進行大數據集成,以及如何從中挖掘齣更多的業務價值,有瞭更清晰的方嚮和信心。
評分反思與前瞻,數據時代的深度對話。 閱讀《大數據集成》的過程,更像是一場與作者關於數據未來的深度對話。這本書的獨特之處在於,它不僅僅是停留在對現有技術的介紹,而是深入到對大數據集成所帶來的社會性、倫理性和戰略性影響的反思。它讓我跳齣瞭純粹的技術視角,去思考大數據在更宏觀的層麵上扮演的角色。 在書的後半部分,作者開始探討大數據集成如何驅動業務創新和戰略決策。我讀到瞭關於數據驅動型組織的轉型案例,以及大數據在賦能企業競爭力方麵的潛力。這讓我明白瞭,大數據集成並非僅僅是IT部門的任務,而是需要與業務部門緊密協作,纔能真正釋放其價值。作者提齣的“數據即資産”的理念,以及如何將其轉化為可衡量的商業價值,給我留下瞭深刻的印象。 同時,書中對於數據倫理和隱私保護的討論,也讓我受益匪淺。在享受大數據帶來的便利的同時,我們也必須警惕其潛在的風險。作者並沒有迴避這些敏感話題,而是以一種負責任的態度,提齣瞭如何平衡數據利用與個人隱私,以及如何建立健全的法律法規來規範數據的使用。這讓我認識到,一個健康的大數據生態係統,離不開對倫理和社會責任的堅守。 我特彆喜歡作者在結尾處對未來趨勢的展望。關於人工智能與大數據集成如何協同發展,以及數據在物聯網、5G等新興技術驅動下將如何演變,都給我帶來瞭新的思考。這本書讓我看到瞭大數據集成領域的廣闊前景,也讓我意識到,作為一名從業者,我們需要不斷學習,緊跟技術和時代的步伐。 《大數據集成》這本書,不僅僅是一本技術書籍,更是一本關於數據時代的“思想指南”。它讓我對大數據集成有瞭更深刻的理解,也讓我對自己在數據時代的定位有瞭更清晰的認識。它鼓勵我去思考,去探索,去擁抱數據帶來的無限可能。
評分初學者入門,撥開迷霧,見證奇跡。 坦白說,在拿到《大數據集成》這本書之前,我對於“大數據”這個概念,更多的是一種聽聞,一種模糊的印象。它就像是懸掛在遙遠天空中的一顆星球,雖然知道它的存在,卻難以觸及它的真實麵貌。而這本書,就像是一張詳細的地圖,把我從迷霧重重的入口,一步步引導嚮瞭這顆星球的中心。 這本書的開篇,並沒有用那些讓初學者望而卻步的技術術語,而是從非常接地氣的角度,講述瞭大數據是如何滲透到我們生活中的。我讀到瞭一些關於個性化推薦、智能導航、健康監測等方麵的例子,這些都讓我感覺,原來大數據並非是科學傢們纔懂的理論,它就發生在我的身邊,而且正在讓我的生活變得更加便利。作者用一種非常平易近人的語言,消除瞭我對大數據的初步恐懼感。 隨著閱讀的深入,我開始接觸到一些關於數據收集、存儲、處理的基礎概念。作者並沒有一次性將所有東西都拋齣來,而是循序漸進,用清晰的邏輯將它們串聯起來。我開始理解,原來收集數據隻是第一步,更重要的是如何將這些分散、雜亂的數據,變成有用的信息。書中關於數據質量的概念,讓我明白,原始數據的“乾淨”與否,直接影響著後續分析的準確性。 讓我感到驚喜的是,作者在講解技術概念時,常常會用一些生活化的比喻。比如,將數據集成比作“大廚房裏大廚們如何協調閤作,把各種食材變成美味佳肴”,這樣的比喻,瞬間就讓枯燥的技術概念變得生動有趣起來。我不再覺得自己在死記硬背,而是能夠理解這些技術背後的邏輯和目的。 這本書就像一位耐心的老師,它沒有催促我,而是讓我能夠按照自己的節奏去理解和吸收。它沒有給我帶來任何壓迫感,反而讓我對大數據集成這個領域充滿瞭好奇和期待。我感覺,自己就像是一個剛剛起步的探險傢,而這本書,就是我手中最寶貴的指南針,指引著我踏上發現大數據奇跡的旅程。
評分初次接觸,充滿瞭未知的驚喜。 一直以來,我對“大數據”這個詞都有一種模糊而敬畏的感覺。它聽起來像是科技前沿的代名詞,又似乎隱藏著某種神秘的力量。當我翻開這本《大數據集成》,原本以為會是枯燥的技術手冊,但很快,我的看法就改變瞭。作者並沒有一開始就拋齣復雜的概念和晦澀的術語,而是用一種引人入勝的方式,娓娓道來。就像一位經驗豐富的嚮導,帶領我一步步走進大數據的世界。 書的開篇,並沒有直接深入到技術細節,而是從大數據帶來的變革以及它如何影響我們生活的方方麵麵開始。我讀到瞭一些生動的案例,比如精準營銷如何讓廣告不再令人厭煩,而是變得恰到好處;比如城市交通如何通過數據分析變得更加順暢;甚至在醫療領域,大數據也展現齣瞭挽救生命的潛力。這些故事讓我切實體會到,大數據並非遙不可及,它就存在於我們生活的細微之處,默默地改變著一切。 我尤其喜歡作者在描述一些基本概念時所使用的類比。比如,將數據比作河流,將集成過程比作修建水庫和運河,將數據分析比作從中提取有用的水資源。這種形象的比喻,讓我在理解抽象概念時感到輕鬆許多。它不像某些教材那樣,上來就堆砌定義,而是循序漸進,讓讀者能夠逐步建立起對整個大數據生態係統的認知框架。 雖然我還沒有深入到具體的技術層麵,但這本書已經成功地激起瞭我對大數據領域的好奇心和探索欲。它沒有給我帶來壓迫感,反而是讓我覺得,原來學習大數據並沒有那麼睏難,而且充滿瞭樂趣。我已經迫不及待地想知道,當這些數據被“集成”後,究竟能迸發齣怎樣的火花。這本書給瞭我一個非常好的起點,讓我相信,在這個數據的時代,我也可以擁有自己的理解和洞察。
評分深入探索,洞察大數據的脈絡。 閤上《大數據集成》的最後一頁,我心中湧起的更多的是一種豁然開朗的暢快感。這本書不僅僅是技術介紹,更像是一次對大數據領域深邃思想的探險。作者在保持技術嚴謹性的同時,巧妙地融入瞭對於數據價值、倫理考量以及未來趨勢的深刻見解,讓我對“集成”這個概念有瞭更立體、更全麵的認識。 在技術層麵,作者並沒有停留在“是什麼”的層麵,而是著重於“怎麼做”以及“為什麼這麼做”。關於數據清洗、轉換、加載(ETL)的詳細闡述,讓我看到瞭數據集成背後龐大的工程量和精細的設計。我尤其對數據治理和數據質量控製的部分印象深刻。作者強調,任何再先進的分析工具,如果數據本身是混亂、不準確的,都將是無稽之談。這一點,在實際工作中常常被忽略,但這本書將其提升到瞭核心地位,讓我警醒。 書中的架構設計和技術選型部分,也為我提供瞭寶貴的參考。從批處理到流處理,從Hadoop到Spark,作者不僅列舉瞭各種技術,更重要的是分析瞭它們各自的適用場景和優劣勢。我不再是盲目地聽到某個技術名詞就覺得它“高大上”,而是能夠理解它們存在的價值和在整個集成鏈條中的作用。這種對技術演進和生態協同的洞察,是我在其他地方很難獲得的。 更讓我受益匪淺的是,作者並沒有迴避大數據集成過程中可能遇到的挑戰和風險。關於數據安全、隱私保護以及閤規性問題,都得到瞭充分的討論。這讓我意識到,大數據的發展並非一帆風順,它需要技術、法規和社會共識的協同推進。這本書讓我看到瞭大數據集成不僅僅是技術實現,更是一個復雜的係統工程,需要多方麵的智慧和努力。 我可以說,《大數據集成》這本書,為我打開瞭一扇通往大數據集成領域更深層次大門。它讓我看到瞭數據的“來龍去脈”,理解瞭“整閤”的意義,並對未來充滿瞭更清晰的規劃。
評分雖然有些薄,有點貴,但是參考文獻什麼的很新,正好在寫這方麵畢業論文,有一定幫助。
評分好
評分買傢提供開票信息無誤,商傢將發票開錯瞭,提供的是捲試機打發票,格式裏沒有納稅人識彆號欄位,硬是把這個項目擠到開票抬頭裏去瞭,不符閤公司報銷要求,客戶要求重新開電子檔發票自己打印。但客服不同意,要求必須要把錯誤的紙質發票迴寄,且運費要求我自行承擔。這個條件十分不閤理,財務學上隻要提供發票編碼即可綫上作廢,無需迴收紙質發票,京東客服如此要求就是故意刁難,,實在叫人窩火。多次反饋,毫無進展,實在叫人心寒。。。建議大傢日慎拍京東平颱東西,尤其是自營圖書
評分大數據管理叢書之一 主打信息挖掘 值得學習
評分很好的書籍,值得購買!
評分看上去還行,物流快。
評分還沒看完之後就開始瞭!
評分好好學習天天嚮上好好學習天天嚮上好好學習天天嚮上
評分挺好的!
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 靜流書站 版權所有