發表於2024-12-14
數據驅動:從方法到實踐 pdf epub mobi txt 電子書 下載
Alistair Croll、宋星、曹政、車品覺、王淮、呂厚昌等業界大咖聯閤力薦!
本書以四大行業實踐談數據驅動如何交付業務價值,破解企業數據驅動實踐中麵臨的睏惑、幻想與失望,傳遞真正數據驅動價值!
《數據驅動:從方法到實踐》是從理論到實踐的全麵且細緻的企業數據驅動指南,從作者的百度大數據工作說起,完整還原其從零到一構建百度用戶行為大數據處理平颱經曆。詳解大數據本質、理念與現狀,圍繞數據驅動四環節——采集、建模、分析、指標,深入淺齣地講述企業如何將數據驅動方案落地,並指齣數據驅動的價值在於“數據驅動決策”、“數據驅動産品智能”。最後通過互聯網金融、電子商務、企業服務、零售四大行業實踐,從需求梳理、事件指標設計、數據接入階段、實際應用四大階段介紹數據驅動在不同領域的商業價值,全麵展示大數據在各領域內的應用情況與趨勢展望。
本書貼近企業真實場景,是廣泛適用的普及讀物,適閤對大數據、數據驅動感興趣的企業高管、決策者、創業者、IT人員、營銷人員、産品經理、相關專業的學生等。
桑文鋒,神策數據創始人兼CEO,浙江大學計算機科學與技術專業碩士,在百度任職8年,從無到有構建瞭百度用戶日誌大數據平颱,覆蓋數據收集、傳輸、元數據管理、作業流調度、海量數據查詢引擎及數據可視化等。曆任軟件工程師、高級軟件工程師、項目經理、高級項目經理、技術經理,2015年4月離職創建神策數據,針對企業客戶推齣用戶行為分析産品——神策分析,幫助企業實現數據驅動。
此外,神策數據聯閤創始人兼CTO曹犟,神策數據聯閤創始人兼首席架構師付力力,神策數據資深算法工程師鄒雨晗,神策數據架構師房東雨,神策數據算法工程師韓越,神策數據數據分析總監陳新祥,神策數據用戶行為洞察研究院負責人張喬,以及神策數據分析師高娜、薛創宇、李金霞、硃靜蕓均參與瞭此書的寫作。
文鋒分享瞭他在商業數據的真知灼見,不盲目舶來,他明確地知道哪些理論在國內是行不通的,並傳遞齣更本土化的理論。本書的結構和內容都經過瞭反復打磨,無論是從技術嚴謹性,還是從內容的實用性上看,都堪稱互聯網商業數據的可貴佳作。
——宋星,互聯網數據官創始人、網站分析在中國創始人
數據的價值在哪裏?作者根據其豐富的百度經曆以及與眾多客戶深度碰撞後的思考,從方法論的高度全鏈路定義瞭數據采集、數據建模、數據分析與指標四大關鍵環節,並以實踐詮釋瞭如何用數據驅動決策、産品和業務,值得讀者細細品味。
——趙軍科,百聯大數據總監
得益於文鋒深厚的技術背景和豐富的實踐經驗,這本書清晰剖析瞭從采集、建模到分析運用的數據驅動全鏈條,值得每個數據人閱讀。
——趙祺,今日頭條增長團隊負責人,前車來瞭聯席CEO
在不遠的將來,不管你處在什麼行業什麼職位,數據分析都是你不得不具備的一種能力。本書提供給你一個極好的知識儲備的機會,它有三點非常值得推薦:*一,淺顯易懂地錶達大數據的底層技術,讓你能夠明白數據怎麼産生,怎麼加工,怎麼存儲和運算;第二,拋開瞭晦澀難懂的各種模型和算法,將*普適的數據洞察和分析的方法呈現給你,讓你能迅速具備“閱讀數據”的能力;第三,清晰地將電商、互聯網金融、零售、SaaS軟件等行業鮮活的數據應用案例呈現給你,讓你加深對數據應用的理解。
——鬍晨川,《數據化運營速成手冊》一書作者,餓瞭麼數據專傢
文鋒在百度的經曆積纍瞭大量本土化的業務實戰經驗,這本書濃縮瞭他近十來年寶貴經驗的精華,一如神策分析的誕生,對於整個行業來說都是值得欣喜的事情。神策數據快速武裝企業的數據部門,快速積纍數據,並讓所有在踐行數據驅動業務增長的企業,都可以快速上路,讓數據驅動*終成為每個公司的“標配”。
——劉晨,紛享銷客聯閤創始人,數據中心總經理
隨著大數據和智能時代的來臨,數據驅動必然會變成人人都要具備的能力。本書裏麵的每條經驗,都是一場場實戰打齣來的。與很多紙上談兵的文字不同,本書的實例信手拈來,可想而知經曆多少次的打磨纔能有這樣的效果。這使得本書內容對實際工作有著很強的指導作用,適閤每個與數據打交道的人,常讀常新。
——孫文亮,杏樹林數據總監
作為數據驅動在初創公司的實踐者,我們經曆瞭從手動跑數據分析的“石器時代”到實時數據分析係統的“蒸汽時代”。工具已經成熟瞭,但在方法層麵自己則一直瞎練野拳。一見到本書,就有相見恨晚之感,數據驅動終於有瞭成體係的“招式”!屠龍寶刀,要配上好武學,希望本書可以幫助更多公司實現數據驅動。
——黃震昕,造數科技創始人兼CEO
第1章 從百度大數據工作的經曆說開 / 1
百度數據闆塊:網頁數據和用戶行為數據 / 3
搜索引擎發展 / 4
用戶行為分析踐行:百度知道的迴答量提升 7.5% / 5
從零到一構建百度大數據分析平颱 / 6
數據源與 Event 模型的重要性 / 9
大數據是屠龍術 / 10
第2章 大數據思維與數據驅動 / 11
大數據的概念 / 14
大數據之“大” / 14
大數據之“全” / 15
大數據之“細” / 16
大數據之“時” / 16
大數據的本質 / 17
數據驅動理念與現狀 / 20
數據驅動的價值 / 20
企業內部數據驅動現狀 / 21
理想的數據驅動 ―― “流” / 23
大數據時代到來的條件 / 24
數據采集能力增強 / 25
數據處理能力增強 / 26
數據意識的提升 / 27
第3章 數據驅動的環節 / 29
數據采集與埋點 / 32
數據采集的現狀 / 32
數據采集遵循法則 / 34
科學的數據采集和埋點方式 / 36
數據的準確性 / 40
數據建模 / 44
數據模型與建模 / 44
多維數據模型 / 46
多維事件模型 / 49
多維事件模型的探索經曆 / 52
數據分析方法 / 55
行為事件分析 / 55
漏鬥分析 / 58
留存分析 / 61
分布分析 / 64
點擊分析 / 67
用戶路徑 / 73
用戶分群 / 75
屬性分析 / 80
指標體係構建 / 82
第一關鍵指標法 / 82
海盜指標法 / 86
第4章 數據驅動産品和運營決策 / 89
數據驅動運營監控 / 91
用戶獲取(Acquisition) / 91
激活(Activation) / 92
留存(Retention) / 97
引薦(Referral) / 99
營收(Revenue) / 101
數據驅動産品改進和體驗優化 / 102
數據驅動商業決策 / 104
數據驅動落地企業,要從管理者做起 / 106
數據驅動商業決策的價值 / 108
第5章 數據驅動産品智能 / 109
數據平颱及用戶智能 / 114
如何計算熱門榜單 / 114
客服係統中的行為數據 / 114
為什麼需要數據平颱 / 115
數據平颱提供的能力 / 116
數據應用與用戶智能 / 119
基於用戶行為數據的用戶智能應用 / 119
用戶智能分類:基於規則與機器學習 / 123
用戶智能應用――用戶畫像 / 132
兩種用戶畫像:User Persona與User Profile / 132
用戶畫像(User Profile)標簽體係的建立 / 135
用戶智能應用――個性化推薦 / 139
個性化推薦的概念 / 139
架構實現 / 140
數據流 / 142
業務分析與模型選擇 / 143
實驗與迭代 / 144
第6章 各行業實踐數據分析全過程 / 147
互聯網金融數據驅動實踐 / 149
實踐案例 / 150
企業服務數據驅動實踐 / 158
數據驅動能夠為企業服務做什麼 / 159
麵臨的挑戰 / 160
數據應用的階段 / 161
實踐案例 / 168
零售行業數據驅動實踐 / 175
實踐案例 / 176
電子商務數據驅動實踐 / 186
打破企業發展經營睏局:從粗放式到精細化 / 186
電商企業數據驅動瓶頸 / 187
實踐案例 / 187
寫在最後的話 / 197
企業內部數據驅動現狀
數據固然能夠幫助我們看透籠罩在創造新業務和産品周圍的不確定性陰霾,不可否認,這對於一些初創企業有一定睏難:一個創業公司創始人無法拿到更多的數據,他需要憑直覺來決策“做一款什麼樣的産品”。但是要讓這個階段盡量縮短,更可控一些,以更少的代價獲得一個驗證的效果。
當一傢企業的産品已開始被市場接納,而在實際工作中,企業在實現數據驅動的道路上,依舊睏難重重。以下是創業公司實現數據驅動道路上的常見場景。
場景1:排隊等待工程師跑數據
如圖 2-6 所示,企業老闆、運營、産品、市場等各部門都要通過數據工程師老王獲取數據,整個流程包括溝通需求 → 分析數據源 → 升級數據采集係統 → 開發程序 → 提供結果等,老王忙得痛不欲生。當然,數據需求方都對數據獲取的速度很不滿意,有的人等不及,還是決定拍腦袋,最終導緻産品迭代效率低下。
場景2:儀錶盤隻能看到宏觀數據
如圖2-7所示,儀錶盤能夠幫助各個團隊負責人看到宏觀數據,如銷售額、用戶數等,這在一定程度上幫助管理者做齣科學決策。然而宏觀的數據價值有限,這令執行者苦惱不已。比如昨天活躍用戶數暴跌 20%,是什麼原因?宏觀的數據這時顯然喪失價值,我們需要進行深入、精細化的分析,如按照渠道、地域等維度對數據進行分解,判斷某渠道或某地域是否有大的波動,進行多維度、細粒度的下鑽分析,纔能快速定位問題,從而有的放矢地解決問題。
場景3:無法跨越數據孤島的藩籬
如圖2-8所示,企業內部的數據孤島現象是普遍存在的,特彆對一些集團化的企業孤島效應更是明顯。做大數據分析需要與不同部門溝通協調,獲得審批權限,等待數據審批完成後纔能統計數據,周期較長。並且,這些數據可能因為沒有統一ID而無法打通。從企業自身數據的價值角度來說,應消除部門間的數據孤島,讓數據協作更好完成。
理想的數據驅動 —— “流”
上述三個場景是典型的“需求驅動”,即根據需求去找數據。業務方提齣數據需求,工程師滿足需求,加上排隊等待,整個效率非常低,完成一個需求都要幾天甚至幾周的時間。那麼,理想的數據驅動應該是怎樣的?
我們應該反嚮思考這一問題,先把數據源整好,在這個基礎上提供強大的分析平颱,讓業務需求提齣者能夠自助式(Self-Service)地完成數據分析需求,從串行變成並行,完成需求從幾天時間縮短到幾分鍾甚至幾秒鍾,這纔是理想中的數據驅動,如圖2-9所示。
我從 2008 年開始專職從事數據方麵的工作,到瞭 2012 年纔慢慢想清楚——數據處理歸根到底就是一條“流”。按照數據的流嚮,可以把數據處理分成5個階段,如圖2-10所示。
在這個過程中,每個業務人員和數據之間都需要有一個強大的工具,將數據規範化,處理數據模型。通過這個強大的分析工具,讓這些業務人員在數據分析平颱上自助式地完成自己的分析需求,如圖2-11所示。
從 2012 年到 2015 年 4 月,我們都是在圍繞這條“流”工作。不管是推進公司的日誌采集結構化,還是提供更強大的查詢引擎,我們都在嘗試如何把這條“流”建設得更好。創業以來,我接觸的企業超過 200 傢,既有互聯網創業公司,又有大的傳統集團,這讓我更加確信瞭這套思路的可行性 —— 不同行業、不同企業的業務韆差萬彆,但在數據處理這件事上,或多或少都遵循“流”的思想。
推薦序 1
如果我們將企業比作人類,那麼許多企業正處於壯年的巨大健康危機之中。曾經,世界500強企業的生命周期是65年,而現在僅有20年。近10年來,眾多規模大、可靠的企業已被“數據新貴企業”所替代,例如蘋果公司、亞馬遜、騰訊、榖歌、百度、阿裏巴巴等。
更糟糕的是,企業進行自我重塑的概率變得越來越低。公司戰略委員會指齣,95%的企業數字化的轉變是失敗的。《創新者的窘境》一書的作者剋雷頓?剋裏斯滕森認為這一數字已達到99%。
當然也有好消息:科技賦予我們衡量一切事物的能力,我們能更好地認識自己。在這點上,曾經的任何時代都難以企及。
麻省理工學院的一項研究錶明1,相比依靠直覺來實現決策的企業,那些通過數據驅動實現決策的企業擁有更高的生産效率和利潤。這類企業的生産效率和利潤普遍高於競爭對手5%~6%。顯然,未來是否擁有數據分析能力,將決定一傢企業是成功,還是逐漸銷聲匿跡。
我們經常說,數據是新石油。數據的準確性代替瞭“意見”的主觀性,讓我們更好地瞭解我們的供應商、我們的顧客以及我們自身。同時數據也是人工智能的基礎,因為我們正是通過數據的運用來實現機器學習的。
對石油來說,一直被埋藏在地下的石油並無價值。它的價值在於應用,石油開采需要一個“生態係統”:煉油廠、加油站、汽車、規則、道路等。數據也是如此,僅僅收集數據並無價值,你需要提取、清洗、分析,讓分析結果得以執行與運用,並反饋至“生態係統”中。
隨著自動化操作和機器學習代替瞭部分傳統工作,我們為此很疑惑:還有哪些工作需要人類來做?答案其實很簡單:我們需要辯證地思考究竟人類需要機器來做什麼。無論是初入職場的新人、分析師,還是企業管理者,提齣正確的問題是他們最重要的能力。
但是,這實現起來很難。提問者既需要瞭解企業當前的商業模式、競爭格局以及可控資源,也需要意識到現有商業模式已經變得過時、不穩定,而且亟待改變。
信息隨時隨刻在産生,它為世界指齣兩條路:一條路布滿著那些故步自封、因循守舊企業的“屍體”;另一條則為擁有數據思維和掌握數據駕馭能力的企業鋪就康莊大道。而此時此刻,你正處於交叉路口,手中恰好握著一張指引正確路徑的“地圖”。
Alistair Croll
哈佛商學院訪問執行官,Coradiant 公司聯閤創始人
《精益數據分析》一書作者
推薦序2
數據驅動的概念已經被各個行業廣泛認同,但認同與落實之間,還是有相當的距離,這裏最大的障礙是,技術人員缺乏對業務的理解,而業務人員又無法理解和充分利用技術,有數據卻用不好、不會用是很常見的弊病。即便是一些有數據分析、研發實力的企業,也麵臨從需求到實現的巨大研發成本和時間周期等問題,導緻決策效率低,對瞬息萬變的市場情況,無法做齣快速有效的應對。
百度早期的技術資源有限,主要技術資源優先考慮産品研發迭代,對數據分析的支持力度不足。2005年我參與創建百度的商業分析部門,因為無法得到充足的技術資源,隻好自己動手,在産品部門架構內處理數據,解決業務訴求所需的數據分析,所幸那時候百度的業務數據規模有限,每日的部分業務數據日誌尚處於GB級彆,按照我們有限的技術能力,單服務器勉強可以應付。
2007年之後,百度的業務規模急速擴大,業務部門也越來越重視數據決策方嚮的訴求,幸而此時技術資源也得到瞭有效的擴充,在桑文鋒同學的有力支持下,百度的數據分析能力和整體架構都得到瞭翻天覆地的革新和發展,針對諸多核心産品升級,數據決策的意義和價值也得到瞭充分的彰顯。
能解決一個巨頭公司數據分析領域的技術瓶頸,提升數據決策能力,已經是一項瞭不起的成就,但文鋒的目標顯然不止於此,搭建一套通用靈活的技術架構,顯然有更廣闊的應用場景。讓一綫業務人員在不需要充分理解技術的前提下,快速針對業務訴求完成數據分析,實現數據決策,這是神策數據(Sensors Data)項目的一個願景。
我從百度齣來後進入瞭遊戲行業,後來輾轉到海外發展,對國內行業的現狀瞭解不多。說來也有意思,好幾個遊戲行業同行創業者,在不同場閤主動跟我提及神策數據非常有價值,對他們的業務幫助很大,我纔注意到文鋒的創業項目,並欽佩於他們現在所取得的成就,這個成就,不是說這傢公司收瞭多少服務費,賺瞭多少錢,而是他們真的有效提升瞭整個行業的數據決策能力,有效降低瞭數據決策的操作成本和門檻,這個價值是從業者們尤為要感謝的。
感謝文鋒,提前讓我閱讀瞭這本書籍,我覺得,對於希望提升數據決策能力、瞭解數據決策真相的從業者,這本書是很好的讀物,其內容並非晦澀難懂的技術描述,而更多是對數據驅動和數據分析的理解,並以親身案例作為輔助講解。建立正確的認識是做好數據決策的前提,而其中所提到的很多問題場景,相信也是很多從業者經常遇到和麵對的。
以上,希望對您的閱讀和選擇,有所幫助。
曹 政
曾任百度商業分析部經理,現知名IT自媒體博主
互聯網遊戲齣海領域創業者
推薦序3
我一直覺得數據分析是一種修行,“修”的是思考的能力,“行”的是落實成為方案的方法。經過多年的工作,正是不經一番寒徹骨,怎得梅花撲鼻香。迴想我與文鋒初次見麵便談到數據化的過程,阿裏與百度都經曆過這樣的挑戰,我想這便是他請我寫推薦序的原因吧。
以前企業中隻有一小部分人具備數據分析的能力,隨著近幾年數據平颱的成熟,數據從收集到使用越來越方便,以往想要齣一份分摺報告可能要等上數周的日子已經一去不復返。曾經有一位業務方代錶對我說過,在等候分析報告齣來與拍腦之間,我選擇瞭後者,因為時機更重要。可想而知決策的速度很關鍵。在後信息時代,DT1的普適度將變得更直接、簡單。未來的智能時代,我很相信很多分析報告也將被自動化的智能決策所取代,屆時智慧的人類也將要“升級”到“神策”的階段,人更要學會駕馭決策上的決策、邏輯上的邏輯。
當然,理想歸理想,在智能決策的路上還需要很多同行們努力,而文鋒在書內的描述正是他這幾年創業的發現與精華。
車品覺
紅杉中國專傢閤夥人、全國信標委大數據標準工作組副組長
推薦序4
當今物聯時代,業界同仁都在談大數據和人工智能。大數據已成眾多公司的核心資産,大數據戰略已成眾多公司的核心戰略。之所以如此,一是因為大數據技術的普及,二是因為大數據已經為無數企業帶來瞭實打實的核心價值。大數據4V1中最重要的還是接地氣的價值驅動——Value。使用大數據技術,挖掘大數據價值,不斷優化用戶體驗、客戶體驗、産品體驗,已然成為當今企業成功的金科玉律。
1996年我在美國正式進入職場。我在職業生涯的早期就對數據情有獨鍾,那個時候還沒有大數據這個提法。這不僅僅是齣於對數據技術的喜好,也是因為我在做數據項目的時候,真正體會到瞭數據給業務帶來的不同。1998年我加入Yahoo!,成為第一個專門做數據的工程師,用一句話總結我在Yahoo! 7年的工作,那就是使用大數據更好地理解用戶,驅動用戶産品創新,更好地服務用戶。2005年我離開Yahoo!加入Google是源於好奇心,當時Google的流量是Yahoo!的1/10,但收益卻跟Yahoo!一樣多。為什麼搜索會這麼賺錢?用一句話總結我在Google 6年的工作,那就是使用大數據能更好地理解客戶廣告訴求,驅動廣告産品創新,更好地服務廣告主。
2011年我有幸加入百度帶領數據團隊。百度是一個對大數據工作非常重視的公司。大數據工作是百度的核心競爭力之一,其核心搜索業務也是建立在大數據技術 數據驅動:從方法到實踐 下載 mobi epub pdf txt 電子書
東西不錯,快遞服務給力。試用後再說。???
評分很好很好,京東買東西就是性價比高
評分書還是不錯的,有價值,值得看。
評分書的內容很好,質量也很好
評分送貨速度很快贊
評分剛買迴來,還沒開始看,先好評一下瞭
評分乘著活動多買點書。特彆便宜 京東發貨特彆快
評分神策的事件模型和分析係統相當務實,支持一下
評分讀書節買瞭一大筐,這是其中一本,有些人啊,一買書手就得剁……
數據驅動:從方法到實踐 pdf epub mobi txt 電子書 下載