發表於2024-12-14
大數據挖掘:係統方法與實例分析 pdf epub mobi txt 電子書 下載
周英,中科數據首席數據科學傢。曾在某知名搜索引擎公司任職多年,主要從事互聯網文本挖掘相關的工作。目前專注於大數據挖掘技術的工業應用研究和工程應用,已成功完成數據挖掘量化選股、大型設備保養維護預警、銀行客戶信用評分、電商客戶分類及精準營銷優化等多個大型項目。著有《量化投資:數據挖掘技術與實踐(MATLAB版)》(國際上一本係統介紹將數據挖掘技術用於量化投資的書籍,已被金融行業多傢機構應用)。
卓金武,MathWorks(MATLAB)中國區科學計算業務總監,資深數據挖掘專傢,主要負責數據挖掘、優化、量化投資、風險管理等科學計算業務,已為工行、交行、中投、華為、通用、一汽、上汽、格力等多傢企業提供數據挖掘解決方案。已齣版著作兩部:《MATLAB在數學建模中的應用》(第1版和第2版),《量化投資:數據挖掘技術與實踐(MATLAB版)》。
大學期間曾兩次獲全國大學生數學建模競賽一等奬 (2003和 2004),一次獲全國研究生數學建模競賽一等奬 (2007)。
卞月青,深圳人人數據挖掘經理。曾就職於三一重工, 主要從事工業大數據分析工作。2012年以來,一直從事基於大數據的應用研發工作,從事的工作包括兩個方麵, 一是為銀行、P2P、小貸公司開發基於數據挖掘的信用評級係統;二是利用互聯網大數據挖掘技術,采集、清洗、集成特定領域的數據,並開發成大數據公眾服務平颱。
“大數據方法+大數據人纔=核心競爭力”, 本書係統地詮釋瞭這個公式裏蘊含的概念、技術、項目以及人纔培養。基於MATLAB的Data Analytics的應用正在全球呈現爆炸式的發展趨勢,而本書的內容正是這一趨勢迫切需要的知識。書中的實例是以MATLAB作為工具來呈現,可快速轉化為實實在在的競爭力,甚好!
—— 曹新康 MathWorks(全球科學計算領導者)中國區總裁
2013年維剋托的《大數據時代》風靡全國,此後關於大數據的各種聲音一直絡繹不絕,但在思維的高度上,無齣其右者。還好有卓兄等人在工具的研發和使用上的不懈努力,推動大數據思維深入運用到各個子行業。MATLAB是量化對衝行業內*齣色的寫策略的工具,卓兄的書由淺入深,實用性強,上一本《量化投資:數據挖掘技術與實踐(MATLAB版)》備受量化對衝行業朋友的青睞,也是我案頭的常備書目之一。本書的一些內容已經在對衝基金的篩選裏麵運用,比如書中介紹的神經網絡,就可以用於判斷不同對衝基金之間可能雷同的策略,實現事前的風控。從FOF/MOM的角度來講,本書為篩選優秀的對衝基金提供瞭良好的視角和工具。
—— 董鵬飛 國金創新總經理
本書深入淺齣地對大數據挖掘的理論和方法進行瞭係統性的闡述,並且通過多個案例給齣瞭具有實用性的指導,在人工智能和數據挖掘技術火熱的當下,不失為一本*佳的工具參考書。
—— 丁鵬 博士 中國量化投資學會理事長
工業數據具有傳感器多樣、采集頻率高和數據量龐大的特點,如何發揮工業數據的價值是工業互聯網時代*前沿的課題。本書所呈現的數據挖掘和智能計算方法,對基於工業大數據的KPI參數預測、設備故障預警和生産過程優化具有很強的指導意義。
—— 周永良 博士 GE Digital軟件解決方案架構師
本書通俗易懂,貼近實用,融閤瞭作者多年的研究成果,方法務實、知識係統、方便藉鑒,且配有係統的源代碼,適用於各類數據挖掘項目。本書的作者於我亦師亦友,卓學長的另外兩本書我都讀過,收獲很大,每次與之交流都讓我獲益匪淺,在此錶達對學長的敬意,同時更期盼通過此書和廣大讀者一道繼續努力,共同提高。
—— 趙曄 清華大學自動化係研究生
第一篇基礎篇
第1章緒論
1.1 大數據與數據挖掘
1.1.1 何為大數據
1.1.2 大數據的價值
1.1.3 大數據與數據挖掘的關係
1.2 數據挖掘的概念和原理
1.2.1 什麼是數據挖掘
1.2.2 數據挖掘的原理
1.3 數據挖掘的內容
1.3.1 關聯
1.3.2 迴歸
1.3.3 分類
1.3.4 聚類
1.3.5 預測
1.3.6 診斷
1.4 數據挖掘的應用領域
1.4.1 零售業
1.4.2 銀行業
1.4.3 證券業
1.4.4 能源業
1.4.5 醫療行業
1.4.6 通信行業
1.4.7 汽車行業
1.4.8 公共事業
1.5 大數據挖掘的要點
1.6 小結
參考文獻
第2章數據挖掘的過程及工具
2.1 數據挖掘過程概述
2.2 挖掘目標的定義
2.3 數據的準備
2.4 數據的探索
2.5 模型的建立
2.6 模型的評估
2.7 模型的部署
2.8 工具的比較與選擇
2.9 小結
參考文獻
第3章 MATLAB數據挖掘快速入門
3.1 MATLAB快速入門
3.1.1 MATLAB概要
3.1.2 MATLAB的功能
3.1.3 快速入門案例
3.1.4 入門後的提高
3.2 MATLAB常用技巧
3.2.1 常用標點的功能
3.2.2 常用操作指令
3.2.3 指令編輯操作鍵
3.2.4 MATLAB數據類型
3.3 MATLAB開發模式
3.3.1 命令行模式
3.3.2 腳本模式
3.3.3 麵嚮對象模式
3.3.4 三種模式的配閤
3.4 MATLAB數據挖掘引例
3.5 MATLAB集成數據挖掘工具
3.5.1 分類學習機簡介
3.5.2 交互探索算法的方式
3.5.3 MATLAB分類學習機應用實例
3.6 小結
第二篇技術篇
第4章數據的準備
4.1 數據的收集
4.1.1 認識數據
4.1.2 數據挖掘的數據源
4.1.3 數據抽樣
4.1.4 金融行業的數據源
4.1.5 從雅虎獲取交易數據
4.1.6 從大智慧獲取財務數據
4.1.7 從Wind獲取高質量數據
4.2 數據質量分析
4.2.1 數據質量分析的必要性
4.2.2 數據質量分析的目地
4.2.3 數據質量分析的內容
4.2.4 數據質量分析方法
4.2.5 數據質量分析的結果及應用
4.3 數據預處理
4.3.1 為什麼需要數據預處理
4.3.2 數據預處理的方法
4.3.3 數據清洗
4.3.4 數據集成
4.3.5 數據歸約
4.3.6 數據變換
4.4 小結
參考文獻
第5章數據的探索
5.1 衍生變量
5.1.1 衍生變量的定義
5.1.2 變量衍生的原則和方法
5.1.3 常用的股票衍生變量
5.1.4 評價型衍生變量
5.1.5 衍生變量數據收集與集成
5.2 數據的統計
5.2.1 基本描述性統計
5.2.2 分布描述性統計
5.3 數據可視化
5.3.1 基本可視化方法
5.3.2 數據分布形狀可視化
5.3.3 數據關聯情況可視化
5.3.4 數據分組可視化
5.4 樣本選擇
5.4.1 樣本選擇的方法
5.4.2 樣本選擇應用實例
5.5 數據降維
5.5.1 主成分分析(PCA)基本原理
5.5.2 PCA應用案例:企業綜閤實力排序
5.5.3 相關係數降維
5.6 小結
參考文獻
第6章關聯規則方法
6.1 關聯規則概要
6.1.1 關聯規則提齣背景
6.1.2 關聯規則的基本概念
6.1.3 關聯規則的分類
6.1.4 關聯規則挖掘常用算法
6.2 Apriori算法
6.2.1 Apriori算法基本思想
6.2.2 Apriori算法步驟
6.2.3 Apriori算法實例
6.2.4 Apriori算法程序實現
6.2.5 算法的優缺點
6.3 FP-Growth算法
6.3.1 FP-Growt算法步驟
6.3.2 FP-Growt算法實例
6.3.3 FP-Growt算法優缺點
6.4 應用實例:行業關聯選股法
6.5 小結
參考文獻
第7章數據迴歸方法
7.1 一元迴歸
7.1.1 一元綫性迴歸
7.1.2 一元非綫性迴歸
7.1.3 一元多項式迴歸
7.2 多元迴歸
7.2.1 多元綫性迴歸
7.2.2 多元多項式迴歸
7.3 逐步歸迴
7.3.1 逐步迴歸基本思想
7.3.2 逐步迴歸步驟
7.3.3 逐步迴歸的MATLAB方法
7.4 Logistic迴歸
7.4.1 Logistic模型
7.4.2 Logistic迴歸實例
7.5 應用實例:多因子選股模型的實現
7.5.1 多因子模型基本思想
7.5.2 多因子模型的實現
7.6 小結
參考文獻
第8章分類方法
8.1 分類方法概要
8.1.1 分類的概念
8.1.2 分類的原理
8.1.3 常用的分類方法
8.2 K-近鄰(KNN)
8.2.1 K-近鄰原理
8.2.2 K-近鄰實例
8.2.3 K-近鄰特點
8.3 貝葉斯分類
8.3.1 貝葉斯分類原理
8.3.2 樸素貝葉斯分類原理
8.3.3 樸素貝葉斯分類實例
8.3.4 樸素貝葉斯特點
8.4 神經網絡
8.4.1 神經網絡原理
8.4.2 神經網絡實例
8.4.3 神經網絡特點
8.5 邏輯斯蒂(Logistic)
8.5.1 邏輯斯蒂原理
8.5.2 邏輯斯蒂實例
8.5.3 邏輯斯蒂特點
8.6 判彆分析
8.6.1 判彆分析原理
8.6.2 判彆分析實例
8.6.3 判彆分析特點
8.7 支持嚮量機(SVM)
8.7.1 SVM基本思想
8.7.2 理論基礎
8.7.3 支持嚮量機實例
8.7.4 支持嚮量機特點
8.8 決策樹
8.8.1 決策樹的基本概念
8.8.2 決策樹的構建步驟
8.8.3決策樹實例
8.8.4 決策樹特點
8.9 分類的評判
8.9.1 正確率
8.9.2 ROC麯綫
8.10 應用實例:分類選股法
8.10.1 案例背景
8.10.2 實現方法
8.11 延伸閱讀:其他分類方法
8.12 小結
參考文獻
第9章聚類方法
9.1 聚類方法概要
9.1.1 聚類的概念
9.1.2 類的度量方法
9.1.3 聚類方法的應用場景
9.1.4 聚類方法分類
9.2 K-means方法
9.2.1 K-means原理和步驟
9.2.2 K-means實例1:自主編程
9.2.3 K-means實例2:集成函數
9.2.4 K-means特點
9.3 層次聚類
9.3.1 層次聚類原理和步驟
9.3.2 層次聚類實例
9.3.3 層次聚特點
9.4 神經網絡聚類
9.4.1 神經網絡聚類原理和步驟
9.4.2 神經網絡聚類實例
9.4.3 神經網絡聚類特點
9.5 模糊C-均值(FCM)方法
9.5.1 FCM原理和步驟
8.5.2 FCM應用實例
9.5.3 FCM算法特點
9.6 高斯混閤聚類方法
9.6.1 高斯混閤聚類原理和步驟
9.6.2 高斯聚類實例
9.6.3 高斯聚類特點
9.7 類彆數的確定方法
9.7.1 原理
9.7.2 實例
9.8 應用實例:股票聚類分池
9.8.1 聚類目標和數據描述
9.8.2 實現過程
9.8.3 結果及分析
9.9 延伸閱讀
9.9.1 目前聚類分析研究的主要內容
9.9.2 SOM智能聚類算法
9.10 小結
參考文獻
第10章預測方法
10.1 預測方法概要
10.1.1 預測的概念
10.1.2 預測的基本原理
10.1.3 預測的準確度評價及影響因素
10.1.4 常用的預測方法
10.2 灰色預測
10.2.1 灰色預測原理
10.2.2 灰色預測的實例
10.3 馬爾科夫預測
10.3.1 馬爾科夫預測原理
10.3.2 馬爾科夫過程的特性
10.3.3 馬爾科夫預測實例
10.4 應用實例:大盤走勢預測
10.4.1 數據的選取及模型的建立
10.4.2 預測過程
10.4.3 預測結果與分析
10.5 小結
參考文獻
第11章診斷方法
11.1 離群點診斷概要
11.1.1 離群點診斷的定義
11.1.2 離群點診斷的作用
11.1.3 離群點診斷方法分類
11.2 基於統計的離群點診斷
11.2.1 理論基礎
11.2.2 應用實例
11.2.3 優點與缺點
11.3 基於距離的離群點診斷
11.3.1 理論基礎
11.3.2 應用實例
11.3.3 優點與缺點
11.4 基於密度的離群點挖掘
11.4.1 理論基礎
11.4.2 應用實例
11.4.3 優點與缺點
11.5 基於聚類的離群點挖掘
11.5.1 理論基礎
11.5.2 應用實例
11.5.3 優點與缺點
11.6 應用實例:離群點診斷股票買賣擇時
11.7 延伸閱讀:新興的離群點挖掘方法
11.7.1 基於關聯的離群點挖掘
11.7.2 基於粗糙集的離群點挖掘
11.7.3 基於人工神經網絡的離群點挖掘
11.8 小結
參考文獻
第12章時間序列方法
12.1 時間序列基本概念
12.1.1 時間序列的定義
12.1.2 時間序列的組成因素
12.1.3 時間序列的分類
12.1.4 時間序列分析方法
12.2 平穩時間序列分析方法
12.2.1 移動平均法
12.2.2 指數平滑法
12.3 季節指數預測法
12.3.1 季節性水平模型
12.3.2 季節性趨勢模型
12.4 時間序列模型
12.4.1 ARMA模型
12.4.2 ARIMA模型
12.4.3 ARCH模型
12.4.4 GARCH模型
12.5 應用實例:基於時間序列的股票預測
12.6 小結
參考文獻
第13章智能優化方法
13.1 智能優化方法概要
13.1.1 智能優化方法的概念
13.1.2 常用的智能優化方法
13.2 遺傳算法
13.2.1 遺傳算法的原理
13.2.2 遺傳算法的步驟
13.2.3 遺傳算法實例
13.2.4 遺傳算法的特點
13.3 模擬退火算法
13.3.1 模擬退火算法的原理
13.3.2 模擬退火算法步驟
13.3.3 模擬退火算法實例
13.3.4 模擬退火算法的特點
13.4 延伸閱讀:其它智能方法
13.4.1 粒子群算法
13.4.2 蟻群算法
13.5 小結
參考文獻
第三篇項目篇
第14章數據挖掘在銀行信用評分中的應用
14.1 概述
14.1.1 信用評分的概念
14.1.2 信用評分的意義
14.1.3 個人信用評分的影響因素
14.1.4 信用評分的方法
14.2 DM法信用評分實施過程
14.2.1 數據的準備
14.2.2 數據預處理
14.2.3 logistics模型
14.2.4 神經網絡模型
14.3 AHP信用評分方法
14.3.1 AHP法簡介
14.3.2 AHP法信用評分實例
< 大數據挖掘:係統方法與實例分析 下載 mobi epub pdf txt 電子書還沒有細看。其中方法原理內容挺多,但介紹比較簡單。重點看案例吧
評分還不錯,剛開始看----看看再說
評分好東西必須要分享,值得購買
評分書很不錯 包裝都很精美 是正品 之前看過網上的pdf資源 有一些錯誤 但是這個紙質書裏卻沒有 還是紙質書看的更舒服 京東讓我很滿意啊
評分京東6.18搞活動,買些書來提升下自己,66666666666666666666666
評分學習學習,希望有用的。
評分很好,值得購買,強烈的推薦!!!
評分內容上實例非常多,非常不錯。
評分非常有幫助的
大數據挖掘:係統方法與實例分析 pdf epub mobi txt 電子書 下載