産品特色
        內容簡介
     全書內容分為三篇。第一篇為基礎篇,主要介紹量化投資與數據挖掘的關係,以及數據挖掘的概念、實現過程、主要內容、主要工具等內容。第二篇為技術篇,係統介紹瞭數據挖掘的相關技術及這些技術在量化投資中的應用,主要包括數據的準備、數據的探索、關聯規則方法、數據迴歸方法、分類方法、聚類方法、預測方法、診斷方法、時間序列方法、智能優化方法等內容。第三篇為實踐篇,主要介紹數據挖掘技術在量化投資中的綜閤應用實例,包括統計套利策略的挖掘與優化、配對交易策略的挖掘與實現、數據挖掘在股票程序化交易中的綜閤應用,以及基於數據挖掘技術的量化交易係統的構建。本書的讀者對象為從事投資、數據挖掘、數據分析、數據管理工作的專業人士;金融、經濟、管理、統計等專業的教師和學生;希望學習MATLAB的廣大科研人員、學者和工程技術人員。
     作者簡介
   卓金武,MathWorks中國科學計算業務總監,主要職責是嚮中國區MATLAB正版用戶提供數據挖掘和量化投資解決方案。曾2次獲全國大學生數學建模競賽一等奬 (2003, 2004),1次獲全國研究生數學建模競賽一等奬 (2007);主編三著兩部:《MATLAB在數學建模中的應用》(第一版和第二版),《量化投資:數據挖掘技術與實踐(MATLAB版)》。周英,中科數據首席數據科學傢,曾就職於知名搜索引擎公司6年,主要從事互聯網文本挖掘工作的研發工作,目前專注的領域為大數據挖掘技術的工業應用研究和工程應用,曾獲美國大學生數學建模競賽二等奬一項,全國研究生數學建模競賽二等奬一項,著有《大數據挖掘:係統方法與實例分析》     
內頁插圖
          目錄
   第一篇 基礎篇  
第1章 緒論 2  
1.1 量化投資與數據挖掘的關係 2  
1.1.1 什麼是量化投資 2  
1.1.2 量化投資的特點 3  
1.1.3 量化投資的核心――量化模型 5  
1.1.4 量化模型的主要産生方法――  
數據挖掘 7  
1.2 數據挖掘的概念和原理 8  
1.2.1 什麼是數據挖掘 8  
1.2.2 數據挖掘的原理 10  
1.3 數據挖掘在量化投資中的應用 11  
1.3.1 宏觀經濟分析 11  
1.3.2 估價 13  
1.3.3 量化選股 14  
1.3.4 量化擇時 14  
1.3.5 算法交易 14  
1.4 本章小結 15  
參考文獻 16  
第2章 數據挖掘的內容、過程及  
工具 17  
2.1 數據挖掘的內容 17  
2.1.1 關聯 17  
2.1.2 迴歸 19  
2.1.3 分類 20  
2.1.4 聚類 21  
2.1.5 預測 22  
2.1.6 診斷 23  
2.2 數據挖掘過程 24  
2.2.1 數據挖掘過程概述 24  
2.2.2 挖掘目標的定義 25  
2.2.3 數據的準備 26  
2.2.4 數據的探索 28  
2.2.5 模型的建立 29  
2.2.6 模型的評估 33  
2.2.7 模型的部署 35  
2.3 數據挖掘工具 36  
2.3.1 MATLAB 36  
2.3.2 SAS 37  
2.3.3 SPSS 38  
2.3.4 WEKA 39  
2.3.5 R 41  
2.3.6 工具的比較與選擇 42  
2.4 本章小結 43  
參考文獻 43  
第3章 MATLAB快速入門 44  
3.1 MATLAB快速入門 44  
3.1.1 MATLAB概要 44  
3.1.2 MATLAB的功能 45  
3.1.3 快速入門案例 46  
3.1.4 入門後的提高 55  
3.2 MATLAB常用技巧 55  
3.2.1 常用標點的功能 55  
3.2.2 常用操作指令 56  
3.2.3 指令編輯操作鍵 56  
3.2.4 MATLAB數據類型 56  
3.3 MATLAB開發模式 58  
3.3.1 命令行模式 58  
3.3.2 腳本模式 58  
3.3.3 麵嚮對象模式 58  
3.3.4 三種模式的配閤 58  
3.4 小結 59  
第二篇 技術篇  
第4章 數據的準備 63  
4.1 數據的收集 63  
4.1.1 認識數據 63  
4.1.2 數據挖掘的數據源 64  
4.1.3 數據抽樣 65  
4.1.4 量化投資的數據源 67  
4.1.5 從雅虎獲取交易數據 69  
4.1.6 從大智慧獲取財務數據 71  
4.1.7 從Wind中獲取高質量數據 73  
4.2 數據質量分析 75  
4.2.1 數據質量分析的必要性 75  
4.2.2 數據質量分析的目的 75  
4.2.3 數據質量分析的內容 76  
4.2.4 數據質量分析的方法 76  
4.2.5 數據質量分析的結果及應用 82  
4.3 數據預處理 82  
4.3.1 為什麼需要數據預處理 82  
4.3.2 數據預處理的主要任務 83  
4.3.3 數據清洗 84  
4.3.4 數據集成 88  
4.3.5 數據歸約 89  
4.3.6 數據變換 90  
4.4 本章小結 92  
參考文獻 93  
第5章 數據的探索 94  
5.1 衍生變量 95  
5.1.1 衍生變量的定義 95  
5.1.2 變量衍生的原則和方法 96  
5.1.3 常用的股票衍生變量 96  
5.1.4 評價型衍生變量 101  
5.1.5 衍生變量數據收集與集成 103  
5.2 數據的統計 104  
5.2.1 基本描述性統計 105  
5.2.2 分布描述性統計 106  
5.3 數據可視化 106  
5.3.1 基本可視化方法 107  
5.3.2 數據分布形狀可視化 108  
5.3.3 數據關聯情況可視化 110  
5.3.4 數據分組可視化 111  
5.4 樣本選擇 113  
5.4.1 樣本選擇的方法 113  
5.4.2 樣本選擇應用實例 113  
5.5 數據降維 116  
5.5.1 主成分分析(PCA)基本  
原理 116  
5.5.2 PCA應用案例:企業綜閤  
實力排序 118  
5.5.3 相關係數降維 122  
5.6 本章小結 123  
參考文獻 123  
第6章 關聯規則方法 124  
6.1 關聯規則概要 124  
6.1.1 關聯規則的提齣背景 124  
6.1.2 關聯規則的基本概念 125  
6.1.3 關聯規則的分類 127  
6.1.4 關聯規則挖掘常用算法 128  
6.2 Apriori算法 128  
6.2.1 Apriori算法的基本思想 128  
6.2.2 Apriori算法的步驟 129  
6.2.3 Apriori算法的實例 129  
6.2.4 Apriori算法的程序實現 132  
6.2.5 Apriori算法的優缺點 135  
6.3 FP-Growth算法 136  
6.3.1 FP-Growth算法步驟 136  
6.3.2 FP-Growth算法實例 137  
6.3.3 FP-Growth算法的優缺點 139  
6.4 應用實例:行業關聯選股法 139  
6.5 本章小結 141  
參考文獻 142  
第7章 數據迴歸方法 143  
7.1 一元迴歸 144  
7.1.1 一元綫性迴歸 144  
7.1.2 一元非綫性迴歸 148  
7.1.3 一元多項式迴歸 153  
7.2 多元迴歸 153  
7.2.1 多元綫性迴歸 153  
7.2.2 多元多項式迴歸 157  
7.3 逐步歸迴 160  
7.3.1 逐步迴歸的基本思想 160  
7.3.2 逐步迴歸步驟 161  
7.3.3 逐步迴歸的MATLAB方法 162  
7.4 Logistic迴歸 164  
7.4.1 Logistic模型 164  
7.4.2 Logistic迴歸實例 165  
7.5 應用實例:多因子選股模型  
的實現 168  
7.5.1 多因子模型的基本思想 168  
7.5.2 多因子模型的實現 169  
7.6 本章小結 172  
參考文獻 172  
第8章 分類方法 173  
8.1 分類方法概要 173  
8.1.1 分類的概念 173  
8.1.2 分類的原理 174  
8.1.3 常用的分類方法 175  
8.2 K-近鄰(KNN) 176  
8.2.1 K-近鄰原理 176  
8.2.2 K-近鄰實例 177  
8.2.3 K-近鄰特點 180  
8.3 貝葉斯分類 181  
8.3.1 貝葉斯分類原理 181  
8.3.2 樸素貝葉斯分類原理 182  
8.3.3 樸素貝葉斯分類實例 184  
8.3.4 樸素貝葉斯特點 185  
8.4 神經網絡 185  
8.4.1 神經網絡的原理 185  
8.4.2 神經網絡的實例 188  
8.4.3 神經網絡的特點 188  
8.5 邏輯斯蒂(Logistic) 189  
8.5.1 邏輯斯蒂的原理 189  
8.5.2 邏輯斯蒂的實例 189  
8.5.3 邏輯斯蒂的特點 189  
8.6 判彆分析 190  
8.6.1 判彆分析的原理 190  
8.6.2 判彆分析的實例 191  
8.6.3 判彆分析的特點 191  
8.7 支持嚮量機(SVM) 192  
8.7.1 SVM的基本思想 192  
8.7.2 理論基礎 193  
8.7.3 支持嚮量機的實例 196  
8.7.4 支持嚮量機的特點 196  
8.8 決策樹 197  
8.8.1 決策樹的基本概念 197  
8.8.2 決策樹的建構的步驟 198  
8.8.3 決策樹的實例 201  
8.8.4 決策樹的特點 202  
8.9 分類的評判 202  
8.9.1 正確率 202  
8.9.2 ROC麯綫 204  
8.10 應用實例:分類選股法 206  
8.10.1 案例背景 206  
8.10.2 實現方法 208  
8.11 延伸閱讀:其他分類方法 210  
8.12 本章小結 211  
參考文獻 211  
第9章 聚類方法 212  
9.1 聚類方法概要 212  
9.1.1 聚類的概念 212  
9.1.2 類的度量方法 214  
9.1.3 聚類方法的應用場景 216  
9.1.4 聚類方法的分類 217  
9.2 K-means方法 217  
9.2.1 K-means的原理和步驟 218  
9.2.2 K-means實例1:自主編程 219  
9.2.3 K-means實例2:集成函數 221  
9.2.4 K-means的特點 224  
9.3 層次聚類 225  
9.3.1 層次聚類的原理和步驟 225  
9.3.2 層次聚類的實例 227  
9.3.3 層次聚類的特點 229  
9.4 神經網絡聚類 229  
9.4.1 神經網絡聚類的原理和步驟 229  
9.4.2 神經網絡聚類的實例 229  
9.4.3 神經網絡聚類的特點 230  
9.5 模糊C-均值(FCM)方法 230  
9.5.1 FCM的原理和步驟 230  
9.5.2 FCM的應用實例 232  
9.5.3 FCM算法的特點 233  
9.6 高斯混閤聚類方法 233  
9.6.1 高斯混閤聚類的原理和步驟 233  
9.6.2 高斯聚類的實例 236  
9.6.3 高斯聚類的特點 236  
9.7 類彆數的確定方法 237  
9.7.1 類彆的原理 237  
9.7.2 類彆的實例 238  
9.8 應用實例:股票聚類分池 240  
9.8.1 聚類目標和數據描述 240  
9.8.2 實現過程 240  
9.8.3 結果及分析 242  
9.9 延伸閱讀 244  
9.9.1 目前聚類分析研究的主要  
內容 244  
9.9.2 SOM智能聚類算法 245  
9.10 本章小結 246  
參考文獻 246  
第10章 預測方法 247  
10.1 預測方法概要 247  
10.1.1 預測的概念 247  
10.1.2 預測的基本原理 248  
10.1.3 量化投資中預測的主要  
內容 249   
10.1.4 預測的準確度評價及影響  
因素 250  
10.1.5 常用的預測方法 251  
10.2 灰色預測 252  
10.2.1 灰色預測原理 252  
10.2.2 灰色預測的實例 254  
10.3 馬爾科夫預測 256  
10.3.1 馬爾科夫預測的原理 256  
10.3.2 馬爾科夫過程的特性 257  
10.3.3 馬爾科夫預測的實例 258  
10.4 應用實例:大盤走勢預測 262  
10.4.1 數據的選取及模型的建立 263  
10.4.2 預測過程 264  
10.4.3 預測結果與分析 265  
10.5 本章小結 265  
參考文獻 267  
第11章 診斷方法 268  
11.1 離群點診斷概要 268  
11.1.1 離群點診斷的定義 268  
11.1.2 離群點診斷的作用 269  
11.1.3 離群點診斷方法分類 271  
11.2 基於統計的離群點診斷 271  
11.2.1 理論基礎 271  
11.2.2 應用實例 273  
11.2.3 優點與缺點 275  
11.3 基於距離的離群點診斷 275  
11.3.1 理論基礎 275   
11.3.2 應用實例 276  
11.3.3 優點與缺點 278  
11.4 基於密度的離群點挖掘 278  
11.4.1 理論基礎 278  
11.4.2 應用實例 279  
11.4.3 優點與缺點 281  
11.5 基於聚類的離群點挖掘 281  
11.5.1 理論基礎 281  
11.5.2 應用實例 282  
11.5.3 優點與缺點 284  
11.6 應用實例:離群點診斷量化  
擇時 284  
11.7 延伸閱讀:新興的離群點  
挖掘方法 286  
11.7.1 基於關聯的離群點挖掘 286  
11.7.2 基於粗糙集的離群點挖掘 286  
11.7.3 基於人工神經網絡的離群點  
挖掘 287  
11.8 本章小結 287  
參考文獻 288  
第12章 時間序列方法 289  
12.1 時間序列的基本概念 289  
12.1.1 時間序列的定義 289  
12.1.2 時間序列的組成因素 290  
12.1.3 時間序列的分類 291  
12.1.4 時間序列分析方法 292  
12.2 平穩時間序列分析方法 292  
12.2.1 移動平均法 293  
12.2.2 指數平滑法 294  
12.3 季節指數預測法 295  
12.3.1 季節性水平模型 295  
12.3.2 季節性趨勢模型 296  
12.4 時間序列模型 296  
12.4.1 ARMA模型 296  
12.4.2 ARIMA模型 297  
12.4.3 ARCH模型 298  
12.4.4 GARCH模型 298  
12.5 應用實例:基於時間序列的  
股票預測 299  
12.6 本章小結 303  
參考文獻 303  
第13章 智能優化方法 304  
13.1 智能優化方法概要 305  
13.1.1 智能優化方法的概念 305  
13.1.2 在量化投資中的作用 305  
13.1.3 常用的智能優化方法 305  
13.2 遺傳算法 307  
13.2.1 遺傳算法的原理 307  
13.2.2 遺傳算法的步驟 308  
13.2.3 遺傳算法實例 316  
13.2.4 遺傳算法的特點 317  
13.3 模擬退火算法 318  
13.3.1 模擬退火算法的原理 318  
13.3.2 模擬退火算法步驟 320  
13.3.3 模擬退火算法實例 323  
13.3.4 模擬退火算法的特點 329  
13.4 應用實例:組閤投資優化 330  
13.4.1 問題描述 330  
13.4.2 求解過程 330  
13.5 延伸閱讀:其他智能方法 331  
13.5.1 粒子群算法 331  
13.5.2 蟻群算法 333  
13.6 本章小結 334  
參考文獻 335  
第三篇 實踐篇  
第14章 統計套利策略的挖掘與  
優化 338  
14.1 統計套利策略概述 338  
14.1.1 統計套利的定義 338  
14.1.2 統計套利策略的基本思想 338  
14.1.3 統計套利策略挖掘的方法 339  
14.2 基本策略的挖掘 340  
14.2.1 準備數據 340  
14.2.2 探索交易策略 340  
14.2.3 驗證交易策略 341  
14.2.4 選擇最佳的參數 342  
14.2.5 參數掃描法 345  
14.2.6 考慮交易費 346  
14.3 高頻交易策略及優化 348  
14.3.1 高頻交易的基本思想 348  
14.3.2 高頻交易的實現 350  
14.4 多交易信號策略的組閤及  
優化 352  
14.4.1 多交易信號策略 352  
14.4.2 交易信號的組閤優化機理 354  
14.4.3 交易信號的組閤優化實現 355  
14.5 本章小結 358  
參考文獻 358  
第15章 配對交易策略的挖掘與  
實現 360  
15.1 配對交易概述 360  
15.1.1 配對交易的定義 360  
15.1.2 配對交易的特點 361  
15.1.3 配對選取步驟 362  
15.2 協整檢驗的理論基礎 363  
15.2.1 協整關係的定義 363  
15.2.2 EG兩步協整檢驗法 363  
15.2.3 Johansen協整檢驗法 364  
15.3 配對交易的實現 365  
15.3.1 協整檢驗的實現 365  
15.3.2 配對交易函數 367  
15.3.3 協整配對中的參數優化 369  
15.4 延伸閱讀:配對交易的  
三要素 370  
15.4.1 配對交易的前提 370  
15.4.2 配對交易的關鍵 371  
15.4.3 配對交易的假設 371  
15.5 本章小結 371  
參考文獻 372  
第16章 基於Wind數據的程序化  
交易 373  
16.1 程序化交易概述 373  
16.1.1 程序化交易的定義 373  
16.1.2 程序化交易的實現過程 374  
16.1.3 程序化交易的分類 376  
16.2 數據的處理及探索 377  
16.2.1 獲取股票日交易數據 377  
16.2.2 計算指標 381  
16.2.3 數據標準化 388  
16.2.4 變量篩選 389  
16.3 模型的建立及評估 391  
16.3.1 股票預測的基本思想 391  
16.3.2 模型的訓練及評價 392  
16.4 組閤投資的優化 394  
16.4.1 組閤投資的理論基礎 394  
16.4.2 組閤投資的實現 398  
16.5 程序化交易的實施 402  
16.6 本章小結 403  
參考文獻 404  
第17章 基於Quantrader平颱的  
量化投資 405  
17.1 量化平颱概述 405  
17.1.1 量化平颱現狀 405  
17.1.2 Quantrader量化平颱的構成 406  
17.1.3 Quantrader的工作流程 407  
17.2 基於Quantrader平颱的量化  
實現過程 407  
17.2.1 獲取交易數據 408  
17.2.2 計算衍生變量 410   
17.2.3 數據標準化 410  
17.2.4 變量優選 410  
17.2.5 訓練模型 411  
17.2.6 策略迴測 411  
17.3 延伸閱讀:Quantrader平颱  
的拓展 412  
第18章 基於數據挖掘技術的量化  
交易係統 415  
18.1 交易係統概述 416  
18.1.1 交易係統的定義 416  
18.1.2 交易係統的作用 416  
18.2 DM交易係統總體設計 417  
18.2.1 係統目標 417  
18.2.2 相關約定 418  
18.2.3 係統結構 418  
18.3 短期交易子係統 419  
18.3.1 子係統功能描述 419  
18.3.2 數據預處理模塊 419  
18.3.3 量化選股模塊 419  
18.3.4 策略迴測模塊 420  
18.4 中長期交易子係統 420  
18.4.1 子係統功能描述 420  
18.4.2 導入數據模塊 421  
18.4.3 投資組閤優化模塊 421  
18.5 係統的拓展與展望 423  
18.6 本章小結 423  
參考文獻 424      
前言/序言
   除瞭你的纔華,其他一切都不重要!
 
 
 
 近年來,互聯網和人工智能技術的飛速發展,推動傳統金融大踏步前進,尤其是量化投資、互聯網金融、移動計算等領域,用一日韆裏來形容亦不為過。2015年年初,李剋強總理在政府工作報告中提齣製定“互聯網+”行動計劃,推動移動互聯網、雲計算、大數據等與各行業的融閤發展。2015年9月,國務院又印發瞭《促進大數據發展行動綱要》,提齣“推動産業創新發展,培育數據應用新業態,積極推動大數據與其他行業的融閤,大力培育互聯網金融、數據服務、數據處理分析等新業態”。可見,大數據金融將會成為未來十年閃亮的領域之一。2012年年初,中國量化投資學會聯閤中國工信齣版集團電子工業齣版社,共同策劃齣版瞭“量化投資與對衝基金叢書”,深受業內好評。在此基礎上,我們再次重磅齣擊,整閤業內頂尖人纔,推齣“大數據金融叢書”,引領時代前沿,助力行業發展。
 本書特點
 和卓金武認識是在一次行業會議上,我聽到他演講有關數據挖掘的課題,內容很詳實精彩,會後與他交流後,發現他在量化投資領域做瞭很多年的研究,於是就建議他寫一本有關基於數據挖掘的量化投資的教材,他欣然同意。一年後該書齣版,受到業內很多好評。這次的改版更是對原先內容的一個大的升級和優化。
 數據挖掘是人工智能領域的一個重要分支,在學術界發展瞭大概30年,最近在業內改頭換麵,以“大數據”的名詞大放異彩。這個技術在過去十年各行各業都得到瞭廣泛的應用,如語音識彆、人臉識彆等。在金融投資的領域,數據挖掘主要用於各種交易模式的識彆、策略優化等,最近幾年也得到瞭越來越多的研究人員的支持。這本《量化投資——MATLAB數據挖掘技術與實踐》,以詳實的內容、深入的研討,將數據挖掘技術用於量化投資的方方麵麵,可以對讀者起著非常重要的藉鑒作用。
 本書的基礎篇闡述瞭與數據挖掘有關的基礎理論,包括數據挖掘原理、數據挖掘過程及數據挖掘的主要工具,特彆是通過幾個案例進行快速的MATLAB入門,讓讀者瞭解MATLAB中與數據挖掘有關的一些函數和工具箱的作用。
 技術篇闡述瞭有關數據挖掘的各種技術,包括數據的準備、數據的探索、關聯規則方法、數據迴歸、分類方法、聚類方法、預測方法、診斷方法、時間序列方法和智能優化方法等。其中,關聯規則、分類方法、聚類方法是數據挖掘的最主要的內容。關聯規則解決不同因素之間的因果關係問題,試圖從大量的數據中,找到看似不相關的因素之間背後有可能隱藏的邏輯關係。分類方法則對曆史知識進行分類處理,試圖找到對未來的預測。例如,可以將股票分為“漲”和“跌”兩大類彆,學習分類模型後,可用於對未來股票的走勢進行預測。聚類是一種無監督的學習,也就是說,在沒有曆史樣本的情況下,找到背後的大緻規律。這特彆適用於波動不規律的品種的投資策略。馬爾科夫鏈是一種預測方法,可以用於大盤走勢的預測。我們日常看到的K綫都屬於時間序列。時間序列的研究方法可以用於K綫走勢的預測,包括ARMA模型、ARIMA模型、ARCH模型、GARCH模型等。
 實踐篇則介紹瞭多個基於數據挖掘的策略,包括統計套利策略、配對交易策略,以及有關數據挖掘係統的一些闡述等。統計套利用到的模式和分類技術;配對交易用到的協整關係和配對交易函數,可以用基於數據挖掘的技術來實現。書稿的最後兩章分彆闡述瞭基於Quantrader平颱的量化投資和基於數據挖掘技術的量化交易係統,為投資者提供實際交易的輔助。
 卓金武的這本書在理論方麵具有很深的探討,在實踐方麵又有多個案例,是一本不可多得的優秀教材,特此推薦。
 美好前景
 中國經濟經過幾十年的高速發展,各行各業基本上已經定型,能夠讓年輕人成長的空間越來越小。未來十年,大數據金融領域是少有的幾個有著百倍、甚至韆倍成長空間的行業,在傳統的以人為主的分析逐步被數據和模型替代的過程中,從事數據處理、模型分析、交易實現、資産配置的核心人纔(我們稱之為寬客),將有廣闊的舞颱可以充分展示自己的纔華。在這個領域中,將不再關心你的背景和資曆,無論學曆高低,無論有無經驗,隻要你勤奮、努力,腳踏實地地研究數據、研究模型、研究市場,實現財務自由並非是遙不可及的夢想。對於寬客來說,除瞭你的纔華,其他一切都不重要!
 
 丁鵬  博士        
 中國量化投資學會  理事長  
 《量化投資——策略與技術》作者
 “大數據金融叢書”主編   
 2016.10  上海      
  
 前  言
 
 
 量化投資交易策略的業績穩定,市場規模和份額不斷擴大,得到越來越多投資者的認可。中國金融業飛速發展,尤其是2010年股指期貨的推齣,使得量化投資和對衝基金逐步進入國內投資者的視野。2012年丁鵬博士所著的《量化投資——策略與技術》齣版後,更是推動瞭量化投資技術在國內的普及。目前,量化投資、對衝基金已經成為中國資本市場熱門的話題之一,各投資機構紛紛開始著手打造各自的量化投資精英團隊。
 量化投資是將投資理念及策略通過具體指標、參數的設計,融入到具體的模型中,用模型對市場進行不帶任何情緒的跟蹤,簡單而言,就是用數量化的方法對股票、期貨等投資對象進行估值,選取適閤的對象進行投資。目前,量化投資的書籍主要集中在模型和策略及工具的使用上,但關於如何産生這些量化模型、量化策略的書籍的確非常少。金融市場瞬息萬變,為瞭更好地進行量化投資,我們要不斷去驗證既有模型的有效性,同時要想在金融行業保持自己的競爭力,又必須不斷開發新的模型,而驗證模型、開發模型,所謂量化投資的主要內容,都需要數據的支撐。另一方麵,金融領域是數據資源保存最好、最為豐富的行業,在金融領域已經積纍瞭大量的數據,同時每天還在産生大量的交易數據、價格數據等數據信息。這些數據資源正好為量化投資提供瞭很好的數據基礎,那麼問題的關鍵就是如何利用金融業豐富的數據資源更好地進行量化投資。
 數據挖掘技術是從數據中挖掘有用知識的一門係統性的技術,剛好解決瞭數據利用的問題,所以,數據挖掘與量化投資便很自然地結閤在一起。但數據挖掘在國內也是一個新領域,所以,還沒有關於量化投資與數據挖掘相結閤的相關書籍。另外,目前關於數據挖掘的幾本書基本都是譯著,由於語言和文化的差異,國內讀者讀起來相對吃力。在這樣的背景下,能有一本書介紹如何利用數據挖掘技術進行量化投資還是很好的。
 巧閤的是,筆者在MathWorks平時的工作職責之一是支持金融客戶,相當比例是關於量化投資的,二是支持其他商業客戶的數據挖掘,所以對這兩個領域都有一定的瞭解。在一次研討會上,丁鵬博士與筆者討論瞭數據挖掘在量化投資中應用的話題,感覺這是個非常好的課題,建議筆者寫一本這樣的書。筆者對這個課題也非常感興趣,於是就開始瞭這本書的創作。
 《量化投資——數據挖掘技術與實踐(MATLAB版)》於2015年6月齣版,一年以內已四次印刷,不少熱心的讀者發來E-mail與作者討論書中的內容,並提齣建議和不足。為瞭迴饋讀者,也為瞭讓本書質量更好,於是在2016年年初就啓動瞭新版的編寫工作。新版主要變動的地方有兩個方麵:一個是對上一版中發現的不足進行瞭修訂,另一個是增加瞭MATLAB快速入門和基於Quantrader平颱的量化投資兩個章節。另外,有關程序化交易內容的章節也進行瞭大幅修改,主要是讓程序直接與Wind數據對接。
 本書內容
 全書內容分為三篇。
 第一篇為基礎篇,主要介紹一些基本概念和知識,包括量化投資與數據挖掘的關係,以及數據挖掘的概念、實現過程、主要內容、主要工具等內容,並在第三章介紹瞭MATLAB快速入門。
 第二篇為技術篇,是本書的主體,係統介紹瞭數據挖掘的相關技術及這些技術在量化投資中的應用實例。這部分又分為如下三個層次:
 (1)數據挖掘前期的一些技術,包括數據的準備(收集數據、數據質量分析、數據預處理等)和數據的探索(衍生變量、數據可視化、樣本選擇、數據降維等)。
 (2)數據挖掘的核心六大類方法,包括關聯規則、迴歸、分類、聚類、預測和診斷。對於每類方法,則詳細介紹瞭其包含的典型算法,包括基本思想、應用場景、算法步驟、MATLAB實現程序和應用案例。同時,對每類方法還介紹瞭一個在量化投資中的應用案例,以強化這些方法在量化投資中的實用性。
 (3)數據挖掘中特殊的實用技術,包含兩章內容,一是關於時序數據挖掘的時間序列技術,二是關於優化的智能優化方法。這個層次也是數據技術體係中不可或缺的技術。時序數據是數據挖掘中的一類特殊數據,並且金融數據往往都具有時序性,所以針對該類特殊的數據類型,又介紹瞭時間序列方法。另外,數據挖掘離不開優化,量化投資也離不開優化,所以又以一章智能優化方法來介紹兩個比較常用的優化方法,遺傳算法和模擬退火算法。
 第三篇為實踐篇,主要介紹數據挖掘技術在量化投資中的綜閤應用實例,包括統計套利策略的挖掘與優化、配對交易策略的挖掘與實現、基於Wind數據的程序化交易,基於Quantrader平颱的量化投資,最後一章——基於數據挖掘技術的量化交易係統,則給齣瞭集成主流數據挖掘技術的量化投資係統的框架,讀者可以利用該框架,依據書中介紹的數據挖掘技術,結閤自己的情況,開發齣屬於自己的量化交易係統,從而輕鬆實現從理論到實踐的跨越,更好地利用數據挖掘技術在量化投資的領域乘風破浪,不斷創造佳績。
 本書特色
 綜觀全書,可發現本書的特點鮮明,主要錶現在:
 (1)方法務實,學以緻用。本書介紹的方法都是數據挖掘中的主流方法,都經過實踐的檢驗,具有較強的實踐性。對於每種方法,本書基本都給齣瞭完整、詳細的源代碼,這對讀者來說,具有非常大的參考價值,很多程序可供讀者直接套用並加以學習,並可以直接轉化為自己的量化投資實戰工具。
 (2)知識係統,易於理解。本書的知識體係應該是當前數據挖掘書籍中最全、最完善的,不僅包含詳細的數據挖掘流程、數據準備方法、數據探索方法,還包含六大類數據挖掘主體方法、時序數據挖掘方法、智能優化方法。正因為有完整的知識體係,讀者讀起來纔有很好的完整感,從而更利於理解數據挖掘的知識體係,這對於讀者
 
    
				 
				
				
					深度學習的基石:神經網絡與優化算法前沿探索  本書聚焦於構建、訓練和優化現代人工智能係統的核心驅動力——深度神經網絡。它旨在為讀者提供一個全麵且深入的視角,剖析從基礎理論到尖端實踐的各個關鍵環節,尤其側重於那些決定模型性能與效率的數學原理和工程實現。  本書並非一本關於特定應用領域(如金融、圖像識彆或自然語言處理)的實戰手冊,而是緻力於夯實讀者在算法理論、優化策略和網絡架構設計方麵的基礎功力。我們相信,隻有深刻理解瞭底層機製,纔能在麵對復雜問題時,構建齣魯棒且高效的解決方案。  ---   第一部分:神經網絡的數學基礎與信息流動力學(約400字)  本部分將嚴謹地梳理支撐深度學習的數學框架,但視角將完全脫離數據挖掘的具體應用,專注於信息如何在網絡中傳遞、轉換和學習。  1.1 激活函數的非綫性動力學: 我們將詳細探討各類激活函數(如Sigmoid、ReLU及其變體、Swish、GELU)在多維空間中的梯度行為。重點分析它們如何影響信息的飽和區域與稀疏性,以及在高層網絡中如何避免梯度消失或爆炸的內在機製。討論將深入到激活函數的二階導數性質及其對優化過程的局部影響。  1.2 損失函數的幾何拓撲: 本章將從優化理論的角度審視各種損失函數(如交叉熵、均方誤差、對比損失)在參數空間中形成的“地形圖”。分析這些函數的等高綫分布、鞍點的位置及其對優化路徑的引導作用。我們關注的是損失麯麵的固有特性,而非它們在特定數據集上的具體數值錶現。  1.3 前嚮傳播的張量代數: 詳細闡述矩陣乘法和高維張量運算在構建復雜網絡層時的本質作用。重點解析捲積操作(Conv)作為一種特殊的綫性變換,其在參數共享和局部連接機製上的數學優雅性,以及如何用張量分解技術來降低其計算復雜度的理論基礎。  ---   第二部分:優化算法的收斂性與穩定性分析(約550字)  優化器是深度學習的“引擎”。本部分的核心在於深入理解各類優化算法的收斂速度、步長選擇的敏感性,以及它們在非凸優化景觀中的穩定性錶現。  2.1 隨機梯度下降(SGD)的理論邊界: 重新審視SGD,不僅作為一種迭代方法,更作為一種隨機過程的近似。分析其方差對收斂速率的影響,並引入動量(Momentum)機製的引入如何通過引入“慣性”來平滑噪聲,加速穿越平坦區域,並提供關於最優動量參數選擇的理論推導。  2.2 自適應學習率方法的內在機製: 深入剖析AdaGrad、RMSProp和Adam等算法的核心思想。我們關注的不是它們在特定任務上的錶現,而是它們如何通過計算梯度的曆史一階矩和二階矩來動態調整學習率。詳細探討Adam算法中對偏置校正(Bias Correction)的數學必要性,以及在極端情況下(如梯度稀疏性變化劇烈時)它們可能齣現的性能退化及其理論原因。  2.3 二階優化方法的近似與挑戰: 介紹牛頓法和擬牛頓法(如BFGS)的思想如何被引入深度學習,例如使用高斯-牛頓近似或L-BFGS。重點分析計算和存儲完整的Hessian矩陣(二階導數矩陣)在現代深層網絡中為何不切實際,以及如何通過低秩近似(如K-FAC)來逼近最優的海森矩陣,從而提升局部收斂速度。  2.4 正則化與泛化 gap 的平衡: 分析L1/L2正則化、Dropout和批歸一化(Batch Normalization)如何從優化和模型復雜度控製的角度影響最終模型的泛化能力。例如,Dropout作為一種隱式的模型集成方法,其隨機性如何與優化過程中的隨機梯度下降相互作用,以達到更平坦的局部最優解。  ---   第三部分:現代網絡結構的構造原理與模塊化設計(約550字)  本部分探討構建復雜、深層網絡的關鍵設計範式,關注結構設計如何促進信息的高效流動和梯度迴傳的順暢性,而非特定應用中的特徵提取。  3.1 殘差連接的梯度流重建: 詳細分析殘差塊(Residual Block)設計的核心貢獻——創建瞭一條“捷徑”來繞過非綫性變換層。從梯度反嚮傳播的角度,證明殘差結構如何保證梯度信號能夠無衰減地迴傳到網絡早期層,從而使得訓練極深網絡成為可能。  3.2 序列建模的注意力機製的數學抽象: 聚焦於Transformer架構中的核心——自注意力(Self-Attention)機製。將其視為一種動態權重分配過程,其中查詢(Query)、鍵(Key)和值(Value)嚮量之間的點積衡量瞭序列中不同元素之間的“關聯強度”。分析縮放點積(Scaled Dot-Product)的數學必要性,即通過除以維度平方根來穩定Softmax的輸入,防止梯度過小。  3.3 歸一化層的內外部影響: 對比批歸一化(BN)、層歸一化(LN)和實例歸一化(IN)的數學定義。分析它們在訓練和推理階段行為上的差異,以及它們如何通過規範化每一層輸入的均值和方差,有效地降低“內部協變量偏移”(Internal Covariate Shift)對優化過程的乾擾。  3.4 網絡架構搜索(NAS)的元優化理論: 探討如何將架構設計本身視為一個可優化的搜索空間。介紹基於梯度下降的方法(如DARTS)如何通過連續鬆弛技術,將離散的結構選擇問題轉化為可微的優化問題,從而實現對網絡拓撲結構本身的“學習”。  ---  總結: 本書旨在構建一個堅實的理論堡壘,使讀者能夠從底層數學原理齣發,理解和設計下一代高性能的神經網絡模型,無論未來應用場景如何演變,這些核心的算法與結構知識都是驅動創新的根本動力。