量化投資――MATLAB數據挖掘技術與實踐 pdf epub mobi txt 電子書下載 2026

簡體網頁||繁體網頁

☆☆☆☆☆

卓金武著

圖書標籤:

量化投資
MATLAB
數據挖掘
金融工程
投資策略
時間序列分析
機器學習
風險管理
技術分析
統計套利

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜流書站

book.coffeedeals.club

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：電子工業齣版社

ISBN：9787121302305

版次：1

商品編碼：12089192

包裝：平裝

叢書名：大數據金融叢書

開本：16開

齣版時間：2017-01-01

用紙：膠版紙

頁數：440

字數：717000

正文語種：中文

具體描述

産品特色

內容簡介

全書內容分為三篇。第一篇為基礎篇，主要介紹量化投資與數據挖掘的關係，以及數據挖掘的概念、實現過程、主要內容、主要工具等內容。第二篇為技術篇，係統介紹瞭數據挖掘的相關技術及這些技術在量化投資中的應用，主要包括數據的準備、數據的探索、關聯規則方法、數據迴歸方法、分類方法、聚類方法、預測方法、診斷方法、時間序列方法、智能優化方法等內容。第三篇為實踐篇，主要介紹數據挖掘技術在量化投資中的綜閤應用實例，包括統計套利策略的挖掘與優化、配對交易策略的挖掘與實現、數據挖掘在股票程序化交易中的綜閤應用，以及基於數據挖掘技術的量化交易係統的構建。本書的讀者對象為從事投資、數據挖掘、數據分析、數據管理工作的專業人士；金融、經濟、管理、統計等專業的教師和學生；希望學習MATLAB的廣大科研人員、學者和工程技術人員。

作者簡介

卓金武，MathWorks中國科學計算業務總監，主要職責是嚮中國區MATLAB正版用戶提供數據挖掘和量化投資解決方案。曾2次獲全國大學生數學建模競賽一等奬 (2003, 2004)，1次獲全國研究生數學建模競賽一等奬 (2007)；主編三著兩部:《MATLAB在數學建模中的應用》（第一版和第二版），《量化投資：數據挖掘技術與實踐(MATLAB版)》。周英，中科數據首席數據科學傢，曾就職於知名搜索引擎公司6年，主要從事互聯網文本挖掘工作的研發工作，目前專注的領域為大數據挖掘技術的工業應用研究和工程應用，曾獲美國大學生數學建模競賽二等奬一項，全國研究生數學建模競賽二等奬一項，著有《大數據挖掘：係統方法與實例分析》

內頁插圖

第一篇基礎篇
第1章緒論 2
1．1 量化投資與數據挖掘的關係 2
1．1．1 什麼是量化投資 2
1．1．2 量化投資的特點 3
1．1．3 量化投資的核心――量化模型 5
1．1．4 量化模型的主要産生方法――
數據挖掘 7
1．2 數據挖掘的概念和原理 8
1．2．1 什麼是數據挖掘 8
1．2．2 數據挖掘的原理 10
1．3 數據挖掘在量化投資中的應用 11
1．3．1 宏觀經濟分析 11
1．3．2 估價 13
1．3．3 量化選股 14
1．3．4 量化擇時 14
1．3．5 算法交易 14
1．4 本章小結 15
參考文獻 16
第2章數據挖掘的內容、過程及
工具 17
2．1 數據挖掘的內容 17
2．1．1 關聯 17
2．1．2 迴歸 19
2．1．3 分類 20
2．1．4 聚類 21
2．1．5 預測 22
2．1．6 診斷 23
2．2 數據挖掘過程 24
2．2．1 數據挖掘過程概述 24
2．2．2 挖掘目標的定義 25
2．2．3 數據的準備 26
2．2．4 數據的探索 28
2．2．5 模型的建立 29
2．2．6 模型的評估 33
2．2．7 模型的部署 35
2．3 數據挖掘工具 36
2．3．1 MATLAB 36
2．3．2 SAS 37
2．3．3 SPSS 38
2．3．4 WEKA 39
2．3．5 R 41
2．3．6 工具的比較與選擇 42
2．4 本章小結 43
參考文獻 43
第3章 MATLAB快速入門 44
3．1 MATLAB快速入門 44
3．1．1 MATLAB概要 44
3．1．2 MATLAB的功能 45
3．1．3 快速入門案例 46
3．1．4 入門後的提高 55
3．2 MATLAB常用技巧 55
3．2．1 常用標點的功能 55
3．2．2 常用操作指令 56
3．2．3 指令編輯操作鍵 56
3．2．4 MATLAB數據類型 56
3．3 MATLAB開發模式 58
3．3．1 命令行模式 58
3．3．2 腳本模式 58
3．3．3 麵嚮對象模式 58
3．3．4 三種模式的配閤 58
3．4 小結 59
第二篇技術篇
第4章數據的準備 63
4．1 數據的收集 63
4．1．1 認識數據 63
4．1．2 數據挖掘的數據源 64
4．1．3 數據抽樣 65
4．1．4 量化投資的數據源 67
4．1．5 從雅虎獲取交易數據 69
4．1．6 從大智慧獲取財務數據 71
4．1．7 從Wind中獲取高質量數據 73
4．2 數據質量分析 75
4．2．1 數據質量分析的必要性 75
4．2．2 數據質量分析的目的 75
4．2．3 數據質量分析的內容 76
4．2．4 數據質量分析的方法 76
4．2．5 數據質量分析的結果及應用 82
4．3 數據預處理 82
4．3．1 為什麼需要數據預處理 82
4．3．2 數據預處理的主要任務 83
4．3．3 數據清洗 84
4．3．4 數據集成 88
4．3．5 數據歸約 89
4．3．6 數據變換 90
4．4 本章小結 92
參考文獻 93
第5章數據的探索 94
5．1 衍生變量 95
5．1．1 衍生變量的定義 95
5．1．2 變量衍生的原則和方法 96
5．1．3 常用的股票衍生變量 96
5．1．4 評價型衍生變量 101
5．1．5 衍生變量數據收集與集成 103
5．2 數據的統計 104
5．2．1 基本描述性統計 105
5．2．2 分布描述性統計 106
5．3 數據可視化 106
5．3．1 基本可視化方法 107
5．3．2 數據分布形狀可視化 108
5．3．3 數據關聯情況可視化 110
5．3．4 數據分組可視化 111
5．4 樣本選擇 113
5．4．1 樣本選擇的方法 113
5．4．2 樣本選擇應用實例 113
5．5 數據降維 116
5．5．1 主成分分析（PCA）基本
原理 116
5．5．2 PCA應用案例：企業綜閤
實力排序 118
5．5．3 相關係數降維 122
5．6 本章小結 123
參考文獻 123
第6章關聯規則方法 124
6．1 關聯規則概要 124
6．1．1 關聯規則的提齣背景 124
6．1．2 關聯規則的基本概念 125
6．1．3 關聯規則的分類 127
6．1．4 關聯規則挖掘常用算法 128
6．2 Apriori算法 128
6．2．1 Apriori算法的基本思想 128
6．2．2 Apriori算法的步驟 129
6．2．3 Apriori算法的實例 129
6．2．4 Apriori算法的程序實現 132
6．2．5 Apriori算法的優缺點 135
6．3 FP-Growth算法 136
6．3．1 FP-Growth算法步驟 136
6．3．2 FP-Growth算法實例 137
6．3．3 FP-Growth算法的優缺點 139
6．4 應用實例：行業關聯選股法 139
6．5 本章小結 141
參考文獻 142
第7章數據迴歸方法 143
7．1 一元迴歸 144
7．1．1 一元綫性迴歸 144
7．1．2 一元非綫性迴歸 148
7．1．3 一元多項式迴歸 153
7．2 多元迴歸 153
7．2．1 多元綫性迴歸 153
7．2．2 多元多項式迴歸 157
7．3 逐步歸迴 160
7．3．1 逐步迴歸的基本思想 160
7．3．2 逐步迴歸步驟 161
7．3．3 逐步迴歸的MATLAB方法 162
7．4 Logistic迴歸 164
7．4．1 Logistic模型 164
7．4．2 Logistic迴歸實例 165
7．5 應用實例：多因子選股模型
的實現 168
7．5．1 多因子模型的基本思想 168
7．5．2 多因子模型的實現 169
7．6 本章小結 172
參考文獻 172
第8章分類方法 173
8．1 分類方法概要 173
8．1．1 分類的概念 173
8．1．2 分類的原理 174
8．1．3 常用的分類方法 175
8．2 K-近鄰（KNN） 176
8．2．1 K-近鄰原理 176
8．2．2 K-近鄰實例 177
8．2．3 K-近鄰特點 180
8．3 貝葉斯分類 181
8．3．1 貝葉斯分類原理 181
8．3．2 樸素貝葉斯分類原理 182
8．3．3 樸素貝葉斯分類實例 184
8．3．4 樸素貝葉斯特點 185
8．4 神經網絡 185
8．4．1 神經網絡的原理 185
8．4．2 神經網絡的實例 188
8．4．3 神經網絡的特點 188
8．5 邏輯斯蒂（Logistic） 189
8．5．1 邏輯斯蒂的原理 189
8．5．2 邏輯斯蒂的實例 189
8．5．3 邏輯斯蒂的特點 189
8．6 判彆分析 190
8．6．1 判彆分析的原理 190
8．6．2 判彆分析的實例 191
8．6．3 判彆分析的特點 191
8．7 支持嚮量機（SVM） 192
8．7．1 SVM的基本思想 192
8．7．2 理論基礎 193
8．7．3 支持嚮量機的實例 196
8．7．4 支持嚮量機的特點 196
8．8 決策樹 197
8．8．1 決策樹的基本概念 197
8．8．2 決策樹的建構的步驟 198
8．8．3 決策樹的實例 201
8．8．4 決策樹的特點 202
8．9 分類的評判 202
8．9．1 正確率 202
8．9．2 ROC麯綫 204
8．10 應用實例：分類選股法 206
8．10．1 案例背景 206
8．10．2 實現方法 208
8．11 延伸閱讀：其他分類方法 210
8．12 本章小結 211
參考文獻 211
第9章聚類方法 212
9．1 聚類方法概要 212
9．1．1 聚類的概念 212
9．1．2 類的度量方法 214
9．1．3 聚類方法的應用場景 216
9．1．4 聚類方法的分類 217
9．2 K-means方法 217
9．2．1 K-means的原理和步驟 218
9．2．2 K-means實例1：自主編程 219
9．2．3 K-means實例2：集成函數 221
9．2．4 K-means的特點 224
9．3 層次聚類 225
9．3．1 層次聚類的原理和步驟 225
9．3．2 層次聚類的實例 227
9．3．3 層次聚類的特點 229
9．4 神經網絡聚類 229
9．4．1 神經網絡聚類的原理和步驟 229
9．4．2 神經網絡聚類的實例 229
9．4．3 神經網絡聚類的特點 230
9．5 模糊C-均值（FCM）方法 230
9．5．1 FCM的原理和步驟 230
9．5．2 FCM的應用實例 232
9．5．3 FCM算法的特點 233
9．6 高斯混閤聚類方法 233
9．6．1 高斯混閤聚類的原理和步驟 233
9．6．2 高斯聚類的實例 236
9．6．3 高斯聚類的特點 236
9．7 類彆數的確定方法 237
9．7．1 類彆的原理 237
9．7．2 類彆的實例 238
9．8 應用實例：股票聚類分池 240
9．8．1 聚類目標和數據描述 240
9．8．2 實現過程 240
9．8．3 結果及分析 242
9．9 延伸閱讀 244
9．9．1 目前聚類分析研究的主要
內容 244
9．9．2 SOM智能聚類算法 245
9．10 本章小結 246
參考文獻 246
第10章預測方法 247
10．1 預測方法概要 247
10．1．1 預測的概念 247
10．1．2 預測的基本原理 248
10．1．3 量化投資中預測的主要
內容 249

10．1．4 預測的準確度評價及影響
因素 250
10．1．5 常用的預測方法 251
10．2 灰色預測 252
10．2．1 灰色預測原理 252
10．2．2 灰色預測的實例 254
10．3 馬爾科夫預測 256
10．3．1 馬爾科夫預測的原理 256
10．3．2 馬爾科夫過程的特性 257
10．3．3 馬爾科夫預測的實例 258
10．4 應用實例：大盤走勢預測 262
10．4．1 數據的選取及模型的建立 263
10．4．2 預測過程 264
10．4．3 預測結果與分析 265
10．5 本章小結 265
參考文獻 267
第11章診斷方法 268
11．1 離群點診斷概要 268
11．1．1 離群點診斷的定義 268
11．1．2 離群點診斷的作用 269
11．1．3 離群點診斷方法分類 271
11．2 基於統計的離群點診斷 271
11．2．1 理論基礎 271
11．2．2 應用實例 273
11．2．3 優點與缺點 275
11．3 基於距離的離群點診斷 275
11．3．1 理論基礎 275

11．3．2 應用實例 276
11．3．3 優點與缺點 278
11．4 基於密度的離群點挖掘 278
11．4．1 理論基礎 278
11．4．2 應用實例 279
11．4．3 優點與缺點 281
11．5 基於聚類的離群點挖掘 281
11．5．1 理論基礎 281
11．5．2 應用實例 282
11．5．3 優點與缺點 284
11．6 應用實例：離群點診斷量化
擇時 284
11．7 延伸閱讀：新興的離群點
挖掘方法 286
11．7．1 基於關聯的離群點挖掘 286
11．7．2 基於粗糙集的離群點挖掘 286
11．7．3 基於人工神經網絡的離群點
挖掘 287
11．8 本章小結 287
參考文獻 288
第12章時間序列方法 289
12．1 時間序列的基本概念 289
12．1．1 時間序列的定義 289
12．1．2 時間序列的組成因素 290
12．1．3 時間序列的分類 291
12．1．4 時間序列分析方法 292
12．2 平穩時間序列分析方法 292
12．2．1 移動平均法 293
12．2．2 指數平滑法 294
12．3 季節指數預測法 295
12．3．1 季節性水平模型 295
12．3．2 季節性趨勢模型 296
12．4 時間序列模型 296
12．4．1 ARMA模型 296
12．4．2 ARIMA模型 297
12．4．3 ARCH模型 298
12．4．4 GARCH模型 298
12．5 應用實例：基於時間序列的
股票預測 299
12．6 本章小結 303
參考文獻 303
第13章智能優化方法 304
13．1 智能優化方法概要 305
13．1．1 智能優化方法的概念 305
13．1．2 在量化投資中的作用 305
13．1．3 常用的智能優化方法 305
13．2 遺傳算法 307
13．2．1 遺傳算法的原理 307
13．2．2 遺傳算法的步驟 308
13．2．3 遺傳算法實例 316
13．2．4 遺傳算法的特點 317
13．3 模擬退火算法 318
13．3．1 模擬退火算法的原理 318
13．3．2 模擬退火算法步驟 320
13．3．3 模擬退火算法實例 323
13．3．4 模擬退火算法的特點 329
13．4 應用實例：組閤投資優化 330
13．4．1 問題描述 330
13．4．2 求解過程 330
13．5 延伸閱讀：其他智能方法 331
13．5．1 粒子群算法 331
13．5．2 蟻群算法 333
13．6 本章小結 334
參考文獻 335
第三篇實踐篇
第14章統計套利策略的挖掘與
優化 338
14．1 統計套利策略概述 338
14．1．1 統計套利的定義 338
14．1．2 統計套利策略的基本思想 338
14．1．3 統計套利策略挖掘的方法 339
14．2 基本策略的挖掘 340
14．2．1 準備數據 340
14．2．2 探索交易策略 340
14．2．3 驗證交易策略 341
14．2．4 選擇最佳的參數 342
14．2．5 參數掃描法 345
14．2．6 考慮交易費 346
14．3 高頻交易策略及優化 348
14．3．1 高頻交易的基本思想 348
14．3．2 高頻交易的實現 350
14．4 多交易信號策略的組閤及
優化 352
14．4．1 多交易信號策略 352
14．4．2 交易信號的組閤優化機理 354
14．4．3 交易信號的組閤優化實現 355
14．5 本章小結 358
參考文獻 358
第15章配對交易策略的挖掘與
實現 360
15．1 配對交易概述 360
15．1．1 配對交易的定義 360
15．1．2 配對交易的特點 361
15．1．3 配對選取步驟 362
15．2 協整檢驗的理論基礎 363
15．2．1 協整關係的定義 363
15．2．2 EG兩步協整檢驗法 363
15．2．3 Johansen協整檢驗法 364
15．3 配對交易的實現 365
15．3．1 協整檢驗的實現 365
15．3．2 配對交易函數 367
15．3．3 協整配對中的參數優化 369
15．4 延伸閱讀：配對交易的
三要素 370
15．4．1 配對交易的前提 370
15．4．2 配對交易的關鍵 371
15．4．3 配對交易的假設 371
15．5 本章小結 371
參考文獻 372
第16章基於Wind數據的程序化
交易 373
16．1 程序化交易概述 373
16．1．1 程序化交易的定義 373
16．1．2 程序化交易的實現過程 374
16．1．3 程序化交易的分類 376
16．2 數據的處理及探索 377
16．2．1 獲取股票日交易數據 377
16．2．2 計算指標 381
16．2．3 數據標準化 388
16．2．4 變量篩選 389
16．3 模型的建立及評估 391
16．3．1 股票預測的基本思想 391
16．3．2 模型的訓練及評價 392
16．4 組閤投資的優化 394
16．4．1 組閤投資的理論基礎 394
16．4．2 組閤投資的實現 398
16．5 程序化交易的實施 402
16．6 本章小結 403
參考文獻 404
第17章基於Quantrader平颱的
量化投資 405
17．1 量化平颱概述 405
17．1．1 量化平颱現狀 405
17．1．2 Quantrader量化平颱的構成 406
17．1．3 Quantrader的工作流程 407
17．2 基於Quantrader平颱的量化
實現過程 407
17．2．1 獲取交易數據 408
17．2．2 計算衍生變量 410

17．2．3 數據標準化 410
17．2．4 變量優選 410
17．2．5 訓練模型 411
17．2．6 策略迴測 411
17．3 延伸閱讀：Quantrader平颱
的拓展 412
第18章基於數據挖掘技術的量化
交易係統 415
18．1 交易係統概述 416
18．1．1 交易係統的定義 416
18．1．2 交易係統的作用 416
18．2 DM交易係統總體設計 417
18．2．1 係統目標 417
18．2．2 相關約定 418
18．2．3 係統結構 418
18．3 短期交易子係統 419
18．3．1 子係統功能描述 419
18．3．2 數據預處理模塊 419
18．3．3 量化選股模塊 419
18．3．4 策略迴測模塊 420
18．4 中長期交易子係統 420
18．4．1 子係統功能描述 420
18．4．2 導入數據模塊 421
18．4．3 投資組閤優化模塊 421
18．5 係統的拓展與展望 423
18．6 本章小結 423
參考文獻 424

前言/序言

除瞭你的纔華，其他一切都不重要！

近年來，互聯網和人工智能技術的飛速發展，推動傳統金融大踏步前進，尤其是量化投資、互聯網金融、移動計算等領域，用一日韆裏來形容亦不為過。2015年年初，李剋強總理在政府工作報告中提齣製定“互聯網+”行動計劃，推動移動互聯網、雲計算、大數據等與各行業的融閤發展。2015年9月，國務院又印發瞭《促進大數據發展行動綱要》，提齣“推動産業創新發展，培育數據應用新業態，積極推動大數據與其他行業的融閤，大力培育互聯網金融、數據服務、數據處理分析等新業態”。可見，大數據金融將會成為未來十年閃亮的領域之一。2012年年初，中國量化投資學會聯閤中國工信齣版集團電子工業齣版社，共同策劃齣版瞭“量化投資與對衝基金叢書”，深受業內好評。在此基礎上，我們再次重磅齣擊，整閤業內頂尖人纔，推齣“大數據金融叢書”，引領時代前沿，助力行業發展。

本書特點

和卓金武認識是在一次行業會議上，我聽到他演講有關數據挖掘的課題，內容很詳實精彩，會後與他交流後，發現他在量化投資領域做瞭很多年的研究，於是就建議他寫一本有關基於數據挖掘的量化投資的教材，他欣然同意。一年後該書齣版，受到業內很多好評。這次的改版更是對原先內容的一個大的升級和優化。

數據挖掘是人工智能領域的一個重要分支，在學術界發展瞭大概30年，最近在業內改頭換麵，以“大數據”的名詞大放異彩。這個技術在過去十年各行各業都得到瞭廣泛的應用，如語音識彆、人臉識彆等。在金融投資的領域，數據挖掘主要用於各種交易模式的識彆、策略優化等，最近幾年也得到瞭越來越多的研究人員的支持。這本《量化投資——MATLAB數據挖掘技術與實踐》，以詳實的內容、深入的研討，將數據挖掘技術用於量化投資的方方麵麵，可以對讀者起著非常重要的藉鑒作用。

本書的基礎篇闡述瞭與數據挖掘有關的基礎理論，包括數據挖掘原理、數據挖掘過程及數據挖掘的主要工具，特彆是通過幾個案例進行快速的MATLAB入門，讓讀者瞭解MATLAB中與數據挖掘有關的一些函數和工具箱的作用。

技術篇闡述瞭有關數據挖掘的各種技術，包括數據的準備、數據的探索、關聯規則方法、數據迴歸、分類方法、聚類方法、預測方法、診斷方法、時間序列方法和智能優化方法等。其中，關聯規則、分類方法、聚類方法是數據挖掘的最主要的內容。關聯規則解決不同因素之間的因果關係問題，試圖從大量的數據中，找到看似不相關的因素之間背後有可能隱藏的邏輯關係。分類方法則對曆史知識進行分類處理，試圖找到對未來的預測。例如，可以將股票分為“漲”和“跌”兩大類彆，學習分類模型後，可用於對未來股票的走勢進行預測。聚類是一種無監督的學習，也就是說，在沒有曆史樣本的情況下，找到背後的大緻規律。這特彆適用於波動不規律的品種的投資策略。馬爾科夫鏈是一種預測方法，可以用於大盤走勢的預測。我們日常看到的K綫都屬於時間序列。時間序列的研究方法可以用於K綫走勢的預測，包括ARMA模型、ARIMA模型、ARCH模型、GARCH模型等。

實踐篇則介紹瞭多個基於數據挖掘的策略，包括統計套利策略、配對交易策略，以及有關數據挖掘係統的一些闡述等。統計套利用到的模式和分類技術；配對交易用到的協整關係和配對交易函數，可以用基於數據挖掘的技術來實現。書稿的最後兩章分彆闡述瞭基於Quantrader平颱的量化投資和基於數據挖掘技術的量化交易係統，為投資者提供實際交易的輔助。

卓金武的這本書在理論方麵具有很深的探討，在實踐方麵又有多個案例，是一本不可多得的優秀教材，特此推薦。

美好前景

中國經濟經過幾十年的高速發展，各行各業基本上已經定型，能夠讓年輕人成長的空間越來越小。未來十年，大數據金融領域是少有的幾個有著百倍、甚至韆倍成長空間的行業，在傳統的以人為主的分析逐步被數據和模型替代的過程中，從事數據處理、模型分析、交易實現、資産配置的核心人纔（我們稱之為寬客），將有廣闊的舞颱可以充分展示自己的纔華。在這個領域中，將不再關心你的背景和資曆，無論學曆高低，無論有無經驗，隻要你勤奮、努力，腳踏實地地研究數據、研究模型、研究市場，實現財務自由並非是遙不可及的夢想。對於寬客來說，除瞭你的纔華，其他一切都不重要！

丁鵬博士

中國量化投資學會理事長

《量化投資——策略與技術》作者

“大數據金融叢書”主編

2016.10 上海

前言

量化投資交易策略的業績穩定，市場規模和份額不斷擴大，得到越來越多投資者的認可。中國金融業飛速發展，尤其是2010年股指期貨的推齣，使得量化投資和對衝基金逐步進入國內投資者的視野。2012年丁鵬博士所著的《量化投資——策略與技術》齣版後，更是推動瞭量化投資技術在國內的普及。目前，量化投資、對衝基金已經成為中國資本市場熱門的話題之一，各投資機構紛紛開始著手打造各自的量化投資精英團隊。

量化投資是將投資理念及策略通過具體指標、參數的設計，融入到具體的模型中，用模型對市場進行不帶任何情緒的跟蹤，簡單而言，就是用數量化的方法對股票、期貨等投資對象進行估值，選取適閤的對象進行投資。目前，量化投資的書籍主要集中在模型和策略及工具的使用上，但關於如何産生這些量化模型、量化策略的書籍的確非常少。金融市場瞬息萬變，為瞭更好地進行量化投資，我們要不斷去驗證既有模型的有效性，同時要想在金融行業保持自己的競爭力，又必須不斷開發新的模型，而驗證模型、開發模型，所謂量化投資的主要內容，都需要數據的支撐。另一方麵，金融領域是數據資源保存最好、最為豐富的行業，在金融領域已經積纍瞭大量的數據，同時每天還在産生大量的交易數據、價格數據等數據信息。這些數據資源正好為量化投資提供瞭很好的數據基礎，那麼問題的關鍵就是如何利用金融業豐富的數據資源更好地進行量化投資。

數據挖掘技術是從數據中挖掘有用知識的一門係統性的技術，剛好解決瞭數據利用的問題，所以，數據挖掘與量化投資便很自然地結閤在一起。但數據挖掘在國內也是一個新領域，所以，還沒有關於量化投資與數據挖掘相結閤的相關書籍。另外，目前關於數據挖掘的幾本書基本都是譯著，由於語言和文化的差異，國內讀者讀起來相對吃力。在這樣的背景下，能有一本書介紹如何利用數據挖掘技術進行量化投資還是很好的。

巧閤的是，筆者在MathWorks平時的工作職責之一是支持金融客戶，相當比例是關於量化投資的，二是支持其他商業客戶的數據挖掘，所以對這兩個領域都有一定的瞭解。在一次研討會上，丁鵬博士與筆者討論瞭數據挖掘在量化投資中應用的話題，感覺這是個非常好的課題，建議筆者寫一本這樣的書。筆者對這個課題也非常感興趣，於是就開始瞭這本書的創作。

《量化投資——數據挖掘技術與實踐（MATLAB版）》於2015年6月齣版，一年以內已四次印刷，不少熱心的讀者發來E-mail與作者討論書中的內容，並提齣建議和不足。為瞭迴饋讀者，也為瞭讓本書質量更好，於是在2016年年初就啓動瞭新版的編寫工作。新版主要變動的地方有兩個方麵：一個是對上一版中發現的不足進行瞭修訂，另一個是增加瞭MATLAB快速入門和基於Quantrader平颱的量化投資兩個章節。另外，有關程序化交易內容的章節也進行瞭大幅修改，主要是讓程序直接與Wind數據對接。

本書內容

全書內容分為三篇。

第一篇為基礎篇，主要介紹一些基本概念和知識，包括量化投資與數據挖掘的關係，以及數據挖掘的概念、實現過程、主要內容、主要工具等內容，並在第三章介紹瞭MATLAB快速入門。

第二篇為技術篇，是本書的主體，係統介紹瞭數據挖掘的相關技術及這些技術在量化投資中的應用實例。這部分又分為如下三個層次：

（1）數據挖掘前期的一些技術，包括數據的準備（收集數據、數據質量分析、數據預處理等）和數據的探索（衍生變量、數據可視化、樣本選擇、數據降維等）。

（2）數據挖掘的核心六大類方法，包括關聯規則、迴歸、分類、聚類、預測和診斷。對於每類方法，則詳細介紹瞭其包含的典型算法，包括基本思想、應用場景、算法步驟、MATLAB實現程序和應用案例。同時，對每類方法還介紹瞭一個在量化投資中的應用案例，以強化這些方法在量化投資中的實用性。

（3）數據挖掘中特殊的實用技術，包含兩章內容，一是關於時序數據挖掘的時間序列技術，二是關於優化的智能優化方法。這個層次也是數據技術體係中不可或缺的技術。時序數據是數據挖掘中的一類特殊數據，並且金融數據往往都具有時序性，所以針對該類特殊的數據類型，又介紹瞭時間序列方法。另外，數據挖掘離不開優化，量化投資也離不開優化，所以又以一章智能優化方法來介紹兩個比較常用的優化方法，遺傳算法和模擬退火算法。

第三篇為實踐篇，主要介紹數據挖掘技術在量化投資中的綜閤應用實例，包括統計套利策略的挖掘與優化、配對交易策略的挖掘與實現、基於Wind數據的程序化交易，基於Quantrader平颱的量化投資，最後一章——基於數據挖掘技術的量化交易係統，則給齣瞭集成主流數據挖掘技術的量化投資係統的框架，讀者可以利用該框架，依據書中介紹的數據挖掘技術，結閤自己的情況，開發齣屬於自己的量化交易係統，從而輕鬆實現從理論到實踐的跨越，更好地利用數據挖掘技術在量化投資的領域乘風破浪，不斷創造佳績。

本書特色

綜觀全書，可發現本書的特點鮮明，主要錶現在：

（1）方法務實，學以緻用。本書介紹的方法都是數據挖掘中的主流方法，都經過實踐的檢驗，具有較強的實踐性。對於每種方法，本書基本都給齣瞭完整、詳細的源代碼，這對讀者來說，具有非常大的參考價值，很多程序可供讀者直接套用並加以學習，並可以直接轉化為自己的量化投資實戰工具。

（2）知識係統，易於理解。本書的知識體係應該是當前數據挖掘書籍中最全、最完善的，不僅包含詳細的數據挖掘流程、數據準備方法、數據探索方法，還包含六大類數據挖掘主體方法、時序數據挖掘方法、智能優化方法。正因為有完整的知識體係，讀者讀起來纔有很好的完整感，從而更利於理解數據挖掘的知識體係，這對於讀者

深度學習的基石：神經網絡與優化算法前沿探索本書聚焦於構建、訓練和優化現代人工智能係統的核心驅動力——深度神經網絡。它旨在為讀者提供一個全麵且深入的視角，剖析從基礎理論到尖端實踐的各個關鍵環節，尤其側重於那些決定模型性能與效率的數學原理和工程實現。本書並非一本關於特定應用領域（如金融、圖像識彆或自然語言處理）的實戰手冊，而是緻力於夯實讀者在算法理論、優化策略和網絡架構設計方麵的基礎功力。我們相信，隻有深刻理解瞭底層機製，纔能在麵對復雜問題時，構建齣魯棒且高效的解決方案。 --- 第一部分：神經網絡的數學基礎與信息流動力學（約400字）本部分將嚴謹地梳理支撐深度學習的數學框架，但視角將完全脫離數據挖掘的具體應用，專注於信息如何在網絡中傳遞、轉換和學習。 1.1 激活函數的非綫性動力學：我們將詳細探討各類激活函數（如Sigmoid、ReLU及其變體、Swish、GELU）在多維空間中的梯度行為。重點分析它們如何影響信息的飽和區域與稀疏性，以及在高層網絡中如何避免梯度消失或爆炸的內在機製。討論將深入到激活函數的二階導數性質及其對優化過程的局部影響。 1.2 損失函數的幾何拓撲：本章將從優化理論的角度審視各種損失函數（如交叉熵、均方誤差、對比損失）在參數空間中形成的“地形圖”。分析這些函數的等高綫分布、鞍點的位置及其對優化路徑的引導作用。我們關注的是損失麯麵的固有特性，而非它們在特定數據集上的具體數值錶現。 1.3 前嚮傳播的張量代數：詳細闡述矩陣乘法和高維張量運算在構建復雜網絡層時的本質作用。重點解析捲積操作（Conv）作為一種特殊的綫性變換，其在參數共享和局部連接機製上的數學優雅性，以及如何用張量分解技術來降低其計算復雜度的理論基礎。 --- 第二部分：優化算法的收斂性與穩定性分析（約550字）優化器是深度學習的“引擎”。本部分的核心在於深入理解各類優化算法的收斂速度、步長選擇的敏感性，以及它們在非凸優化景觀中的穩定性錶現。 2.1 隨機梯度下降（SGD）的理論邊界：重新審視SGD，不僅作為一種迭代方法，更作為一種隨機過程的近似。分析其方差對收斂速率的影響，並引入動量（Momentum）機製的引入如何通過引入“慣性”來平滑噪聲，加速穿越平坦區域，並提供關於最優動量參數選擇的理論推導。 2.2 自適應學習率方法的內在機製：深入剖析AdaGrad、RMSProp和Adam等算法的核心思想。我們關注的不是它們在特定任務上的錶現，而是它們如何通過計算梯度的曆史一階矩和二階矩來動態調整學習率。詳細探討Adam算法中對偏置校正（Bias Correction）的數學必要性，以及在極端情況下（如梯度稀疏性變化劇烈時）它們可能齣現的性能退化及其理論原因。 2.3 二階優化方法的近似與挑戰：介紹牛頓法和擬牛頓法（如BFGS）的思想如何被引入深度學習，例如使用高斯-牛頓近似或L-BFGS。重點分析計算和存儲完整的Hessian矩陣（二階導數矩陣）在現代深層網絡中為何不切實際，以及如何通過低秩近似（如K-FAC）來逼近最優的海森矩陣，從而提升局部收斂速度。 2.4 正則化與泛化 gap 的平衡：分析L1/L2正則化、Dropout和批歸一化（Batch Normalization）如何從優化和模型復雜度控製的角度影響最終模型的泛化能力。例如，Dropout作為一種隱式的模型集成方法，其隨機性如何與優化過程中的隨機梯度下降相互作用，以達到更平坦的局部最優解。 --- 第三部分：現代網絡結構的構造原理與模塊化設計（約550字）本部分探討構建復雜、深層網絡的關鍵設計範式，關注結構設計如何促進信息的高效流動和梯度迴傳的順暢性，而非特定應用中的特徵提取。 3.1 殘差連接的梯度流重建：詳細分析殘差塊（Residual Block）設計的核心貢獻——創建瞭一條“捷徑”來繞過非綫性變換層。從梯度反嚮傳播的角度，證明殘差結構如何保證梯度信號能夠無衰減地迴傳到網絡早期層，從而使得訓練極深網絡成為可能。 3.2 序列建模的注意力機製的數學抽象：聚焦於Transformer架構中的核心——自注意力（Self-Attention）機製。將其視為一種動態權重分配過程，其中查詢（Query）、鍵（Key）和值（Value）嚮量之間的點積衡量瞭序列中不同元素之間的“關聯強度”。分析縮放點積（Scaled Dot-Product）的數學必要性，即通過除以維度平方根來穩定Softmax的輸入，防止梯度過小。 3.3 歸一化層的內外部影響：對比批歸一化（BN）、層歸一化（LN）和實例歸一化（IN）的數學定義。分析它們在訓練和推理階段行為上的差異，以及它們如何通過規範化每一層輸入的均值和方差，有效地降低“內部協變量偏移”（Internal Covariate Shift）對優化過程的乾擾。 3.4 網絡架構搜索（NAS）的元優化理論：探討如何將架構設計本身視為一個可優化的搜索空間。介紹基於梯度下降的方法（如DARTS）如何通過連續鬆弛技術，將離散的結構選擇問題轉化為可微的優化問題，從而實現對網絡拓撲結構本身的“學習”。 --- 總結：本書旨在構建一個堅實的理論堡壘，使讀者能夠從底層數學原理齣發，理解和設計下一代高性能的神經網絡模型，無論未來應用場景如何演變，這些核心的算法與結構知識都是驅動創新的根本動力。

用戶評價

評分☆☆☆☆☆

這本書的排版和圖示方麵，給我的感覺是極其“古闆”且不注重用戶體驗。幾乎所有的圖錶都像是直接從MATLAB的默認輸齣界麵截取下來，缺乏必要的視覺優化和解釋性標注。例如，展示迴測結果的淨值麯綫，那些密密麻麻的橫縱坐標軸標簽，如果不是拿著尺子對照，根本無法分辨齣具體的數值點。更令人費解的是，某些章節的代碼塊占據瞭整整兩頁篇幅，但關鍵的邏輯轉換點卻沒有任何文字說明來承接，仿佛作者認為讀者能夠心領神會每一個“;”和“)”背後的深層含義。這種處理方式，極大地增加瞭閱讀的摩擦力。我不得不頻繁地在代碼和正文之間來迴跳轉，試圖拼湊齣一個完整的邏輯鏈條。如果目標是教授數據挖掘技術，那麼清晰的數據可視化應該是核心競爭力之一，但這本書在這方麵做得非常保守，甚至可以說是敷衍瞭事。這讓我不禁懷疑，作者是否真的花時間去思考過一個非專業讀者如何纔能高效地吸收這些復雜的信息。如果隻是為瞭堆砌代碼量，那麼直接發布一個代碼庫可能比寫成一本書更為直接有效。

評分☆☆☆☆☆

最後，關於“數據挖掘技術”這一核心賣點，本書的闡述也顯得有些概念化和零散。數據挖掘應該是一個係統性的流程，從數據獲取、預處理、特徵工程到模型選擇與評估，每一步都應當有清晰的脈絡。然而，這本書在這些環節的銜接上顯得非常生硬。比如，當談到特徵工程時，它可能突然插入瞭一段關於如何使用MATLAB進行傅裏葉變換的復雜數學推導，但隨後又跳到瞭如何計算收益率的簡單代碼實現，中間缺乏必要的邏輯過渡和理論支撐。這種東拉西扯的感覺，使得整本書的知識體係顯得支離破碎。它更像是一係列獨立技術點的集閤，而不是一個有機統一的量化投資數據挖掘解決方案。讀者需要自己花費大量的精力去構建這些技術點之間的橋梁，自行梳理齣一條可行的學習路徑。對於一本聲稱教授“技術與實踐”的書籍而言，這種內在結構的混亂，極大地削弱瞭它的指導作用和閱讀體驗，讓人感到有些力不從心。

評分☆☆☆☆☆

這本書的封麵設計著實吸引眼球，那種深藍與科技感的交織，讓人立刻聯想到數據與算法的交鋒。我最初是被“MATLAB”這幾個字吸引的，畢竟在金融分析領域，它是一個繞不開的工具。然而，當我翻開第一章，那種期望被瞬間擊碎瞭。它似乎預設瞭讀者已經對金融市場有著極其深入的理解，對於量化投資的基礎理論隻是輕描淡寫地帶過。書中大量篇幅都聚焦於某些特定的技術實現細節，比如如何優化某段MATLAB代碼以提高運算速度，或者是某個不常見的函數庫的用法。這對於我這種偏嚮於理解“為什麼”要這麼做，而不是“怎麼”精確執行每一步操作的初學者來說，簡直像是在攀登一座信息密度過高的陡峭山崖。我期待的是一個循序漸進的引導，教我如何從宏觀的市場數據中提煉齣有價值的信號，而不是直接拋給我一堆已經寫好的、需要復雜調試纔能運行的腳本。這本書更像是一本給資深工程師看的“工具使用手冊”，而非一本麵嚮投資者的“策略構建指南”。它錯失瞭搭建知識橋梁的關鍵一步，讓很多對量化投資充滿熱忱的新手望而卻步，實在讓人感到非常遺憾，因為那種沉重的技術堆砌感，完全掩蓋瞭背後可能存在的精妙投資思想。

評分☆☆☆☆☆

從內容深度來看，這本書似乎更像是對現有公開資源的“大集成”，而非一次原創性的探索。書中提到的很多量化模型和技術，比如傳統的ARMA模型、簡單的因子分析框架，都可以在互聯網上找到更詳盡、更具實戰案例的教程。這本書的“創新性”主要體現在如何用MATLAB語言去實現這些已經成熟的模型，而不是提齣新的視角或更優的解決方案。比如，在處理非綫性關係時，它隻是簡單地羅列瞭幾個常用的核函數，但對於如何選擇最佳核函數以適應特定市場環境的討論卻戛然而止。我期待的是作者能分享一些在實際操盤中遇到的“陷阱”和“訣竅”，那些在標準教科書中找不到的寶貴經驗。然而，通讀全書，我沒有找到任何能讓我眼前一亮的、顛覆我現有認知的觀點。它提供的更多是一種“技術路徑圖”，告訴你每一步該輸入什麼命令，而不是“戰略指導方針”，告訴你應該瞄準哪個方嚮。對於追求前沿和深度洞察的讀者來說，這本書的價值略顯平庸，更像是一份詳盡的、略顯過時的技術參考手冊。

評分☆☆☆☆☆

這本書在“實踐”二字上的體現也顯得有些單薄。雖然書名中帶有“實踐”二字，但其提供的案例往往是高度理想化和簡化的。例如，在進行迴測時，幾乎沒有提及交易成本、滑點、流動性約束等在真實市場中至關重要的因素。所有的測試結果都像是運行在一個完美無摩擦的真空環境中，得齣的夏普比率和最大迴撤都美好得不切實際。這種脫離實際的展示，反而會誤導那些試圖將書中學到的代碼直接應用於實盤操作的讀者。量化投資的精髓在於如何管理風險和應對市場噪音，而這本書似乎更熱衷於展示模型運算的優雅性，而非模型麵對真實世界數據時的魯棒性。如果一個實踐指南不能教會我如何應對真實世界的“髒數據”和市場“惡意行為”，那麼它的實踐價值就大打摺扣瞭。我希望看到的是那些因為數據清洗耗費瞭數周時間的故事，而不是那些在幾行代碼下就輕鬆得齣的理想化圖錶，這實在讓人感覺不夠“接地氣”。

評分☆☆☆☆☆

本書不僅對程序化交易初學者來說有很好的引導作用，對於程序化交易實踐人員、程序化交易平颱研發人員也是一本內容全麵的指導手冊。

評分☆☆☆☆☆

書很不錯，讀瞭很有收獲，好好學習，天天嚮上，贊贊贊！

評分☆☆☆☆☆

書很不錯，講得很係統全麵。內容都有一些驗證數據做支持。

評分☆☆☆☆☆

一直在用，還不錯，全傢都喜歡

評分☆☆☆☆☆

提高個人素養的書，很希望能夠有用處。

評分☆☆☆☆☆

很好，書的質量沒話說，快遞也很快