商品參數
內容介紹
《深度學習》由全球知名的三位專傢Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫,是深度學習領域奠基性的經典教材。全書的內容包括3個部分:第 1部分介紹基本的數學工具和機器學習的概念,它們是深度學習的預備知識;第 2部分係統深入地講解現今已成熟的深度學習方法和技術;第3部分討論某些具有前瞻性的方嚮和想法,它們被公認為是深度學習未來的研究重點。 《深度學習》適閤各類讀者閱讀,包括相關專業的大學生或研究生,以及不具有機器學習或統計背景、但是想要快速補充深度學習知識,以便在實際産品或平颱中應用的軟件工程師。
作者介紹
作者簡介 Ian Goodfellow,榖歌公司(Google) 的研究科學傢,2014 年濛特利爾大學機器學習博士。他的研究興趣涵蓋大多數深度學習主題,特彆是生成模型以及機器學習的安全和隱私。Ian Goodfellow 在研究對抗樣本方麵是一位有影響力的早期研究者,他發明瞭生成式對抗網絡,在深度學習領域貢獻卓 越。 Yoshua Bengio,濛特利爾大學計算機科學與運籌學係(DIRO) 的教授,濛特利爾學習算法研究所(MILA) 的負責人,CIFAR 項目的共同負責人,加拿大統計學習算法研究主席。Yoshua Bengio 的主要研究目標是瞭解産生智力的學習原則。他還教授“機器學習”研究生課程(IFT6266),並培養瞭一大批研究生和博士後。 Aaron Courville,濛特利爾大學計算機科學與運籌學係的助理教授,也是LISA 實驗室的成員。目前他的研究興趣集中在發展深度學習模型和方法,特彆是開發概率模型和新穎的推斷方法。Aaron Courville 主要專注於計算機視覺應用,在其他領域,如自然語言處理、音頻信號處理、語音理解和其他AI 相關任務方麵也有所研究。 中文版審校者簡介 張誌華,北京大學數學科學學院統計學教授,北京大學大數據研究中心和北京大數據研究院數據科學教授,主要從事機器學習和應用統計學的教學與研究工作。 譯者簡介 趙申劍,上海交通大學計算機係碩士研究生,研究方嚮為數值優化和自然語言處理。 黎彧君,上海交通大學計算機係博士研究生,研究方嚮為數值優化和強化學習。 符天凡,上海交通大學計算機係碩士研究生,研究方嚮為貝葉斯推斷。 李凱,上海交通大學計算機係博士研究生,研究方嚮為博弈論和強化學習。
關聯推薦
AI聖jing 深度學習領域奠基性的經典暢銷書 長期位居美國亞馬xunAI和機器學習類圖書榜首 特斯拉CEO埃隆·馬斯剋
目錄
第 1 章 引言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 本書麵嚮的讀者 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7
1.2 深度學習的曆史趨勢 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 神經網絡的眾多名稱和命運變遷 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 與日俱增的數據量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.3 與日俱增的模型規模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13
1.2.4 與日俱增的精度、復雜度和對現實世界的衝擊 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
第 1 部分 應用數學與機器學習基礎
第 2 章 綫性代數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1 標量、嚮量、矩陣和張量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 矩陣和嚮量相乘. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21
2.3 單位矩陣和逆矩陣 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 綫性相關和生成子空間 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5 範數. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24
2.6 特殊類型的矩陣和嚮量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7 特徵分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.8 奇異值分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.9 Moore-Penrose 僞逆 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.10 跡運算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.11 行列式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.12 實例:主成分分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30
第 3 章 概率與信息論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .34
3.1 為什麼要使用概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 隨機變量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 概率分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.1 離散型變量和概率質量函數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.2 連續型變量和概率密度函數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 邊緣概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5 條件概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 條件概率的鏈式法則 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.7 獨立性和條件獨立性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.8 期望、方差和協方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.9 常用概率分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.9.1 Bernoulli 分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.9.2 Multinoulli 分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.9.3 高斯分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.9.4 指數分布和 Laplace 分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.9.5 Dirac 分布和經驗分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.9.6 分布的混閤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.10 常用函數的有用性質. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43
3.11 貝葉斯規則 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.12 連續型變量的技術細節 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.13 信息論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.14 結構化概率模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
第 4 章 數值計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1 上溢和下溢 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 病態條件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3 基於梯度的優化方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.1 梯度之上:Jacobian 和 Hessian 矩陣 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4 約束優化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.5 實例:綫性**小二乘 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
第 5 章 機器學習基礎. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .63
5.1 學習算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1.1 任務 T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1.2 性能度量 P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.1.3 經驗 E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.1.4 示例:綫性迴歸 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2 容量、過擬閤和欠擬閤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.1 沒有免費午餐定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2.2 正則化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3 超參數和驗證集. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .76
5.3.1 交叉驗證 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 估計、偏差和方差. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .77
5.4.1 點估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.4.2 偏差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.3 方差和標準差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.4.4 權衡偏差和方差以**小化均方誤差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.4.5 一緻性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.5 **大似然估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.5.1 條件對數似然和均方誤差. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .84
5.5.2 **大似然的性質 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.6 貝葉斯統計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.6.1 **大後驗 (MAP) 估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.7 監督學習算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.7.1 概率監督學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.7.2 支持嚮量機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.7.3 其他簡單的監督學習算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .90
5.8 無監督學習算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .91
5.8.1 主成分分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.8.2 k-均值聚類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .94
5.9 隨機梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.10 構建機器學習算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.11 促使深度學習發展的挑戰 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.11.1 維數災難 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.11.2 局部不變性和平滑正則化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.11.3 流形學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
第 2 部分 深度網絡:現代實踐
第 6 章 深度前饋網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.1 實例:學習 XOR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.2 基於梯度的學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.2.1 代價函數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.2.2 輸齣單元 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.3 隱藏單元. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .119
6.3.1 整流綫性單元及其擴展 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.3.2 logistic sigmoid 與雙麯正切函數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.3.3 其他隱藏單元 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6.4 架構設計. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123
6.4.1 萬 能近似性質和深度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123
6.4.2 其他架構上的考慮 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .126
6.5 反嚮傳播和其他的微分算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .126
6.5.1 計算圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.5.2 微積分中的鏈式法則. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .128
6.5.3 遞歸地使用鏈式法則來實現反嚮傳播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.5.4 全連接 MLP 中的反嚮傳播計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.5.5 符號到符號的導數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .131
6.5.6 一般化的反嚮傳播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .133
6.5.7 實例:用於 MLP 訓練的反嚮傳播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .135
6.5.8 復雜化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
6.5.9 深度學習界以外的微分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
6.5.10 高階微分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
6.6 曆史小記. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .139
第 7 章 深度學習中的正則化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.1 參數範數懲罰 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
7.1.1 L2 參數正則化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
7.1.2 L1 正則化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.2 作為約束的範數懲罰. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .146
7.3 正則化和欠約束問題. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .147
7.4 數據集增強 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
7.5 噪聲魯棒性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
7.5.1 嚮輸齣目標注入噪聲. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .150
7.6 半監督學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
7.7 多任務學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
7.8 提前終止. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .151
7.9 參數綁定和參數共享. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .156
7.9.1 捲積神經網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
7.10 稀疏錶示. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .157
7.11 Bagging 和其他集成方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .158
7.12 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .159
7.13 對抗訓練. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .165
7.14 切麵距離、正切傳播和流形正切分類器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
第 8 章 深度模型中的優化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .169
8.1 學習和純優化有什麼不同 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
8.1.1 經驗風險**小化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
8.1.2 代理損失函數和提前終止 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
8.1.3 批量算法和小批量算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
8.2 神經網絡優化中的挑戰 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
8.2.1 病態 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
8.2.2 局部極小值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
8.2.3 高原、鞍點和其他平坦區域 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .175
8.2.4 懸崖和梯度爆炸 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
8.2.5 長期依賴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
8.2.6 非精 確梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
8.2.7 局部和全局結構間的弱對應 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
8.2.8 優化的理論限製 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
8.3 基本算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .180
8.3.1 隨機梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
8.3.2 動量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
8.3.3 Nesterov 動量. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .183
8.4 參數初始化策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
8.5 自適應學習率算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
8.5.1 AdaGrad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
8.5.2 RMSProp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
8.5.3 Adam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
8.5.4 選擇正確的優化算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .190
8.6 二階近似方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8.6.1 牛頓法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8.6.2 共軛梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
8.6.3 BFGS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
8.7 優化策略和元算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
8.7.1 批標準化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
8.7.2 坐標下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
8.7.3 Polyak 平均 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
8.7.4 監督預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
8.7.5 設計有助於優化的模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
8.7.6 延拓法和課程學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .199
第 9 章 捲積網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
9.1 捲積運算. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .201
9.2 動機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
9.3 池化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
9.4 捲積與池化作為一種無限強的先驗 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
9.5 基本捲積函數的變體. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .211
9.6 結構化輸齣 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
9.7 數據類型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .219
9.8 高效的捲積算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
9.9 隨機或無監督的特徵. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .220
9.10 捲積網絡的神經科學基礎 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
9.11 捲積網絡與深度學習的曆史 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
第 10 章 序列建模:循環和遞歸網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
10.1 展開計算圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
10.2 循環神經網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .230
10.2.1 導師驅動過程和輸齣循環網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
10.2.2 計算循環神經網絡的梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
10.2.3 作為有嚮圖模型的循環網絡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
10.2.4 基於上下文的 RNN 序列建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
10.3 雙嚮 RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
10.4 基於編碼 - 解碼的序列到序列架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
10.5 深度循環網絡 . .
《計算智能:理論與實踐》 一、 引言:開啓智能計算的新紀元 在信息爆炸的時代,我們正以前所未有的速度邁嚮一個更加智能化的未來。從日常的智能手機助手到復雜的科學研究,人工智能(AI)的觸角已深入我們生活的方方麵麵。而在這場智能革命的浪潮中,計算智能(Computational Intelligence,CI)作為人工智能領域一個至關重要且獨具特色的分支,正扮演著越來越重要的角色。它藉鑒生物係統的機理和智能行為,發展齣能夠解決復雜問題、具備學習、適應和推理能力的計算模型。 《計算智能:理論與實踐》一書,旨在為讀者提供一個全麵、深入且易於理解的計算智能知識體係。本書不僅僅是對現有技術的羅列,更是對計算智能核心思想、關鍵算法以及實際應用場景的深度挖掘與係統闡釋。我們希望通過本書,能夠激發讀者對計算智能的濃厚興趣,理解其背後的科學原理,並掌握將其應用於解決實際挑戰的強大工具。 本書的編寫團隊由一批在計算智能領域擁有豐富研究和實踐經驗的專傢學者組成,他們不僅在理論上有所建樹,更在工程實踐中積纍瞭寶貴的經驗。因此,本書在理論的嚴謹性與應用的實用性之間找到瞭完美的平衡點。我們力求以清晰的語言、生動的案例、直觀的圖示,將抽象的計算智能概念轉化為讀者易於掌握的知識。 二、 計算智能的核心組成部分:探索智能的多元路徑 計算智能並非單一的技術,而是一個涵蓋瞭多種強大智能計算範式及其交叉融閤的集成體。本書將重點介紹計算智能的幾個核心組成部分,並探討它們之間的協同作用。 1. 神經網絡與深度學習:模擬人腦的強大計算力量 神經網絡,特彆是深度學習,是計算智能中最具代錶性的技術之一。本書將從基礎的感知器模型講起,逐步深入到多層前饋網絡、捲積神經網絡(CNN)、循環神經網絡(RNN)及其變體(如LSTM、GRU)等。我們將詳細解析神經網絡的學習過程,包括反嚮傳播算法、梯度下降及其各種優化方法。 神經元模型與激活函數: 深入理解單個神經元的計算過程,以及不同激活函數(ReLU、Sigmoid、Tanh等)的特性及其對模型性能的影響。 網絡結構設計: 講解如何根據不同的任務需求設計網絡結構,例如CNN在圖像處理中的優勢,RNN在序列數據處理中的應用。 訓練與優化: 詳細介紹損失函數、優化器(SGD、Adam、RMSprop等)的選擇與調整,以及正則化技術(Dropout、L2正則化)以防止過擬閤。 深度學習框架的應用: 雖然本書側重理論,但也會引導讀者瞭解並初步接觸主流的深度學習框架(如PyTorch、TensorFlow)的實際使用,以便將理論轉化為實踐。 2. 進化計算:從自然選擇中汲取智能的靈感 進化計算是一類受生物進化過程啓發的搜索和優化技術。本書將重點介紹其中的代錶性算法。 遺傳算法(Genetic Algorithms, GAs): 詳細闡述遺傳算法的基本原理,包括選擇、交叉和變異等算子,以及它們如何在搜索空間中有效地探索最優解。我們將通過多個實際問題(如旅行商問題、函數優化)來演示GA的應用。 遺傳編程(Genetic Programming, GP): 介紹如何利用遺傳算法來自動生成計算機程序,從而解決更復雜的問題。 差分進化(Differential Evolution, DE): 講解DE作為一種簡單高效的全局優化算法,其獨特的變異和交叉策略如何在不同類型的優化問題中錶現齣色。 粒子群優化(Particle Swarm Optimization, PSO): 探討PSO算法,一種模擬鳥群捕食行為的群體智能算法,如何通過個體之間的信息共享來快速收斂到最優解。 3. 模糊係統:處理不確定性和模糊信息的智慧 現實世界充滿瞭模糊和不確定性,模糊係統正是為瞭有效處理這類信息而設計的。 模糊邏輯與模糊集: 介紹模糊集理論,包括隸屬度函數、模糊操作符(AND, OR, NOT)以及模糊數的概念。 模糊推理係統(Fuzzy Inference Systems, FIS): 詳細講解基於模糊規則的推理過程,包括模糊化、模糊推理和解模糊等步驟。 模糊控製: 演示如何利用模糊邏輯設計控製器,使其能夠對復雜的、難以精確建模的係統進行有效的控製。 應用案例: 探討模糊係統在傢電控製、自動駕駛、醫療診斷等領域的成功應用。 4. 混閤智能係統:整閤優勢,創造更強大的智能 單一的計算智能範式往往在某些方麵存在局限性。混閤智能係統通過有機地結閤多種計算智能技術,可以剋服單一技術的不足,實現更強大的智能能力。 神經網絡與模糊係統的融閤(Neuro-Fuzzy Systems): 探討如何將神經網絡的學習能力與模糊係統的推理能力相結閤,形成能夠處理復雜非綫性關係和模糊信息的自適應係統。 進化算法與神經網絡的融閤(Evolutionary Neural Networks): 講解如何利用進化算法來優化神經網絡的結構、權重或學習過程,從而提高模型的性能和泛化能力。 多智能體係統(Multi-Agent Systems): 介紹由多個相互作用的智能體組成的係統,它們可以協同工作,解決分布式問題,實現更高級彆的智能行為。 三、 計算智能的理論基礎與數學支撐 理解計算智能的強大之處,離不開對其背後數學理論的深入掌握。本書將為讀者構建堅實的理論基礎。 概率論與統計學: 概率模型在處理不確定性、構建分類器和進行預測方麵至關重要。我們將迴顧相關的概率分布、貝葉斯定理、最大似然估計等概念。 綫性代數: 嚮量、矩陣運算是理解神經網絡、降維技術(如PCA)等算法的基礎。 優化理論: 梯度下降、牛頓法等優化算法是訓練模型的核心,本書將深入講解這些算法的原理和變種。 信息論: 熵、互信息等概念在特徵選擇、模型評估等方麵發揮著重要作用。 四、 計算智能的實際應用:賦能各行各業的智能變革 計算智能的價值不僅體現在理論的精妙,更在於其廣泛而深遠的實際應用。本書將通過豐富多樣的案例,展示計算智能如何解決現實世界的各種挑戰。 模式識彆與計算機視覺: 從圖像分類、目標檢測到人臉識彆,深度學習在視覺領域取得瞭突破性進展。 自然語言處理(NLP): 機器翻譯、文本情感分析、智能問答等應用,使得機器能夠理解和生成人類語言。 智能控製與機器人技術: 模糊控製、強化學習在機器人導航、運動規劃、工業自動化等領域發揮著關鍵作用。 數據挖掘與預測分析: 利用機器學習算法從海量數據中發現規律,進行市場預測、風險評估、個性化推薦等。 醫療健康: 輔助診斷、藥物研發、基因分析等,計算智能正在改變醫療服務的麵貌。 金融工程: 欺詐檢測、量化交易、風險管理等,計算智能為金融行業帶來更高效的決策支持。 環境保護與可持續發展: 氣候預測、能源管理、資源優化等,計算智能為解決全球性環境問題提供新的思路。 五、 學習路綫圖與未來展望 《計算智能:理論與實踐》為讀者提供瞭一條清晰的學習路綫圖。從基礎概念到高級算法,從理論推導到實際應用,本書循序漸進,力求讓讀者在掌握現有知識的同時,也能對未來的發展方嚮有所洞察。 本書的最後部分將展望計算智能領域的未來發展趨勢,包括: 可解釋性AI(Explainable AI, XAI): 如何讓AI模型更透明、更易於理解。 AI倫理與安全: 隨著AI能力的增強,倫理和社會責任的重要性日益凸顯。 通用人工智能(Artificial General Intelligence, AGI): 對實現具有人類水平通用智能的探索。 AI與其他學科的交叉融閤: 如AI與生物學、AI與物理學等的結閤,將催生新的研究領域。 六、 結語 計算智能是引領未來科技進步的關鍵力量之一。掌握計算智能的理論與實踐,不僅能幫助我們理解當下最前沿的技術,更能賦能我們解決更復雜、更具挑戰性的問題,創造一個更加智能、高效、美好的未來。本書期待成為您探索計算智能世界的忠實夥伴。