 
			 
				西门子高级研究员田疆博士作序力荐!Google软件工程师吕佳楠力、英伟达高级工程师华远志、理光软件研究院研究员钟诚博士力荐!
作者拥有超过5年的机器学习研发经验,目前在京东专注于深度学习和计算机视觉算法的研发。
西门子高级研究员田疆博士作序力荐!Google软件工程师吕佳楠、英伟达高级工程师华远志、理光软件研究院研究员钟诚博士力荐!
注重原理和上手实战,让读者不仅能理解算法背后的思想,还能具备独立开发基于深度学习的计算机视觉算法的能力。
原理讲解通俗易懂,能通过图文定性讲解的就尽量不用公式,不可避免要用公式的地方尽量让公式作为图文讲解的辅助手段。
结合常见的应用场景,通过大量有趣、实用的实例和原创代码,带领读者一步步亲自动手,不断提高动手能力。
从第7章开始的所有实例都基于当前流行的深度学习框架Caffe和MXNet,其中包含了作者原创的大量代码和搜集的数据。
  
本书全面介绍了深度学习及计算机视觉中基础的知识,并结合常见的应用场景和大量实例,带领读者进入丰富多彩的计算机视觉领域。作为一本“原理+实践”教程,本书在讲解原理的基础上,通过有趣的实例带领读者一步步亲自动手,不断提高动手能力,而不是枯燥和深奥原理的堆砌。
全书共13章,分为2篇。第1篇基础知识,介绍了人工智能发展历程、计算机视觉概要、深度学习和计算机视觉中的基础数学知识、神经网络及其相关的机器学习基础、卷积神经网络及其一些常见结构,最后对前沿的趋势进行了简单探讨。第2篇实例精讲,介绍了Python基础、OpneCV基础、简单的分类神经网络、图像识别、利用Caffe做回归、迁移学习和模型微调、目标检测、度量学习和图像风格迁移等常见的计算机视觉应用场景。本书从第5章开始包含很多有趣和实用的代码示例。从第7章开始的所有实例都基于当前流行的深度学习框架Caffe和MXNet,其中包含作者原创的大量代码和搜集的数据,这些代码和作者训练好的部分模型已分享到本书github页面上供读者自行下载。
本书适合对人工智能、机器学习、深度学习和计算机视觉感兴趣的读者阅读。阅读本书要求读者具备一定的数学基础和基本的编程能力,并需要读者了解Linux的基本使用。
一分钟了解本书精华内容
引言
深度学习和计算机视觉中的基础数学知识
神经网络和机器学习基础
深度卷积神经网络
Python基础
OpenCV基础
Hello World!
简单的图片分类——手写数字识别
利用Caffe做回归
迁移学习和模型微调
目标检测
度量学习
图像风格迁移
  
叶韵
2007年7月毕业于北京大学信息科学技术学院,获学士学位。2011年4月获得了美国亚利桑那州立大学的电气工程博士学位。拥有超过5年的机器学习研发经验。目前在京东专注于深度学习和计算机视觉算法的研发。加入京东前,曾先后在ProPlus Design Solutions硅谷和北京研发中心任职研发经理,负责统计建模和机器学习算法的研发。后加入西门子中国研究院担任研究员,专注于计算影像和计算机视觉的研究。
这本书广泛而翔实地介绍了深度学习的方方面面,并且由浅入深地阐释了经典CNN算法。作者语言风趣、幽默,对于那些对深度学习充满兴趣,想跃跃欲试的入门读者而言,是一本极好的参考读物。
——华远志 NVIDIA(英伟达)公司高级工程师
Codelab是Google工程师文化的重要组成部分,有经验的程序员理论结合实践,将新技术和新工具用实例的方式加以介绍。无论是Noogler还是Senior Googler,面对Google庞杂的内部技术,正是Codelab使大家能够快速无师自通。叶博士的这本“实战”正是机器学习各领域的一个个高质量的Codelab,是作者多年来摸索积累的第一手经验的总结。对于善于学习推广的程序员,一定可以在学习Deep Learning的路上发现此书大有助益,事半功倍。
——吕佳楠 Google 公司软件工程师
本书对时下热门的深度学习技术从多个视角进行了细致剖析。从深度学习理论在AI领域的进化史,到深度学习理论的数学基础,再到利用工具快速构建深度学习模型,书中都有深入浅出的讲解。书中描述了深度学习技术在计算机视觉各个领域的新应用,内容全面而丰富,示例通俗易懂,是一本带领工程人员深入理解深度学习技术的实用宝典。
——钟诚 博士,理光软件研究院研究员
  
序言
前言
第1篇 基础知识
第1章 引言 2
1.1 人工智能的新焦点——深度学习 2
1.1.1 人工智能——神话传说到影视漫画 2
1.1.2 人工智能的诞生 3
1.1.3 神经科学的研究 4
1.1.4 人工神经网络的兴起 5
1.1.5 神经网络的第一次寒冬 6
1.1.6 神经网络的第一次复兴 8
1.1.7 神经网络的第二次寒冬 9
1.1.8 2006年——深度学习的起点 10
1.1.9 生活中的深度学习 11
1.1.10 常见深度学习框架简介 12
1.2 给计算机一双眼睛——计算机视觉 14
1.2.1 计算机视觉简史 14
1.2.2 2012年——计算机视觉的新起点 16
1.2.3 计算机视觉的应用 17
1.2.4 常见计算机视觉工具包 19
1.3 基于深度学习的计算机视觉 19
1.3.1 从ImageNet竞赛到AlphaGo战胜李世石——计算机视觉超越人类 19
1.3.2 GPU和并行技术——深度学习和计算视觉发展的加速器 21
1.3.3 基于卷积神经网络的计算机视觉应用 22
第2章 深度学习和计算机视觉中的基础数学知识 27
2.1 线性变换和非线性变换 27
2.2 概率论及相关基础知识 43
2.3 维度的诅咒 50
2.4 卷积 66
2.5 数学优化基础 71
第3章 神经网络和机器学习基础 87
3.1 感知机 87
3.2 神经网络基础 89
3.3 后向传播算法 95
3.4 随机梯度下降和批量梯度下降 104
3.5 数据、训练策略和规范化 108
3.6 监督学习、非监督学习、半监督学习和强化学习 117
第4章 深度卷积神经网络 120
4.1 卷积神经网络 120
4.2 LeNet——第一个卷积神经网络 132
4.3 新起点——AlexNet 133
4.4 更深的网络——GoogLeNet 136
4.5 更深的网络——ResNet 142
第2篇 实例精讲
第5章 Python基础 148
5.1 Python简介 148
5.2 Python基本语法 150
5.3 Python的科学计算包——NumPy 167
5.4 Python的可视化包——matplotlib 175
第6章 OpenCV基础 182
6.1 OpenCV简介 182
6.2 Python-OpenCV基础 184
6.3 用OpenCV实现数据增加小工具 193
6.4 用OpenCV实现物体标注小工具 203
第7章 Hello World! 212
7.1 用MXNet实现一个神经网络 212
7.2 用Caffe实现一个神经网络 219
第8章 最简单的图片分类——手写数字识别 227
8.1 准备数据——MNIST 227
8.2 基于Caffe的实现 228
8.3 基于MXNet的实现 242
第9章 利用Caffe做回归 249
9.1 回归的原理 249
9.2 预测随机噪声的频率 250
第10章 迁移学习和模型微调 264
10.1 吃货必备——通过Python采集美食图片 264
10.2 美食分类模型 271
第11章 目标检测 288
11.1 目标检测算法简介 288
11.2 基于PASCAL VOC数据集训练SSD模型 296
第12章 度量学习 304
12.1 距离和度量学习 304
12.2 用MNIST训练Siamese网络 307
第13章 图像风格迁移 317
13.1 风格迁移算法简介 317
13.2 MXNet中的图像风格迁移例子 320
序言
深度学习是机器学习的一个重要分支,它以简化的方式模拟人脑复杂的神经系统,从而达到对数据的高级抽象。近些年,深度学习在语音识别、计算机视觉、自然语言处理、生成网络和无监督学习等领域都有着广泛的应用,从很多方面改变着人们的日常生活。
互联网巨头谷歌、Facebook、亚马逊、微软、百度、阿里巴巴和腾讯等公司都建立了相应的深度学习部门和平台。随着近几年深度学习的快速发展,相继出现了大量的开源软件平台,如Caffe、MXNet、TensorFlow和Torch等。这些平台多数都有相应的Python和C++接口,功能非常强大。但是对于初学者来说,还是有一定的门槛。
本书架起了一座初学者和开源深度学习软件之间的桥梁,致力于帮助初学者进入机器学习特别是深度学习在计算机视觉中的应用等领域。本书涵盖了基础的数学、机器学习和图像识别等内容,同时对两个主流的开源深度学习库Caffe和MXNet都有大量的实战例子描述分类和回归等问题。
本书作者在深度学习领域有着深入的研究,善于把复杂的问题用浅显易懂的语言描述出来,使得本书内容引人入胜。本书结构合理,内容涵盖了计算机视觉领域的一些主要问题。对于一个学习计算机视觉的新手来说,本书的数学推导浅显易懂,从一些简单例子开始,然后推广到抽象的矩阵描述方式,大大减轻了学习负担。读者可以通过前7章的学习,对神经网络、基础的数学和编程技巧有一个全面的了解。在此基础上可以根据具体的问题参考本书中具体的章节,例如图像识别、回归和目标检测等。在这些章节中,读者可以按照书中的步骤搭建自己的应用。
田疆
西门子高级研究员
前言
为什么要写这本书
当本书编辑找到我时,我才意识到,这两年火爆程度堪比一线城市房价的深度学习,在国内竟没有几本专门的中文书籍。目前市场上为数不多的有关深度学习的中文书,有大而全的名家之作,但其中关于深度学习的内容只有很少的一部分;有针对框架的工具书,但其偏重框架本身,缺少基础知识和理论,就好像介绍了一把剑,却没教剑法;有科普型的书,主要作用是提振读者自信,其实读者并不能从中学到任何动手能力。最重要的是,作为深度学习被应用最多,也是最有趣的领域——计算机视觉,却没有专门的书,这是笔者编写这本书的初衷。
我并非计算机科班出身,在转向深度学习的过程中遇到了很多问题,总结了许多经验。从写书的角度来讲,这没准是个优势。希望我在业界实际项目中的经验,加上自学时总结的教训,可以有效地帮助尚未进入深度学习和计算机视觉领域的读者。
本书面向有志于进入深度学习和计算机视觉领域的学生和技术研发人员,通过介绍深度学习及计算机视觉中最基础的知识,并结合最常见的应用场景和大量实例,带领读者进入丰富多彩的计算机视觉领域。作为一本“原理+实践”教程,本书用最基本的公式推导加上大量的配图和实例代码,给读者生动的内容,而不是枯燥的原理堆砌。
本书特色
l 注重原理和上手实战。力求读者在阅读本书后,不仅能了解常见算法背后的思想,还能具备独立开发常见的基于深度学习的计算机视觉算法的能力。
l 原理讲解通俗易懂。本书能通过文字定性讲解的就不用计算和公式,能用图表述的就不用文字。公式虽然不可避免,但尽量做到公式是讲解和图示的辅助,而不是需要细致理解的部分。
l 大量原创代码和图示。本书结合作者在实际工作中的经验,将入门实战的例子和其他示例力求做到实用性和趣味性并存,并将代码分享到本书的github页面上供读者下载。
本书内容
本书共13章,分为2篇。
第1篇 基础知识
第1章从历史讲起,介绍了深度学习和计算机视觉的基础概念和常见应用。
第2章介绍了最基础的数学知识,包括线性代数、概率、高维空间、卷积和数学优化。
第3章以神经网络为重点,讲解了机器学习和数据的基础知识。
第4章在第3章的基础上,介绍了卷积神经网络的概念、原理和一些常见结构。
第2篇 实例精讲
第5章介绍Python基础,并通过小例子介绍了NumPy和matplotlib的基本使用。
第6章介绍了基于Python的OpenCV使用,并动手实现了数据增加小工具和物体框标注小工具。
第7章分别通过MXNet和Caffe实现了最简单的神经网络,以及结果的可视化。
第8章从头开始一步步基于MNIST数据集,分别实现了基于MXNet和Caffe的卷积神经网络模型用于手写数字识别,并介绍了如何测试和评估模型。
第9章实现了一个基于Caffe的用卷积神经网络做回归的例子,并介绍了如何制作HDF5格式数据,如何用GPU批量对数据进行运算,以及如何实现可视化训练的模型。
第10章首先实现了一个图片爬虫用于搜集图片数据,并以美食图片分类为例子一步步讲解如何基于Caffe实现迁移学习。然后在此基础上进一步讲解了如何对数据进行预处理,如何使用混淆矩阵、P-R和ROC曲线,最后介绍了如何实现可视化卷积神经网络对输入图片的响应。
第11章针对R-CNN系和YOLO/SSD系这两类算法,简要介绍了基于深度学习的目标检测算法的发展史,并给出了基于MXNet的SSD检测算法实例,以及分析了结果的可视化。
第12章介绍了度量学习的基本概念,并从图片开始,一步步实现了基于Caffe的Siamese网络,还实现了基于τ-SNE的结果可视化。
第13章讲解了最基本的图像风格迁移算法,并给出了基于MXNet的图像风格迁移例子,读者可以用自己喜欢的图片做出算法生成的艺术作品。
适合阅读本书的读者
本书适合以下读者阅读:
l 对人工智能、机器学习感兴趣的读者;
l 对深度学习和计算机视觉感兴趣的读者;
l 希望用深度学习完成设计的计算机或电子信息专业的学生;
l 讲授机器学习和深度学习实践课的老师;
l 希望进一步提升编程水平的开发者;
l 机器学习与机器视觉研发人员和算法工程师;
l 人工智能产品经理。
阅读本书的读者最好具备以下要求:
l 至少具备高中以上的数学基础,本科以上最佳;
l 具备基本的编程能力;
l 了解Linux的基本使用;
l 拥有一台NVIDIA显卡的计算机,最好是2GB以上的显存。
本书虽然定位为入门书,但并不能保证21天或者3个月包会。学习是一件没有捷径可走的事情,希望本书能帮助读者少走弯路,也希望每一位读者翻开书前,都是带着好奇和兴趣。
纠错
由于是第一次写书,且时间仓促,错误之处估计难以避免,敬请读者朋友们发现错误后到本书的github页面指出,我会尽快更新在勘误表里,不胜感激!
致谢
成书过程中,得到了很多人的帮助,在此向他们表示诚挚的谢意。
首先感谢负责本书的编辑,我既不是大V,博客文章也没几篇,是他们的信任让我能通过这次写作梳理知识,并获得稿费。
感谢我的朋友们:NVIDIA(英伟达)的高级工程师华远志,谷歌的软件工程师吕佳楠,清华大学的马晨同学,NVIDIA的高效GPU架构师欧阳晋博士,西门子的高级研究员田疆博士,理光软件研究院的研究员钟诚博士和亚马逊的科学家庄晓天博士。他们几位在成书过程中给予了我很多帮助和建议,特别是田疆博士、钟诚博士和欧阳晋博士,对本书内容给出了全面且独到的建议,并指出了部分错误。
感谢京东从事AI方向的同事们,他们各个都身怀绝技,工作中和他们的交流给了我很多技术上的帮助和灵感。
感谢插画师翟少昂为本书绘制插画,感谢星河互联高级投资经理杨森授权本书使用他于漠河的严冬中拍摄的照片。
感谢我的博士生导师Yu Cao教授和我第一家效力公司的CTO——Bruce McGaughy博士。在应试教育的影响下,我浑浑噩噩求学近20载,未曾找到学习的意义。和他们二位接触的过程中我才渐渐明白,原来学习最重要的是兴趣。也因此,后来我才有勇气放弃了钻研了近10年的老本行,转向自己更感兴趣的算法和机器学习。
最后也是我最想感谢的,是我的家人!写书期间我的家人承担了一切家务劳动,是他们全方位的支持和细致照顾,让我在身体健康的状态下完成了写作。特别是我的妻子,尽管她看不懂我在写什么,却认为写得很棒。是她每天的鼓励和支持才让我没有半途而废,能在此表达我对她的谢意,是我完成这本书的最大动力。
叶韵
于北京市西郊机场老干部活动中心
这本书带来的冲击力,让我觉得之前对深度学习的认知简直是“坐井观天”。我一直以为深度学习就是把数据扔进一个黑箱子,然后祈祷它能吐出结果。然而,《深度学习与计算机视觉:算法原理、框架应用与代码实现》彻底颠覆了我的这种看法。它让我明白,深度学习的强大之处在于其“学习”的能力,而这种学习是通过一个精巧的数学模型和不断优化的过程来实现的。书中对不同类型的神经网络,比如循环神经网络(RNN)及其变种LSTM、GRU,在处理序列数据时的优势,进行了非常细致的分析。这对于我理解自然语言处理、语音识别等领域至关重要。我还惊叹于书中对注意力机制的讲解,它揭示了神经网络是如何在海量信息中“聚焦”于关键部分,从而大幅提升了模型的效率和性能。这种“智能”的机制,让我看到了AI模仿人类认知过程的影子。书中的代码实现部分尤其强大,它不仅提供了基础的算法实现,还深入到如何进行模型调优、超参数选择,以及如何处理过拟合等实际工程问题。我跟着书中的例子,成功地搭建并优化了一个文本分类模型,效果比我之前摸索的要好很多。这本书的深度和广度都超出了我的预期,它不仅仅是一本关于算法的书,更是一本关于如何构建智能系统的指南,让我对AI的未来充满了更多的信心和期待。
评分这本书简直打开了我认识世界的新维度!我一直对人工智能充满好奇,但总是觉得那些理论晦涩难懂,像隔着一层迷雾。这本《深度学习与计算机视觉:算法原理、框架应用与代码实现》就像一位循循善诱的良师,用一种我能理解的方式,一步步地揭开了深度学习和计算机视觉的神秘面纱。它不仅仅是罗列公式和算法,而是深入浅出地讲解了背后的逻辑和思想。例如,在讲到卷积神经网络(CNN)时,作者并没有直接抛出复杂的数学模型,而是先用一个生动的比喻,将卷积操作比作“扫描”图像,找出关键的特征。接着,再结合具体的图像识别案例,比如猫狗分类,详细拆解了CNN如何通过层层抽象,最终识别出图像中的物体。让我印象深刻的是,书中对反向传播算法的讲解,它不是简单地给出一个梯度下降的公式,而是通过一个可视化的流程图,让我清晰地看到了误差是如何一步步反馈到网络中,从而指导权重更新的。这种“知其然,更知其所以然”的讲解方式,让我对深度学习的理解不再是浮光掠影,而是真正地深入到了内核。更棒的是,书中还详细介绍了TensorFlow和PyTorch这两个主流的深度学习框架,并提供了丰富的代码示例,让我可以亲手实践,将学到的理论知识转化为实际的应用。我尝试着跟着书中的代码,训练了一个简单的图像识别模型,当看到模型准确地识别出我上传的图片时,那种成就感是无与伦比的。这本书不仅仅是一本技术书籍,更是一次思维的启迪,让我对未来充满了无限的想象。
评分读完这本书,我感觉自己像从一个只看得到二维平面图像的人,突然获得了感知三维世界的能力。我一直以为计算机视觉就是给机器装上“眼睛”,让它看看东西。但这本书让我意识到,计算机视觉的深度远超我的想象。它不仅仅是“看”,更是“理解”和“推理”。书中对图像处理的经典算法,比如SIFT、SURF,以及它们在特征提取中的关键作用,进行了详尽的阐述。我以前对这些算法只是一知半解,这本书通过图文并茂的方式,清晰地展示了它们是如何从图像中捕捉到独一无二的“指纹”,即使在光照、角度发生变化时也能保持稳定。更让我惊叹的是,书中关于目标检测和图像分割的部分,简直是打开了新世界的大门。Mask R-CNN、YOLO等先进模型的原理被一层层剥开,我看到了它们是如何在复杂的场景中,精准地定位出每一个物体,甚至区分出物体的边界。这对于自动驾驶、安防监控等领域的重要性不言而喻。让我特别受益的是,书中还深入探讨了生成对抗网络(GANs),以及它们在图像生成、风格迁移等方面的强大能力。我尝试运行了书中的GANs代码,生成了一些逼真的虚拟图像,这让我对AI的创造力有了全新的认识。这本书的作者显然是一位经验丰富的实践者,他不仅掌握了理论知识,更懂得如何将这些知识转化为易于理解和操作的代码。对于想要深入了解计算机视觉底层逻辑,并希望将理论付诸实践的读者来说,这本书无疑是一本不可多得的宝藏。
评分刚拿到这本书时,我以为它会是一本堆砌公式和晦涩理论的“劝退”指南,但事实完全出乎我的意料。作者以一种极其耐心和系统的方式,将深度学习和计算机视觉这两个看似高深莫测的领域,变得触手可及。我最喜欢的部分是,书中不仅仅是讲解了“是什么”,更侧重于“为什么”。例如,在介绍各种损失函数时,它会详细说明每种损失函数适用的场景,以及它们在优化过程中起到的不同作用。这让我不再是死记硬背,而是真正理解了它们的设计理念。书中对迁移学习的讲解也让我茅塞顿开,我之前总觉得从零开始训练模型太耗费时间和资源,而迁移学习的概念就像是“站在巨人的肩膀上”,让我能够快速地将现有的模型应用到新的任务中。这种高效的学习范式,极大地降低了AI应用的门槛。我还对书中关于模型评估的章节印象深刻,它详细介绍了准确率、召回率、F1分数等多种评估指标,并解释了它们各自的局限性。这让我明白,单一的指标并不能全面反映模型的性能,需要结合具体业务场景进行综合判断。书中的代码示例,从数据预处理到模型部署,都覆盖了完整的流程,让我可以一步步地跟着实践,获得真实的动手经验。这本书的价值在于,它不仅传授了知识,更培养了解决问题的能力,让我觉得自己已经准备好去探索更广阔的AI领域了。
评分这本书就像一把钥匙,为我开启了通往深度学习和计算机视觉宝藏的大门。在此之前,我对这个领域只有模糊的认知,总觉得它遥不可及。但这本书用一种极其清晰和有条理的方式,系统地梳理了整个领域的知识体系。我特别喜欢书中对各种经典算法的溯源和演进的介绍,例如从感知机到多层感知机,再到深度神经网络,清晰地展示了技术发展的脉络。这让我能够更好地理解不同算法的优缺点,以及它们是如何在不断迭代中变得更加强大的。书中对计算机视觉中的几何视觉部分,比如相机标定、多视图几何等,也进行了深入的讲解,这对于我理解三维重建、SLAM等应用场景非常有帮助。我以前一直觉得这些内容是属于更专业的领域,但这本书用通俗易懂的语言,让我能够理解其基本原理。最令人欣喜的是,书中提供的代码示例,不仅仅是简单的“Hello World”,而是包含了实际项目中的关键技术点,例如如何构建自己的数据集,如何进行模型部署,以及如何优化推理速度等。我跟着书中的例子,成功地实现了一个基于深度学习的图像风格转换小程序,运行效果让我非常满意。这本书的全面性和实用性,让我觉得它不仅仅是一本教材,更是一份宝贵的参考资料,能够帮助我在AI领域不断学习和成长。
评分书很好。喜欢。下次再来。物流很好。
评分京东购物使我们的生活更便捷了!京东商品丰富,无所不有,自营商品更是价格优惠,童叟无欺。快递给力,包装实在。体验足不出户购物的感觉,就在京东!购物就上京东,有京东,足够!
评分还没开始看,不过看目录讲的挺基础的
评分看了一下,很不错的一本参考书
评分不错,挺好的
评分一直相信京东,但是东西也没有很惊喜丫,就图个方便,大热天的不想跑出去了,价格比外面商场要贵一些,快递非常迅速,当天买当天就好了,好东西不等待。
评分大数据时代的好书好书好书
评分废话有点多 期望干货再多点
评分买了好多书,便宜啊
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有