| 书名: | Python自然语言处理实战:核心技术与算法|8004503 |
| 图书定价: | 69元 |
| 图书作者: | 涂铭;刘祥;刘树春 |
| 出版社: | 机械工业出版社 |
| 出版日期: | 2018/5/1 0:00:00 |
| ISBN号: | 9787111597674 |
| 开本: | 16开 |
| 页数: | 0 |
| 版次: | 1-1 |
| 作者简介 |
| 涂铭:阿里巴巴数据架构师,对大数据、自然语言处理、Python、Java相关技术有深入的研究,积累了丰富的实践经验。曾就职于北京明略数据,是大数据方面的高级咨询顾问。在工业领域参与了设备故障诊断项目,在零售行业参与了精准营销项目。在自然语言处理方面,担任导购机器人项目的架构师,主导开发机器人的语义理解、短文本相似度匹配、上下文理解,以及通过自然语言检索产品库,在项目中构建了NoSQL+文本检索等大数据架构,也同时负责问答对的整理和商品属性的提取,带领NLP团队构建语义解析层。刘祥:百炼智能自然语言处理专家,主要研究知识图谱、NLG等前沿技术,参与机器自动写作产品的研发与设计。曾在明略数据担当数据技术合伙人兼数据科学家,负责工业、金融等业务领域的数据挖掘工作,在这些领域构建了诸如故障诊断、关联账户分析、新闻推荐、商品推荐等模型。酷爱新技术,活跃于开源社区,是Spark MLlib和Zeppelin的Contributor。刘树春:七牛云高级算法专家,七牛AI实验室NLP&OCR;方向负责人,主要负责七牛NLP以及OCR相关项目的研究与落地。在七牛人工智能实验室期间,参与大量NLP相关项目,例如知识图谱、问答系统、文本摘要、语音相关系统等;同时重点关注NLP与CV的交叉研究领域,主要有视觉问答(VQA),图像标注(Image Caption)等前沿问题。曾在Intel DCSG数据与云计算部门从事机器学习与云平台的融合开发,项目获得IDF大奖。硕士就读于华东师范大学机器学习实验室,在校期间主攻机器学习,机器视觉,图像处理,并在相关国际会议发表多篇SCI/EI论文。 |
| 内容简介 |
| 自然语言处理是一门融语言学、计算机科学、数学于一体的学科,比较复杂,学习门槛高,但本书巧妙地避开了晦涩难懂的数学公式和证明,即便没有数学基础,也能零基础入门。本书专注于中文的自然语言处理,以Python及其相关框架为工具,以实战为导向,详细讲解了自然语言处理的各种核心技术、方法论和经典算法。三位作者在人工智能、大数据和算法领域有丰富的积累和经验,是阿里巴巴、前明略数据和七牛云的资深专家。同时,本书也得到了阿里巴巴达摩院高级算法专家、七牛云AI实验室Leader等专家的高度评价和鼎力推荐。全书一共11章,在逻辑上分为2个部分:第一部分(第1、2、11章)主要介绍了自然语言处理所需要了解的基础知识、前置技术、Python科学包、正则表达式以及Solr检索等。第二部分(第5-10章)第3~5章讲解了词法分析相关的技术,包括中文分词技术、词性标注与命名实体识别、关键词提取算法等。第6章讲解了句法分析技术,该部分目前理论研究较多,工程实践中使用门槛相对较高,且效果多是依赖结合业务知识进行规则扩展,因此本书未做深入探讨。第7章讲解了常用的向量化方法,这些方法常用于各种NLP任务的输入。第8章讲解了情感分析相关的概念、场景以及一般做情感分析的流程,情感分析在很多行业都有应用。第9章介绍了机器学习的重要概念,同时重点突出NLP常用的分类算法、聚类算法,还介绍了几个案例。第10章节介绍了NLP中常用的一些深度学习算法,这些方法比较复杂,但是非常实用,需要读者耐心学习。 |
| 目录 |
序一 序二 前言 第1章 NLP基础 1 1.1 什么是NLP 1 1.1.1 NLP的概念 1 1.1.2 NLP的研究任务 3 1.2 NLP的发展历程 5 1.3 NLP相关知识的构成 7 1.3.1 基本术语 7 1.3.2 知识结构 9 1.4 语料库 10 1.5 探讨NLP的几个层面 11 1.6 NLP与人工智能 13 1.7 本章小结 15 第2章 NLP前置技术解析 16 2.1 搭建Python开发环境 16 2.1.1 Python的科学计算发行版——Anaconda 17 2.1.2 Anaconda的下载与安装 19 2.2 正则表达式在NLP的基本应用 21 2.2.1 匹配字符串 22 2.2.2 使用转义符 26 2.2.3 抽取文本中的数字 26 2.3 Numpy使用详解 27 2.3.1 创建数组 28 2.3.2 获取Numpy中数组的维度 30 2.3.3 获取本地数据 31 2.3.4 正确读取数据 32 2.3.5 Numpy数组索引 32 2.3.6 切片 33 2.3.7 数组比较 33 2.3.8 替代值 34 2.3.9 数据类型转换 36 2.3.10 Numpy的统计计算方法 36 2.4 本章小结 37 第3章 中文分词技术 38 3.1 中文分词简介 38 3.2 规则分词 39 3.2.1 正向最大匹配法 39 3.2.2 逆向最大匹配法 40 3.2.3 双向最大匹配法 41 3.3 统计分词 42 3.3.1 语言模型 43 3.3.2 HMM模型 44 3.3.3 其他统计分词算法 52 3.4 混合分词 52 3.5 中文分词工具——Jieba 53 3.5.1 Jieba的三种分词模式 54 3.5.2 实战之高频词提取 55 3.6 本章小结 58 第4章 词性标注与命名实体识别 59 4.1 词性标注 59 4.1.1 词性标注简介 59 4.1.2 词性标注规范 60 4.1.3 Jieba分词中的词性标注 61 4.2 命名实体识别 63 4.2.1 命名实体识别简介 63 4.2.2 基于条件随机场的命名实体识别 65 4.2.3 实战一:日期识别 69 4.2.4 实战二:地名识别 75 4.3 总结 84 第5章 关键词提取算法 85 5.1 关键词提取技术概述 85 5.2 关键词提取算法TF/IDF算法 86 5.3 TextRank算法 88 5.4 LSA/LSI/LDA算法 91 5.4.1 LSA/LSI算法 93 5.4.2 LDA算法 94 5.5 实战提取文本关键词 95 5.6 本章小结 105 第6章 句法分析 106 6.1 句法分析概述 106 6.2 句法分析的数据集与评测方法 107 6.2.1 句法分析的数据集 108 6.2.2 句法分析的评测方法 109 6.3 句法分析的常用方法 109 6.3.1 基于PCFG的句法分析 110 6.3.2 基于最大间隔马尔可夫网络的句法分析 112 6.3.3 基于CRF的句法分析 113 6.3.4 基于移进–归约的句法分析模型 113 6.4 使用Stanford Parser的PCFG算法进行句法分析 115 6.4.1 Stanford Parser 115 6.4.2 基于PCFG的中文句法分析实战 116 6.5 本章小结 119 第7章 文本向量化 120 7.1 文本向量化概述 120 7.2 向量化算法word2vec 121 7.2.1 神经网络语言模型 122 7.2.2 C&W;模型 124 7.2.3 CBOW模型和Skip-gram模型 125 7.3 向量化算法doc2vec/str2vec 127 7.4 案例:将网页文本向量化 129 7.4.1 词向量的训练 129 7.4.2 段落向量的训练 133 7.4.3 利用word2vec和doc2vec计算网页相似度 134 7.5 本章小结 139 第8章 情感分析技术 140 8.1 情感分析的应用 141 8.2 情感分析的基本方法 142 8.2.1 词法分析 143 8.2.2 机器学习方法 144 8.2.3 混合分析 144 8.3 实战电影评论情感分析 145 8.3.1 卷积神经网络 146 8.3.2 循环神经网络 147 8.3.3 长短时记忆网络 148 8.3.4 载入数据 150 8.3.5 辅助函数 154 8.3.6 模型设置 155 8.3.7 调参配置 158 8.3.8 训练过程 159 8.4 本章小结 159 第9章 NLP中用到的机器学习算法 160 9.1 简介 160 9.1.1 机器学习训练的要素 161 9.1.2 机器学习的组成部分 162 9.2 几种常用的机器学习方法 166 9.2.1 文本分类 166 9.2.2 特征提取 168 9.2.3 标注 169 9.2.4 搜索与排序 170 9.2.5 推荐系统 170 9.2.6 序列学习 172 9.3 分类器方法 173 9.3.1 朴素贝叶斯Naive Bayesian 173 9.3.2 逻辑回归 174 9.3.3 支持向量机 175 9.4 无监督学习的文本聚类 177 9.5 文本分类实战:中文垃圾邮件分类 180 9.5.1 实现代码 180 9.5.2 评价指标 187 9.6 文本聚类实战:用K-means对豆瓣读书数据聚类 190 9.7 本章小结 194 第10章 基于深度学习的NLP算法 195 10.1 深度学习概述 195 10.1.1 神经元模型 196 10.1.2 激活函数 197 10.1.3 感知机与多层网络 198 10.2 神经网络模型 201 10.3 多输出层模型 203 10.4 反向传播算法 204 10.5 最优化算法 208 10.5.1 梯度下降 208 10.5.2 随机梯度下降 209 10.5.3 批量梯度下降 210 10.6 丢弃法 211 10.7 激活函数 211 10.7.1 tanh函数 212 10.7.2 ReLU函数 212 10.8 实现BP算法 213 10.9 词嵌入算法 216 10.9.1 词向量 217 10.9.2 word2vec简介 217 10.9.3 词向量模型 220 10.9.4 CBOW和Skip-gram模型 222 10.10 训练词向量实践 224 10.11 朴素Vanilla-RNN 227 10.12 LSTM网络 230 10.12.1 LSTM基本结构 230 10.12.2 其他LSTM变种形式 234 10.13 Attention机制 236 10.13.1 文本翻译 237 10.13.2 图说模型 237 10.13.3 语音识别 239 10.13.4 文本摘要 239 10.14 Seq2Seq模型 240 10.15 图说模型 242 10.16 深度学习平台 244 10.16.1 Tensorflow 245 10.16.2 Mxnet 246 10.16.3 PyTorch 246 10.16.4 Caffe 247 10.16.5 Theano 247 10.17 实战Seq2Seq问答机器人 248 10.18 本章小结 254 第11章 Solr搜索引擎 256 11.1 全文检索的原理 257 11.2 Solr简介与部署 258 11.3 Solr后台管理描述 263 11.4 配置schema 267 11.5 Solr管理索引库 270 11.5.1 创建索引 270 11.5.2 查询索引 276 11.5.3 删除文档 279 11.6 本章小结 281 |
从这本书的标题和内容简介来看,它似乎是一本非常全面的NLP入门到进阶的教程。我喜欢这种“实战”导向的书籍,因为它们能够帮助我将理论知识转化为实际的应用能力。我特别看重的是书中是否能够提供一些经典的NLP案例,并且详细讲解如何运用书中的技术来解决这些案例。如果书中能够包含一些实际项目,比如构建一个简单的聊天机器人,或者实现一个文本情感分析系统,那对我来说将是巨大的收获。我希望这本书能够带领我从零开始,逐步掌握NLP的核心技术,并且能够让我对NLP这个领域有更深入的理解。我相信,通过这本书的学习,我能够更好地理解自然语言的本质,并且能够利用NLP技术来解决各种各样的问题。
评分拿到这本书,我最直观的感受就是它充满了“干货”。我个人偏爱那种直击痛点的讲解方式,而不是拐弯抹角地绕圈子。翻了几页,发现作者的语言风格非常直接,对于一些核心概念的解释,力求做到精准且易于理解。我尤其喜欢书中对一些经典算法的剖析,并没有停留在表面,而是深入到其背后的数学原理和逻辑推导,这对于我这种喜欢刨根问底的人来说,简直是太棒了。而且,书中穿插的那些代码片段,看着就非常实用,感觉作者是真的在教我们如何解决实际问题,而不是堆砌理论。我之前尝试过一些其他的NLP书籍,但总感觉读起来像是在背公式,很难将知识转化为实际的应用。这本书给我的感觉完全不同,它更像是一位经验丰富的导师,手把手地带着你一步步构建模型,解决各种各样的问题。我非常期待能通过这本书,真正掌握NLP的核心技术,并且能够将其运用到我自己的项目中,解决一些实际的挑战。
评分我对这本书的整体印象是,它非常注重理论与实践的结合,并且呈现出一种循序渐进的学习路径。一开始,它可能会从一些基础概念讲起,比如分词、词性标注等,这对于新手来说非常友好。然后,它会逐渐深入到更复杂的模型,比如一些深度学习的架构,并且解释如何用Python来实现这些模型。我特别看重的是书中是否能够提供清晰的图示和流程图,来帮助我理解复杂的算法和模型。如果书中能够有这样的辅助说明,那无疑会大大提升我的学习效率。我希望这本书能够不仅仅是介绍算法,更重要的是教会我如何根据不同的应用场景,选择合适的算法,并进行相应的调优。毕竟,NLP的应用场景非常广泛,从搜索引擎到智能客服,再到文本摘要和机器翻译,每一种场景都有其独特的挑战。如果这本书能给我这样的指导,那它就真的具有极高的价值了。
评分这本书的封面设计让我眼前一亮,那种深邃的蓝色搭配上简洁明了的字体,瞬间就吸引了我。我一直对自然语言处理这个领域充满好奇,但又苦于无从下手。市面上相关的书籍琳琅满目,让我难以抉择,总觉得要么过于理论化,要么过于浅显,难以找到一本既能打下坚实基础,又能指导实践的。这款书的名字,特别是“实战”两个字,以及“核心技术与算法”的副标题,给我一种踏实感,仿佛它真的能带领我一步步走进NLP的世界。收到书的那一刻,厚实的纸张和清晰的排版,让我对内容充满了期待。我迫不及待地翻阅了目录,看到里面涵盖了从基础的文本预处理到复杂的模型构建,感觉非常全面,这正是我所需要的。我尤其看重的是书中是否能提供清晰的代码示例和实际案例,因为对我而言,光有理论是远远不够的,必须通过动手实践才能真正掌握。希望这本书能够成为我学习NLP旅途中的得力助手,带我领略自然语言处理的魅力。
评分这本书给我的感觉是,它非常适合那些想要系统学习NLP,但又对编程有一定的基础的读者。我看到书中的很多例子都涉及到Python代码,这正是我所需要的。我一直认为,学习NLP,尤其是掌握其中的核心技术和算法,动手实践是必不可少的环节。这本书在这一点上做得非常到位,它不仅仅是介绍理论,更重要的是如何将这些理论转化为可执行的代码。我非常欣赏作者能够将一些比较抽象的概念,通过具体的例子和代码来实现,这极大地降低了学习的门槛。我希望这本书能够让我不仅理解NLP的原理,更能掌握如何利用Python来解决实际的NLP问题。我尤其期待书中能够讲解一些常用的NLP库,以及如何利用它们来完成各种任务,比如文本分类、情感分析等等。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有