基本信息
原书名:Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from Your Data
作者: (印)迪潘简·撒卡尔(Dipanjan Sarkar)
译者: 闫龙川 高德荃 李君婷
丛书名: 数据科学与工程技术丛书
出版社:机械工业出版社
ISBN:9787111593249
上架时间:2018-4-23
出版日期:2018 年4月
开本:16开
版次:1-1
所属分类:计算机
目录
译者序
前言
第1章自然语言基础
1��1自然语言
1��1��1什么是自然语言
1��1��2语言哲学
1��1��3语言习得和用法
1��2语言学
1��3语言句法和结构
1��3��1词
1��3��2短语
1��3��3从句
1��3��4语法
1��3��5语序类型学
1��4语言语义
1��4��1词汇语义关系
1��4��2语义网络和模型
1��4��3语义表示
1��5文本语料库
1��5��1文本语料库标注及使用
1��5��2热门的语料库
1��5��3访问文本语料库
1��6自然语言处理
1��6��1机器翻译
1��6��2语音识别系统
1��6��3问答系统
1��6��4语境识别与消解
1��6��5文本摘要
1��6��6文本分类
1��7文本分析
1��8小结
第2章Python语言回顾
2��1了解Python
2��1��1Python之禅
2��1��2应用:何时使用Python
2��1��3缺点:何时不用Python
2��1��4Python实现和版本
2��2安装和设置
2��2��1用哪个Python版本
2��2��2用哪个操作系统
2��2��3集成开发环境
2��2��4环境设置
2��2��5虚拟环境
2��3Python句法和结构
2��4数据结构和类型
2��4��1数值类型
2��4��2字符串
2��4��3列表
2��4��4集合
2��4��5字典
2��4��6元组
2��4��7文件
2��4��8杂项
2��5控制代码流
2��5��1条件结构
2��5��2循环结构
2��5��3处理异常
2��6函数编程
2��6��1函数
2��6��2递归函数
2��6��3匿名函数
2��6��4迭代器
2��6��5分析器
2��6��6生成器
2��6��7itertools和functools模块
2��7类
2��8使用文本
2��8��1字符串文字
2��8��2字符串操作和方法
2��9文本分析框架
2��10小结
第3章处理和理解文本
3��1文本切分
3��1��1句子切分
3��1��2词语切分
3��2文本规范化
3��2��1文本清洗
3��2��2文本切分
3��2��3删除特殊字符
3��2��4扩展缩写词
3��2��5大小写转换
3��2��6删除停用词
3��2��7词语校正
3��2��8词干提取
3��2��9词形还原
3��3理解文本句法和结构
3��3��1安装必要的依赖项
3��3��2机器学习重要概念
3��3��3词性标注
3��3��4浅层分析
3��3��5基于依存关系的分析
3��3��6基于成分结构的分析
3��4小结
第4章文本分类
4��1什么是文本分类
4��2自动文本分类
4��3文本分类的蓝图
4��4文本规范化处理
4��5特征提取
4��5��1词袋模型
4��5��2TF�睮DF模型
4��5��3高级词向量模型
4��6分类算法
4��6��1多项式朴素贝叶斯
4��6��2支持向量机
4��7评估分类模型
4��8建立一个多类分类系统
4��9应用
4��10小结
第5章文本摘要
5��1文本摘要和信息提取
5��2重要概念
5��2��1文档
5��2��2文本规范化
5��2��3特征提取
5��2��4特征矩阵
5��2��5奇异值分解
5��3文本规范化
5��4特征提取
5��5关键短语提取
5��5��1搭配
5��5��2基于权重标签的短语提取
5��6主题建模
5��6��1隐含语义索引
5��6��2隐含Dirichlet分布
5��6��3非负矩阵分解
5��6��4从产品评论中提取主题
5��7自动文档摘要
5��7��1隐含语义分析
5��7��2TextRank算法
5��7��3生成产品说明摘要
5��8小结
第6章文本相似度和聚类
6��1重要概念
6��1��1信息检索
6��1��2特征工程
6��1��3相似度测量
6��1��4无监督的机器学习算法
6��2文本规范化
6��3特征提取
6��4文本相似度
6��5词项相似度分析
6��5��1汉明距离
6��5��2曼哈顿距离
6��5��3欧几里得距离
6��5��4莱文斯坦编辑距离
6��5��5余弦距离和相似度
6��6文档相似度分析
6��6��1余弦相似度
6��6��2海灵格-巴塔恰亚距离
6��6��3Okapi BM25排名
6��7文档聚类
6��8佳影片聚类分析
6��8��1k�瞞eans聚类
6��8��2近邻传播聚类
6��8��3沃德凝聚层次聚类
6��9小结
第7章语义与情感分析
7��1语义分析
7��2探索WordNet
7��2��1理解同义词集
7��2��2分析词汇的语义关系
7��3词义消歧
7��4命名实体识别
7��5分析语义表征
7��5��1命题逻辑
7��5��2一阶逻辑
7��6情感分析
7��7IMDb电影评论的情感分析
7��7��1安装依赖程序包
7��7��2准备数据集
7��7��3有监督的机器学习技术
7��7��4无监督的词典技术
7��7��5模型性能比较
7��8小结
↑折 叠
译者序
自然语言处理和文本分析是当今人工智能研究和应用的重要方向,因其在人机交互方面的广泛应用和前景,吸引了学术界和产业界投入巨大的力量。目前,已经有一些产品陆续面世,在机器翻译、问答系统、语音助理、情感分析等方面取得了非常不错的进展,也给人们的生活带来了便利。
本书作者Sarkar是Intel公司的数据科学家,研究领域涉及数据科学与软件工程,有着丰富的文本分析研究和工程方面的经验,出版过多本R语言和机器学习方面的书籍。作者在GitHub上(sgithub./dipanjanS/text�瞐nalytics�瞱ith�瞤ython)开源了本书相关的程序代码和数据集,感兴趣的读者可以下载研究。
本书首先介绍了与文本分析相关的自然语言基本概念以及Python语言的特点、特性和常用功能。然后,结合示例代码详细阐述了文本理解与处理、文本分类、文本摘要、文本相似性与聚类、语义与情感分析等内容,具有很强的实用性,内容覆盖了文本分析的重要方面,为相关应用的开发和研究提供了很好的参考借鉴。
本书是关于自然语言处理的实践教程,通过学习本书,读者可以全面地掌握文本分析的基础技术和机器学习的一些经典方法,包括SVM、贝叶斯分类器、k�瞞eans聚类、层次聚类等,为进一步的学习和研究奠定基础。感兴趣的读者可以继续研究和探索深度学习技术在文本分析中的应用,这是人工智能应用中发展非常迅速的领域,相信阅读本书打下的基础会对你大有帮助。
后,感谢本书的作者和机械工业出版社华章公司的编辑,是他们的鼓励和支持使得本书能与读者见面。感谢我们家人的理解。尽管我们努力准确地表达作者的思想和方法,但仍难免有不当之处。译文中的错误,敬请指出,我们将非常感激,请将相关意见发往yanlongchuan@iie�盿c�薄�
闫龙川 高德荃 李君婷
2017年12月
前言
从高中开始接触数学和统计学以来,我就一直对数字着迷。分析学(analytics)、数据科学以及近的文本分析技术均出现较晚,大概是在几年前,当时关于大数据(big data)和数据分析的炒作越来越猛烈,甚至有些疯狂。就个人而言,我认为其中很多都是过度炒作,但是也有一些令人兴奋的东西,因为这些技术在新工作、新发现以及解决人们先前认为不可能解决的问题方面展现了巨大的可能性。
自然语言处理(Natural Language Processing,NLP)一直深深吸引着我,因为人脑科学和人类认知能力确实令人着迷。如果尝试在机器中重塑这种传递信息、复杂思维和情绪的能力,那一定是令人惊喜的。当然,尽管我们在认知计算(cognitive puting)和人工智能(Artificial Intelligence,AI)方面的发展突飞猛进,但现在尚且无法实现这一点。仅通过图灵测试可能是不够的,机器真正能复制人的方方面面吗?
当今,对于NLP和文本分析应用,迫切需求从非结构化、原始文本数据中提取有用信息和可行见解的能力。到目前为止,我一直在努力解决各种问题,面临诸多挑战,并随着时间的推移吸取了各种各样的经验教训。本书涵盖了我在文本分析领域学到的大部分知识,仅仅从一堆文本文档中建立一个花哨的词云是不够的。
在学习文本分析方面,大的问题或许不是信息缺乏,而是信息过多,通常这称为信息过载(information overload)。海量的资源、文档、论文、书籍和期刊包含了大量的理论资料、概念、技术和算法,它们常常使该领域的新手不知所措。解决问题的正确技术是什么?文本摘要如何真正有效?哪些才是解决多类文本分类的佳框架?通过将数学和理论概念与现实用例的Python实现相结合,本书尝试解决这个问题,并帮助读者避免迄今为止我所遇到的一些急迫问题。
本书采用了全面的和结构化的介绍方法。首先,它在前几章中介绍了自然语言理解和Python结构的基础知识。熟悉了基础知识之后,其余章节将解决文本分析中的一些有趣问题,包括文本分类、聚类、相似性分析、文本摘要和主题模型。本书还将分析文本的结构、语义、情感和观点。对于每个主题,将介绍基本概念,并使用一些现实世界中的场景和数据来实现涵盖每个概念的技术。本书的构想是呈现一幅文本分析和NLP的蓝海,并提供必要的工具、技术和知识以处理和解决工作中遇到的问题。我希望你能觉得本书很有帮助,并祝你在文本分析的世界中旅途愉快!
这本《Python文本分析:自然语言处理NLP技术书籍》真是让我眼前一亮。我一直对NLP领域充满好奇,但市面上大部分书籍要么过于理论化,要么案例不够深入。这本书恰好填补了这个空白。它从Python的视角切入,将抽象的NLP概念具象化,使得初学者也能快速上手。书中详细介绍了从文本预处理、词向量构建到更复杂的模型如词汇语义关系网络和句法分析。最让我惊喜的是,它不仅仅是罗列概念,而是通过大量的Python代码示例,一步步引导读者实现各种NLP任务。我尤其喜欢其中关于词汇语义关系网络的章节,它解释了如何利用图论和机器学习模型来捕捉词语之间的深层含义和联系,这对于理解文本的情感倾向、主题演变等非常有帮助。句法分析的部分也解释得非常透彻,让我明白了如何解析句子结构,提取主谓宾等关键信息,这为后续的信息抽取和机器翻译打下了坚实基础。总的来说,这是一本兼具理论深度和实践可操作性的优秀教材,强烈推荐给所有想深入了解NLP的Python开发者。
评分作为一名多年从事数据挖掘的工程师,我对文本分析一直有着浓厚的兴趣,但苦于找不到一本能够真正上手操作的书籍。《Python文本分析:自然语言处理NLP技术书籍》的出现,无疑是我的福音。这本书非常务实,它从Python语言的角度出发,系统地介绍了NLP的核心技术。我尤其欣赏书中对词汇语义关系网络的讲解,它不仅介绍了PageRank等经典的算法,还深入探讨了如何利用现代的深度学习模型,如Word2Vec、GloVe来构建语义网络,并进一步分析文本的主题和情感。这些内容对于我理解用户评论、社交媒体信息等非常有价值。此外,句法分析章节的讲解也让我受益匪浅,我学会了如何利用NLTK、spaCy等库进行分词、词性标注、命名实体识别,以及更高级的依存句法分析。书中提供的代码示例可以直接在我的工作中复用,大大缩短了开发周期。这本书的实践性极强,让我能够快速地将NLP技术应用到实际业务中,解决实际问题。
评分我对NLP的热情很大程度上源于对语言本身的着迷,而《Python文本分析:自然语言处理NLP技术书籍》这本书,则将这种热情与技术完美地结合在了一起。它不仅仅是一本技术手册,更像是一场关于语言智慧的探索之旅。在词汇语义关系网络的部分,作者通过生动的例子,展示了如何用数学和计算机的语言来理解词语之间的“亲疏远近”,如何构建一个能够反映语言精妙之处的网络。我曾为理解某些比喻或者引申义而苦恼,但通过书中对语义网络的讲解,我似乎找到了理解这些现象的钥匙。句法分析的章节则让我看到了语言结构之美,原来看似杂乱无章的句子,背后隐藏着如此严谨的规则和逻辑。通过Python代码,我得以亲手“解剖”句子,体会语法在信息传递中的关键作用。这本书的叙述方式非常引人入胜,让我即便在阅读技术细节时,也能感受到探索的乐趣,而非枯燥的填鸭式学习。
评分读完《Python文本分析:自然语言处理NLP技术书籍》后,我感觉自己对NLP的理解上升到了一个新的层次。我之前尝试过一些NLP的入门读物,但总觉得缺了点什么,尤其是在模型层面,往往是知其然而不知其所以然。这本书在这方面做得非常出色,它没有回避模型背后的原理,而是用清晰易懂的方式解释了各种算法,例如在讨论词汇语义关系网络时,作者详细讲解了如何构建知识图谱,如何利用embedding技术来表示词语的语义,以及如何通过图神经网络来捕捉词语之间的复杂关系。这种深入的讲解让我不仅学会了如何“用”,更学会了“为什么这么用”。句法分析的部分也很有启发性,我了解了依存句法分析和成分句法分析的区别,以及它们在实际应用中的优劣。通过书中提供的Python代码,我能够亲手实现这些模型,并对实验结果进行分析,这极大地增强了我的学习信心。这本书的内容之丰富、讲解之细致,绝对是NLP领域一本值得反复研读的宝藏。
评分一直以来,我都觉得NLP是一个既迷人又充满挑战的领域,而《Python文本分析:自然语言处理NLP技术书籍》这本书,为我打开了一扇通往这个世界的大门。它并没有一开始就抛出晦涩难懂的模型,而是从最基础的文本预处理讲起,让我在舒适的Python环境中逐步建立起对NLP的认知。当我读到词汇语义关系网络时,我才真正理解了“语义”二字的分量,不再是简单地将词语视为独立的符号,而是看到了它们之间千丝万缕的联系,看到了如何通过网络的力量来捕捉这种联系,进而理解文本的深层含义。句法分析的部分更是让我惊叹于语言的结构之精巧,它让我明白了为什么同几个词语组合在一起,有时意思却截然不同。书中丰富的Python代码示例,不仅让我巩固了理论知识,更让我获得了独立解决问题的能力,我现在可以用书中学到的技术去分析各种文本数据,发掘其中的有价值信息。这本书真的让我感觉受益匪浅。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有