发表于2024-12-16
基于深度学习的自然语言处理 计算机与互联网 书籍|7891598 pdf epub mobi txt 电子书 下载
书[0名0]: | 基于深度学]习的自然语言处理|7891598 |
图书定价: | 69元 |
图书作者: | (以)约阿夫·戈尔德贝格(Yoav Goldberg) |
出版社: | 机械工业出版社 |
出版日期: | 2018/5/1 0:00:00 |
ISBN号: | 9787111593737 |
开本: | 16开 |
页数: | 0 |
版次: | 1-1 |
内容简介 |
本书重点介绍了神经网络模型在自然语言处理中的应用。先介绍有监督的 机器学习和前馈神经网络的基本知识,如何将机器学习方法应用在自然语言处理中,以及词向量表示(而不是符号表示)的应用。然后介绍更多专门的神经网络结构,包括一维卷积神经网络、循环神经网络、条件生成模型和基于注意力的模型。后讨论树形网络、结构化预测以及多任务学习的前景。 |
目录 |
译者序 |
译者序 |
自然语言处理(Natural Language Processing,NLP)主要研究用计算机来处理、理解以及运用人类语言(又称自然语言)的各种理论和方法,属于人工智能领域的一个重要研究方向,是计算机科学与语言学的交叉学科,又常被称为计算语言学。随着互联网的快速发展,网络文本尤其是用户生成的文本呈爆炸性增长,为自然语言处理带来了巨大的应用需求。同时,自然语言处理研究的进步,也为人们更深刻地理解语言的机理和社会的机制提供了一种新的途径,因此具有重要的科学意义。 然而,自然语言具有歧义性、动态性和非规范性,同时语言理解通常需要丰富的知识和一定的推理能力,这些都给自然语言处理带来了极大的挑战。目前,统计机器学习技术为以上问题提供了一种可行的解决方案,成为研究的主流,该研究领域又被称为统计自然语言处理。一个统计自然语言处理系统通常由两部分组成,即训练数据(也称样本)和统计模型(也称算法)。 但是,传统的机器学习方法在数据获取和模型构建等诸多方面都存在严重的问题。首先,为获得大规模的标注数据,传统方法需要花费大量的人力、物力、财力,雇用语言学专家进行繁琐的标注工作。由于这种方法存在标注代价高、规范性差等问题,很难获得大规模、高质量的人工标注数据,由此带来了严重的数据稀疏问题。其次,在传统的自然语言处理模型中,通常需要人工设计模型所需要的特征以及特征组合。这种人工设计特征的方式,需要开发人员对所面对的问题有深刻的理解和丰富的经验,这会消耗大量的人力和时间,即便如此也往往很难获得有效的特征。 近年来,如火如荼的深度学习技术为这两方面的问题提供了一种可能的解决思路,有效推动了自然语言处理技术的发展。深度学习一般是指建立在含有多层非线性变换的神经网络结构之上,对数据的表示进行抽象和学习的一系列机器学习算法。该方法已对语音识别、图像处理等领域的进步起到了极大的推动作用,同时也引起了自然语言处理领域学者的广泛关注。 深度学习主要为自然语言处理的研究带来了两方面的变化:一方面是使用统一的分布式(低维、稠密、连续)向量表示不同粒度的语言单元,如词、短语、句子和篇章等;另一方面是使用循环、卷积、递归等神经网络模型对不同的语言单元向量进行组合,获得更大语言单元的表示。除了不同粒度的单语语言单元外,不同种类的语言甚至不同模态(语言、图像等)的数据都可以通过类似的组合方式表示在相同的语义向量空间中,然后通过在向量空间中的运算来实现分类、推理、生成等各种任务并应用于各种相关的任务之中。 虽然将深度学习技术应用于自然语言处理的研究目前非常热门,但是市面上还没有一本书系统地阐述这方面的研究进展,初学者往往通过学习一些在线课程(如斯坦福的CS224N课程)来掌握相关的内容。本书恰好弥补了这一不足,深入浅出地介绍了深度学习的基本知识及各种常用的网络结构,并重点介绍了如何使用这些技术处理自然语言。 本书的作者Yoav Goldberg现就职于以色列巴伊兰大学,是自然语言处理领域一位非常活跃的青年学者。Goldberg博士期间的主要研究方向为依存句法分析,随着深度学习的兴起,他也将研究兴趣转移至此,并成功地将该技术应用于依存句法分析等任务。与此同时,他在理论上对词嵌入和传统矩阵分解方法的对比分析也具有广泛的影响力。另外,他还是DyNet深度学习库的主要开发者之一。可见,无论在理论上还是实践上,他对深度学习以及自然语言处理都具有非常深的造诣。这些都为本书的写作奠定了良好的基础。 由于基于深度学习的自然语言处理是一个非常活跃的研究领域,新的理论和技术层出不穷,因此本书很难涵盖所有的最新技术。不过,本书基本涵盖了目前已经被证明非常有效的技术。关于这方面的进展,读者可以参阅自然语言处理领域最新的论文。 我们要感谢对本书的翻译有所襄助的老师和学生。本书由哈尔滨工业大学的车万翔、郭江、张伟男、刘铭四位老师主译,刘挺教授主审。侯宇泰、姜天文、李家琦、覃立波、宋皓宇、滕德川、王宇轩、向政鹏、张杨子、郑桂东、朱海潮、朱庆福等对本书部分内容的初译做了很多工作,机械工业出版社华章公司策划编辑朱劼和姚蕾在本书的整个翻译过程中提供了许多帮助,在此一并予以衷心感谢。 译文虽经多次修改和校对,但由于译者的水平有限,加之时间仓促,疏漏及错误在所难免,我们真诚地希望读者不吝赐教,不胜感激。 车万翔 2017年10月于哈尔滨工业大学 |