NLP如何帮AI摆脱智障之名 突破还乏善可陈

  什么是 NLP

  自然语言处理(NLP)是人工智能(AI)的一个分支,其目标是让计算机能够像人类一样理解、处理和生成自然语言。自然语言,又称人类语言,一般以文字或文本的形式存在于计算机中,从而在某些地方,也被通俗的称为文本智能处理。与自然语言相对的是形式语言(比如Python等编程语言),计算机可以精确地处理。自然语言往往因为在使用中省略背景,模糊而不精确、多义、引申、晦涩,甚至由于各种原因而故意使用曲折的表达,而使计算机处理自然语言时困难重重,成为人工智能发展中最大的难点之一。

  NLP 技术诞生于1950年代,其分支也枝繁叶茂。有基于语法和规则的方法,也有基于统计学习的方法,从21世纪初以来蓬勃发展的深度学习、深度强化学习和迁移学习的方法在 NLP 领域也被广泛地使用。微观层面,在学术界一般将 NLP 划分为四个层级:即词法(Lexicon)、句法(Syntax)、语义(Semantics)和语用(Pragmatics)。面向普通大众,也通常使用偏向应用层面的直接的划分方法,即字词级、句段级和篇章级。

  NLP 技术在宏观层面通常又划分为划分为自然语言理解(NLU)和自然语言生成(NLG)两部分。通俗的讲,自然语言理解就是我们常说的“阅读”,即让计算机读懂语言文字的技术。而自然语言生成则是“写作”,即让计算机能够像人类一样写句子和文章的技术。除此之外,光学字符识别(OCR)和语音技术(包括识别与合成),也会在某些场景下被归为自然语言处理的一部分,但本文不涉及这两块内容。

  NLP 是实现认知智能的关键

  人工智能(AI)通常被分为三大块:计算智能,感知智能和认知智能。计算智能方面,以 AlphaGo 打败了人类围棋最顶尖选手李世石和柯洁为标志,已将人类远远抛在后面。感知智能则以语音和图像技术为代表,对应于人类的视觉和听觉,经过近十几年深度学习、迁移学习等技术的发展,也在非常多领域超越了人类。人工智能在近些年不断的在计算智能和感知智能上发展,一方面是技术迅猛发展的原因,另外一方面也是人类并不擅长这两种。然而,在认知智能上,目前还有待技术层面的进一步突破,而这里面的关键就是 NLP 技术。

  一般认为,认知智能是以语言为基础,实现推理、思考、决策和想象。语言,是人类区别于动物的标志性能力,而让机器拥有语言能力的关键技术就是自然语言处理技术。当前计算机在认知智能上还处于非常初级的阶段,特别是在中文上。今年遍地开花的各类智能音箱,随便与之对话几句便能够感受到强烈的“智障”气息。因此,为了达到更强的认知智能,急需 NLP 技术的进一步发展。当前学术界的热点也在往 NLP 领域迁徙,投向 NLP 方面的资本也在增加。

  迁移学习和预训练模型在 NLP 领域出现了突破

  以 ImageNet 为代表的预训练模型以及相应的迁移学习技术,促使了感知智能的极大发展。为了提升认知智能的水平,必须在 NLP 技术上有所突破。在深度学习出现以后,对于有大量标注数据的场景,比如中文和英文之间的机器翻译,通过深度学习和 NLP 技术的结合能够达到不错的效果。然而对于缺乏标注数据的绝大多数场景,则依赖于好的预训练模型以及迁移学习技术的发展。此前,这个在图像领域已经被证明了的范式,在 NLP 领域一直发展得不温不火。大概是量变引起质变,从 Word2Vec 出现以来,NLP 领域的预训练模型在 5 年内的积累,以及深度网络在 NLP 领域的应用,使得今年出现了突破。这里面最耀眼的当属 Google 刚刚提出的 BERT 预训练模型以及基于 BERT 的迁移学习。

NLP领域的预训练模型的发展历史(配图:达观数据)

  早在 2013 年 Google 提出了 Word2Vec 之后,NLP 领域的深度学习就开始使用预训练模型,而后斯坦福大学提出的 GloVe 和 Facebook 提出的 Fasttext 则是进一步发展。然而在今年之前,这方面的尝试大都局限于使用浅层网络,在词的层面上进行建模。针对具体的应用场景,要达到较好的效果依然需要非常大量的标注语料。预训练深层模型以及之上的迁移学习在图像领域的成功,引领着 NLP 领域专家们也在思考如何实现同样的范式。多年的努力与探索,终于在今年迎来了丰收。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章