Word Embedding.

词嵌入Word Embedding是一种unsupervised learning的方法,让机器阅读大量文档documents从而学习到单词words的意思。

本文目录

  1. 背景
  2. Count based
  3. Perdition based

1. 背景

在自然语言处理任务中,对于每一个单词(或字符)的表示可以使用One-hot编码,即1-of-N encoding

这种方法每一个单词是独立的,没有考虑到单词之间的相关性。

进一步提出了word class,把语义相近的单词分为一类:

此方法对同一类的单词仍然没有很好的区分。为此,提出了词嵌入Word Embedding的概念:

词嵌入是把单词映射到一个$k$维的向量空间,每一个单词用一个$k$维向量表示。

2. Count based

Count based Embedding是指在一个文档中若两个单词同时出现的频率很高,那么两个单词的向量非常接近。

Glove Vector

3. Perdition based

Perdition based Embedding是与downstream任务一起训练的。

使用一层共享参数的神经网络作为词嵌入层,把输入单词仿射变换为词嵌入向量。

  1. Language Modeling:词嵌入与语言模型一起训练
  2. Continuous bag of word (CBOW) model:根据上下文预测单词
  3. Skip-gram:根据单词预测上下文