Word Embedding.
词嵌入Word Embedding是一种unsupervised learning的方法,让机器阅读大量文档documents从而学习到单词words的意思。
本文目录:
- 背景
- Count based
- Perdition based
1. 背景
在自然语言处理任务中,对于每一个单词(或字符)的表示可以使用One-hot编码,即1-of-N encoding:
这种方法每一个单词是独立的,没有考虑到单词之间的相关性。
进一步提出了word class,把语义相近的单词分为一类:
此方法对同一类的单词仍然没有很好的区分。为此,提出了词嵌入Word Embedding的概念:
词嵌入是把单词映射到一个$k$维的向量空间,每一个单词用一个$k$维向量表示。
2. Count based
Count based Embedding是指在一个文档中若两个单词同时出现的频率很高,那么两个单词的向量非常接近。
Glove Vector
- project:glove
3. Perdition based
Perdition based Embedding是与downstream任务一起训练的。
使用一层共享参数的神经网络作为词嵌入层,把输入单词仿射变换为词嵌入向量。
- Language Modeling:词嵌入与语言模型一起训练
- Continuous bag of word (CBOW) model:根据上下文预测单词
- Skip-gram:根据单词预测上下文