ParagraphVector
分别借鉴 word 2 vec 的 N-gram、BOW 构建,构建了 PV-DM、PV-DBOW 两种段落向量的学习模型
什么是 ParagraphVector ?
- 论文提出一种训练段落向量的方法,本文的方法分别借鉴 word2vec 的 N-gram、BOW 构建,构建了 PV-DM、PV-DBOW 两种段落向量的学习模型
ParagraphVector 的 PV-DM 模型?
- 在原始 word2vec 的 CBOW 的基础上,增加这部分内容:通过 Paragraph id 从 Paragraph Matrix 取得段落向量的过程,然后再和词向量拼接在一起训练。
- 假设词汇表数量、段落数量分别是 C、P,假设词向量、段落向量长度分别是 N,M,则共计需要学习 CxN+PxM 个向量,训练时首先选择某个段落,然后随机取出这个段落的句子进行中心词预测
ParagraphVector 的 PV-DBOW 模型?
- 在原始 word2vec 的 N-gram,首先通过 Paragraph id 从 Paragraph Matrix 取得段落向量的过程,然后搭配中心词预测上下文
参考: