ELMO:Deep contextualized word representations

为解决一词多义的问题,ELMO 设定词汇的嵌入不是固定的,而是在不同语境中动态变化的,输入语境及词汇,得到词汇的词向量

什么是 ELMO ?

  • 传统的词嵌入方法都是一个词赋予一个向量,而我们的词向量是一个整个输入句子的函数(双层双向 LSTM),也就是说 ELMO 会根据词语所在的不同上下文,构建不同的词嵌入(解决一词多义问题)
  • ELMO 在大规模预料训练后,可以应用到概念蕴涵、问题回答和情感分析等下游任务,开启了预训练模型 (PLM) 的先河

ELMO 的网络结构?

  • 一个双层双向的 LSTM 模型,预训练时其是自监督学习的,应用到下游时取不同层的 LSTM 使用即可

和 GloVe 相比,ELMO 的特点?

  • 表 4 表示两者查询最近词的过程,可以看出 GloVe 是基于共现矩阵,只能得出和 Play 接近的词汇,而 ELMO 是基于语境的,能解决一词多义的问题

参考:

  1. Bert 之路(二)ELMo||Deep contextualized word representations - 知乎
  2. ELMo 模型可用于训练动态词向量,该模型有哪些优缺点? 与 BERT 模型之间的区别是什么? - 知乎
  3. ELMO: Deep contextualized word representations - 知乎
  4. Deep contextualized word representations [文献阅读笔记] - 知乎