CharCNN
从字符层面构建词表,减少词表容量,实现对句子的分类
什么是 CharCNN ?
- 目前很多语言模型是针对单词、短语、句子建模的,或者对语义和语法结构进行分析,但是本文则提出了从字符层面进行文本分类,提取出高层抽象概念
- 这样做的好处是不需要使用预训练好的词向量和语法句法结构等信息。除此之外,字符级还有一个好处就是可以很容易的推广到所有语言
- 该论文和 TextCNN 很像,只是 TextCNN 是在字词层面对文本进行分类,而 CharCNN 是在字符层面。对于中文来说,由于其字符表比较难构建,因此很难得到应用
CharCNN 的网络结构?
- 很简单的一个网络,提取字符级别特征,然后使用 1D 卷积、池化等操作提取特征,最后进行分类
- 论文包含 70 个字符,其中 26 个英文字母,10 个数字,33 个其他字符和一个全零向量(用于表示 unknow 字符)
CharCNN 如何使用同义词进行数据增强?
- 为了增强模型的泛化能力,参考视觉上图像旋转、偏移和缩放后还是同一类图片的概念,CharCNN 认为使用同义词替代后的文本还是属于同一类
参考: