大模型通常指在大规模数据上训练的机器学习或深度学习模型,这些模型有大量的参数,能够捕抓复杂的数据模式及关系。对于应用开发人员来说,虽然不是严格定义,但是对于规模超过 1 B 的模型称为大模型,1 B 表示十亿。

阅读全文 »

为了解决 RNN 在序列数据上感受野不足和无法并行训练的问题的问题,Transformer 被提出。Transformer 由且仅由 self-Attenion 和 Feed Forward Neural Network 组成,训练时一次输入所有时间步,构建所有时间步之间的注意力,不用考虑方向,不考虑长度

阅读全文 »

使用 RNN 学习序列数据,分为编码器和解码器两部分,将编码器最后一个隐状态初始化解码器的初始隐状态,解决序列 -> 序列的学习任务,比如翻译,词性标注,命名实体识别等

阅读全文 »