为了解决RNN在序列数据上感受野不足和无法并行训练的问题的问题,Transformer被提出。Transformer 由且仅由 self-Attenion 和 Feed Forward Neural Network 组成,训练时一次输入所有时间步,构建所有时间步之间的注意力,不用考虑方向,不考虑长度

阅读全文 »

本文讲解了对神经网络进行参数更新的优化器,最基础的优化器是w=w-rg,其中w,r,g表示参数、学习率和梯度,后面针对历史梯度、自适应学习率发展出不同的优化器,如AdaGrad,Adam等

阅读全文 »