论文提出了一种新的网络设计范式,和以往研究不同的是他们没有专注于设计单个网络实例,而是设计出了参数化网络群的网络设计空间。这种新的网络设计范式结合了神经框架搜索(NAS)和手工设计网络的优点,精度和速度全面超越了EfficientNet

阅读全文 »

将 transformers 运用到了 object detection 领域,取代了现在的模型需要手工设计的工作(非极大值抑制和 anchor generation),并且取得了不错的结果。在 object detection 上 DETR 准确率和运行时间上和 Faster RCNN 相当;将模型应用到全景分割任务上,DETR 表现甚至还超过了其他的 baseline

阅读全文 »

一直以来都是使用卷积来处理图像数据,即使后面提出空洞卷积、特征金字塔来、注意力机制缓解其感受野受限,但是还是使用卷积计算去提取图像特征,受 NLP 中 transformer 的影响,VIT 将图像拆分为块 (patch),并将图像数据学习转为图像块序列的学习问题,这里图像块 (patches) 的处理方式同 NLP 的标记 (tokens)

阅读全文 »

一直以来,分割都是在 FCN 的基础上搭建 Encoder-Decoder 进行的,基于 CNN 的缺点,虽然有设计方法取增大感受野、引入注意力机制,但还是没有背离这个规则。SETR 以 transformer 替代 CNN 的 Encoder 部分,将 2D 图片问题转为序列注意力构建问题,能在保持分辨率不变的情况下进行特征学习,最后使用 CNN 类似的金字塔结构还原分辨率

阅读全文 »