RegNet:Designing Network Design Spaces
论文提出了一种新的网络设计范式,和以往研究不同的是他们没有专注于设计单个网络实例,而是设计出了参数化网络群的网络设计空间。这种新的网络设计范式结合了神经框架搜索(NAS)和手工设计网络的优点,精度和速度全面超越了EfficientNet
论文提出了一种新的网络设计范式,和以往研究不同的是他们没有专注于设计单个网络实例,而是设计出了参数化网络群的网络设计空间。这种新的网络设计范式结合了神经框架搜索(NAS)和手工设计网络的优点,精度和速度全面超越了EfficientNet
EfficientNetv2在EfficientNetv1的基础上,通过搜索accuracy、parameter efficiency 以及 trainning efficiency 三个维度,提出Fused-MBConv,使得它具有更快的训练速度和更好的参数效率
使用"神经结构搜索技术"搜索网络的深度(网络层数)、宽度(channel数量)、分辨率(网络输入),以在有限硬件资源的情况下,得到准确度最高的模型
SOTR 利用 transformer 将实例分割任务简化为 2 个过程,一是通过 transformer 预测每个实例的类别,二是通过多级上采样模块动态生成分割掩码
将 transformers 运用到了 object detection 领域,取代了现在的模型需要手工设计的工作(非极大值抑制和 anchor generation),并且取得了不错的结果。在 object detection 上 DETR 准确率和运行时间上和 Faster RCNN 相当;将模型应用到全景分割任务上,DETR 表现甚至还超过了其他的 baseline
一直以来都是使用卷积来处理图像数据,即使后面提出空洞卷积、特征金字塔来、注意力机制缓解其感受野受限,但是还是使用卷积计算去提取图像特征,受 NLP 中 transformer 的影响,VIT 将图像拆分为块 (patch),并将图像数据学习转为图像块序列的学习问题,这里图像块 (patches) 的处理方式同 NLP 的标记 (tokens)
一直以来,分割都是在 FCN 的基础上搭建 Encoder-Decoder 进行的,基于 CNN 的缺点,虽然有设计方法取增大感受野、引入注意力机制,但还是没有背离这个规则。SETR 以 transformer 替代 CNN 的 Encoder 部分,将 2D 图片问题转为序列注意力构建问题,能在保持分辨率不变的情况下进行特征学习,最后使用 CNN 类似的金字塔结构还原分辨率
使用 BiSeNet 中的 context path 提取上下文信息,并且针对 GT 利用 Laplacian Conv 生成网络的中间监督信息,使得中间特征更加符合后续任务
BiSeNet的升级版,相比较BiSeNet,BiSeNetv2精度和速度均有大幅度提升
结合CSP的通道split+ASPP的思想对不同尺度特征进行融合,即先使用CSP的split方法将特征按通道分组,对每组特征使用不同空洞率的空洞卷积,然后将不同尺度的特征融合,实际就是轻量版的ASPP