Fast R-CNN
一种two-stage的目标检测算法,设计感兴趣区域池化(RoIPooling),并去掉SVM训练的获选框分类器;最终,在选择性搜索(SelectiveSearch,SS)之后,神经网络可以进行端到端训练
一种two-stage的目标检测算法,设计感兴趣区域池化(RoIPooling),并去掉SVM训练的获选框分类器;最终,在选择性搜索(SelectiveSearch,SS)之后,神经网络可以进行端到端训练
CSP可以看作是DenseNet的升级版,主要是通过split channel减少重复梯度的传递,使得网络更快
SPPNet 的目标检测思想和 RCNN 一致,都是提取候选区域的一维特征进行获选区域分类及位置回归,通过引入空间金字塔池化 (SpatialPyramidPooling, SPP)实现任意大小图片输入得到得到固定长度输出,避免 R-CNN 重复卷积的过程,提高了运行速度
目前的语义分割还是通过逐像素点的密集分类框架完成,但有时不太理想。本文设计了一种双流模型,在常规流之外引入形状流分支额外处理形状信息,而且负责处理形状信息的网络结构不用太深就可以提升细小结构的边缘分割效果
受到计算机视觉的Non-local means(NLM)的影响,Non-local 提出Non-local operations,用于捕获长距离的关系,提升了语义分割的效果
基于 FPN 的多 head 检测器,最大的创新是提出 focal loss 动态平衡目标检测中正样本少数,负样本大多数的情况
DANet利用自注意力机制自适应地整合局部特征和他们的全局依赖关系,提出了位置注意模块和通道注意模块,分别对空间和通道维度上的语义相互依赖关系进行了建模
利用CNN进行目标检测的首个神经网络,首先利用选择性搜索提取图片的2000个左右的 Region Proposal,然后通过AlexNet提取得到固定长度的特征,接着使用支持向量机(SVM)分析这些特征,以实现获选区域的分类,使用边界框回归分析这些特征,获取获选框更精细位置
EMANet摒弃了在全图上计算注意力图的流程,转而通过期望最大化(EM)算法迭代出一组紧凑的基,在这组基上运行注意力机制,从而大大降低了复杂度
LEDNet使用非对称的编码器-解码器结构,编码器在残差层采用信道分割和混洗操作,以特征重用的方式增强了信息通信。另一方面,解码器采用APN模块,其中空间金字塔结构有利于扩大感受野,而无需引入大量的计算