MobileNetv1：Efficient Convolutional Neural Networks for Mobile Vision Applications

发表于 2022-06-30 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 1-基础视觉任务CNN ，图像分类阅读次数：本文字数： 1.1k 阅读时长 ≈ 1 分钟

在 VGG 的基础上，引入深度可分离卷积，降低模型参数量；并设计宽度因子、分辨率因子控制整个网络的规模

什么是 MobileNetv1?

224x224x3 输入，1x1x1000 输出
VGG 中的标准卷积层换深度可分离卷积 (depthwise separable convolution) 就可以了。其核心思想是采用深度可分离卷积操作。在相同的权值参数数量的情况下，相较标准卷积操作，可以减少数倍的计算量，从而达到提升网络运算速度的目的

上图左边是标准卷积和深度可分离卷积的过程，右边是使用宽度因子 $\alpha$ 、分辨率因子 $\beta$ 后对网络计算量的影响
宽度因子：影响经过深度分离卷积 (DWConv) 后的通道数，通过影响点卷积输出的通道数实现，比如原始输出 16 个通道，现在假定 $\alpha=0.5$ ，那么这个的输出通道变为 8 了。相比较原始输出，经过因子简化后的 DWConv 成本是原来的 1/ $\alpha^2$ 倍 $D_K\cdot D_K\cdot\alpha M\cdot D_F\cdot D_F+\alpha M\cdot\alpha N\cdot D_F\cdot D_F$
分辨率因子：影响经过 DWConv 后的分辨率，通过影响通道卷积的分辨率做到，比如原始输出分辨率 128 x 128，现在假定 $\beta=0.5$ ，那么 DWConv 的输出变为 64 x 64，相比较原始输出，经过因子简化后的 DWConv 成本是原来的 1/ $\beta^2$ 倍 $D_K\cdot D_K\cdot\alpha M\cdot\rho D_F\cdot\rho D_F+\alpha M\cdot\alpha N\cdot\rho D_F\cdot\rho D_F$