论文简介
- 地址:https://arxiv.org/pdf/1803.06815v2.pdf
- 个人观点:这篇文章对之前的模型压缩以及语义分割方法做了很好的总结,而且也回顾了很多CNN module,可以当成综述来看。
abstract
- ESPNet在降低8%的精度的条件下,比PSPNet的网络小180倍,速度快22倍。
- 使用cityscape高分辨率图像进行测试,在GPU和移动端分别能达到112fps与9fps。
introduction
- 主要就是介绍了语义分割的发展与一些方法。
- 论文中引入了一种新的module,ESP module如下所示
首先对feature map做point-wise convolution,降低参数量,然后使用spatial pyramid dilated convolution,扩大感受野,同时提取多尺度特征,将这些feature做fusion得到输出。
- 在移动设备上做了很多实验,包括GPU频率以及warp execution效率对算法的影响。最后证明了比之前的ENet、ERFNet等都要好(当然,后面本文方法被BiSeNet给秒了)。
related work
神经网络加速方法
- Convolution factorization
- Network Compression
- Low-bit networks
- Sparse CNN
语义分割模型
- encoder-decoder结构
- Feature re-sampling methods
ESP Net
ESP module
- ESP module在上面的图中就进行展示了,这里有个比较重要的子模块,HFF(Hierarchical feature fusion) module。如果使用一种尺度的dilated convolution,则feature map上的很多pixel都没有被充分利用,可以参考一下知乎上的解释:https://www.zhihu.com/question/54149221
- HFF可以很好地解决上述问题,保证不同的dilated convolution做fusion之后,feature map上所有的点都会被用到。
experiment
- 论文中使用了不同的ESPNet model进行测试。
- 之前的论文中,语义分割的指标大多是fps以及mIOU,本文中采用了很多指标对算法进行评价,包括mIOU、latency、network parameters、network size、Sensitivity to GPU frequency、Utilization rates、Warp execution efficiency、Memory efficiency、Power consumption。
results
- 作者做了很多实验,在这里贴一张在cityscape上的实验结果。
结果就是没有既比它快又比它好的模型。
- 作者在其他数据集,如Unseen dataset、PASCAL VOC 2012 dataset、Breast biopsy dataset等,做了测试,验证了模型的泛化性能。
ablation study
- 论文中提出了几个不同的ESPNet model,对不同模块对结果的影响做了分析,能够提升mIOU的几个部分主要有
- 使用PRELUt替代RELU
- 使用residual结构
- 使用ESP中的降采样方法替代传统的dilated convolution
- ESP module中K值的选择。
conclusion
- 新的语义分割模型:ESPNet
- 更多的评价指标
- 模型具有很好的泛化性能。