语义分割之ESPNet

论文简介

  • 地址:https://arxiv.org/pdf/1803.06815v2.pdf
  • 个人观点:这篇文章对之前的模型压缩以及语义分割方法做了很好的总结,而且也回顾了很多CNN module,可以当成综述来看。

abstract

  • ESPNet在降低8%的精度的条件下,比PSPNet的网络小180倍,速度快22倍。
  • 使用cityscape高分辨率图像进行测试,在GPU和移动端分别能达到112fps与9fps。

introduction

  • 主要就是介绍了语义分割的发展与一些方法。
  • 论文中引入了一种新的module,ESP module如下所示
    ESP-module

首先对feature map做point-wise convolution,降低参数量,然后使用spatial pyramid dilated convolution,扩大感受野,同时提取多尺度特征,将这些feature做fusion得到输出。

  • 在移动设备上做了很多实验,包括GPU频率以及warp execution效率对算法的影响。最后证明了比之前的ENet、ERFNet等都要好(当然,后面本文方法被BiSeNet给秒了)。

神经网络加速方法

  • Convolution factorization
  • Network Compression
  • Low-bit networks
  • Sparse CNN

语义分割模型

  • encoder-decoder结构
  • Feature re-sampling methods

ESP Net

ESP module

  • ESP module在上面的图中就进行展示了,这里有个比较重要的子模块,HFF(Hierarchical feature fusion) module。如果使用一种尺度的dilated convolution,则feature map上的很多pixel都没有被充分利用,可以参考一下知乎上的解释:https://www.zhihu.com/question/54149221

HFF-module作用

  • HFF可以很好地解决上述问题,保证不同的dilated convolution做fusion之后,feature map上所有的点都会被用到。

experiment

  • 论文中使用了不同的ESPNet model进行测试。
  • 之前的论文中,语义分割的指标大多是fps以及mIOU,本文中采用了很多指标对算法进行评价,包括mIOU、latency、network parameters、network size、Sensitivity to GPU frequency、Utilization rates、Warp execution efficiency、Memory efficiency、Power consumption

results

  • 作者做了很多实验,在这里贴一张在cityscape上的实验结果。

20180916-ESPNet在cityscape上的效果

结果就是没有既比它快又比它好的模型。

  • 作者在其他数据集,如Unseen dataset、PASCAL VOC 2012 dataset、Breast biopsy dataset等,做了测试,验证了模型的泛化性能。

ablation study

  • 论文中提出了几个不同的ESPNet model,对不同模块对结果的影响做了分析,能够提升mIOU的几个部分主要有
    • 使用PRELUt替代RELU
    • 使用residual结构
    • 使用ESP中的降采样方法替代传统的dilated convolution
    • ESP module中K值的选择。

20180916-ESPNet在cityscape上的效果

conclusion

  • 新的语义分割模型:ESPNet
  • 更多的评价指标
  • 模型具有很好的泛化性能。