Jarvis' Blog (总有美丽的风景让人流连) 总有美丽的风景让人流连

PSPNet: Segmentation Network

2022-02-11
Jarvis
Post

场景解析 (scene parsing) 属于语义分割, 但需要分割场景中更多的类别, 因此会遇到大量外观相似的类别而导致混淆. PSPNet 的思想是某些混淆可以通过关注上下文来解决. 比如车和船的外观可能很像 (纹理相似), 但船一般在水里 (“水”为上下文), 车一般在路上 (“道路”为上下文), 因此在分类的时候同时关注上下文特征是有益的.

PSPNet

港中文的文章1.

1. 模型

PSPNet 模型结构如下图所示.

图 1. PSPNet 结构

算法核心是中间的 PPM 模块, 特征经过金字塔池化成特定的大小, 从而提取不同尺度的全局信息, 再上采样到原始尺寸后拼接到原始特征上进行分类.

2. 技巧和细节

  • Resnet-101 使用了 DeepBase, 即把第一个 $7\times7$ 换成了三个 $3\times3$
  • Resnet-101 四个 ResBlocks 的 stride = [1, 1, 2, 1], dilation = [1, 1, 2, 4]
  • 四组金字塔池化的大小为 \(1\times1, 2\times2, 3\times3, 6\times6\), 四组特征的输出通道数为 \(C/4\). 最后拼接出来的特征为 \(2C\) 的.
  • PPM 的学习率是 Backbone 的 10 倍
  • 第 3 个 ResBlock 的输出增加一个辅助 loss
  • 使用了 SyncBatchNorm (重要, PPM 模块用了很多 BN)

3. 其他

  • PPM 模块有多大效果存在疑问. [知乎]

CascadePSP

港科技的文章2.

本文主要解决已有的语义分割结果不够准确的问题. 与其类似的工作比如 DenseCRF.

1. 模型

本文通过级联多个 PSPNet 迭代式地提高分割细节地精度. 其模型基于 PSPNet, 但模型输入有 6 个通道, 前 3 通道为图像的 RGB, 后 3 通道为 3 个已有的分割结果, 如下图所示.

图 2. CascadePSP. Global step refines the whole image using the same refinement module (RM) to perform a 3-level cascade with output strides (OS) of 8, 4, and 1. The cascade is jointly optimized, capturing object structure at large output strides and accurate boundary at small output strides (i.e., with a higher resolution).

注意几点:

  • RM (Refinement Module) 为 PSPNet, 多个 RM 是共享参数的.
  • 第一次迭代, 输入的后 3 个通道是一个粗分割结果复制了三次, 仅仅是为了凑 3 个通道
  • 第二次迭代, 输入的后 3 个通道是粗分割结果和第一次迭代的结果, 其中第一次的结果复制了两次, 为 OS (output stride) = 8
  • 第三次迭代, 输入的后 3 个通道是粗分割结果和第二次迭代的结果, 其中第二次迭代用两个尺度的特征计算了两个尺度的结果, 为 OS = 8,4
  • 上图中的三次迭代是 Global Step, 即在全图上的迭代; 还可以在图像的 patch 上做 Local Step 的迭代

RM 的结构如下图:

图 3. Refinement module (RM). Network structure of a single RM, taking three levels of segmentation as inputs to refine the segmentation with different output strides (OS) in different branches. Red lines denote skip-connections. In this paper, we use output strides of 8, 4, and 1.

2. 技巧和细节

  • CascadePSP 用的 PSPNet 中的 ResNet-101 是 \(7\times7\) 的卷积核
  • ResNet-101 第一层多出的三个通道对应的卷积核初始化为 0

参考文献

  1. Pyramid Scene Parsing Network
    Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia
    [html] In CVPR 2017 

  2. CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement
    Ho Kei Cheng, Jihoon Chung, Yu-Wing Tai, Chi-Keung Tang
    [html] In CVPR 2020 


Content