pfnet
PFNet
伪装目标分割
定位与聚焦网络,由两个关键模块组成,定位模块PM和聚焦模块FM

给定一张 RGB 图像,我们首先将其输入到 ResNet - 50 [18] 骨干网络中,以提取多级特征
这些特征会进一步输入到四个卷积层进行通道数缩减。
将定位模块(PM)应用于最高层级的特征,以定位潜在的目标物体。
利用多个聚焦模块(FM)逐步发现并去除误报和漏报的干扰因素,从而准确识别伪装物体。
PM:通道注意力模块和空间注意力模块
通道注意力计算
输入特征
首先根据chw的矩阵计算QKV,维度为CxN,N=HxW
接下来计算通道注意力图X,对Q和K的转置进行矩阵乘法,然后通过softmax层得到通道注意力图X

Qi :表示矩阵Q的第i行 ,xij衡量的是第j个通道对第i个通道的影响程度。通过这个公式,可以得到一个C×C的通道注意力图X,其中每个元素x*ij表示不同通道之间的关联程度
在得到通道注意力图X后,会让X和V进行矩阵乘法,根据计算出的通道注意力,对V进行加权求和
最后,为了增强容错能力,我们将结果乘以一个可学习的尺度参数 γ,并进行恒等映射操作,以获得最终输出

其中,γ 从初始值 1 开始逐渐学习权重。最终的特征F′对特征图通道之间的长距离语义依赖进行了建模,因此比输入特征F更具判别力。
空间注意力计算
对输入F`使用1x1的卷积降低通道,使用三个全新的特征图Q,K,V
继续进行矩阵乘法运算,并使用softmax归一化来生成空间注意力图

与通道注意力模块类似,将结果乘以一个可学习的尺度参数γ,添加一个跳跃链接,获得最终的输出

FM:聚焦模块设计
由于伪装物体通常与背景外观相似,在初始分割中自然会出现误报和漏报的预测结果。聚焦模块(FM)旨在先发现然后消除这些错误预测。它将骨干网络提取的当前层级特征以及更高层级的预测和特征作为输入,输出优化后的特征和更准确的预测结果
比较模糊区域与确定区域
对更高级的模块预测进行上采样,通过sigmoid进行归一化处理,使用该映射及其反向版本分别对当前层级的特征相乘,生成前景注意力特征和背景注意力特征,将这两种类型的特征分别输入到两个并行的上下文探索模块中进行上下文推理
ce模块设计如下:
有四个上下文探索分支组成,每个分支都包含一个用于通道缩减的3x3卷积层,一个用于局部特征提取的kxk卷积层,分别设置为1,3,5,7,以及一个扩张率为3x3的扩张卷积层(空洞卷积)用于感知上下文信息。
在发现干扰后,通过以下方式进行消除:

其中Fh是来自输入的高级特征,Fr’是来自输出的优化特征,CBR是卷积,归一化,和ReLu的组合,U是双线性上采样,α和β是可学习的缩放参数,通过逐元素减法操作来抑制模糊的背景,并使用逐元素的加法操作来增强缺失的前景
Loss函数设计
PFNet有四个输出预测结果 ,一个来自定位模块(PM),三个来自聚焦模块(FM),对于定位模块,在其输出上施加二元交叉熵损失函数bce和交并比损失Liou,得到公式
对于聚焦模块,结合了加权二元交叉熵函数和加权交并比损失函数
促使聚焦模块更加关注可能存在的干扰区域
最后总体的Loss函数为:
