V-Net:用于三维医学图像分割的全卷积网络.
- paper:V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation
- arXiv:link
临床诊断中很多医学数据都是三维的,作者提出了一种基于全卷积神经网络的三维图像分割方法V-Net,实现了磁共振成像(MRI)数据中前列腺体积的分割。
V-Net结构与UNet类似,主要不同在于将卷积替换为$3d$卷积,卷积核尺寸为$5 \times 5 \times 5$。此外下采样过程没有使用池化,而是选用尺寸为$2 \times 2 \times 2$,步长为$2$的卷积,使得每次下采样时体积都减小为原来的$2$倍。上采样时使用尺寸为$2 \times 2 \times 2$,步长为$2$的转置卷积。最终输出两组通道特征,应用softmax函数分别转换为前景和背景区域的概率分割。
作者计算了模型每一层的感受野,在分割不明显的解剖结构时,更大的感受野能够感知整个感兴趣的解剖结构,提高模型的性能。
作者提出了一种新的损失函数Dice loss,用于处理前景体素和背景体素之间存在类别严重不平衡的情况。在数据中感兴趣的区域一般仅占据很小的扫描区域,这通常会使网络的预测结果强烈地倾向于背景,使得前景区域经常丢失或仅被部分检测。之前常用的损失函数是交叉熵损失,尽管其简单易实现,但与语义分割中常用的指标Dice coefficient并不匹配。直接将该指标作为模型的优化函数通常是一个更好的选择(类比于目标检测中选用IoU损失代替交叉熵损失)。对于两个集合$P$和$G$,其Dice coefficient定义为:
\[D = \frac{2|P ∩ G|}{|P|+|G|}\]若$p_i \in P$代表预测结果,$g_i \in G$代表真实标签,由于真实标签通常用$0,1$表示,因此上述表达式可以写为逐元素相加的形式:
\[D=\frac{2\sum_{i}^{N}p_ig_i}{\sum_{i}^{N}p_i^2+\sum_{i}^{N}g_i^2}\]该损失函数对于$p_i$是可导的,因此可以用来更新梯度。
实验在PROMISE2012数据集上进行,通过网络设计和Dice loss的应用,取得最好的表现: