概述

为了熟悉MNIST样本集，学习了pytorch官方文档中的一个Tutorial。它使用的是“空间变换网络”（Spatial-Transform-Networks,STN）。

Paper思路

目的

这篇paper的提出是为了改善传统CNN不能很好的学习旋转或者尺度不变性和更一般的仿射变换的不足。

Convolutional Neural Networks define an exceptionally powerful class of models,but are still limited by the lack of ability to be spatially invariant to the input data in a computationally and parameter efficient manner.

采用STN可以帮助model更好的学习到对象在旋转，扭曲等变化。并且STN的优势可以被简便的加入一般的CNN模型中去，从而加强CNN的学习。

We show that the use of spatial transformers results in models which learn invariance to translation, scale, rotation and more generic warping

思路

STN学习平面思路是实现是学习一个源输入样本到实际训练样本坐标仿射矩阵，这样输入CNN的实际样本就是在进行过一次坐标变换后的样本，坐标仿射矩阵调整了样本的平面变化。
坐标仿射矩阵输入计算机图形学的研究范畴，利用一个矩阵乘以图片，从而可以使得图片相应的空间变换。论文中所举例的是一个2*3的仿射矩阵，这个矩阵可以实现平面图形的平移，旋转，缩放和裁剪，同时矩阵可以选择其他功能的仿射矩阵。

实现

STN的实现分为三层，分别为Localisation-net,Grid-generator,Sampler其架构如下：

其中Localisation-net的作用是学习到坐标仿射矩阵$\theta$,其中间可以使用全连接层，还有卷积层，最后需要是一个回归层，目的为了得到相应的$\theta$。如图所示Grid-generator的输入上一层学习到的$\theta$，输出为利用$\theta$得到的input到output像素间的映射关系$T_\theta$,定义$(x_i^s,y_i^s)$为input的像素点，$(x_i^t,y_i^t)$为output的像素点，其对应关系为：

$\dbinom{x_i^s}{y_i^s}=T_\theta(G_i)=A_\theta\binom{x_i^t}{y_i^t}$

Sampler的作用是利用input和学习到的$T_\theta$得到output。需要注意的是在计算output的时候，paper中没有直接使用$T_\theta$，并进行简化操作，计算如下：

$V_i^c = \sum_{n}^H \sum_{m}^W U_nm^c max(0,1-|x_i^s - m|) max(0,1-|y_i^s-n|)$

对于这一步的计算论文中并没有详细的说明，我并不是很理解这样的目的，此处的理解参考大饼博士X的博客中的解释：

作者也叫这一步Differentiable-Image-Sampling，是希望通过写成一种形式上可微的图像采样方法，目的是为了让整个网络保持可以端到端反向传播BP训练，用一种比较简洁的形式表示双线性插值的公式：(如上)。和最前面双线性插值的示意图含义是一样的，只是因为在图像中，相邻两个点的坐标差是1，就没有分母部分了。而循环中大部分都没用的，只取相邻的四个点作为一个grid。

在三层的计算后，可以将output接入CNN中进行训练。

代码实现

此处STN的实现参考pytorch官方文档的tutorials，代码如下：

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
        self.conv2_drop = nn.Dropout2d()
        self.fc1 = nn.Linear(320, 50)
        self.fc2 = nn.Linear(50, 10)

        # Spatial transformer localization-network
        self.localization = nn.Sequential(
            nn.Conv2d(1, 8, kernel_size=7),
            nn.MaxPool2d(2, stride=2),
            nn.ReLU(True),
            nn.Conv2d(8, 10, kernel_size=5),
            nn.MaxPool2d(2, stride=2),
            nn.ReLU(True)
        )

        # Regressor for the 3 * 2 affine matrix
        self.fc_loc = nn.Sequential(
            nn.Linear(10 * 3 * 3, 32),
            nn.ReLU(True),
            nn.Linear(32, 3 * 2)
        )

        # Initialize the weights/bias with identity transformation
        self.fc_loc[2].weight.data.fill_(0)
        self.fc_loc[2].bias.data = torch.FloatTensor([1, 0, 0, 0, 1, 0])

    # Spatial transformer network forward function
    def stn(self, x):
        xs = self.localization(x)
        xs = xs.view(-1, 10 * 3 * 3)
        theta = self.fc_loc(xs)
        theta = theta.view(-1, 2, 3)

        grid = F.affine_grid(theta, x.size())
        x = F.grid_sample(x, grid)

        return x

    def forward(self, x):
        # transform the input
        x = self.stn(x)

        # Perform the usual forward pass
        x = F.relu(F.max_pool2d(self.conv1(x), 2))
        x = F.relu(F.max_pool2d(self.conv2_drop(self.conv2(x)), 2))
        x = x.view(-1, 320)
        x = F.relu(self.fc1(x))
        x = F.dropout(x, training=self.training)
        x = self.fc2(x)
        return F.log_softmax(x, dim=1)


model = Net()

部分输出结果如下：

Train Epoch: 1 [0/60000 (0%)]   Loss: 2.300508
Train Epoch: 1 [32000/60000 (53%)]      Loss: 0.767615

Test set: Average loss: 0.2152, Accuracy: 9371/10000 (94%)

Train Epoch: 2 [0/60000 (0%)]   Loss: 0.700020
Train Epoch: 2 [32000/60000 (53%)]      Loss: 0.425037

Test set: Average loss: 0.1289, Accuracy: 9608/10000 (96%)

Train Epoch: 3 [0/60000 (0%)]   Loss: 0.434035
Train Epoch: 3 [32000/60000 (53%)]      Loss: 0.499640

Test set: Average loss: 0.1010, Accuracy: 9695/10000 (97%)

Train Epoch: 4 [0/60000 (0%)]   Loss: 0.188138
Train Epoch: 4 [32000/60000 (53%)]      Loss: 0.146955

Test set: Average loss: 0.0812, Accuracy: 9757/10000 (98%)

Train Epoch: 5 [0/60000 (0%)]   Loss: 0.235111
Train Epoch: 5 [32000/60000 (53%)]      Loss: 0.300617

Test set: Average loss: 0.0642, Accuracy: 9792/10000 (98%)

通过认真研读这段，有助于理解论文中STN的实现方法。

小结

这次的目的主要是熟悉这MNIST这个样本集。本篇论文略写了公式的推导过程，并且有些地方描述的并不是很详细，再加上阅读论文经验的不足，所以文中的有些地方可能还没有很好的理解。感觉相关的论文还是应该多读多理解，才能积累更多的经验。

参考

[1] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.Spatial Transformer Networks.Google DeepMind.2016
[2] 大饼博士X的博客