Tech Notes

CNN感受野的计算

没有什么比一道题能够更好的说明问题，如下。

假设网络结构如下：

Type	Size	Stride
conv1	3	1
pooling1	2	2
conv2	3	1
pooling2	2	2
conv3	3	1
conv4	3	1
pooling3	2	2

问题是，给定上述网络结构，计算pooling3的感受野大小？

一种通用的思路是按照自顶向下的方式计算，也就是从pooling3开始到conv1。具体如下。

再次之前，回顾一下如何计算conv或者pooling之后的输出特征图大小，如下，

out = (in+2*padding-kernel_size)/step + 1

由网络结构可知，pooling3的一个值对应输入大小为2*2，也就是conv4的输出。由上述计算公式，很容易得到conv4的输入，为4*4。

依次类推，得到conv1的输入是30*30，故可以得到结论：pooling3的感受野大小为30*30。

代码实现可以参考1。

CNN的卷积核大小

知道如何计算感受野之后，可以思考一个问题，卷积核越小越好吗？

按照上述计算方法，可以很容易计算得出：

一个7*7的卷积核的输出值对应的感受野和三个3*3的卷积核一样；

一个5*5的卷积核的输出值对应的感受野和两个3*3的卷积核一样；

既然这样，当然可以用后者代替前者，但是优点是什么？

假设输入是H*W*C，这里我们假定卷积核的个数也为C，卷积核大小为7*7。那么首先需要思考，一次卷积的计算量是多少？

计算量来自乘法和加法，乘法的次数是卷积和输入特征图的对应位相乘，加法来自相乘结果后相加，这样加法会比乘法少一次，但是考虑到每个卷积核对应一个bias（有些网络结构不需要bias），需要再加一次。故一次卷积的乘法和加法次数一样，都是卷积核大小的平方。

这样，在评估纯卷积场景下的计算量的时候，可以用乘-加作为单位，大小为为卷积核大小的平方。

现在可以回答上述的问题了。参数量为C*(7*7*C)，假设输出和输入大小保持一致，则需要的乘-加次数为C*(7*7*C)*H*W，也就是说需要考虑卷积次数。

如果是三个3*3的卷积呢？容易得到参数量为3*C*(3*3*C)，乘-加次数为3*C*(3*3*C) *H*W。

嗯,参数个数和乘-加次数，三个3*3卷积都是一个7*7卷积的27/49 倍。

这下就不难理解为啥要用3*3卷积了。不明白啊，为啥不用2*2卷积呢？有些资料认为是因为3*3是最小非对称卷积核，能够捕捉到各个方向(斜线，中间)的信号，而2*2是对称卷积。个人目前对此不能完全认同，有待后续思考。

乘-加次数是和参数个数成正比例关系的，那么参数量能不能进一步减少？

保证感受野相同的前提下，一个3*3卷积分解为1*3卷积和3*1两个卷积。两个小卷积的参数量是原来的2/3倍。

总结：按照目前的发展，脱离感受野谈参数量减少，都是耍流氓。虽然小卷积能够保证感受野相同的前提下，减少参数量和计算量，但是这会不会带来优化的难度，对参数空间造成的影响是什么，似乎都不是很清楚。感受野的大小对任务性能到底是如何影响的，如何有效度量而非看任务最后的评价指标。假设显存足够，速度够快，优化难度低，大卷积核何尝不是一种选择？

参考文献：

1.写代码计算感受野

2.什么时候使用大小为3或者5的卷积

结论是：大部分场景下，使用大小为3的卷积。