Convolution Layers

PyTorch中Conv层,主要包括卷积和反卷积两类,并且实现了两类分别对1d到3d的支持。卷积的作用之一是降维。那么反卷积的作用之一自然是升维了。这里指的一提的是,与之在作用上有点类似的是Vision层,该层主要实现了一些Upsample的方法,如最近邻和双线性插值等方法。Downsample和Upsample在CV领域中的Segmentation任务上,例如Unet系列中是很常见的模块。在讨论参数的时候,以torch.nn.Conv2d为例,具体参数包括:输入和输出通道的数目;卷积核的大小;步长;是否padding;是否有空洞;输入和输出之间是否进行分块连接;是否需要bias;由此接口实现,可以看到空洞卷积已经是标准的一部分了。同时,该接口支持输入通道和输出通道之间的分块连接,这对模型的并行训练非常重要,同时可能支持一些相关Trick的实现。

围绕卷积,在之前的一篇博客中,CNN中的两个计算问题,讨论了感受野和输出通道的大小计算的问题。Rethink系列-CNN/RNN,重点讨论了CNN在NLP中应用的理论意义。啊哈,CNN!,列举了很早时期首次接触CNN时的一些参考资料。R-CNN中讨论了一个基于CNN的目标检测模型。

在官方文档中,给出了一个综合考虑上述参数的具体的计算公式(面试/笔试必备,拿出小本本记下来。)。转置卷积参数与上述参数类似。其实转置卷积也是卷积过程。

Pooling Layers

Pooling层经常讨论的是Max和Avg操作,自然包括1d到3d的支持。但是PyTorch同时实现了一些有意思的支持,包括MaxUnpool,FractionalMaxPool,LPPool,AdaptiveMaxPool四类。MaxPool的结果返回输出结果和对应的位置,找Max的过程是一个离散的操作,记录了位置自然可以做逆向实现了。LPPool是按照LP范式实现的Pooling操作,Max和Avg理论上都可以划分为LPPool中,AdaptiveMaxPool实现的是只关心输出的大小,也就是接口中需要指定的参数,对核的大小,步长等其他参数并不关心,也就是只关心结果而不关心过程的MaxPool。

Fractional Max-Pooling在2014年就提出了,但是似乎并没有得到业界的关注,具体论文可以参看Benjamin Graham d的文章,这里不做过多讨论。

Normalization Layers

Normalization层目前实现了BatchNorm,InstanceNorm,LayerNorm以及GroupNorm和LocalResponseNorm。关于Normalizaiton,还有一个相对较大的分支,Weight Normalization,一个朋友围绕这块内容做的文章几乎发遍了CV各个顶会。但是直观上看,主流框架在官方实现上并没有关注到这块。

BatchNorm和InstanceNorm的区别可以通过下述两句话来描述:

BN:The mean and standard-deviation are calculated per-dimension over the mini-batches.

IN:The mean and standard-deviation are calculated per-dimension separately for each object in a mini-batch.

LayerNorm在NLP领域应用较广,典型的Transformer的Block中。和BN&IN的区别如下:

LN: The mean and standard-deviation are calculated separately over the last certain number dimensions which have to be of the shape specified.

印象中的LRN是较早时期的工作,但是GN则是2018年比较火的工作,该工作在很大程度上与自己做Weight Normalization的朋友的工作重叠,背后的故事太多,在这里就不展开了。

和Conv层,Pooling层一样,Normalization层同样需要1d到3d的实现。

Padding Layers

Padding的策略较多,PyTorch中实现了四种策略,适用于不同Nd的Padding操作,包括基于输入边界的reflection,基于输入边界的replication,0填充,常数值填充。

Dropout Layers

除了实现Nd的Dropout,还实现了AlphaDropout,具体论文可以读Self-Normalizing Neural Networks

上述组件在CNN相关的模型实现中是比较清晰的,比起上述组件或者Layers,激活函数的选择,损失函数的选择和优化器的选择三块内容种类要丰富的多,但这些并不是这篇博客要去梳理的内容。嗯,基本可以愉快地尝试基于PyTorch复现Facebook的《Convolutional Sequence to Sequence Learning》了。

在年初,关于Transformer/RNN/CNN的未来发展的讨论持续了好长一段时间,目前来看,Transformer取得了辉煌的成就,但是由于CNN的并行特性和在CV中广泛应用,在NLP中将CNN发扬光大也是众多NLP研究者的希望,同时多数情况下RNN总是我们最稳定的Baseline提供者,同时目前很大一部分工作仍旧是基于RNN的研究成果,非要给出一个结论,排个队,对我而言还是挺难的。

主要参考:

1.torch.nn