Spatiotemporal Multiplier Networks for Video Action Recognition

这篇文章主要是探讨了2-stream方式的空间特征和时间特征的融合方式。借鉴了Resnet的思想。一个stream是2D CNN作用到RGB图像上，一个stream是光流特征。在两个stream之间加入了一些连接达到了交互的效果。

原始的2stream方式是在softmax预测时进行融合，这个文章尝试了几种在中间层进行交互的方式。有加法连接与乘法连接，单向连接及双向连接。经过试验得知乘法连接效果最好，可能是因为惩罚对信息的形象比较大，这样就能更有效地捕捉到信息。示意图如下。

由于每个光流片段的范围太小，只包含了10帧左右，所以之后还利用了1D temporal 卷积，以及以identity matrix初始化的特征空间转换矩阵，学习了整个视频的global temporal特征，W作为temporal filter,进行特征空间转化，由于对网络路径的变化比较大时会影响预训练的模型，所以初始化为identity matrix，可以加在任何地方。

总结：

这篇文章探索了两个stream特征在中间层的交互方式。但是他的连接方式是同步的，训练时要两个stream一起训练，增加了训练复杂度，而且同层连接可能不太合适，appearance stream与temporal stream可能是不同层的特征才有很好的对应关系。

不太理解1维卷积中加上W作为temporal filter的作用。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Spatiotemporal Multiplier Networks.md

Spatiotemporal Multiplier Networks.md

Spatiotemporal Multiplier Networks for Video Action Recognition

Files

Spatiotemporal Multiplier Networks.md

Latest commit

History

Spatiotemporal Multiplier Networks.md

File metadata and controls

Spatiotemporal Multiplier Networks for Video Action Recognition