有5篇是学习spatio-temporal特征的

Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification

优点
- 利用到了多尺度特征，并且保证了每个尺度的attention的差异性
- 利用PCA思想保证了学习到channel feature之间的interaction
改进点
- 这个attention只针对了图像的静态信息，没有包含动作信息，应该对光流也进行attention操作后和spatial的结合起来
Spatiotemporal Multiplier Networks for Video Action Recognition

优点
- 考虑了空间特征和时间特征的结合
改进点
- 融合的方式很初级，只是加法或乘法操作，可以参考STCB算法的融合方式
Spatiotemporal Pyramid Network for Video Action Recognition

优点
- 利用Count Sketches映射实现的STCB算法实现了一种bilinear融合方式
- 利用时间信息对空间信息进行了attention
改进点
- 只在CNN的最后面一层进行特征融合，可以在中间层进行特征融合
Action Recognition with Coarse-to-Fine Deep Feature Integration and Asynchronous Fusion

优点
- 通过coarse-to-fine网络进行层级训练的思想很好
- 异步特征融合网络
改进点
- 这个异步还是太high-level，应该在CNN网络的scale-level进行特征融合
- coarse-to-fine的类别是由一个预训练好的参数固定的网络A给出，就相当于是transfer-learning来学习如何提取特征，那么上限会被网络A的性能限制。

计划：

设计一种在空间流和时间流提特征时中间层特征融合的方法，可以对多个scale进行soft attention或hard attention后融合。还需要考虑一下特征融合的方式。
光流的10帧覆盖范围太小，可以在video level对多个时间戳的光流进行PCA或attention。
coarse-to-fine的思想很好，适合需要区分特征很相似的类别的情况。可以考虑针对三种粒度的动作集设计三个惩罚度不同的损失函数，分三阶段进行训练，先保证能分到正确的最粗粒度的动作集。

Provide feedback

Saved searches