Skip to content

Latest commit

 

History

History
56 lines (30 loc) · 2.05 KB

Review.md

File metadata and controls

56 lines (30 loc) · 2.05 KB

Review

有5篇是学习spatio-temporal特征的

  • Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification

    优点

    • 利用到了多尺度特征,并且保证了每个尺度的attention的差异性
    • 利用PCA思想保证了学习到channel feature之间的interaction

    改进点

    • 这个attention只针对了图像的静态信息,没有包含动作信息,应该对光流也进行attention操作后和spatial的结合起来
  • Spatiotemporal Multiplier Networks for Video Action Recognition

    优点

    • 考虑了空间特征和时间特征的结合

    改进点

    • 融合的方式很初级,只是加法或乘法操作,可以参考STCB算法的融合方式
  • Spatiotemporal Pyramid Network for Video Action Recognition

    优点

    • 利用Count Sketches映射实现的STCB算法实现了一种bilinear融合方式
    • 利用时间信息对空间信息进行了attention

    改进点

    • 只在CNN的最后面一层进行特征融合,可以在中间层进行特征融合
  • Action Recognition with Coarse-to-Fine Deep Feature Integration and Asynchronous Fusion

    优点

    • 通过coarse-to-fine网络进行层级训练的思想很好
    • 异步特征融合网络
  • 改进点

    • 这个异步还是太high-level,应该在CNN网络的scale-level进行特征融合
    • coarse-to-fine的类别是由一个预训练好的参数固定的网络A给出,就相当于是transfer-learning来学习如何提取特征,那么上限会被网络A的性能限制。

计划:

  • 设计一种在空间流和时间流提特征时中间层特征融合的方法,可以对多个scale进行soft attention或hard attention后融合。还需要考虑一下特征融合的方式。

  • 光流的10帧覆盖范围太小,可以在video level对多个时间戳的光流进行PCA或attention。

  • coarse-to-fine的思想很好,适合需要区分特征很相似的类别的情况。可以考虑针对三种粒度的动作集设计三个惩罚度不同的损失函数,分三阶段进行训练,先保证能分到正确的最粗粒度的动作集。