AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,未经许可不得转载。
在视频行为识别(action recognition)方向,目前最常见的网络框架有两类,一类是直接将视频作为输入的3D卷积网络,另一类即是将图像以及光流(optical flow)分别作为输入的two-stream网络。目前two-stream类的方法在效果上还是明显要优于3D卷积类的方法,本文主要讨论two-stream类方法中光流的应用。
虽然光流在two-stream类的方法里被广泛应用并且具有很好的效果,但这里存在一个问题,就是光流在行为识别模型中到底起到了什么作用,它本身的语义信息到底是什么?通常我们认为光流代表了视频的motion信息,然后直接就将其当作一个黑盒子作为了网络的输入。近期,arXiv上放出的「On the Integration of Optical Flow and Action Recognition」(https://arxiv.org/abs/1712.08416)一文对光流在行为识别中的作用进行了深入的研究,探讨了为什么光流在行为识别中是有效的,在行为识别中怎么样的光流才是好的以及我们应该如何改进光流。这篇文章的结论可以说是有点反直觉的,此处先放出这篇文章的几个结论,再分别进行介绍(以第一部分为主)。