第二次-21821028-李凯洲

1.论文背景信息

论文原文:Structure Preserving Video Prediction-原文  

文献精读PPT:Structure Preserving Video Prediction-李凯洲 (2)

来源:CVPR2018

作者:徐经纬、倪冰冰(导师)

作者简介:倪冰冰,上海交通大学电子系特别研究员/长聘教轨副教授,博士生导师。主要研究方向为计算机视觉、机器学习与多媒体计算,专长人脸识别,视频理解,智能互动创意媒体生成,以及智能医疗。发表论文100余篇,其中IEEE T-PAMI、IJCV等顶级期刊论文30余篇。CVPR、ICCV等国际顶尖计算机视觉会议论文40余篇。所发表论文的Google Scholar引用次数为2900余次,H-因子27,SCI他引500余次。2018年被主流科技媒体评选为国际上最有影响力的100位华人人工智能学者之一。

论文关键词:Video Prediction、Structure Preserve、Convolutional LSTM。

2.核心价值

本文的创新点与主要为提出了一种新型的视频预测算法,有效地同时处理了视频预测过程中出现的动态结构失真和静态结构失真,提高了视频预测的准确度和质量。作者创新性地提出了在视频预测中将输入视频的高频信号提取出来,与整个视频分别进行编解码以及预测,从而保留了丰富的细节信息;并且在预测器的设计中采用了时间自适应卷积的递归神经网络,将深度学习的算法应用于视频预测结构之中,通过训练提高了视频预测的准确度。

3.总体框架

文章的整体框架如下:

4.1背景介绍:视频预测及其现有问题

视频预测指的是给定一系列上下文帧以及可选的建议动作序列,生成未来帧的原始像素。如以下动图gif所示:

其中,绿框为输入的视频图像,红框为算法预测的输出视频图像。需要指出的是视频预测生成的往往不涉及具体的细节纹理,而是关注动作行为的预测,因此图像往往会有一定程度的失真。这些失真可以通过可以通过其他视频技术解决。
目前视频预测仍存在两大问题:
1.静态结构损失(Static Structure Loss).该问题主要源于预测具有固定结构的这些场景,例如城市景观中的交通标志,树木等。 而这些静态结构的运动通常是由相机的运动引起的。 现有方法通常不能保持原始对象结构,例如丰富的边界细节。
2.动态结构损失(Dynamic Structure Loss).当预测细粒度的局部运动(例如关节运动)时,通常会产生无法准确预测细节的问题。

4.2算法模型

基于以上两个问题,作者提出了一种结构保持的视频预测算法(Structure preserving video prediction net),该算法的框架如下:

算法包括两部分:
1. 多频率分析部分(multi-frequency analysis component):主要是通过高频滤波器,提取出视频的高频部分,利用多频率的预测器,对视频的不同频率部分分别进行处理。
2. 时间自适应卷积部分(temporal-adaptive convolution component):该部分是嵌入在预测器中的卷积核。
这两部分内容集成在了基于视频生成架构(video generation Architecture)的递归神经网络之中。

算法的模型如下:

下面对算法各部分进行说明:

4.2.1.编码模块Encoder module

  • 输入:两个不同的频率域作为原始输入
  • 两个编码器都有三层卷积层并且每一层后面接一个神经网络激活函数leakyReLU* layer (leaky rate 是0.1) 作为激活函数,由leakyReLU层给所有负值赋予一个非零斜率。

*leakyReLU层详情参考论文(或post后面的“扩展知识”部分): K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, December 7- 13, 2015, pages 1026–1034, 2015

4.2.2 预测模块 Prediction module

  • 输入:编码器的N步输出
  • 使用了Seq to seq architecture for prediction(序列到序列的深度学习算法)
  • 该模块包括 Temporal adaptive prediction module(时间自适应预测模块) 来处理动态结构损失; Temporal fusion scheme(时域融合方案)来处理静态结构损失。

4.2.2.1 时间自适应预测模块Temporal adaptive prediction module

  • 该模块基于ConvLSTM* (Long Short-Term Memory)
  • 与卷积化的长短期记忆算法不同的点在于以下几个参数的计算方式:

* ConvLSTM详情参考论文(或post后面的“扩展知识”部分):X. SHI, Z. Chen, H. Wang, D.-Y. Yeung, W.-k. Wong, and W.-c. WOO. Convolutional lstm network: A machine learning approach for precipitation nowcasting. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 28, pages 802–810. Curran Associates, Inc., 2015.

  • 动态的卷积核集合(Dynamic kernel set)的计算方式如下(具体细节可以参考文章和以下图片,就不详细介绍了):

4.2.2.2  时间融合方案 Temporal fusion scheme

  • 选择前4个时间步的隐藏状态通过融合子模块,然后进入下一个时间步以进行预测。
  • 目的是提供更有效的时间信息共享机制,促进视频预测的准确度

4.2.3. 解码模块

  • 输入:预测模块的输出
  • 利用高频信息来细化模糊输出.
  • 将双分支编码器和解码器模块一起训练以最小化回归损失.
  • 三层 transpose convolution layers(转置卷积层) ,并且每一层后面接一层ReLU* layer

* X. Glorot, A. Bordes, and Y. Bengio. Deep sparse rectifier neural networks. In Proceedings of the Fourteenth Inter-national Conference on Artificial Intelligence and Statistics, AISTATS 2011, Fort Lauderdale, USA, April 11-13, 2011, pages 315–323, 2011.

4.3 训练流程

训练流程分为两阶段,如下图所示:

4.4 实验方法

  • 数据集:UCF-101 Datasets(athletes practicing actions),Human3.6M Datasets(human daily actions),CityScape Datasets(city space).
  • 评估模型: MCNet [38], CDNA [9] and Nev et al. [29].
  • 方法:在前10帧作为输入的情况下执行10个时间步前向预测。 然后演示十五个预测结果,以验证这些模型的泛化能力。

4.5 实验结果

实验结果将从定性和定量两个方面进行评估,并且作者做了消融研究以及预测过去行为,进一步探究算法的稳定性和有效性。

4.5.1 定量评估

定量评估的评估指标主要包括以下两项: PSNR(Peak Signal to Noise Ratio,峰值信噪比) and SSIM(structural similarity index,结构相似性)。其中,峰值信噪比为最大值信号和背景噪音之间的比率;结构相似性为一种衡量两幅图像相似度的指标。

评估结果如下图所示,可以看到橙色的曲线为作者提出的算法,在细节保留和行为预测方面,比起其他的算法都具有较好的效果。

4.5.2 定性评估

定性评估主要是考察生成的预测视频的质量,查看是否存在动态结构失真和静态结构失真的问题。这里仍然需要强调一遍,那就是是视频预测生成的往往不涉及具体的细节纹理,而是关注动作行为的预测,因此图像往往会有一定程度的失真。这些失真可以通过可以通过其他视频技术解决。

定性评估的结果如下:

可以看到,本文提出的算法在A图中有效地捕捉并预测了举重过程中的关节变化,而在B图中识别出了城市景观的路灯并予以保留,在处理动态结构损失和静态结构失真方面都取得了不错的表现。

4.5.3 消融研究

Ablation study: 消融研究,指通过移除某个模型或者算法的某些特征,来观察这些特征对模型效果的影响。结果如下图所示:

可以看到:

  • Two-branch frameworkTwo-B能够对静态结构进行短期预测,但未能在长期预测中产生良好的效果。 因此它更适合时间自适应的性质.
  • ConvLSTM模型在预测期间无法捕获细长的交通标志,但可以预测交通标志的长期变化.

4.6 结论

  • 本文章提出了一种保留视频预测框架的算法结构,以明确解决当前视频预测的问题并提高视频预测质量。
  • 一方面,该框架包含双流生成架构,在两个单独的流中处理高频视频内容(即,详细对象或关节运动结构)和低频视频内容(即,位置或移动方向)。
  • 另一方面,提出了一种用于视频预测的RNN结构其采用时间自适应卷积核来捕获时变运动模式以及场景内的微小对象。
  • 作者进行了人类运动到语义布局预测的各种场景的广泛实验,证明了所提出的视频预测方法的有效性。

5.论文不足

论文提出了一种新的视频预测算法,但是仍然存在以下的不足:

1.算法对静态结构的物体识别仍然缺乏精度,在处理静态结构失真时仍然存在较大的问题。如城市景观中的路灯,虽然能够识别并进行一定程度的保留,但是边缘部分仍然被认为是运动物体没有很好地保留;

2.视频图像失真较为严重,尽管动作状态得到了保留,但是人物的形象出现了较为严重的失真,尽管这不是视频预测所着重解决的内容,但是如果应用到实际场景中,仍然需要综合考虑这些因素。

6.引用的论文的评价

由于发表时间较短。这篇文章目前共有5篇文章进行了引用,但是没有对该文进行评价,往往是作为背景或是综述引用了该文章的研究成果。但是可以看出该篇文章作为视频预测文章中的代表,得到了同行的一定认可,且提出的算法具有创新性。内容分别如下:

6.1 Machine Learning for Spatiotemporal Sequence Forecasting: A Survey

实验表明,将运动和内容分别进行处理有助于提高性能。 这种架构已被该论文用于提高预测性能。

6.2 Motion Selective Prediction for Video Frame Synthesis

本文展示了最近对于条件性视频预测研究的关注。

6.3 Video Forecasting with Forward-Backward-Net: Delving Deeper into Spatiotemporal Consistency

目前未发表

6.4 Eidetic 3D LSTM: A Model for Video Prediction and Beyond

近年来,RNN已广泛用于序列预测和未来帧预测。本文提出了一个双流RNN,用于处理不同流中的结构视频内容。

6.5 A review of digital video tampering: From simple editing to full synthesis

作者使用双流结构和RNN来执行帧预测。

7.知识扩展

7.1 激活函数

“激活函数”能分成两类——“饱和激活函数”和“非饱和激活函数”。ReLU及其变体则是“非饱和激活函数”,能解决“梯度消失”问题以及加快收敛速度。其中,ReLU函数代表的的是“修正线性单元”,它是带有卷积图像的输入x的最大函数(x,o)。ReLU函数将矩阵x内所有负值都设为零,其余的值不变;而Leaky ReLU是给所有负值赋予一个非零斜率。

在本文中,作者分别使用了以上两种函数作为激活函数。

7.2 面向回复生成的Seq2Seq模型

Sequence to sequence是一种建模两个序列间关系的通用深度学习模型,常应用到多种序列化的自然语言处理任务中,如问答系统,机器翻译等。

一个标准的Sequence to sequence 模型通常由两部分组成:Encoder和Decoder。Encoder部分负责依次读入输入序列的每个单位,将其编码成一个模型的中间表示(一般为一个向量);Decoder部分负责在给定上下文向量c的情况下预测出输出序列。在自然语言处理应用中,Encoder和Decoder部分通常选择用Recurrent Neural Network(RNN)来实现。

8.多视角思考

作者在该篇文章中创新性地提出了将输入视频中的高频信号单独进行提取以及处理。从而使得丰富的细节信息得以保留。这种对高频信息和低频信息的处理之前较多地用于图像的处理,作者用于视频处理中,的确带给了大家新的思考。

并且作者在研究中结合了当前研究较为成熟的深度学习算法,提高了视频预测的准确度。因此研究需要结合当前比较热门以及比较好的算法,从而提高研究的质量。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注