Sitemap

技能文库

基于深度进修的视频帧内插技能

前面先容了应用空间几何联系的视图扩展(IBR),现议论怎样应用时域运动联系的视图扩展,俗称为视频内插或者视频帧率转换(frame rate up conversion,FRUC)。

深度进修,人工智能,自动驾驶

本文作家:黄浴(自动驾驶科学家/工程师)

前面先容了应用空间几何联系的视图扩展(IBR),现议论怎样应用时域运动联系的视图扩展,俗称为视频内插或者视频帧率转换(frame rate up conversion,FRUC)。这个题目的实质是运动估量和补偿/预测的运用,因为深度进修可以用于运动估量,故也可以看到其FRUC中的继续。

• Adaptive Convolution

视频帧插值一般涉及两个方法:运动估量和像素合成。该方法将这两个方法组合到一个进程中,即将内插帧的像素合成视为两个输入帧的部分卷积。卷积核捕捉输入帧之间的部分运动和像素合成的系数。它采用深度全卷积神经收集(FCN)来估量每个像素的空间自顺应卷积核。其教练可以是广泛可用的视频数据端到端举行,不需求任何难以取得的根底终究(GT)数据,如光流。

关于像素插值通过卷积完成的原理睹下图。 关于每个输出像素(x,y),估量卷积核K并与两个输入帧以(x,y)为中心的两个补丁P1和P2卷积发生插值图像I ˆ(x,y)。

 

 

下图进一步先容卷积做像素内插的原理。给定两个视频帧I1和I2,那么义务便是时域两个输入帧的中心插入新帧Iˆ。古板的插值方法分两步估量插值帧中像素Iˆ(x,y)的颜色:光流估量和像素插值,如图(a)所示。当光流因为遮挡、运动模糊和纹理缺乏而不牢靠时,这种两步法可以功用会受到影响。另外,对坐标举行舍入(rounding)取得I1(x1,y1)和I2(x2,y2)的颜色,很容易发生混叠(aliasing),而运用固定内核举行重采样也不行很好地保管尖利的边沿新闻。

而办理方法便是将运动估量和像素合成集成到一个方法,并将像素插值定义为输入图像I1和I2的部分卷积。如图(b)所示,通过相应输入图像中以(x,y)为中心的补丁P1(x,y)和P2(x,x)和恰当的核K卷积取得插值目标图像的像素(x,y)值。卷积核K捕捉像素合成的运动和重采样系数。

 

像素插值的卷积完成有少许优点:1)将运动估量和像素合成组合到一步供应了比两步顺序更妥当的办理方案;2)卷积内核供应理办理诸如遮挡等艰难状况的灵敏性,一种数据驱动的方法直接估量卷积核并为遮挡区域发生视觉上合理的插值结果;3)这种卷积公式可以无缝集成其他重采样技能,如边沿察觉(edge-aware)滤波法,以供应分明的插值结果。

• Super SloMo

这是一种用于可变长度众帧视频插值的端到端卷积神经收集(CNN)方法,此中联合修模运动估量和遮挡剖析进程。起首运用U-Net架构盘算图像之间的双向光流(bi-directional optical flow)。然后,每个时间步线性地组合这些光流以近似中心(intermediate)双向光流。然而,这些近似光流仅部分腻滑区域中很好地义务而且运动边境四周发生伪影(artifacts)。为此,采用另一个U-Net来改良近似光流并预测软可睹性图(soft visibility maps)。着末,两个输入图像被变形并线性方法交融变成每个中心帧。交融之前运用这种可睹性图于变形图像,好处是扫除了被遮挡像素对插入中心帧的奉献以避免伪像(artifacts)呈现。教练收集的数据是1,132个240-fps视频剪辑,包罗300K帧。

通通收集构造归结一下,如下图所示。关于光流盘算和光流插值CNN,采用U-Net架构。 U-Net是一个全卷积收集,由编码器息争码器构成,相同的空间区分率下,编码器息争码器之间有跳连接(skip connection)。这两个收集,编码器有6层,包罗两个卷积层和一个Leaky ReLU(α= 0.1)层。 除着末一层除外,每目标末尾,用步幅为2的平均池化层(averaging pooling)来减小空间维度。 解码器部分有5层,每层开端,双线性上采样层用于添加空间维度2倍,然后是两个卷积层和一个Leaky ReLU层。

• MEMC-Net

现有的基于进修的方法一般估量光流运动或运动补偿内核,从而限制了盘算服从和插值精度的功用。MEMC-Net是一种用于视频帧插值的运动估量和补偿(MEMC)驱动的神经收集。此中计划一种自顺应变形层(adaptive warping layer),以集成光流和内插核技能来合成目标图像帧。该层完备可微分,于是可以光流和内核估量收集可以联合优化。受益于运动估量和补偿方法的优点,该收集不运用人工计划(hand-crafted)的特征。下图是MEMC收集的比较。古板的MEMC方法包罗运动估量、运动补偿和后处理,如图(a)所示。另一方面,有两种基于神经收集的视频帧插值的代外性方法。一种简单的方法是序次组合上述三个模块,如图(b)所示。然而,因为不完美的光流估量,变形的帧(Iˆ t-1和Iˆ t + 1)一般质料较低。于是,横向核(lateral kernel)估量、核卷积和后处理不行基于变形帧取得好结果。比较之下,第三种算法同时估量相关于原始参考帧的光流和补偿内核,请求变形层内施行基于流和补偿内核的帧内插,如图(c)所示。

通通视频帧插值算法施行的义务如下:给定两个输入帧,起首区分通过运动估量和核估量收集估量光流和空域改造的插值核;然后,基于自顺应变形层内的光流和内核来变形输入帧;接下来,通过将变形的输入帧与进修的遮挡掩码混淆来生成中心帧;然后,将中心帧以及估量的内核、光流和掩码馈赠到后处理收集以生成最终输出帧。该收集模子称为MEMC-Net,架构示企图睹下图。

另外另有一个增强模子,后处理收集中运用上下文新闻取得更好的功用。把预教练的分类收集提取的上下文新闻和残差块举措卷积层的交换方案有帮于进步功用。增强型模子命名为MEMC-Net *。如下图显示了MEMC-Net和MEMC-Net *收集模子。此中虚线框是上下文提取模块(context extraction module )。此中光流估量用FlowNetS,核和掩码估量基于UNet,上下文提取模块基于ResNet18,然后处理基于众个卷积层的收集。

• IM-Net

IM-Net是一种运动插值神经收集。它运用经济的构造化架构和端到端的教练方式,以及定义的改正众标准耗损函数。 特别是,IM-Net将插值运动估量外示为分类而不是回归题目。

IM-Net是一个全卷积神经收集,用于估量插值运动矢量场(interpolated motion vector field,IMVF)和遮挡图。它不是逐像素而是逐图像块的版本。因为运动的分段腻滑性,这关于高区分率是合理的。然后,将估量的IMVF和遮挡图与输入帧一同转达给合成内插中心帧的经典视频帧内插(VFI)方法。

VFI域中广泛运用的架构挑选是编码器-解码器模块。如图所示,IM-Net收集架构由三品种型的模块构成:特征提取、编码器-解码器和估量。编码器-解码器子收集接纳从延续输入帧对中提取的特征。它们的输出兼并为高维外示,并转达给估量子收集。为了完成众标准处理,构制输入帧的三级金字塔图像外示。六个输入帧中的每一个(每个金字塔层是一对)由特征提取模块处理,每个输入发生25个特征通道。因为通通输入都颠末相同的层,而且这些层共享其参数,称为Siamese。

从每个金字塔层提取的特征举措输入转达给其编码器-解码器模块。用一个稍微差别的架构来计划每个编码器-解码器模块,以便通通解码器输出的大小为W/8 × H/8 × 50,此中图像帧大小是W x H。接下来,运用部分(逐像素)自顺应(进修过)权重来兼并三个解码器输出。为此,解码器输出被转达到级联的卷积层,叫∨是SoftMax层。然后,将兼并输出为三个解码器输出通道的加权平均值。

着末,兼并的输出被发送到三个并行的Estimation估量道径,每个道径由卷积层构成,并以SoftMax层完毕:前两个道径每个发生25个归一化权重(区分率W/8 × H/8)。这些权重区分与IMVF的水温和笔直分量估量相关联;第三条道径生成两个归一化权重(区分率照旧W/8 × H/8),与遮挡图的估量相关联。

• Depth-Aware Video Frame Interpolation

这是一种通过开掘深度新闻来明晰检测遮挡的视频帧插值方法。精细而言,它计划了一种深度察觉的光流投影层来合成中心光流,其优先采样那些更近的物体。另外,体系进修一种分层特征(hierarchical feature),能以从相邻像素中搜罗上下文新闻。然后,该模子基于光流和内插内核变形输入帧、深度图和上下文特征得以合成输出帧。如图是该方法的少许视频内插帧的例子,可以看到估量的光流、深度图、内插帧和根底终究(GT)帧。

 

给定两个输入帧I0(x)和I1(x),此中x∈[1,H]×[1,W]是图像2D空间坐标,H和W是图像的大小,而义务是时间t∈[0,1]处合成一个中心帧。深度察觉的帧内插方法需求光流来变形输入帧以合成中心帧。起首,估量双向光流,区分用F0→1和F1→0外示。为合成中心帧,有两种常睹的计谋:1)第一种计谋可以运用前向变形,基于F0→1变形I0而且基于F1→0变形I1,然而前向变形可以导致变形图像呈现“洞”;2)第二种计谋是先近似中心流,即Ft→0和Ft→1,然后运用后向变形对输入帧采样,而为了近似中心流量,可以从F0→1和F1→0 中的相同网格坐标借用光流矢量,或者会合通过同一位置的光流向量。该框架也采用了光流投影层(flow projection layer)计划来会合光流向量,同时思索深度序次来检测遮挡。

取得中心光流后,自顺应变形层(adaptive warping layer)内基于光流和插值内核对输入帧、上下文特征和深度图变形。着末,采用帧合成收集(frame synthesis network)来生成内插帧。

下图是深度察觉光流投影方法示企图。光流投影层通过 “反转” 时间t通过位置x的光流向量来近似给定位置x的中心光流。 假如流F0→1(y)时间t通过x,则可以将Ft→0(x)近似成-tF0→1(y)。相似地,我们将Ft→1(x)近似为–(1-t)F1→0(y)。以前的光流投影方法取得的平均光流向量可以不指向准确的目标或像素。相反,依据深度值重写光流可以生成指向更近像素的光流向量。如许,投影的光流向量

此中设D0是图像I0的深度图,而权重盘算如下

关于没有光流利过的位置,其变成的“洞”可以通过邻域的光流平均补偿,盘算为

所提出的深度察觉光流投影层完备可微分,如许教练时代可以联合优化光流和深度估量收集。 而通通帧内插模子的框架如图,模子包罗以下子模块:光流估量、深度估量、上下文提取、核估量和帧合成收集。深度察觉光流投影层取得中心流,然后变形输入帧、深度图和上下文特征。着末,通过残差进修帧合成收集生成输出帧。光流估量采用PWC-Net,深度估量采用沙漏模子,上下文特征提取采用预教练的ResNet,核估量和自顺应变形层基于U-Net,着末帧合成收集基于三个残差块,以增强合成帧的细节。

下图是上下文提取收集架构。

下图是深度察觉光流投影层的效果展现例子:DA-Scra模子无法进修任何有原理的深度新闻;DA-Pret模子从预教练模子初始化深度估量收集,并为帧插值生成分明的运动边境;DA-Opti模子进一步优化了深度图并生成更分明的边沿和样式。

下图是提取上下文特征的效果例子。与其他两个,即预教练卷积特征(PCF)和进修的卷积模子(LCF)比较,运用进修的分层特征(LHF)和深度图(D)举行帧合成,发生更分明和更分明的实质。

 
自动驾驶特级黄片深度进修