找回密码
 立即注册
  机器之心报道
  参与:蛋酱
  在深度学习技术的加持下,每一张平面图像都能转换为效果惊艳的3D图像?我突然有一个大胆的想法……
DSC0000.jpg

  相比于 2D 内容,能产生身临其境感的 3D 内容仿佛总是会更吸引人。
  自从 3D 电影诞生以来,人们从未停止过立体影像的追求。随着近年来 5G 技术的落地,VR 行业也将迎来新的突破,众多游戏玩家和电影观赏者也会因此获得更加新奇的视觉体验。但 VR 场景里 3D 内容的缺乏一直是行业内的一个痛点。
  以 3D 电影制作为例,在现阶段,每一部 3D 电影的后期制作都需要投入巨大的资金和人力成本,这些现实条件严重阻碍了 3D 内容的丰富发展。
  最近,来自爱奇艺的团队介绍了一种 3D 内容转换的 AI 模型,可通过深度学习技术将 2D 内容快速、批量、全自动地转制成 3D 内容。在减少 3D 内容制作成本的同时,为用户提供更多高质量的立体化影像。
  对于任何电影画面来说,都能够转化为 3D 场景:
DSC0001.gif

  也可以用来制作立体动态猫片:
DSC0002.gif

  这样的效果是如何实现的呢?
  模型框架解析
  想要把 2D 内容转换为「真假难辨」的 3D 内容,前提是要了解真实人眼的 3D 感知:「为什么在人眼中,世界是立体的?」
  对于 3D 介质来说,越是符合真实世界中人眼的 3D 感知,就会越受到用户的喜爱。因此在模型构建上必须符合真实世界的 3D 观感——双目视觉。
DSC0003.jpg

  图 1:双目相机成像与视差原理。
  如图 1 左所示,两个相机拍摄同一场景生成的图像会存在差异,这种差异叫「视差」。视差不能通过平移消除,一个物体离相机越近,视差偏移就越大,反之则越小。
  人的左右眼就如同图中的左右相机。在双眼分别获取对应图像后,通过大脑合成处理这种差异,从而获取真实世界的 3D 感知,视差与相机焦距和轴间距间的关系如通过图 1 右所示:
DSC0004.jpg

  以上为公式(1),其中 z 为物体距离相机的深度,x 为三维映射到二维的图像平面,f 为相机焦距,b 为两个相机间的距离轴间距,x_l 和 x_r 分别为物体在左右不同相机中成像的坐标,因此可知左右图对应像素 x_l 和 x_r 的视差。
  同时,考虑到转制的对象为 2D 介质,因此,通过单目深度估计合成新视点的算法原型诞生:通过公式 (1) 可知,假设有一个函数
DSC0005.jpg

  那么就有:
DSC0006.jpg

  公式(2)。
  通过公式(2)可知,只需要将 图 1 左 作为训练输入,图 1 右 作为参考,即可建立深度学习模型,通过大量双目图片对训练估计出函数。这样就可在已知相机参数 (,) 的前提下获取对应的深度值,完成单目深度估计的任务。
  通过公式(1)与公式(2)可以发现,深度与视差成反比,因此深度估计和视差估计的方法可以互用。
  在项目实践过程中,团队尝试了非常多的关于新视角生成的方案,包括经典的 Deep3D、基于生成网络、基于中间视差图等视角生成方案等等,最终确定了更便于引入 3D 电影数据的 Monodetph 无监督训练作为我们的 baseline 方案。
  在项目实践过程中,团队对比考虑了以下几种 3D 视觉生成方案,但每一种方法都会存在自身的缺陷:
  Junyuan Xie 等人提出的 Deep3D 虽然通过视差概率估计实现 2D 到 3D 介质的转换,但固定视差的设定,难以适应不同分辨率 2D 介质输入;Ravi Garg 等人 2016 年提出的方法没有充分利用双目信息作指导,景深不够细;Clement Godard 等人提出的 monodepth 在 Ravi Garg 等人的方法基础上,充分利用了双目信息进行对抗指导,学习到更多深度细节;Tinghui Zhou 等人提出的 SfmLearner 方法引入帧间时序信息,结构较复杂,运行速度慢。基于实现及适用性考虑,研究者最终确定了更便于引入 3D 电影数据的 Monodepth 为 Baseline,其框架结构如图 2 所示:
DSC0007.jpg

  图 2:monodepth 框架图。
  通过 图 2 框架可以看出,该框架在训练过程充分利用双目的有效信息作指导,同时测试过程也只需要单目图片进行输入,所以非常适合用于 2D 转 3D 技术的框架。
  各种问题的解决
  但在研发过程中,仍然存在一系列非常影响最终效果的问题,比如不同相机参数的模型预测、帧间抖动、物体边缘,以及背景存在模糊流动区域、物体空洞等,都是非常大的技术难题。
  爱奇艺团队也分享了他们在技术落地应用过程中,工程难题的解决方案:
  解决相机问题
  在 Baseline 模型的基础上,如果直接使用混合的 3D 电影数据集进行训练,模型将无法收敛或预测不稳定,一个最主要的问题是不同电影使用不同相机参数的摄像机进行拍摄,即使两个非常相似的电影场景,在不同的两部电影中也会有不同的景深分布,表现在模型训练中即为不同的视差值。
  与此同时,不同电影的后处理方式,以及会聚相机的引入,会进一步增加建模的难度。在分析相似案例的处理方法中,研究者发现可以通过引入条件变分自编码器(CVAE),在训练过程中把每一组训练集(左右视图)通过网络提取其相机参数等信息,并作为后验信息通过 AdaIN 的形式引入到单目(左视图)视差图预测中,同时参考《Toward Multimodal Image-to-Image Translation》中的「双轮训练」,保证了测试时随机采样相机参数分布的正确性。
  解决抖动问题
  在解决数据集问题后,进行连续帧预测时,研究者发现存在预测不稳定及抖动的问题。
  目前,在解决视频生成过程(尤其是连续帧深度图预测)抖动问题的方案中,最为常见的方案包含基于帧间 ConvLSTM 的 [7] 和 [8] 和基于光流的 [9] 和 [10]。
  其中,[8] 在不同尺度的编码和解码的过程中均加入 ConvLSTM,隐式的利用时间域上特征的相关性来稳定的预测深度图,而 [7] 则仅在网络输出的最后一层引入 ConvLSTM。
  引入 ConvLSTM 的方法虽然思路简单,但在 2D 转 3D 模型中却不适用,[8] 使用了较多的 ConvLSTM,使得训练较为复杂,不易收敛,[7] 由于电影分镜镜头种类多变,单一 ConvLSTM 预测时易累计误差,使得预测变差。
DSC0008.jpg

  图 3:vid2vid 结构图。
  研究者提出的 2D 转 3D 模型采用了类似于 [10] 的模型结构,如图 3 所示,将左侧上支路改为输入三帧左视图(t,t-1,t-2),左侧下支路改为输入前两帧预测视差图(t-1,t-2),右上支路为输出当前帧所预测的视差图,右下支路改为输出前一帧预测视差图到当前帧预测视差图的光流图(t-1→t)及其 valid mask 图,最终结合右侧上下两支路结果合成当前帧视差图。
  其中,在中间高维特征合并处引入上文提及的 CVAE 模块,用以引入后验相机参数信息。最终,在解决相机参数导致数据集问题的同时,模型能够得到稳定且连续的视差图输出。
  解决「空洞」填补问题
  新视角的生成会使部分原本被遮挡的区域在新视角中显露出来,这些信息仅从左视图中是无法获取的,即使通过前后帧的光流信息也很难还原,因此会形成一些空洞。
DSC0009.jpg

  图源:CVPR 2020 论文《3D Photography using Context-aware Layered Depth Inpainting》,地址:https://arxiv.org/pdf/2004.04727.pdf。
  在生成新视角的后处理过程中,研究人员参考了 ICCV 2019 的一篇图像修复论文中提到的模型框架设计,通过视差图来指导获取产生的「空洞」区域,通过图像修补技术解决新视角的「空洞」问题。
  3D 效果测评由于拍摄条件不同会导致 3D 效果不同,所以在 2D 转 3D 效果测评中,研究者用大量人力对预测的视差图和成片在 VR 中的 3D 效果进行综合性的评测。视差图估计如图 4:
DSC00010.jpg

  图 4:各种场景下的单目视差估计。
  上文所展示的 3D 海报就是这一技术的直接应用场景,比如下图这一张就是在 2D 海报的基础上加上其深度关系图,通过一系列的新视点渲染,即可得到一组动态的、人能感知的立体影像。
DSC00011.gif

  《复仇者联盟 4》3D 海报。
  此外,模型效果的评测也是难点之一。评价 3D 效果的呈现好与坏,很多时候是一个主观问题。在模型多次迭代的过程中,模型转制后影片收到效果评价并不统一,所以很难去衡量模型迭代该朝着哪个方向走。最终,经过长时间的探索以及与其他部门的磨合,团队从零搭建了一套详细且较为科学的 3D 影片效果评价体系,从更统计、科学的角度来评价模型效果,这在后期模型优化的过程起到了非常重要的指导作用。
  2D 转 3D 的未来想象
  目前,利用该技术转制的 3D 海报内容已经在部分用户的爱奇艺 APP 端进行灰度测试,随后将在各终端的 APP 中呈现。
DSC00012.gif

  3D 海报 Demo:《流浪地球》。
  除了 3D 海报的展示形式之外,爱奇艺 VR 频道也已经上线了《四海鲸骑》、《灵域》、《万古仙穹》等多部转制 3D 剧集。未来该模型也会应用在更多的内容上,让用户获得更好的观影体验。
  参考文献:
  [1]Xie J, Girshick R, Farhadi A. Deep3d: Fully automatic 2d-to-3d video conversionwith deep convolutional neural networks[C]//European Conference on ComputerVision. Springer, Cham, 2016: 842-857.
  [2]Garg R, BG V K, Carneiro G, et al. Unsupervised cnn for single view depthestimation: Geometry to the rescue[C]//European Conference on Computer Vision.Springer, Cham, 2016: 740-756.
  [3] Godard C, Mac Aodha O, Brostow G J. Unsupervisedmonocular depth estimation with left-right consistency[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. 2017: 270-279.
  [4] Zhou T, Brown M, Snavely N, et al. Unsupervised learningof depth and ego-motion from video[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2017: 1851-1858.
  [5] Huang X, Belongie S. Arbitrary style transfer inreal-time with adaptive instance normalization[C]//Proceedings of the IEEEInternational Conference on Computer Vision. 2017: 1501-1510.
  [6] Zhu J Y, Zhang R, Pathak D, et al. Toward multimodal image-to-imagetranslation[C]//Advances in neural information processing systems. 2017:465-476.
  [7] Zhang H, Shen C, Li Y, et al. Exploitingtemporal consistency for real-time video depth estimation[C]//Proceedings ofthe IEEE International Conference on Computer Vision. 2019: 1725-1734.
  [8] Tananaev D, Zhou H, Ummenhofer B, et al. TemporallyConsistent Depth Estimation in Videos with RecurrentArchitectures[C]//Proceedings of the European Conference on Computer Vision(ECCV). 2018: 0-0.
  [9] Lin J, Gan C, Han S. Tsm: Temporal shift module forefficient video understanding[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 7083-7093.
  [10] Wang T C, Liu M Y, Zhu J Y, et al. Video-to-videosynthesis[J]. arXiv preprint arXiv:1808.06601, 2018.
  [11]Yu J, Lin Z, Yang J, et al. Free-form imageinpainting with gated convolution[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 4471-4480.
  参考链接:https://mp.weixin.qq.com/s/CpK0b5buUvG_HqF3mGzUyg


分享至 : QQ空间
收藏

0 个回复

您需要登录后才可以回帖 登录 | 立即注册