FaceShop:基于线条的人脸图像编辑

1.论文背景信息

论文原文:https://dl.acm.org/citation.cfm?id=3201393

来源:ACM Transactions on Graphics (TOG)

Volume 37 Issue 4, August 2018

Article Article No. 99 No. 99

期刊信息:ACM T GRAPHIC /ACM Transactions on Graphics 杂志属于工程技术行业,“计算机:软件工程”子行业的顶级杂志。该刊全部是论著,不接受综述类等文章。在该细分领域是一流期刊,但是国内学者关注度不够高。

作者:前四位作者来自瑞士的伯尔尼大学,分别是TIZIANO PORTENIER,QIYANG HU,ATTILA SAZABO,SIAVASH ARJOMAND BIGDELI,其研究兴趣方向主要在于计算机视觉、图像处理、深度学习等。

关键词:基于线条的交互、卷积神经网络、图像编辑

 

2.核心价值

可交互的图像编辑一直是计算机图形学和计算机视觉的重要领域。社交平台的发展促进了大量的图片数据的生成,这些图片需要大量的修改,然而现今却缺少能够提供简单操作来进行编辑图片的工具。

主要贡献:

1.提出了第一个端到端的系统,通过结合图像修补和转化技术能够进行内容上的连贯的、高质量的、清晰的的局部编辑。

2.提出了能通过线条来生成符合用户预期的图像,同时支持颜色上设置和智能的粘贴方式。

3.提出了基于线条(人直觉上的一种编辑方式)的交互接口,一个高效的、可迭代的工作方式。

基于线条的编辑方式及效果

 

3.论文主要内容

3.1研究背景

可交互的图像编辑一直是计算机图形学和计算机视觉的重要领域,从图像编辑范围上可以分为两个方向:全局和局部的编辑操作。

全局编辑(global editing):该方式细分又可以分为图像增强、重着色以及光线、风格上的转化。基于图像翻译研究的巨大成功,这些全局编辑而来的图片效果已经非常惊人。但是全局编辑的方法的缺点在于一是取决于输入图片的效果,二是无法做到局部的编辑。

局部编辑(local editing):该方式仅仅操作图像中的某一部分信息,例如从场景中移除或添加某个物体,改变某物体的形状或姿势。目前该方向上的图像修复(image completion)已经比较成功。

论文提出的系统结合了全局编辑中的图像翻译技术(Image translation)和局部编辑中的图像修复技术(Image completion),因此对这两个相关技术方向上的研究做了介绍。

图像修复(Image completion):自从深度学期崛起和2014提出的GAN以来,图像修复已经效果上佳,已经可以生成高分辨率的修复部分。2017年提出的一项研究工作能够在修复人脸眼睛部分控制眼睛的颜色。但是此前提出的这些研究都没能控制(或者更加具体地控制)修复的部分。

图像翻译(Image translation): 图像翻译在风格转化上表现优异,目前也出现了许多的研究工作致力于从某一领域到另一个领域的转化,例如线条-图像和语义分割图-图像。本论文的研究也是基于线条-图像的翻译过程。

3.2人脸编辑系统

系统界面及工作流程

本节主要介绍论文提出系统的框架,结构以及训练过程。

3.2.1训练数据

训练数据基于著名的人脸数据集celeA,是由多组图片组成,单组图片由单张人脸图片经过一系列操作的获得的衍生图片和这张人脸图片本身组成。其中通过单张人脸图片计算的信息有mask,sketch,color strokes。图片尺寸大小512×512,20000张用作训练,10000张用作测试。

人脸图片经过计算得到的数据

Mask:在人脸图像中随机生成一个矩形,进行随机的旋转,作为代修复的区域。

Sketch:从人脸图像的mask区域经过HED检测算法提取出来的线条,并且经过去除细小线条、柔和化操作来更加接近人的绘制线条效果。

Color strokes:模拟用户输入色彩信息,在mask区域随机生成该位置的颜色线条。

Noise:使得训练的模型具有更好的抗干扰性和更好的生成效果。

3.2.2模型构造

模型采用热门的GAN构造,分为生成器Conditional Completion Network和鉴别器Discriminator Network。

Conditional Completion Network:以3.1.1中的训练数据作为输入数据,生成修补完成的人脸图片。

Conditional Completion Network结构

Discriminator Network:分为两个网络,一个鉴别照片整体(Global)是否为真,一个鉴别填充区域(Local)是否为真,两个鉴别网络结合判断生成结果是否为真。

Discriminator Network结构

3.3系统效果

本节展示论文给出的一系列效果图,展现系统在人脸编辑上的性能表现

根据不同的线条生成不同的眼睛,随着线条的增多,控制效果更佳明显
可以选择mask的区域绘制相应的线条从而控制头发的遮掩和嘴唇的闭合
使用线条控制不同的结果,包括鼻子的形状、面部的表情、发型、眼睛的睁闭以及脸型
通过结合颜色线条的方式来控制眼睛、嘴唇的颜色
智能粘贴-通过粘贴部分图像来达到智能修改的效果
与lizuka提出的方法进行对比,对同一块区域的不同线条的编辑可以得到更加多样化的结果
和其他的Image Translation方法进行比对,将sketch转化生成的图片质量更佳

 

4.论文不足

个人觉得不足之处:

1.论文可以采用线条和颜色的方式来控制对应的生成,所以在训练模型的时候就先要造好线条、颜色对应的数据,并且对于这两种数据都采用了不同的方法来构建。如果此后想要添加其他的控制方式,也需要用另外的方式构建数据集。这就缺乏一种通用的方式来构建数据集使得能够应用更多的控制方式。

2.用线条来控制生成的通病就是生成结果对于线条有着较大的依赖性,当线条不合理或者仅仅符合人类的美学认知时,生成结果就会相当的诡异。如何在线条不合理的情况下加以判断使得其变得合理,从而在控制和合理之间达到一个平衡点,这是一个问题。

 

5.引用论文的评价

本篇论文最新的改进是以下这篇论文以及其公布了相应的代码,代码目前在github上已经获得了2500个Star(非常热门了):

SC-FEGAN: Face Editing Generative Adversarial Network with User’s Sketch and Color

论文代码地址

其提出了了faceshop的2个不足之处:1.faceshop使用了随机的旋转矩阵作为mask,这点就导致在鉴别阶段需要对图片进行resize,resize就意味着会丢失一部分信息,就会导致生成结果有着奇怪的边缘。2.faceshop在图像擦拭过多的情况下会产生非常unreasonable的结果。个人觉得这些不足从两篇论文的结果反馈来看并不是非常的明显。

6.启示

1.深度学习构建的系统仍旧依赖于数据集,对于有着celeA等庞大人脸数据集来说,编辑人脸可以实现,但是对于其他物品,可能缺乏这方面的数据集,是否可以做到在图像编辑上应用迁移学习或者是域适应?

2.编辑图像的方式有很多种,线条、颜色是基本的类型,在此基础上本论文是生成尽可能符合人类认知的合理的图像。这是基于人脸图像,如果对于创意绘画和一些其他的创意作品,是否可以生成更多的创意性结果来提供给创作者灵感?

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注