基于Multi-Content GAN 的字体风格迁移

宋凯莉21821013

1.论文背景信息

论文原文:Multi-Content GAN for Few-Shot Font Style Transfer

来源:CVPR2018

作者:Samaneh Azadi1∗, Matthew Fisher2, Vladimir Kim2, Zhaowen Wang2, Eli Shechtman2, Trevor Darrell1

作者简介:

第一作者:Samaneh Azadi1∗,加州大学伯克利分校的博士候选人,师从Trevor Darrell教授。对组成和结构生成对抗建模以及开发用于学习各种视觉域的代表性分布的算法特别感兴趣。曾在加州大学伯克利分校的Pieter Abbeel教授Suvrit Sra担任访问研究员,并获得了学士学位。来自伊朗设拉子设拉子大学电气与计算机工程学院。主要研究兴趣是:计算机视觉,机器学习,深度学习,优化,人工智能,机器人和自动化,智能系统。

第二作者:Matthew Fisher

Matthew Fisher的研究重点是将机器学习应用于复杂任务的自动化,比如3D场景设计、视频游戏和图像+视频编辑。他的博士学位是在斯坦福大学的Pat Hanrahan教授手下,他的本科是在加州理工学院的Mathieu Desbrun和Peter Schroeder教授手下,现任职于Adobe Research。

论文关键词:字形,风格迁移,GAN,深度学习

2.核心价值

文字是二维设计中的一种突出视觉艺术。为了设计出在 元素形状、纹理等方面都能与图片融为一体的字形,设计师 们往往要耗费大量时间,而且是个过程是劳动密集型的—— 他们只设计标题和注释所需的字词,一旦设计完成,将不能 轻易更改文本,其他人也无法直接把已有的字体样本用于合理用途。伯克利的BAIR实验室和Adobe发布了这篇新论文,介绍了一个可以生成多种风格字符的GAN,解决了这个问题。

本文的创新点及主要贡献有三点:

(1)论文将字体风格迁移的工作分为两个阶段逐个击破,首先生成字体,其次添加颜色和修饰。

(2)论文利用字母之间相互的联系, 只用少量字母就能将风格迁移到所有字母 (3)论文证实了我们可以有效地利用GANs来解决多内容风格的迁移问题。

3.论文主要内容

3.1 相关工作总结

由少数几个例子合成字体字形一直是一个长期研究的问题。早期的方法大多依赖于显式的形状建模来构造现有字形与新字形之间的转换。针对汉字的特点,设计了汉字字形部分模型。基于形状表示,机器学习技术,包括统计模型和双线性因子分解,已被用来推断和转移笔划风格和组成规则。近年来,随着深度学习的兴起,卷积神经网络也被应用于新的字形合成。传统的模型结构和生成式对抗网络(GANs)都得到了很好的结果。所有这些网络都只能预测字形,这也是我们的字形网络的目标。在我们的字形网络中,我们采用了一种独特的多内容表示,这证明可以有效地捕捉多个字形之间的共同风格。

将艺术风格的色彩和纹理转化为新的象形文字是一个具有挑战性的问题,不同于推断整体象形文字的形状。S. Yang, J. Liu, Z. Lian, and Z. Guo 曾研究了这一问题,给出了非程式化字形的假设。采用基于块的纹理合成算法,将子效果模式映射到文本骨架上的相关位置,生成效果。在卷积神经网络(CNNs)的帮助下,对一般图像的样式转移进行了更为深入的研究。CNN特征被成功地用于表示图像样式,并作为优化的基础。近年来,采用前馈结构和对抗性损失训练的网络取得了很大的效率提高和泛化能力。我们提出的装饰网络是第一个使用深层网络进行文本效果传输的网络。我们的装饰物网络学习传输纹理,类似于深度图像先验方法,其中运行的初始化生成器(而不是大型训练集)的结构捕获了转换中的基本先验知识。

3.2 网络结构

本文的模型建立在许多已有的工作基础之上。先从宏观 角度来看,Multi-Content GAN由两个cGAN模型堆叠而成,其中一个cGAN负责预测粗略的字形形状,一个负责预测字符最终的颜色和纹理。第一个称为GlyphNet的网络预测了字形蒙版,而第二个网络称为OrnaNet,用于对来自第一个网络的生成的字形进行着色和装饰。每个子网络都遵循cGAN的体系架构,部分架构会因修饰字形、着色预测等特定目的被调整。

3.3 字体数据集

论文收集了一个数据集,包括10K个灰度拉丁字体,每个都有26个大写字母。作者通过在每个字形周围找到一个包围框来处理数据集,并调整其大小,使较大的维度达到64像素,然后pad创建64×64字形。

为了创建装饰字体的基线数据集,作者应用了随机颜色梯度,并在灰度字形上勾勒出一个20K的颜色字体数据集。这个数据集的大小可以通过生成更多的随机颜色来增加。

3.4结果和评估

下面是实验的输入单个单词生成字体风格的案例。

本文以 Image to Image Translation Network 为 baseline,做了几个小实验:

1.Ablation Study(控制变量实验),通过是否预训练模型,去除某些模块的 loss 来体验网络各个部分对整体字体效果做出的贡献。

2.A-Z 不同字体之间的关系,Structural Similarity 是 一种测量字体相似程度的标准,我们可以通过大量的 test 画 出已知 A 字体,预测出的 B 字体和真实 B 字体之间的 Structural Similarity的分布,由此我们可以定性地分析出各 个字符对于任意字符预测的信息贡献量。

3.研究关于输入字符的数量对于 GlyphNet 预测质量的 影响,发现当输入字符为 6 时,Structural Similarity的分布 已经趋于稳定。

4.主观评价:由于 task 特殊无法定量的用 metric 去衡 量,找了 11 个人在 MC- GAN 和 Patch Synthesis Model 产生的结果之间做选择,80% 胜出。

5.论文不足

(1)实验只包括了 26 个大写字母,仅就西文字母而言,实际使用中我们还需要数字和小写字母。

(2)生成的质量和 Patch Synthesis Model相比有很大提高,但和真实数据比起来仍有差距。

6.引用论文的评价

论文《Learning from Multi-domain Artistic Images for Arbitrary Style Transfer》引用了该论文,认为Multi-Content GAN成功地培训了从一个图像域到另一个图像域的转换网络。但是它无法处理多域输入和输出图像,很难生成方差较大的图像,应考虑采用有条件的生成器和鉴别器处理多域输入和用于任意样式传输的输出。

7.启示

本文的工作让我们惊喜的发现,我们可以利用GANs来有效地解决多内容风格转移问题。实际使用中我们对字体的分辨率要求极高,可以考虑在Multi-Content GAN后再堆叠一个GAN,同步输出平滑的矢量图形。

8.多视角思考

1.虽然文章着眼于平面设计中艺术字的风格迁移,但是我们可以把第一个网络单独拿出来生成手写字体,这项工作也是值得研究的。

2.Multi-Content GAN同样也可用于修改特定的人脸(样式),使其具有特定的表情(内容),对形状(如表情符号)进行一致的风格化,或将材料转移到一致的对象集(如衣服或家具)。

 

3B_Note_Multi-Content-GAN

3B_Paper_Multi-Content_GAN_for_CVPR_2018_paper

3B_Poster_MC-GAN

3A_On the role of computational support for designers in action

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注