StyleGAN是NVIDIA去年發布的一個新的圖像生成方法,并于今年2月開源。
StyleGAN 生成的圖像非常逼真,它是一步一步地生成人工的圖像,從非常低的分辨率開始,一直到高分辨率(1024×1024)。通過分別地修改網絡中每個級別的輸入,它可以控制在該級別中所表示的視覺特征,從粗糙的特征(姿勢、面部形狀)到精細的細節(頭發顏色),而不會影響其它的級別。
StyleGAN生成的人臉
StyleGAN是目前最先進的高分辨率圖像合成方法,已被證明可以在各種數據集上可靠地工作。除了逼真的人像,StyleGAN還可以用于生成其他動物,汽車甚至房間。
然而,StyleGAN并不完美,最明顯的缺陷是生成的圖像有時包含斑點似的偽影(artifacts),而這一缺陷今天也被完美解決了!
今天,NVIDIA的研究人員發布了StyleGAN的升級版——StyleGAN2,重點修復artifacts問題,并進一步提高了生成圖像的質量。
StyleGAN2生成的圖像
主要改進包括:
生成的圖像質量明顯更好(FID分數更高、artifacts減少)
提出替代progressive growing的新方法,牙齒、眼睛等細節更完美
改善了Style-mixing
更平滑的插值(額外的正則化)
訓練速度更快
英偉達StyleGAN2
自動播放
undefined05:46undefinedundefined
英偉達StyleGAN2
重新設計StyleGAN圖像合成網絡
StyleGAN的顯著特點是其非常規的生成器架構。映射網絡 f 不僅將輸入的latent code z∈Z輸入到網絡的開頭,而且還先將它轉換成一個中間latent code w ∈ W。仿射變換(affine transforms)隨后產生樣式(styles),通過adaptive instance normalization(AdaIN)控制合成網絡 g 的層。
在本研究中,我們將所有的分析都集中在W上,因為從合成網絡的角度來看,W是相關的潛在空間。
許多人已經注意到StyleGAN生成的圖像中的特征偽影。本研究確定了這些偽影的兩個原因,并描述了如何通過改變架構和訓練方法消除它們。
圖1:Instance normalization會導致StyleGAN生成的圖像中出現斑點狀的偽影
首先,我們研究了常見的斑點狀artifacts的起源,并發現生成器創建它們是為了規避其架構中的設計缺陷。我們重新設計了生成器中使用的normalization,從而刪除了artifacts。
其次,我們分析了與progressive growing相關的artifacts,progressive growing在穩定高分辨率GAN訓練方面非常成功。我們提出了一種替代的設計,可以達到同樣的目的——訓練開始時集中在低分辨率的圖像上,然后逐步地將注意力轉移到越來越高的分辨率上——在訓練過程中不改變網絡拓撲結構。這種新的設計還允許我們對生成圖像的有效分辨率進行推理,其結果比預期的要低,從而激發我們可以設計更大容量的模型。
圖2:重新設計了StyleGAN圖像合成網絡
如圖2所示,(a)是原始的StyleGAN,其中A表示從W學習的仿射變換,產生了一個style;(b)展示了原始StyleGAN架構的細節。在這里,我們將AdaIN分解為先顯式歸一化再調制的模式,對每個特征圖的均值和標準差進行操作。我們還注釋了學習的權重(w)、偏差(b)和常量輸入(c),并重新繪制了灰色框,使每個框都激活一個style。激活函數(leaky ReLU)總是在添加偏置后立即應用。如(c)所示,我們對原始架構做了幾處改動,包括在開始時刪除了一些冗余操作,將b和B的添加移動到style的活動區域之外,并只調整每個feature map的標準差。(d)是修改后的架構,使我們能夠用“demodulation”操作代替 instance normalization,我們將demodulation操作應用于與每個卷積層相關的權重。
圖3:用demodulation替代instance normalization,可以去除圖像和激活中的特征偽影。
如圖3所示,重新設計的StyleGAN2架構消除了特征偽影,同時保留了完全的可控性。
對GAN生成的圖像質量進行定量分析仍然是一個具有挑戰性的課題。Frechet inception distance (FID)測量了InceptionV3分類器的高維特征空間中兩種分布密度的差異。Precision和Recall (P&R)通過明確量化生成的與訓練數據相似的圖像的百分比和可以生成的訓練數據的百分比,提供了額外的可見性。我們使用這些指標來量化StyleGAN2的改進。
表1 :主要結果
FID基本不受影響(表1,行A, B),但是有一個顯著的變化,從precision到FID有顯著的變化。
FID和P&R都基于分類器網絡,最近的研究表明,分類器網絡側重于紋理而不是形狀,因此,這些指標不能準確地代表圖像質量的所有方面。我們將感知路徑長度(PPL)指標作為一種估計潛在空間插值質量的方法,該指標與形狀的一致性和穩定性相關。在此基礎上,我們將合成網絡正則化,以支持平滑映射,并獲得明顯的質量改進。為了抵消計算開銷,我們還建議減小執行所有正則化的頻率,因為這樣做不會影響效率。
圖4
圖5
新方法替代Progressive growing,細節更完美
Progressive growing已被證明在穩定高分辨率圖像合成方面非常成功,但它會產生自己的特征偽影。
關鍵問題在于,漸進式增長的生成器在細節上似乎有很強的位置偏好,例如,當牙齒或眼睛等特征在圖像上平滑移動時,它們可能會停留在原來的位置,然后跳到下一個首選位置。
圖6顯示了一個相關的artifact。我們認為問題在于,在progressive growing 中,每個分辨率暫時充當輸出分辨率,迫使它產生最大的頻率細節,從而導致訓練后的網絡在中間層頻率過高,犧牲了平移不變性。
圖6:Progressive growing導致了 “phase” artifact。在這個例子中,牙齒沒有跟隨姿勢變化,臉轉向了一側,牙齒仍面向正前方,如藍線所示。
為了解決這些問題,我們提出一種替代的方法,在保留progressive growing優勢的同時消除了缺陷。
雖然StyleGAN在生成器(合成網絡)和鑒別器中使用簡單的前饋設計,但仍有大量工作致力于研究更好的網絡架構。特別是,skip connections [34, 22], 殘差網絡 [17, 16, 31]和分層方法 [7, 46, 47],這些方法已經被證明是非常成功的。因此,我們決定重新評估StyleGAN的網絡設計,并尋找一種能夠生成高質量圖像而不需要progressive growing的架構。
圖7:三種生成器(虛線上面)和鑒別器架構。
圖7a展示了MSG-GAN[22],它使用多個skip connections連接生成器和鑒別器的匹配分辨率。
在圖7b中,我們通過對不同分辨率對應的RGB輸出進行向上采樣和求和來簡化這種設計。在鑒別器中,我們同樣向鑒別器的每個分辨率塊提供下采樣圖像。我們在所有上采樣和下采樣操作中都使用了雙線性濾波。
在圖7c中,我們進一步修改了設計,以使用殘差連接。這種設計類似于LAPGAN[7]。
表2比較了三種生成器和鑒別器架構:用于StyleGAN、skip connections和殘差網絡的原始前饋網絡,它們都經過了訓練,但沒有采用progressive growing。
表2:沒有采用progressive growing的生成器和鑒別器結構的比較。
對于這9種組合,每一種都提供了FID和PPL結果。我們可以看到兩個大的趨勢:生成器的skip connections 大大改善了所有配置的PPL,而殘差鑒別器網絡顯然有利于FID。
StyleGAN2使用了一個skip generator和一個殘差鑒別器,但沒有使用progressive growing。這對應于表1中的配置E,從表中可以看出,切換到這種設置顯著地改進了FID和PPL。
最后,我們發現使用新的路徑長度正則化生成器將圖像投影到潛在空間W上的效果明顯優于原始StyleGAN。
關于我們| 聯系方式| 版權聲明| 供稿服務| 友情鏈接
咕嚕網 www.fyuntv.cn 版權所有,未經書面授權禁止使用
Copyright©2008-2020 By All Rights Reserved 豫ICP備20023378號-15 營業執照公示信息
聯系我們: 98 28 36 7@qq.com