*Noise2Noise とは
NVIDIAの研究者らが開発した画像のノイズ除去のための機械学習の手法です[1].主な特徴は,学習時に正解データ(つまりノイズなしの画像)を利用しない点です.そして,それにもかかわらず正解データを使う学習手法と比べて遜色ない高い性能が得られたことが報告されています.
[youtube:pp7HdI0-MIo]
{{small:[1]J.Lehtinen, J.Munkberg, J.Hasselgren, S.Laine, T.Karras, M.Aittala, T.Aila, "Noise2Noise: Learning Image Restoration without Clean Data", International Conference on Machine Learning(ICML), 2018 (under review)}}
{{small:arXiv:[link:https://arxiv.org/abs/1803.04189] }}
一般的にノイズ除去を行うネットワークの学習は,ノイズありの信号とクリーンな信号を入出力のペアとして学習させます.一方,論文[1]に示されるアプローチは,ノイズを含む信号を2つ用意して、それをペアとして学習させます.図1は両方式の模式図です.
[img:kq3s]
{{small:図1:一般的な学習方法(Noise2Clean)と論文[1]の学習方法(Noise2Noise)の比較}}
論文[1]では,想定するノイズが所定の条件であれば,ターゲットとするデータにノイズが含まれていても学習が可能であると示されています.ノイズありのデータで学習が済ませられれば,用途によってはデータ収集のコストを抑えられる可能性がありそうです.特に,元々ノイズのないデータの取得が難しい条件(MRIなど)では有効性が高い と紹介されています.
*論文の翻訳
{{small:ある程度は意訳しています.その点お含みおきください.また間違い等,お気づきの点がございましたらご指摘ください.}}
**Abstract
基礎的な統計学の理論を機械学習による信号復元に適応した.ここでは,ノイズのある信号をクリーンな信号に変換するような学習を考える.
with a simple and powerful conclusion : ある一般的な条件では,クリーンな信号を用いることなく信号復元のための学習が可能である.そして,その効果はクリーンな信号を使った学習手法に匹敵する.
写真のノイズ除去,モンテカルロ法により生成した画像のデノイズ,少ないサンプルから得たMRIスキャンの再構成,その全てにおいて応用可能であることを示す.
**1.Introduction
ノイズや不完全な部分のある観測値から信号復元を行うということは,統計理論におけるデータ解析の重要な領域である.
近年,ディープニューラルネットワークの研究では、伝統的で明示的なノイズの統計的モデリングは避け、ノイズありの観測値を観測されていないクリーンなものにマッピングする学習に大きな関心が集まっている.
これは,回帰モデルの学習によって実現できる.例えば,CNNに,ノイズありの入力{$\hat{x}_i$}と,ターゲットとなるクリーンな出力{$y_i$}をペア{$(\hat{x}_i, y_i)$} として与え,次の経験損失の式を最小化させる.
{$$ {\rm argmin}_{\theta} \sum_ {i} L(f_{\theta}(\hat{x}), y_i) \tag{1}$$}
ここで,{$f_{\theta}$}は,損失関数{$L$}の条件における変換のパラメータ(例:CNNの重みのパラメータ)である.
なお,{$\hat{x}_i$}について,ノイズのある入力{$\hat{x}~p(\hat{x}| y_i)$} は,クリーンなターゲットを基準にしたランダムな分布であることを強調しておく.
学習データは,短時間/長時間露光の画像,完全/不完全なk空間のMRIのデータ,fast-but-noisy /slow-but-converged なモンテカルロ法により生成した画像,などを含む.
{{red:(つまり,学習に使用されるデータとして、ノイズありのデータも想定されうる ということ)}}
いくつかの応用では,すでに大きな進歩が報告されている.例えば,ガウシアンデノイズ,de-JPEG,テキストの除去(Mao et al., 2016),趙解像(Ledig et al., 2017),colorization(Zhang et al., 2016), そしてインペイント(Iizuka et al., 2017)など.
しかし,クリーンなターゲットを得るのは,しばしば難しく或いは面倒である.ノイズなしの画像を得るには長時間露光が必要になるし,MRIのフルサンプリングは動きのある対象を除く必要がある.
そこで,本取り組みでは,ある一般的な条件下で,
{{italic:クリーンな信号は利用せずノイズありの信号だけから学習を可能にする}}.
そして,クリーンな信号を利用した学習手法と比べほぼ同等であることを示す.
後で説明するが,我々の結論は,統計学的には取るに足らない考えではある.しかし実践的には,クリーンなデータが必要となる要件を引き上げることで,信号復元の学習を大幅に容易にさせる.
**2.Theoretical background
部屋の温度として,信頼度の低い計測値{$(y_1,y_2,...)$}が得られたとする.未知となる真値の温度を知る一般的な方法は,計測値との分散の平均が最も小さくなる{$z$}を見つける方法である.式は次のような損失関数{$L$}を使う.
{$$ {\rm argmin}_z {\bf E}_y \{ L(z, y) \} \tag{2}$$}
ロスを{$L_2$},{$L(z,y) = (z - y)^2 $}とすると,式(2)の最小化は観測値の平均により算出できる.
{$$ z = {\bf E}_y \{ y \} \tag{3}$$}
また,ロスを{$L_1$},つまり差の絶対値の和を{$L(z,y) = |z - y| $}とすると,式(2)の最小化は観測値の中央値により算出できる.一般的なクラスの分散の最小化は,M推定として知られている.統計的観点では,これらの一般的な損失関数を使う方法は,損失関数を負の対数尤度として最尤推定とみなすことができる.
回帰のニューラルネットワークの学習は,この度は類の推定方法の一般化したものです.まず,入力出力のペア{$(x_i, y_i)$}のセットを使った,典型的な学習タスクを見る.ここで,ネットワークの関数{$f_\theta (x)$}は{$\theta$}でパラメータ化されている.
{$$ {\rm argmin}_{\theta}{\bf E}_{(x,y)} \{ L(f_\theta (x), y) \} \tag{4}$$}
実際に,入力データとの依存関係を除いて小さな{$f_\theta$}を使うと,単に1つのスカラーの学習となり,式(2)のレベルに下がる.一方,フルの学習は,全ての学習サンプルにおける同様の最小化問題に分解できる.シンプルな操作で,式(4)は次の式と同じであると示せる.
{$$ {\rm argmin}_{\theta}{\bf E}_{y} \{ {\bf E}_{y|x} \{ L(f_\theta (x), y) \} \} \tag{5}$$}
理論上,ネットワークは,各入力サンプルについてそれぞれ点推定の問題を解くことで損失を最小化する.そして下にあるロスの特性は,ネットワークの学習によって継承される.{{red:(おそらく,学習の過程で順番にサンプルを選んでロスを計算するが,そのロスの影響は継承されて最終的に式(5)を計算しているのと同じである ということだと思われる)}}
有限個の入出力のペアと式(1)による一般的な回帰問題の学習は,微妙な点が隠れている.その学習プロセスによって1:1の入出力のマッピングが得られるわけだが,実際にはマッピングは複数の値を取りうる.
例えば,超解像のタスク(Ledig et al., 2017)では,全ての画像について,低解像{$x$}は,多くの異なる高解像度画像によって説明できる.(低解像の画像では)正確なエッジやテクスチャの位置や角度の情報は失われているためである.
言い換えると,{$p(y|x)$}は,低解像度画像{$x$}によって作られる画像群の複雑性の高い分散を持つ.低解像と高解像のペアを入力として{$L_2$}の損失関数で,回帰のニューラルネットワークを学習させると,(異なる量でエッジシフトしたような)すべての尤もらしい予測の平均値として出力される.つまり,ネットワークの予測は空間的なあいまいさが残る.多くの研究が,このよく知られた性質に対して取り組まれてきた.例えば,損失関数として,discriminator functionを使う方法など (Ledig etal., 2017; Isola etal., 2017)
我々は,この性質がある問題設定において意外な利点を持つことを発見した.些細な、そして一見、役に立たない、{$L_2$}最小化の期待値に関する特性である.ターゲットを,ターゲットと同じ期待値を持つ乱数で置き換えても推定結果は変わらない ということである.これは,式(3)を用いると分かりやすい.どんな特殊な分散の{$y$}が使われたとしても上記が成り立つ.
その結果,もし,入力条件付きのターゲットの分布{$p(y|x)$}が任意の同じ期待値を持つ分布に置き換えられていても,式(5)の最適化したパラメタ{$\theta$}もまた変化しない.
{{italic:このことは,実践的には,ネットワークを学習法を変えることなく,ネットワークの学習用のターゲットにゼロ平均のノイズを加えることで実験できる}}
式(1)のノイズありの入力と合わせると,経験損失最小化の式は次のようになる.
{$$ {\rm argmin}_{\theta} \sum_ {i} L(f_{\theta}(\hat{x}), \hat{y}_i) \tag{6}$$}
ここで,入出力の両方はノイズありの分布(同じである必要はない)を使うとする.そして,観測していないクリーンなターゲット{$y_i$}は,{${\bf E}\{ \hat{y}_i | \hat{x}_i \} = y_i $}とい条件に基づく.
有限個のデータが与えられたとき,その解は式(1)と同じである.有限個のデータで,推定結果の分散は,ターゲットにおけるノイズの分散を学習サンプルの数で割った平均である(付録の証明を参照).典型的なデノイズのタスクでは、画像ペアの数が制限されていても、効果のあるトレーニングサンプル数が大きいことに留意されたい。なぜなら、全てのピクセルの近接関係が効果を出すためである.
多くの画像復元のタスクにおいて,ノイズありの入力データの期待値は復元したいクリーンなターゲットを意味する.照明の暗い条件で撮影した画像は1つの例で,長時間の露光によるノイズのない画像は,短い露光時間で独立したノイズを持つ画像の平均値である.
以上の結果は,これらの条件において,潜在的な数値計算上の問題は除いて、各ソース画像を2回観察できればクリーンなターゲットを完全に排除できることを示しています.このタスクは,クリーンなターゲットを得るより極めて簡単な場合が多い.
他の損失関数についても似た現象が得られる.{$L_1$}ロスは,ターゲットの中央値を復元する.これは,(50%近い)外れ値の多いコンテンツの画像を復元するようなネットワークを意味し,同じくノイズありの画像のペアだけを使って学習を行う.
次の節では,以上の理論的な特性が,実践的にも有効であると証明する様々な例を示す.そこでは,クリーンなデータを使う最先端のネットワークモデルを"目隠し"で学習させ,そして,正確に同じ学習手法を使用た場合において、ほとんど訓練時間やパフォーマンスに大きな欠点がないことを示す.
**3.Practical experimants
我々は,ノイズありのターゲットを使った学習の実践的な特性について実験すると共に,クリーンなターゲットを必要としないケースを特定する.まず基本的かつシンプルなノイズ分布をSection 3.1と3.2で,続いてより難しく分析的に扱いにくい画像合成におけるモンテカルロ法におけるノイズをSection 3.3で説明します.Section3.4では,MRIにおけるsub-Nyquist spectral サンプリングから再構成した画像が,ノイズありの観測値だけで学習可能であることを示す.
***3.1 Additive Gaussian noise
付加ガウシアンノイズを使って,ノイズありのターゲットの特性について調べる.これは,クリーンな画像にノイズを加えることで,無限に学習データを合成できる.これはシンプルな分布であり、サンプルを取得できます.すなわち,クリーンな画像にノイズを加えることで無限に合成の学習データを生成する.なお,ノイズはゼロ平均で,平均を復元する学習は{$L_2$}ロスを使う.
ここで,ベースラインとして最先端の手法"RED30"(Mao et al., 2016),128の特徴マップをもつ30階層のresidualネットワークを使う.それは,ガウシアンノイズを含む様々な画像復元のタスクにおいて非常に効果のある方法であると知られている.
ネットワークの学習は,IMAGENET の50kの画像から256x256のサイズを切り出して学習を行う.あと,各学習データには,標準偏差{$\sigma \in [0, 50]$}のランダムノイズを加える.つまり,ネットワークノイズを取り除く際にその倍率も推定する必要がある("目隠し"デノイズ).
我々は,BSD300(Martin et al., 2001),SET14(Zeyde etal., 2010),KODAK(http://r0k.us/graphics/kodak/)の有名な3つのデータセットを使う.表1にまとめるように,その傾向は似ているので,以降は3つの平均について議論する.
[img:gncb]
まず,式(1)のクリーンなターゲットを使った標準的な学習を行う場合,RED30のネットワークは,{$\sigma=25$}で平均的な品質が31.63±0.02dBを達成した.その信頼区間は異なるランダム初期値の5つのネットワークの学習から計算する.デノイザーとして広く利用されているベンチマークBM3D(Dabov et al., 2007)は0.7dB悪い結果を示す.ここで,我々は,式(6)のノイズありのターゲットを代わりに使うように修正すると,そのデノイズ性能は良好なままとなった.さらに,学習の収束速度は図1aに示す様に同程度の結果を示した.この結果は,この応用においてクリーンなターゲットは完全に不必要であるということを,我々に結論付けさせた.恐らく,この驚くべき現象は別のネットワークや容量に同様もしれない.図2aはある例の結果である.
さらにすべてのテストについて,RED30から浅いU-Net(Ronnerberger et al., 2015)に切り替えて実験したところ,10倍高速な学習がで近い結果(ガウシアンノイズで,-0.2dB)を示した.U-Netの構造と学習パラメータについては付録に記載する.
[img:frwz]
[img:sxv5]
{{bold:Convergence speed}} 明らかに,すべてのトレーニングのデータは、ネットワークに不可能なタスクを実行するように求めている.ノイズの1つのインスタンスを別のインスタンスに変換する方法はない.
{{red:(クリーンな画像を出力しようとしているのに,ターゲットにはノイズありの画像を設定している.そのため,ロスが一定値以下にならない 部分に関する説明だと思われる)}}
その結果,学習のロスは,実際にどんな有意な方法でも学習中に減ることはない.そして,そのロスの勾配はかなり大きくなり続ける.
なぜ,より大きくノイジーになるロスの勾配が,収束速度に影響を与えないか? その活性化する勾配は実際にノイジーではあるが,その重みの勾配は実際は相対的に低い.なぜなら,ガウシアンノイズはすべての画素において独立で同一の分布であり,その重みはFCNにおいて{$2^16$}を超える画素の平均値として得られる.
図1bの実験は,ノイズのピクセル間のノイズの相関を導入することで,人工的に問題を難しくしている.これを達成するには、ターゲットのガウスノイズを順に大きなガウスフィルタを使用してぼやけるようにし、その後に分散を復元するために正規化を行うことで,一連のネットワークを学習させる.そのノイズは,ゼロ平均のままとなる.図1cにその例を示す.ノイズが増えるごとに,重みの勾配の効果的な平均化も減少し,重みの更新量もよりノイズが多くなる.これは,収束をより遅くし,極端なブラーでも,最終的なデノイズの品質は非常に低くなる (0.1dB以内).
***3.2 Other synthetic noises
(省略)
***3.3 Monte Carlo rendering
(省略)
***3.4 Magnetic resonance imaging (MRI)
(省略)
**4.Discussion
シンプルな統計が信号復元の学習において驚くべき新しい特性に繋がることを示し.複雑なノイズの条件下で,クリーンな信号を得ることなく信号の復元を可能にした.そして品質は,クリーンな信号を利用する方法と同等になる.
現実世界において,クリーンな学習データを得にくい条件と言うものがいくつかある.照明の暗い条件で撮影した画像(e.g.,天文系の画像),物理的な合成画像,MRIの画像など.我々のPoCは,クリーンなデータの潜在的に大変な収集の必要性を取り除くことによって,これらの応用において大きな利点になることを示す.もちろん,全てできるというわけではない.入力データに含まれない特徴を拾うような学習はできない.しかし,クリーンなターゲットで学習できることと同様のことはできる.
AmbientGAN
(Ashish Bora, 2018) は,ノイズのあるデータを使うGANの principled trainingを許容する最近のアイデアである.我々のアプローチとは対照的に,彼らの方法はノイズの完全で明白な計算モデルを必要とする.これに対し,我々の適切な統計的要約(平均、中央値)の知識の要件は、大幅に制限が少ない。
我々は、両アプローチの組み合わせに興味を持っている.
>> ご意見・ご質問など お気軽にご連絡ください.info