Google のニューラルネットワークにより、
モザイク処理された写真の復元が可能に

2017.03.08

Google Brain(リンク先:英語) がこの度、モザイク処理された人間の顔の画像を元の被写体と似た画像に戻す方法を開発しました。


Google の研究チームが発表した論文には、「情報がほとんど含まれていない 8×8 ピクセルの顔または室内の写真の解像度をどうすれば上げることができるか」という極めて難しい問題を解決するために、ニューラルネットワークがどのように用いられたのか(リンク先:英語)が説明されています。


これは、超解像 (SR) の分野の科学者たちが長年研究してきた問題です。彼らは、ボケ補正や補間などの技術を使用して研究を重ねていますが、このタイプの画像では成功しないことも少なくありません。Google の研究チームは次のように述べています。


(引用文日本語訳) 細かな部分がソース画像に存在していない場合、画像のボケを補正するだけでなく、人間の観察者にとってもっともらしい新たな画像の細部を生成する必要があります。


Google Brain が用いたのは、「調整」を行う最初のニューラルネットワークによって 32×32 ピクセルの画像を 8×8 ピクセルに変換して、その過程でテスト画像と一致する点を見つけることができるかどうかを確認するという方法でした。


一方、第 2 の「プライヤー (prior)」ニューラルネットワークは、8×8 の画像と、類似していると判断される多数の画像とを比較して、PixelCNN と呼ばれる技術を用いてどのような細部を追加すればよいのかを判断できるかどうかを確認します。そして最終段階では、この 2 つが組み合わされて 32×32 の画像が作成されます。


ニューラルネットワークであるシステムには、膨大な量のデータセットに加えて、事前のトレーニングが必要です。開始当時このアプローチは有望とは見なされていなかったものの、非常に興味深い結果が得られました。


研究チームは、実物に似せた顔を生成する方法の性能をテストする目的で、ボランティアの人々に、有名人の本物の顔の画像と、その同じ画像の 8×8 ピクセル版からシステムが作成した画像とを比較するように依頼しました。


「どちらがカメラによって撮影されたものだと思いますか」と尋ねたところ、10% の人がアルゴリズムで作成された画像を選択しました (混同の最大値 = 50%)。


これは驚くべきことです。Google Brain のニューラルシステムによる公開された画像は、実際の人物や風景と似てはいますが、必ずしも近似値よりも優れている訳ではありません。


実用的な応用としては、CCTV で撮影された容疑者のぼやけた画像を鮮明にすることが考えられます。しかし、変な角度で撮影された顔を本物に近づけられるかどうかは、数多くの細部の情報にかかっています。間違った部分を強調してしまった場合、警察が間違った人を捜索する可能性があります。


公正を期して言えば、Google チームはこの技術は応用が可能だと声高に主張している訳ではなく、今後も理論的進歩にフォーカスすることを望んでいます。Google チームのこれまでの功績は、十分な大きさのデータセットに基づいたニューラルシステムであれば、無用なデータから有益な情報を推測できることを示したことにあります。


結論としては、この種のアプローチは確率論的アプローチです。言い方を変えれば、予測です。現実の世界では、予測は何も無いよりもましに思えます。しかし、単に解像度を高めた方が防犯カメラの信頼性は高まります。

引用元

おすすめの記事はこちら