クーガー株式会社(本社: 東京都渋谷区、代表取締役CEO: 石井敦、以下「クーガー」)は、当社のAIエンジニアによる論文が、世界有数のコンピュータービジョンの国際会議「CVPR2021」の「Thermal Image Super-Resolution Challenge」にて採択されたことをお知らせします。
CVPRは、世界的に難関な国際学会として知られています。近年、コンピュータービジョンはディープラーニングの進化に伴い、さまざまなビジネス領域で注目されていることから、研究が活性化しています。
研究背景
あらゆる分野で自動化が進む中、画像データの高解像度化は重要な役割を担っています。例えば、カメラで撮影した画像をAIによってソフトウェア側で高画質に変換する画像補正があります。これまで、画質はカメラのハードウェア性能に左右されており、高画質画像の取得のためには、高い性能を持つカメラを用意する必要がありました。これでは、カメラのハードウェアの投資に多額のコストがかかるため、画像認識の商用活用が拡がらないという問題があります。本論文は、サーモグラフィー画像の高解像度化を高い精度で実現し、さらに低い計算量で実行することができる手法の研究成果をまとめたものです。
研究
今回の研究は、2つの異なる解像度で取得された画像(x2およびx4解像度の画像)を生成するアーキテクチャ手法を示したものです。
提出した手法は、出題されたデータセット(PBVS)において、x2およびx4スケール画像への高解像度化を達成するのに十分効率的であるだけでなく,他のデータセット(Thermal6)でも高い性能を実現することに成功しました。
今回の結果は、大きく3つの特徴を持つモデルから実現しています。
1. データ学習時、ブロックごとに出力画像の解像度が実画像と類似しているかどうかを監督しているために、1つのモデルで大きさの異なる画像(x2、x4)の高解像度処理を実現しています。
2. Res2net*のブロックをモデルの特徴抽出ネットワークとして利用しているため、ほぼ同じ計算コストで、空間情報やチャネル情報の受容性を高くすることができています。
3. ネットワークの開始時に座標畳み込み層を用いて空間次元をデカルト空間に展開し、終了時にはデュアルアテンションによって空間情報とチャネル情報のすべてを保持できるため、より堅牢なモデルとなっています。
今後の展望
今回の学習データはサーモグラフィー画像を用いた高解像度化処理でしたが、将来的には同じアーキテクチャを用いて、写真などのRGB画像への適用や、曇りの除去、画像の明度調整など、他の画像復元に応用範囲を広げていく予定です。
*Res2net:マルチスケールな表現能力を改善する特徴抽出ネットワーク