コンピュータービジョンの主要国際学会 CVPR 2019 workshop のトップ10にクーガーから2人がランクイン!自動運転車やロボットなど、幅広く応用が期待される高度な認識技術における新たな手法が論文採択

クーガー株式会社(本社: 東京都渋谷区、代表取締役CEO: 石井敦、以下「クーガー」) は、コンピュータービジョンの領域で世界で最も権威ある学会の一つ、CVPR2019(IEEE/CVF International Conference on Computer Vision and Pattern Recognition)内のコンペティション「Pixel SkelNetOn」において、AIエンジニア2名がそれぞれ3位と5位に入賞し、論文が採択されましたのでお知らせします。

GANを超える精度:AIの世界的コンペティションにクーガーから3位と5位にランクインし論文採択

CVPR2019には、クーガーのAIチームからSabari NathanとPriya Kansalの2人が参加しました。

2人が参加した「Pixel SkelNetOn」のコンペティションは、形状画像から骨格を認識するAIモデルの精度を競うものであり、通常は、GANと呼ばれるデータを生成するアルゴリズムで骨格の抽出を行います。

それに対し、クーガーの2人は、「U-Net」という画素レベルで画像を理解する手法と、「HED」という画像の形状を高精度に抽出する手法を組み合わせた「Skeleton-Net」と呼ばれる独自アルゴリズムを開発し、骨格の抽出の精度を大幅に向上させることに成功しました(62%から77%に向上)

幅広いコンピュータービジョンの応用技術

骨格の識別は様々な分野での応用が期待されています。例えば、コンビニで買い物客が商品を購入する際、1)商品の前で立ち止まり、2)商品を手に取り、3)カゴに入れ 4)歩き出すという動作が伴います。無人店舗のような会計動作のない購買体験を可能にするためには、AIが買い物客の動作を認識し、商品購入の可否を判断する必要があります。人間は関節を起点として歩き、腕の曲げ伸ばしなど、基本的に共通した身体動作を行います。さらに骨格を捉えることで、身長の高低を判別することで子供か大人かの判断をすることが可能です。これは人間にとどまらず、鳥やキリンなどの動物の識別においても同様のことが言えます。つまり骨格を識別することで人間自体や身体動作を識別することは非常に重要な役割を果たしています。

これまで人間の身体運動を定量化するためにはモーションキャプチャを装着する必要がありました。しかしディープラーニングを用いることで特殊センサーなしにカメラで人間の身体運動を間接的に認識することが可能になっています。

これからのインターフェイスは人間の持つ「非言語部分」が大切になる

クーガーではバーチャルヒューマンエージェント(VHA)という人間のように振る舞うAIエージェントを用いて、人間の身体性をバーチャル空間に再現する技術開発を行なっています。

これからのインターフェイスとしてのAIエージェントは、ただ会話ができたり同じ表情ができるだけではなく、人間の持つ「非言語部分」を分析し、自身もそれを表していくことが必要になってきます。

そのためクーガーでは物体認識技術を用いて高度な人間とのコミュニケーションを実現するための技術を開発しており、それが今回の受賞・論文採択に繋がりました。さらに等技術を応用し、非言語の一つであるボディーランゲージをAIに学習させ、人間の身体動作や状況理解への応用へ生かすことが期待されます。

CVPR2019とは

CVPRは、毎年FacebookやGoogleをはじめとした世界トップのAI企業や世界中の大学の研究所が論文を発表する、権威あるコンピュータビジョンの学会を開催しています。学生から研究者まで様々な参加者が世界中から集まります。CVPR2019はアメリカ カリフォルニア州で6月16日から20日にかけて開催されます。

この記事が気に入ったら
フォローしよう

最新情報をお届けします

Twitterでフォローしよう

おすすめの記事