画像処理とコンピュータビジョン（AI）のバックアップ(No.6)

R-CNN（Regional CNN）
Region proposal method + CNN時代、物体検出タスクと物体識別タスクを順次行う。
- 抽出アルゴリズムのSelective Searchで2000個ほどRoI（関心領域）を抽出提案
- RoI（関心領域）を全て一定のCNNのインプットの大きさに（ワリと無理やり）リサイズ
- RoI（関心領域）全てに対してAlexNetのCNNで特徴量（出力層の前のベクトル）を計算
- 特徴量を線形SVMで分類（≒ Nクラス + 1（背景）分類）
- RoI（関心領域）の中での正確な位置をBBox回帰を用いて推定
  #ref(): File not found: "R-CNN.png" at page "画像処理とコンピュータビジョン（AI）"
  ※ 問題点は、計算が多く、学習がEnd-to-endで無い点

Fast R-CNN
中間の時代（クラス分類とBBox回帰だけEnd-to-end）
- 画像全体をCNNに入力し出力された特徴マップにSelective SearchでRoI（関心領域）を割り当てる。
- Fast R-CNNの入力は画像とRoI（関心領域）、出力はクラスとBBox（物体領域）
- CNNでRoI（関心領域）の特徴マップを得たらRoI Poolingで固定長ベクトルにする。
- FC*2でRoI特徴ベクトルを得て、これを2つの出力層に流す（クラス分類とBBox回帰）
  #ref(): File not found: "FastR-CNN.png" at page "画像処理とコンピュータビジョン（AI）"
  ※ CNNの演算回数を大幅に減らすことができ、Fast R-CNNはR-CNNの約10倍の学習速度を実現
  ※ クラス分類とBBox回帰を全てニューラルネットワークにして損失関数を合体させたmulti-task-lossにした。

Faster R-CNN
End-to-end時代、物体検出タスクと物体識別タスクを順次行う。

画像を、学習済みVGG16などに入力し、畳み込み層の最後の出力を、特徴マップとして出力（図中①）。
次に、物体の候補領域を見つけるAnchor（格子点のようなもの）を作成し、Anchorを中心に、
ハイパーパラメタで指定した数、Anchor boxes（矩形≒四角の領域）を作る。
RPN（Resion Proposal Network）層で、候補領域に、
3*3 Conv → 1*1 Convを行い、以下の２項目を出力＆学習（図中②）
・Ground truth（認識対象の物体）とAnchor boxesのIoUを計算し物体か？背景か？
・Ground truthとAnchor boxが、どのくらいズレているのか？
物体の候補領域をRoI Poolingで固定長ベクトルにする（図中③）。

固定長ベクトルを全結合層に2回通し最後に、以下の２項目を出力＆学習（図中④）
・クラス分類用
・矩形ズレ回帰用

#ref(): File not found: "FasterR-CNN.png" at page "画像処理とコンピュータビジョン（AI）"

#ref(): File not found: "FasterR-CNN2.png" at page "画像処理とコンピュータビジョン（AI）"

YOLO（You Only Look Once）
End-to-end時代、物体検出タスクと物体識別タスクを同時並行で行う。

物体検出タスクが、図5

物体識別タスクが、図3, 4

図1
#ref(): File not found: "yolo1.png" at page "画像処理とコンピュータビジョン（AI）"
入力画像
図2	図3	図4
#ref(): File not found: "yolo2.png" at page "画像処理とコンピュータビジョン（AI）"	#ref(): File not found: "yolo3.png" at page "画像処理とコンピュータビジョン（AI）"	#ref(): File not found: "yolo4.png" at page "画像処理とコンピュータビジョン（AI）"
グリッドセルに分割	それぞれのグリッドセルでクラス予測	グリッドセルのクラス
図5	図6	図7
#ref(): File not found: "yolo5.png" at page "画像処理とコンピュータビジョン（AI）"	#ref(): File not found: "yolo6.png" at page "画像処理とコンピュータビジョン（AI）"	#ref(): File not found: "yolo7.png" at page "画像処理とコンピュータビジョン（AI）"
BBoxとConfidenceを推測	図4, 5を合わせ信頼度スコアを得る	信頼度スコアに基づいて判断

SSD（Single Shot Detector）
End-to-end時代、物体検出タスクと物体識別タスクを一度の演算にまとめて行う。

↑

領域検出 †

背景の切り出しなどに利用する技術

物体が
- 事前に与えられたどのラベルに属するか？
- 画像中のどの領域にあるか（ピクセル単位で）？

セマンティック・セグメンテーション
- 物体領域を画素単位で切り出し、各画素にクラスを割り当てる。
- 物体が重なっている場合の区別（境界線 / 輪郭線を描く）に高密度な予測が必要。
- インスタンス・セグメンテーションより不定な形状を検出できる。

注
物体検出より複雑。

アルゴリズム・モデル

FCN (Fully Convolutional Network)
- 全ての層が畳み込み層、全結合層を有しない
- 画素ごとにラベル付した教師データを与えて学習
- 未知画像も画素単位でカテゴリを予測する
- 入力画像のサイズは可変で良い

↑

特定物体検出 †

物体検出＋領域検出

物体が
- 画像中のどの位置にあるか？
- 事前に与えられたどのラベルに属するか？
- 画像中のどの領域にあるか（ピクセル単位で）？

インスタンス・セグメンテーション
- 物体検出＋領域検出を統合し、
- 同一クラスに属する物体毎の区別（境界線 / 輪郭線を描く）ができる。
- Google：インスタンス・セグメンテーションと組み合わせたパノプティック・セグメンテーション

アルゴリズム・モデル

YOCLACT
ワンステップでインスタンス・セグメンテーションを行う。

Mask R-CNN
- 物体検出のFaster R-CNNにセグメンテーションを加えインスタンス・セグメンテーションを実現
- 「物体（インスタンス）らしさ」が閾値以上の領域毎に最も確率が高いクラスでセグメンテーション
- Fast/Faster R-CNNのRoI Poolingでは解像度の低下で領域とずれるので、
  Mask R-CNNでは新しい手法 RoI Align を導入すると補間処理によって
  固定サイズでRoI特徴ベクトル化ができマスク推定の精度を上げられる。

↑

姿勢推定 †

人や関節位置を検出し姿勢位置を出力

2D
- 2Dで出力
- ボトムアップ：関節点から人を構成
- トップダウン：人を検出してから関節点を推定し人を構成

3D
- 3Dで出力
- 画角の影響を受けない。
- 速度と精度が課題。

↑

トラッキング（物体追跡） †

深層学習の画像認識（CNN）で交差時も見失わなくなる。

↑

ロボット・ビジョン †

3D DNN

↑

活用例 †

↑

パターン認識 †

物体識別、物体検出、領域検出を専門的に（部位に特化して）行う系

顔検出（ベースの技術）
- 顔認識
  - 表情認識（2D, 3D顔特徴点抽出）
  - 顔向き推定、視線推定（2D）
  - 瞬き検知（動画、眠気・集中力の検知・測定）
  - 顔認証（顔特徴点抽出と高速マッチング）
  - 感情推定（学習させるので、プロが見ても解らない事は解らない）
  - 性別・年齢推定（あくまで見た目でしかない、人種の差もある）

医療診断
- がん診断
- CTやMRIの診断
- グラム染色による細菌の分類や同定

異常・不正の検出
- 製造：不良品検知
- 社会：メンテナンス（異常検知）

自動運転
- 自動車の自動運転
- ゴミ識別AI搭載自動運転クレーン

, etc.

↑

OCR・文書構造化 †

言語識別
テキスト抽出
文字起こし
OCR文字校正

↑

エンリッチメント系 †

画像・映像アノテーション

セグメンテーション
テキスト抽出
分類（分類もアノテーション）

※ Googleフォトの機能など。

↑

姿勢推定 †

Kinect等を使用した動作計測、解析

産業：危険行動検知（事故防止
医療：ロコモのスクリーニング

↑

人物行動分析 †

行動不審者監視
禁止危険行動検知
店舗来場者管理

↑

自動車の自動運転 †

カメラやレーダー、LIDAR、超音波センサー、GPS等で周囲の環境を認識し、行き先を指定するだけで自律的に走行する。

磁気マーカー（磁気ネイル）を埋込方式はコストや、積雪や除雪の問題から普及していない。

一般人が公道で走行できる（自動運転レベル4・5の）自動運転車は、現在の段階では市販されていない。

SAE J3016（自動運転レベルの定義

レベル0：自動運転なし
ドライバーが常にすべての主制御系統（加速、操舵、制動）の操作を行う。

レベル1：運転支援
加速、操舵、制動のいずれか一つをシステムが支援的に行う状態。

レベル2：部分運転自動化
同時に複数の操作をシステムが行う状態。

レベル3：条件付き運転自動化
限定的な環境・状況で自動運転（機能限界時は、ドライバーに権限移譲）。

レベル4：高度自動運転
レベル3は権限移譲に備える必要があるが、レベル4では不要

レベル5：完全自動運転
考え得る全ての状況下及び、極限環境で無人運転。

実用化に向けての２つのアプローチ
- 段階的発展のアプローチ
- 挑戦的アプローチ（レベル3以上を目指す

自動運転の盛んな都市

欧州の都市：ヘルシンキ、Easymile EZ10、Whim

アメリカにおける「3大州」は隣り合っている
- カリフォルニア州：有料での無人による自動運転車配車サービスを許可
- アリゾナ州：自動運転タクシーの商用サービスをスタート
- ネバダ州：米国初のレベル3自動運転車

↑

顔認識 †

まだまだ、精度は低いもよう。

スマホネイティブ組込
まだ、笑顔情報程度しか取得できないもよう。

Google Face API
正確な名称が不明だが、Google Play servicesの、
Face Detection とか、Face API などと呼ばれている。
画像内の顔が笑顔であるかどうかを0から1の数値で取得できるもよう。

Google Developers Japan: Google Play サービスでの顔検出
https://googledevjp.blogspot.jp/2015/09/google-play_28.html
・Face Detection in Google Play services | Android Developers Blog
　http://android-developers.blogspot.jp/2015/08/face-detection-in-google-play-services.html

Face APIで顔検出を試してみる - Qiita
http://qiita.com/droibit/items/ec0ce34a0ad5e34593e5

Androidの顔検出API 笑顔判定は「笑いながら怒る人」をどう認識するか
https://android.benigumo.com/20150928/android%E3%81%AE-%E9%A1%94%E6%A4%9C%E5%87%BAapi-%E7%AC%91%E9%A1%94%E5%88%A4%E5%AE%9A-%E3%81%AF%E3%80%8C%E7%AC%91%E3%81%84%E3%81%AA%E3%81%8C%E3%82%89%E6%80%92%E3%82%8B%E4%BA%BA%E3%80%8D%E3%82%92/

APIとしてはこちら。
・Face | Google APIs for Android | Google Developers
　https://developers.google.com/android/reference/com/google/android/gms/vision/face/Face

Swift Core Image（iOS）
hasSmileプロパティで true or false のデータとして取得するもよう。

Swiftで笑顔認識をやってみた - Qiita
http://qiita.com/ken0nek/items/4504a13bf58eb78c2538

APIとしてはこちら。
・CIFaceFeature? - Core Image | Apple Developer Documentation
　https://developer.apple.com/reference/coreimage/cifacefeature
・【iOS9】Core Image の新機能：文字認識／追加フィルタ47種 - Over&Out その後
　http://d.hatena.ne.jp/shu223/20150622/1434924215

Windows.Media.FaceAnalysis?（Windows）

Windows.Media.FaceAnalysis? Namespace - UWP app developer | Microsoft Docs
https://docs.microsoft.com/en-us/uwp/api/Windows.Media.FaceAnalysis

クラウドサービス型
AIと連動しており、もう少々、高度なことができるもよう（年齢・性別の推定など）。

Microsoft Cognitive Services - Face API and Emotion API

Microsoft Cognitive Services（マイクロソフト認知サービスAPI）まとめ | 蒼いねずみのお仕事
http://sonic.blue/it/633
・Microsoft Cognitive Services
　・Face API
　　https://www.microsoft.com/cognitive-services/en-us/face-api
　・Emotion API
　　https://www.microsoft.com/cognitive-services/en-us/emotion-api

【LINE Bot】 bluemixとFaceAPIを使った年齢性別推定Bot - Qiita
http://qiita.com/shuheilocale@github/items/da6ecdeced3c00acc6f8

マイクロソフトの顔写真から年齢と性別を当てるサイトが話題！その精度は！？ | たむらんち
http://www.tamura.tottori.jp/2015/05/02/microsoft-azure-beta-test-face-api/

IBM Bluemix の AlchemyAPI Face Detection
IBM に統合された AlchemyAPI 社の人工知能 API が IBM Bluemix で公開されている。

Bluemix の AlchemyAPI Face Detection（顔認識） API を使ってみた : まだプログラマーですが何か？
http://dotnsf.blog.jp/archives/1023357255.html

↑

... †

↑

ソリューション †

↑

... †

↑

参考 †

顔認識システム、百万人の顔データベースに大苦戦 | TechCrunch? Japan
http://jp.techcrunch.com/2016/06/24/20160623facial-recognition-systems-stumble-when-confronted-with-million-face-database/

↑

Wikipedia †

物体検出
https://ja.wikipedia.org/wiki/%E7%89%A9%E4%BD%93%E6%A4%9C%E5%87%BA

顔認識システム
https://ja.wikipedia.org/wiki/%E9%A1%94%E8%AA%8D%E8%AD%98%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0

自動運転車
https://ja.wikipedia.org/wiki/%E8%87%AA%E5%8B%95%E9%81%8B%E8%BB%A2%E8%BB%8A

画像処理とコンピュータビジョン（AI） のバックアップ(No.6)

目次 †

概要 †

詳細 †

体系 †

目的軸 †

時間軸 †

次元軸 †

手順 †

前処理 †

対象認識 †

情報抽出 †

事前学習 †

事例適用 †

アルゴリズム †

物体識別 †

シーン識別 †

物体検出 †

領域検出 †

特定物体検出 †

姿勢推定 †

トラッキング（物体追跡） †

ロボット・ビジョン †

活用例 †

パターン認識 †

OCR・文書構造化 †

エンリッチメント系 †

姿勢推定 †

人物行動分析 †

自動車の自動運転 †

ライブラリ †

オープンソース †

プロダクト †

サービス †

顔認識 †

... †

ソリューション †

... †

参考 †

Wikipedia †

画像処理とコンピュータビジョン（AI）のバックアップ(No.6)