「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
背景の切り出しなどに利用する技術
- 物体が
- 事前に与えられたどのラベルに属するか?
- 画像中のどの領域にあるか(ピクセル単位で)?
詳細 †
アルゴリズム・モデル
セグメンテーション †
#ref(): File not found: "segmentation.png" at page "画像処理とコンピュータビジョン(領域検出)"
セマンティック・セグメンテーション †
- シーン画像に対して画素毎に意味的なクラス識別を行い画像上の領域分割を行う。
- MRF・CRFでは計算時間がかかる上、正確に領域分割ができないなど性能限界があった。
- 画像Encoder-Decoderを用いた深層学習手法が登場してブレイクスルーが起こった。
- 物体が重なっている場合の区別(境界線 / 輪郭線を描く)に高密度な予測が必要。
- インスタンス・セグメンテーションより不定な形状を検出できる。
- 初期
- FCN(Fully Convolutional Network)
・全ての層が畳み込み層、全結合層を有しない
・画素毎にラベル付した教師データを与えて学習
・未知画像も画素単位でカテゴリを予測する
・入力画像のサイズは可変で良い
- SegNet?:Atrous convolution
- U-Net:生物医、VGG16、Skip Connection
- USegNet?:SegNet?とU-Netのハイブリッド
インスタンス・セグメンテーション †
特定物体検出 †
物体検出+領域検出
アルゴリズム・モデル †
- 「物体(インスタンス)らしさ」が閾値以上の領域毎に最も確率が高いクラスでインスタンス・セグメンテーション
- Fast / Faster R-CNNのRoI Poolingでは解像度の低下で領域とずれるので、
Mask R-CNNでは新しい手法 RoI Align を導入すると補間処理によって
固定サイズでRoI特徴ベクトル化ができマスク推定の精度を上げられる。
参考 †