「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
背景の切り出しなどに利用する技術
- 物体が
- 事前に与えられたどのラベルに属するか?
- 画像中のどの領域にあるか(ピクセル単位で)?
詳細 †
アルゴリズム・モデル
セグメンテーション †
物体識別 → 物体検出 → 領域検出(セマンティック・セグメンテーション, インスタンス・セグメンテーション)
#ref(): File not found: "segmentation.png" at page "画像処理とコンピュータビジョン(領域検出)"
セマンティック・セグメンテーション †
- シーン画像に対して画素毎に意味的なクラス識別を行い画像上の領域分割を行う。
- MRF・CRFでは計算時間がかかる上、正確に領域分割ができないなど性能限界があった。
- 画像系のオートエンコーダーを用いた深層学習手法が登場してブレイクスルーが起こった。
- 物体が重なっている場合の区別(境界線 / 輪郭線を描く)に高密度な予測が必要。
- インスタンス・セグメンテーションより不定な形状を検出できる。
インスタンス・セグメンテーション †
セマンティック・セグメンテーションと違い
- 同一クラスでも別オブジェクトを区別。
- 同一クラスに属する物体毎の区別(境界線 / 輪郭線を描く)ができる。
アルゴリズム・モデル †
FCN(Fully Convolutional Network) †
- 全ての層が畳み込み層、全結合層を有しない
- 全結合層が無いので入力画像のサイズは可変で良い
- (ただし、実際は、縦横比などの制約はある)
- 画素毎にラベル付した教師データを与えて学習
- 未知画像も画素単位でカテゴリを予測する
- 非対称なEncoder-Decoderアーキテクチャ
- 畳み込み、ダウン・サンプリング(Convolution)
- 逆畳み込み、アップ・サンプリング(De Convolution)
- 画像が荒くなるので逆畳み込みにスキップ接続。
#ref(): File not found: "FCN.png" at page "画像処理とコンピュータビジョン(領域検出)"
SegNet? †
- FCN以後に発表された左右対称なEncoder-Decoderアーキテクチャ
- Max PoolingでダウンサンプリングしたものをMax Poolingインデックスでアップサンプリング
#ref(): File not found: "SegNet.png" at page "画像処理とコンピュータビジョン(領域検出)"
U-Net †
生物医、VGG16、De Convolution、Skip Connection
#ref(): File not found: "U-Net.png" at page "画像処理とコンピュータビジョン(領域検出)"
USegNet? †
SegNet?とU-Netのハイブリッド
PSPNet †
DeepLab? v3+ †
参考 †