.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

画像処理とコンピュータビジョンについて纏める。

により、コンピュータビジョン(CV)開発を、
より生産的に行うことができるようになってきた。

画像処理

与えられた画像に対して何らかの処理を行い出力する。

コンピュータビジョン

基礎

画像入力

デジカメ

CCDやCMOSのイメージセンサを受光素子の平面上に配列した
エリアイメージセンサで受けた光(光子)を電気信号に変換して被写体の画像を生成。

イメージスキャナ

イメージセンサを受光素子の線状に配列したエリアイメージセンサで、
被写体上を走査し受けた光(光子)を電気信号に変換して被写体の画像を生成。

RDG-Dカメラ

画像形式

compへの入力

画像のデジタル化

空間のデジタル化

画素値のデジタル化

カラー画像、グレースケール画像

フォーマット

内容¥形式BMPPNGJPEGGIF
色数モノクロ2階調
24bitフルカラー
24bitフルカラー
48bitカラー
24bitフルカラーモノクロ2階調
8bitカラー
色空間RGBRGB
グレースケール
RGB
CMYK
YCbCr?
グレースケール
RGB
透過
アニメーション
画質劣化なしなしあり(式数変更が無いなら)なし
データサイズ非常に大きい非常に小さい非常に小さい

可逆的な形式(loss less)と、非可逆な形式(lossy)がある。

BMPファイル・フォーマット

PICTファイル・フォーマット

TIFFファイル・フォーマット

PNGファイル・フォーマット

JPEGファイル・フォーマット

GIFファイル・フォーマット

bit深度

1 bit 画像

白と黒の2階調画像

8 bit 画像

インデックス・カラー画像

16 bit (ハイ)カラー画像

R(5bit), G(5bit), B(6bit) の16bit

24 bit カラー画像

R(8bit), G(8bit), B(8bit) の24bit = 16,777,216色

色空間

RGB色空間

YUV(YCbCr?)色空間

HSV色空間

色空間の変換

画像処理

RBGからグレースケール変換

トーンカーブ

        /
      /
    /
  /
/

折れ線トーンカーブ

コントラスト調整

      ─
     /
    /
   /
  /
─

ガンマ変換

コントラスト調整により、自然な輝度、色彩に調整される。

             ┌  x  ┐1/γ
f(x) = 255 * │── │
             └ 255 ┘

ネガポジ反転

濃淡値が反転する。

f(x) = 255-x

ソラリゼーション

ネガ画像、ポジ画像混在のような画像が生成される。

ポスタリゼーション

出力画素値が数段回に制限される。

        ┌─
      ┌┘
    ┌┘
  ┌┘
─┘

疑似カラー処理

グレースケールに色付けする。

幾何変換

拡大・縮小、回転、並進などの処理を行う。

線形変換

┌x'┐   ┌a b┐┌x┐
└y'┘ = └c d┘└y┘
  x'    =    A x

拡大・縮小

回転

原点を中心に、時計回りに、θだけ回転する。

┌x'┐   ┌cosθ -sinθ┐┌x┐
└y'┘ = └sinθ  cosθ┘└y┘

鏡映変換

せん断変形

正方形・長方形を平行四辺形に歪ませる。

再標本化と補間

整数値となる画素の中心があるのもとし、
線形変換の変換先に画素値を与える方法。

画素の中心が、変換元から、どの変換先の画素に移動するか?
を確認し、変換先の画素値を決定する。

再標本化

変換先の画素に、変換元の画素の中心が無い場合、

変換先を逆変換し、変換先から、どの変換元の画素に移動するか?
を確認し、変換先の画素値を決定する。

補間

用いた重み付き平均を線形補間により計算する。

                    ┌f11 f21┐┌dx1┐
I(x, y) = (dy1, dy2)└f12 f22┘└dx2┘

用いた重み付き平均を線形補間により計算する。

                               ┌f11 f21 f32 f41┐┌wx1┐
                               │f12 f22 f32 f42││wx2│
                               │f13 f23 f33 f43││wx3│
I(x, y) = (wy1, wy2, wy3, wy4 )└f14 f24 f34 f44┘└wx4┘

アフィン変換と透視変換

同次座標の導入

並行移動や透視変換などは2*2行列では表現できないので、
同次座標 ( homogeneous coordinates ) を導入する。

  ┌x'┐
u=│y'│
  └1 ┘
┌x'┐ ┌1  0  tx┐┌x┐
│y'│=│0  1  ty││y│
└1 ┘ └0  0  1 ┘└1┘
  u'    =    A u

同次座標を用いた一般的な線形変換

┌x'┐ ┌a  b  0┐┌x┐
│y'│=│c  d  0││y│
└1 ┘ └0  0  1┘└1┘
  u'    =    L u

アフィン変換

アフィン変換とは、線形変換 + 平行移動変換

  u'    =    TL u = Au
┌x'┐ ┌1  0  tx┐┌a  b  0┐┌x┐ ┌a  b  tx┐┌x┐
│y'│=│0  1  ty││c  d  0││y│=│c  d  ty││y│
└1 ┘ └0  0  1 ┘└0  0  1┘└1┘ └0  0  1 ┘└1┘

で、一般的なアフィン変換の変換行列は、以下のようになる。

    ┌a  b  tx┐
A = │c  d  ty│
    └0  0  1 ┘

透視変換

透視変換は、三次元空間に配置された二次元画像を様々な視点から見るような変換。

AIの活用

画像データを解析して特定のパターンを検出・抽出

手順

前処理

対象認識

対象領域を切り出す。

情報抽出

対象が何かを認識する。

事前学習

対象にラベル付けして学習する。

事例適用

人画像に対して適用する。

活用例

パターン認識(顔認識

エンリッチメント系

自動アノテーション

トラッキング(物体追跡)

人物行動分析

自動運転

ライブラリ

オープンソース

OpenCV

LTI-Lib

LGPLライセンス

VXL

ImageMagick?

がある。

その他

プロダクト

PPI(Integrated Performance Primitives)

Intel社、商用。

HALCON

MVTec社、商用、産業用

PatMax?

Cognex社、商用、産業用

MIL(Matrox Imaging Library)

Matrox社、商用、産業用

メディアドライブ

アプリケーション

オープンソース

GIMP

プロダクト

CamDictionary?

カメラで撮影した文字をリアルタイム認識・翻訳する。

Zaim

レシートを撮影すると店舗、品目、価格を自動認識する。

Corel Paint it! Now

写真を風景画に変換する。

ゾンビブース2

撮影した顔をゾンビ風に変換する。

サービス

...

ソリューション

...

AI

顔認識

まだまだ、精度は低いもよう。

スマホネイティブ組込

まだ、笑顔情報程度しか取得できないもよう。

画像内の顔が笑顔であるかどうかを0から1の数値で取得できるもよう。

クラウドサービス型

AIと連動しており、もう少々、高度なことができるもよう(年齢・性別の推定など)。

エンリッチメント系

自動運転

参考

Wikipedia


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS