「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>画像処理とコンピュータビジョン(AI)]]~
--物体識別
--[[物体検出>画像処理とコンピュータビジョン(物体検出)]]
--[[領域検出>画像処理とコンピュータビジョン(領域検出)]]
--[[特定領域検出>画像処理とコンピュータビジョン(特定領域検出)]]

*目次 [#v642ed92]
#contents

*概要 [#p0d9d890]
[[画像認識中の物体に関する画像認識(≒ 分類)>ニューラルネットワーク#fb7864bd]]、物体認識とも。

-物体が~
事前に与えられたどのラベルに属するか?

-注~
ラベルが追加されていくオペレーションには向かない。~
(店舗における商品分類など、新商品の追加)

*詳細 [#ma5c0d1f]
アルゴリズム・モデル

**古くは、 [#ofeff404]

***テンプレート・マッチング [#o4fa8596]

***特徴抽出器 [#a56d85ef]
HOG特徴量を抽出しSVMを用いて分類

**DNN以降 [#ma5f3b67]

***[[CNN>ニューラルネットワーク#fb7864bd]] [#a992257f]

***CapsNet [#kdd16d15]
-[[CNN>#a992257f]]のプーリングは様々な情報、特に特徴間の空間的な関係を失う。
-CapsNetはニューロンがスカラーを出力するのに対しベクトルを出力する。

***ViT [#k73d55da]
-Vision Transformer (ViT) は、従来の[[CNN>#a992257f]]に比べて高い精度を達成することができる。
-画像を固定サイズのパッチに分割し、Transformer的な処理で計算したAttentionマップで重み付けを行った特徴マップを使用。
-画像を固定サイズのパッチに分割し、Transformerで算出したAttentionマップで重み付けを行った特徴マップを使用。

*参考 [#x3dfda83]
-深層学習についてのレポート(CNN編)~
https://www.osscons.jp/joho108j0-537/#_537
-深層学習についてのレポート(画像系、CNN画像認識以外)~
https://www.osscons.jp/joy1y64w3-537/#_537

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS