畳み込みニューラルネットワーク（CNN）のバックアップ(No.32)

＜ResNet?-152＞
TypeA, B, C, D でFN値が異なる。
・1*1 Conv（FN = A:64, B:128, C:256, D:512）
・3*3 Conv（FN = A:64, B:128, C:256, D:512）
・1*1 Conv（FN = A:256, B:512, C:1024, D:2048）
・入力を残差接続で迂回させて足す。

処理内容は、単純に、
- 1*1 Conv、n*n Convした後に、
- 入力を残差接続 (residual connection) で迂回させて足す。
- 足す際のサイズ調整には２通りの方法がある。
  - （パラメタ節約）単純に画像を圧縮しチャネルは削る方法
  - （精度は高い）1*1 Conv（S>1）で画像を圧縮しチャネルを削る方法

↑

劣化問題・残差学習 †

degradation（劣化問題）と residual learning（残差学習）

degradation（劣化問題）
- 深くしたほうが性能が悪くなる(18層 → 34層)。
- しかも訓練データに対しても性能劣化した（過学習＆汎化性能でもない）
- 深くした方が「数学的には」・「表現力が豊か」であるはず。
- 「数学的には」→ 学習の（近似計算の最適化）問題を考慮していない。
- 「表現力が豊か」→ （34が18に劣るというのは）恒等写像の学習が困難と言う仮説

residual learning（残差学習）
- 通常の学習はy=h(x)のhのパラメタを学習
- 残差学習はy=h(x)=f(x)+xのfのパラメタを学習（xは恒等写像
- パラメタ0で恒等写像を出力（学習？）可能 ≒ 恒等写像との差分を学習するようになる。
- その他にも、勾配消失が起き難いと言うメリットもあるらしい。

↑

パラメタ削減 †

residual learning（残差学習）ではパラメタが増加しない。
ResNet?-152のResidualブロックでは3*3 Conv前後で
1*1 Convにより実質パラメタの削減・復元を行っている。

↑

転置畳み込みは（逆畳み込み） †

畳み込みの逆プロセスではない。
入力データを拡大してから畳み込みを行う処理
一度畳み込みで圧縮したデータをもとのサイズに戻す。
入力データを完全に復元するものでもない
セグメンテーションや生成分野などでよく使われる。

https://nisshingeppo.com/ai/whats-deconvolution/

↑

著名なモデル †

↑

LeNet? †

LeNet?

歴史
誤差逆伝播法の発見から僅か２年後

論文（89）
Introduction（多変量解析には無かった）
- 誤差逆伝播法
- 訓練＆テスト・データ
- 複雑なモデルには大規模なデータ
- 過学習に気を付ける。

タスク
- 手書き文字認識（MINST未満のマウスdeペイント文字）
- 16 * 16の480枚（訓練 : テスト = 320 : 160）

アーキテクチャ
- 図がない。
- 構造の説明
  ・入力 : 16*16
  ・Conv : FN=2, FHW=3*3, S=2, + tanh → 8*8*2
  ・Conv : FN=4, FHW=5*5, S=2, + tanh → 4*4*4
  ・4*4*4 をFlatten → Affine → tanh（≠ Softmax）で10
  ・損失関数は、Categorical Cross EntropyではなくMSE

精度とポイント
- 精度：98.4%
- ポイント
  ・AffineよりConvでパラメタ数削減
  ・チャンネルを増やすと良い結果が出る

LeNet?-5
- 歴史
  - 10年後の性能向上版
  - （間にLeNet?-1、-4、Boosted -4 とか色々ある）

論文（98）
Introduction：（SDGの）局所解だけどOK

タスク
郵便番号のようなものを分類

アーキテクチャ
- LeNet-5 図
- 構造の説明
  ・入力 : 32*32（Padding済みらしい）
  ・Conv : FN=6, FHW=5*5, S=1, + tanh → 28*28*6
  ・Avg Pooling : 2*2, S=1, + tanh → 14*14*6
  ・Conv : FN=16, FHW=5*5, S=1, + tanh → 10*10*16
  （フィルタの見る特徴マップがマッピングで指定されているらしい）
  ・Avg Pooling : 2*2, S=1, + tanh → 5*5*6
  ・Conv : FN=120, FHW=1*1, S=1, + tanh → 1*1*120（実質Affine）
  ・1*1*120 をFlatten → Affine + tanhで84 → Affine + ERBF（≠ Softmax）で10

↑

AlexNet? †

歴史
- ReLUの発見から僅か２年後
- ドロップアウト（Dropout）の発見の同年
- ILSVRC2012で優勝し、Deep Learningブームの火付け役となった

論文（12）
Introduction：
- 活性化関数にReLUを使用
- ドロップアウト（Dropout）の導入
- 大量のデータ＋ GPUと並列計算

タスク
ILSVRC

アーキテクチャ
- AlexNet 図
- 特徴の説明
- 構造の説明
  - 入力 : 224*224*3ch（256*256をデータ拡張）
  - Conv : FN=96, FHW=11*11, S=4, + LRN → 55*55*96 → 55*55*48*2（分割して並列化）
  - Max Pooling : 3*3, S=2 → 27*27*48*2（サイズで割るんじゃなくてストライドで割る感じ）
  - Conv : FN=128, FHW=5*5, P=2, S=1, + LRN = 27*27*128*2
  - Max Pooling : 3*3, S=2 → 13*13*128*2
  - Conv : FN=192, FHW=3*3, P=1, S=1, + LRN = 13*13*192*2（入力データを２ノード間で交換するらしい）
  - Conv : FN=192, FHW=5*5, P=2, S=1, + LRN = 13*13*192*2
  - Conv : FN=128, FHW=5*5, P=2, S=1, + LRN = 13*13*128*2
  - Max Pooling : 3*3, S=2 → 6*6*128*2
  - 6*6*128*2 をFlatten → Affine で2024*2 → Affine で2024*2 → Affine で2024*2 → Affine + Softmaxで1000

精度とポイント

精度：
- 誤答率16％と2位が前年度優勝と≒の26％に大差
- ココからの怒涛の精度改善のきっかけになった。
- なお、AlexNet?でのCIFAR-10の精度は89%らしい。

ポイント
- 非DL時代からDL時代へ。
- 力技のモデル（CNN層をシンプルに積重ね深く、並列計算で大きく出来た）
- LRN（Local Response Normalization、局所応答正規化）はマイナーテク

↑

GoogLeNet? †

歴史
- Google, 2014
- 分類、検出部門で優勝
- Inceptionモジュールで更に深いCNNを構成

論文（15）
Introduction：

タスク
ILSVRC

アーキテクチャ
- GoogLeNet 図
- 9個のInceptionモジュール

精度とポイント

精度：6.7%

ポイント
- CNNはパラメタ数が増えてもスパースになってしまい無駄が多い。
- スパース（疎）をデンス（密）にする ≒ 人間/犬/猫の目/鼻/口を共通化するみたいな話。
- スパース（疎）をデンス（密）にするには、相関のあるニューロンをまとめる。
  ・相関のあるニューロンとは特徴マップ上の同じ位置のニューロン
  ・1*1 Convで次元削減すると相関のあるニューロンをまとめられる。

↑

VGGNet †

このうちの性能が良かった VGG16 または VGG19 が使われている。

歴史
- オックスフォード, 2014
- 分類部門で2位
- 多層から成るCNN

論文（14）
19層より深いものも試したが、19層がベストだった。

タスク
ILSVRC

アーキテクチャ
- VGGNet 図
- 特徴の説明
  アーキテクチャがシンプル
  - VGG16 は畳み込み13層と全結合3層の計16
  - VGG19 は畳み込み16層と全結合3層の計19
- 構造の説明
  - 入力 : 224*224*3ch（256*256をデータ拡張）
  - Conv : FN=64, FHW=3*3, P=1（以下Conv3でFWH, P略）
  - Conv3 : FN=64
  - Max Pooling : 2*2, S=2（以下略） → 112*112*64
  - Conv3 : FN=128
  - Conv3 : FN=128
  - Max Pooling → 56*56*128
  - Conv3 : FN=256（VGG16*3、VGG19*4
  - Max Pooling → 28*28*256
  - Conv3 : FN=512（VGG16*3、VGG19*4
  - Max Pooling → 14*14*512
  - Conv3 : FN=512（VGG16*3、VGG19*4
  - Max Pooling → 7*7*512
  - 7*7*512 をFlatten → Affineで4096 → Affineで4096 → Affine + Softmaxで1000

精度とポイント

精度：6.8%

ポイント
- 3*3 Convだけでこの精度
- 奥の階層が汎用的な特徴を獲得しているから
  転移学習、ファイン・チューニングに利用できる。

↑

ResNet? †

Residualブロックにおける残差学習の導入により、152層の深いネットワークの学習を可能にした

歴史
- Microsoft Research, 2015
- 初めて人間のエラー率 5% を上回る精度を達成。
- Residualブロックにおける残差学習の導入により、より深いCNNの学習方法を提案
- ある層で求める最適な出力を学習するのではなく層の入力を参照した残差関数を学習。
- 入力層から出力層まで伝播する値と入力層の値を足し合わせたモデルで入力層まで、
  勾配値がきちんと伝わり、今では1000層といったかなり深い構造でも学習が可能となった。

論文（16）
- 勾配消失の話は全く触れていない。
- 劣化問題の問題から、どのようにResNet?へ辿り着いたか？
- 18、34、154、1202層のものを評価して劣化問題が発生しないことを確認している。
- 1202でも学習可能でAlexNetよりパラメタ数が少ない（汎化性能は154の方が良い）。
- あとは、Heの初期値とバッチ正規化などによって劣化問題からの最適化問題に取り組んでいる。

タスク
ILSVRC

アーキテクチャ
- ResNet 図
- Residualブロック
- 特徴の説明

構造の説明

＜ResNet?-34＞
・入力 : 224*224*3ch（256*256をデータ拡張）
・Conv : FN=64, FHW=7*7, S=2
・Max Pooling : 3*3, S=2
・Residualブロック（全部のConvのFN= 64, 先頭ConvだけS=2）を3層
・Residualブロック（全部のConvのFN=128, 先頭ConvだけS=2）を4層
・Residualブロック（全部のConvのFN=256, 先頭ConvだけS=2）を6層
・Residualブロック（全部のConvのFN=512, 先頭ConvだけS=2）を3層
・Global Average Pooling
・...をFlatten → Affine + Softmaxで1000

＜ResNet?-152＞
・入力 : 224*224*3ch（256*256をデータ拡張）
・Conv : FN=256, FHW=7*7, S=2
・Max Pooling : 3*3, S=2
・ResidualブロックA（先頭ConvだけS=2）を3層
・ResidualブロックB（先頭ConvだけS=2）を8層
・ResidualブロックC（先頭ConvだけS=2）を36層
・ResidualブロックD（先頭ConvだけS=2）を3層
・Global Average Pooling
・...をFlatten → Affine + Softmaxで1000