深層学習の誤差逆伝播法のバックアップ(No.8)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- 深層学習の誤差逆伝播法
- 深層学習のテクニック

目次 †

↑

概要 †

多層ニューラルネットワークを効率よく学習させるアルゴリズム
層がより深くなっても、学習できる仕組みとして注目される。

↑

誤差関数（損失関数）の最小化問題 †

各層の重みを更新して誤差をゼロにしていく。
- 最小＝微分した値がゼロになる点。
- 重みのパラメタは複数あるので偏微分を行う。

誤差の種類
過学習にならないようにバランスをとる。
- 訓練誤差：学習時の誤差
- 汎化誤差：推論時の誤差

損失関数のグラフの全容は実際には観測できない。

↑

パラメタ値の自動計算 †

多変数の合成関数を偏微分する際の連鎖律（チェインルール）で、
自動的に、各層の重みを（遡って）更新出来る。

ポイント

イテレーション
最小の値を見つけるまで繰り返した計算の回数

学習率
- パラメタ更新を行う際の更新幅（パイパー・パラメタ）
- 勾配に沿って、一度にどれだけ降りていくか。

↑

見せかけの最適化を防ぐ †

停留点は、極大点、極小点、鞍点のいずれかになりうる。
- 鞍点は、ある次元では最小だが、別の次元では最大（最小ではない）など。
- 最小化問題において、極小点は局所最小点または大域的最小点のいずれか。
- （最大化問題において、極大点は局所最大点または大域的最大点のいずれか。）

学習率を大きく設定し、適切なタイミングで値を小さくしていく。
モーメンタムは物理で言う慣性の考え方を適用したもの。
SGD (MomentumSGD, NAG)、Rmsprop、Adam、AdaDelta、AdaGrad

↑

数式 or 計算グラフ †

勾配降下法（損失関数の勾配を計算するための数値微分）は、
計算に時間がかかるので、ニューラルネットワークを学習させる際に用い効率よく計算を行う。

誤差逆伝播法は、

↑

数式 †

↑

計算グラフ †

によって理解する。

前者が一般的であるが、ここでは、後者を使用して視覚的に理解した上で実装する。

↑

勾配法 †

勾配降下法とも

勾配法では、（パラメタの微分を計算して得た）勾配の情報を使って進む方向を決める。
...

↑

微分 †

↑

勾配 †

勾配の示す方向は、各場所で関数の値を最も減らす方向。

式

 df(x0, x1)    df(x0, x1)
─────   , ─────
    dx0           dx1

説明
- すべての変数の偏微分をベクトルとしてまとめたものを勾配と呼ぶ。
- 上記の例なら、x0=3, x1=4の場合、勾配は、(6, 8)となる。

Python

実装

"""This is a test program."""

import numpy as np

def numerical_gradient(f, x01):
    """偏微分"""
    h = 1e-4 # 微小な値hとして1の-4乗を用いる

    grad = np.zeros_like(x01) # x01と同じ形状で要素が0。

    for idx in range(x01.size):
        tmp_val = x01[idx]
        # 前方差分から中心差分にして誤差減
        # f(x + h)
        fxh1 = f(tmp_val + h)
        # f(x - h)
        fxh2 = f(tmp_val - h)
        # (f(x + h) - f(x - h)) / 2 * h
        grad[idx] = (fxh1 - fxh2) / (2 * h)

    return grad

def function_2(x):
    return np.sum(x**2)

print(numerical_gradient(function_2, np.array([3.0, 4.0])))
print(numerical_gradient(function_2, np.array([0.0, 2.0])))
print(numerical_gradient(function_2, np.array([3.0, 0.0])))

出力
```
[ 6.  8.]
[ 0.  4.]
[ 6.  0.]
```

参考
https://github.com/oreilly-japan/deep-learning-from-scratch/blob/master/ch04/gradient_2d.py
- x = -2.0 - 2.5, y = -2.0 - 2.5 の範囲の0.25刻みのメッシュグリッドを生成
- メッシュグリッドはm行n列の配列なので、これをflatten()メソッドで m * n にベクトル化。
- np.array([X, Y])で x0, x1 の 2 行 m * n 列の配列にする。
- バッチ関数ではforで 1 行つづ取り出し、m * n 列のベクトルとして処理する。
- 各場所（x0, x1）での、勾配をplt.quiver使用してベクトル（矢印）として描画する。
  #ref(): File not found: "gradient_2d.png" at page "深層学習の誤差逆伝播法"

↑

勾配法 †

勾配法では、広大なパラメタ空間から、複雑な損失関数が、
最小（最大）値を出力する鞍点（saddle point）を、勾配を使用して探す。
- 勾配降下法 : 最小値を探す。
- 勾配上昇法 : 最大値を探す。

注意点
- 勾配の指す方向に最小（最大）値があることは保証されない。
- 複雑な関数の場合は、勾配の指す方向に最小（最大）値が無い可能性が高い。

ポイント
学習を如何に
- 効率良く進めるか。
- 上手く最適解に収束させるか。
- 上手く鞍点を脱するか。

式
```
             df(x0, x1)
x0 = x0 - η ─────
                dx0

              df(x0, x1)
x1 = x1 - η  ─────
                dx1
```
- 説明
  - 上記は、一回の更新式で、勾配法では、このステップを繰り返す。
  - ηは学習率で、一回の学習でどれだけ学習すべきか？＝どれだけパラメタ更新するか？
  - 学習率は、0.01、0.001など前もって値を決める、
    それから正しく学習できているか確認しながら調整する。

Python
以下の式の最小値を勾配法で求める。
```
              2    2
f(x0, x1) = x0 + x1
```

実装

import numpy as np

def numerical_gradient(f, x01):
    """偏微分"""
    h = 1e-4 # 微小な値hとして1の-4乗を用いる

    grad = np.zeros_like(x01) # x01と同じ形状で要素が0。
    # print("x01:" + str(x01));
    for idx in range(x01.size):
        tmp_val = x01[idx]
        # 前方差分から中心差分にして誤差減
        # f(x + h)
        fxh1 = f(tmp_val + h)
        # f(x - h)
        fxh2 = f(tmp_val - h)
        # (f(x + h) - f(x - h)) / 2 * h
        grad[idx] = (fxh1 - fxh2) / (2 * h)

    return grad

def gradient_descent(f, init_x01, lr, step_num):
    print("ln : step_num = " + str(lr) + " : " + str(step_num))
    x01 = init_x01
    for i in range(step_num):
        grad = numerical_gradient(f, x01)
        x01 -= lr * grad
    
    return x01

def function_2(x):
    return np.sum(x**2)

init_x = np.array([-3.0, 4.0])
print(gradient_descent(function_2, init_x, 0.1, 100))

# 学習率が大きすぎる。
init_x = np.array([-3.0, 4.0])
print(gradient_descent(function_2, init_x, 10.0, 100))
# 学習率が小さすぎる。
init_x = np.array([-3.0, 4.0])
print(gradient_descent(function_2, init_x, 1e-10, 100))

出力

ln : step_num = 0.1 : 100
[ -6.11110793e-10   8.14814391e-10]
ln : step_num = 10.0 : 100
[ -1.91613251e+13  -1.26893162e+12]
ln : step_num = 1e-10 : 100
[-2.99999994  3.99999992]

↑

NNに対する勾配 †

ニューラルネットワークの学習における勾配は、
重みパラメタに関する損失関数の勾配となる。

式

    ┌ w11 w21 vw31 ┐
W = │              │
    └ w12 w22 vw32 ┘

      ┌  dL    dL    dL  ┐
      │ ──  ──  ── │
 dL   │ dw11  dw21  dw31 │
── =│                  │
 dW   │  dL    dL    dL  │
      │ ──  ──  ── │
      └ dw12  dw22  dw32 ┘

Python

gradient_simplenet.py
https://github.com/oreilly-japan/deep-learning-from-scratch/blob/master/ch04/gradient_simplenet.py
- 重みパラメタをインスタンス変数に持つ。
  2 行 3 列の行列で、標準正規分布関数に従う乱数を生成
- x = 入力データ, t = 正解ラベル
- predict(x)メソッド : dot（ドット積）メソッドで推論する。
- loss(x, t)メソッド : 損失関数（の値を求める）
```
predict ---> softmax ---> cross_entropy_error
```
  1. predict（推論する）
  2. softmax(ソフトマックス関数)
  3. cross_entropy_error（交差エントロピー誤差）

nditerで多次元配列に対応した勾配の計算メソッド : common.gradient.numerical_gradient
https://github.com/oreilly-japan/deep-learning-from-scratch/blob/master/common/gradient.py#L34

実行
フォルダ構成を維持した状態でch04に定義した以下のファイルを実行。
```
C:\deep-learning-from-scratch-master\ch04>python Untitled-1.py
```

simpleNetを使って推論/学習

実装

import sys, os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
from common.functions import softmax, cross_entropy_error
from common.gradient import numerical_gradient
from gradient_simplenet import simpleNet

print("==================================================")
print("==================================================")

net = simpleNet()
print("W:" + str(net.W))

x = np.array([0.6, 0.9])
p = net.predict(x)
print("p:" + str(p))

t = np.array([0, 0, 1])
l = net.loss(x, t)
print("loss:" + str(l))

出力

W:[[ 1.92087598  0.63971089 -0.26820797]
 [ 0.58411529 -0.04610929 -0.88999594]]
p:[ 1.67822935  0.34232817 -0.96192113]
loss:2.92853604814

simpleNetを使って勾配を求める

実装

import sys, os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
from common.functions import softmax, cross_entropy_error
from common.gradient import numerical_gradient
from gradient_simplenet import simpleNet

print("==================================================")
print("==================================================")

net = simpleNet()
print("W:" + str(net.W))

x = np.array([0.6, 0.9])
t = np.array([0, 0, 1])

f = lambda w: net.loss(x, t)
dW = numerical_gradient(f, net.W)
print("dW:" + str(dW))

出力

==================================================
==================================================
W:[[ 1.83160192  0.4900981  -0.94188042]
 [-0.24946104  2.91410946 -0.00695892]]
dW:[[ 0.06708443  0.51711391 -0.58419835]
 [ 0.10062665  0.77567087 -0.87629752]]

Wは、

W :     [[ w11 = 1.83160192  w21 = 0.4900981  w31 = -0.94188042]
         [ w12 = -0.24946104 w22 = 2.91410946 w32 = -0.00695892]]
dL/dW : [[ dL/dw11 = 0.06708443 dL/dw21 = 0.51711391 dL/dw31 = -0.58419835]
         [ dL/dw12 = 0.10062665 dL/dw22 = 0.77567087 dL/dw32 = -0.87629752]]

w11を h 増やすと、0.06708443 h 増加する。
w12を h 増やすと、0.10062665 h 増加する。
w21を h 増やすと、0.51711391 h 増加する。
w22を h 増やすと、0.77567087 h 増加する。
w31を h 増やすと、-0.58419835 h 増加する( = 減少する)。
w32を h 増やすと、-0.87629752 h 増加する( = 減少する)。
勾配がプラスならhをマイナス方向に、マイナスならプラス方向に動かす。

↑

連鎖律 †

合成関数の微分についての性質。

「ある関数が、合成関数で表される場合、合成関数の微分は、
合成関数を構成する関数の微分の積で表すことが出来る。」

↑

合成関数 †

合成関数（関数Aと関数B）

     2
z = t
t = x + y

↑

関数Aの微分 †

dz
─ = 2t
dt

↑

関数Bの微分 †

dt
─ = 1
dx

↑

合成関数の微分 †

dz    dz dt
─ =  ─ ─ = 2t * 1 = 2t = 2( x + y)
dx    dt dx

↑

計算グラフ †

計算過程をデータ構造としてのグラフによって表す。

データ構造としてのグラフは、複数の
- ノードと
- エッジ（ノードを結ぶ直線）

によって表現される。

中間の計算結果は保持される。

順伝播
- 右（始点）から左（終点）に流れる。
- 保持された計算結果と逆伝播で、微分を効率よく計算できる。

↑

計算グラフの例 †

↑

例1 †

100円のリンゴを2個買う（消費税10%が適用される）。

          100       200         220
（リンゴ）--->（*2）--->（*1.1）--->（支払い）

数値を外出にする（ノードは演算子だけ）。

          100      200      220
（リンゴ）--->（*）--->（*）--->（支払い）
               ↑2      ↑1.1
  （リンゴの個数）（消費税）

↑

例2 †

以下を購入（消費税10%が適用される。
- 100円のリンゴを2個
- 150円のみかんを3個

          100         200         650      715
（リンゴ）--->（*）--------->（+）--->（*）--->（支払い）
                ↑2           ↑       ↑1.1
    （リンゴの個数）          │   （消費税）
                              │
          150          450    │
（みかん）--->（*）-----------┘
                ↑3
    （みかんの個数）

↑

局所的 †

局所的な計算を伝播することによって、最終的な結果を得ることが出来る。
局所的な計算に集中できる。これによって問題に集中できる。

          100            200         4,200    4,620
（リンゴ）--->（*）------------->（+）--->（*）--->（支払い）
                ↑2               ↑       ↑1.1
    （リンゴの個数）              │   （消費税）
                                  │
                                  │
（沢山の買い物）--->（複雑な計算）┘4000

↑

逆伝播 †

例えば、リンゴの値上がりが支払金額に、どう影響するか？を計算する。
これは、＝リンゴの値段に関する支払金額の微分を求めることに相当する。

逆方向の伝播では、連鎖率によって
「局所的な微分」を「順方向の逆方向に伝播」する。

↑

順伝播の例 †

y = 2.2x
- x = リンゴの値段
- y = 支払金額

          100(1x)  200(2x)   220(2.2x)
（リンゴ）--->（*）---->（*）---->（支払い）
               ↑2       ↑1.1
  （リンゴの個数） （消費税）

↑

逆伝播の例 †

dy
─ = 2.2
dx

          100(1x)  200(2x)   220(2.2x)
（リンゴ）--->（*）---->（*）---->（支払い）
          <--- ↑  <---- ↑  <----
           2.2 │   1.1  │    1.0
               │2       │1.1
  （リンゴの個数） （消費税）

↑

計算グラフの逆伝播 †

順方向と逆向きに局所的な微分を乗算。

 x         y
---->（f）---->
<----     <----
   dy
 E ─      E
   dx

↑

連鎖率と計算グラフ †

↑

連鎖率を計算グラフで表現 †

    x           t          z
--------->（+）---->（^2）---->
<--------- ↑  <----      <----
  dz dt    │    dz         dz
1 ─ ─    │  1 ─         ─ = 1
  dt dx    │    dt         dz
           │
            y

    x             t          z
------------>（+）---->（^2）---->
<------------  ↑ <----      <----
               │   
 1 * 2(x + y)  │  2t = 2(x + y)
               │
               │
                y

↑

演算毎の逆伝播 †

↑

加算ノード †

式
```
z = x + y
```

ｘで微分
```
dz
─ = 1
dx
```

ｙで微分
```
dz
─ = 1
dy
```

計算グラフ

x ──┐  dL
      │1 ─
      │  dz
      ↓         z                         L
      (+) <-------------（何らかの計算）<------
      ↑         dL                        dL
      │  dL     ─                        ─
      │1 ─     dz                        dL
y ──┘  dz

↑

乗算ノード †

式
```
z = x * y
```

ｘで微分
```
dz
─ = y
dx
```

ｙで微分
```
dz
─ = x
dy
```

計算グラフ

x ──┐  dL
      │y ─
      │  dz
      ↓         z                         L
      (*) <-------------（何らかの計算）<------
      ↑         dL                        dL
      │  dL     ─                        ─
      │x ─     dz                        dL
y ──┘  dz

↑

リンゴの例 †

これらの微分値は、

それぞれの値が１増えた時、
その他の値に変更がない場合、
最終結果に影響を与える大きさ

を表している。

          100(1x)   200(2x)     220(2.2x)
（リンゴ）---->（*）------>（*）---->（支払い）
          <----↑│ <------ ↑│<----
           2.2 ││   1.1   ││ 1.0
               ││         ││
              2│↓110   1.1│↓200
         （リンゴの個数）（消費税）

          100         200         650      715
（リンゴ）--->（*）--------->（+）--->（*）--->（支払い）
          <---↑│ <--------- ↑│<---↑│ <---
          2.2 ││    1.1     ││1.1 ││  1
             2│↓110         ││    ││
    （リンゴの個数）          ││ 1.1││650
                              ││    │↓
          150           450   ││ （消費税）
（みかん）--->（*）-----------┘│
          <---↑│ <------------┘
          3.3 ││      1.1
             3│↓165
    （みかんの個数）

↑

レイヤの実装 †

↑

↑

乗算レイヤ：MulLayer? †

↑

深層学習の誤差逆伝播法 のバックアップ(No.8)

目次 †

概要 †

誤差関数（損失関数）の最小化問題 †

パラメタ値の自動計算 †

見せかけの最適化を防ぐ †

数式 or 計算グラフ †

数式 †

計算グラフ †

勾配法 †

微分 †

勾配 †

勾配法 †

NNに対する勾配 †

連鎖律 †

合成関数 †

関数Aの微分 †

関数Bの微分 †

合成関数の微分 †

計算グラフ †

計算グラフの例 †

例1 †

例2 †

局所的 †

逆伝播 †

順伝播の例 †

逆伝播の例 †

計算グラフの逆伝播 †

連鎖率と計算グラフ †

連鎖率を計算グラフで表現 †

演算毎の逆伝播 †

加算ノード †

乗算ノード †

リンゴの例 †

レイヤの実装 †

単純なレイヤの実装 †

乗算レイヤ：MulLayer? †

加算レイヤ：AddLayer? †

深層学習の誤差逆伝播法のバックアップ(No.8)