ニューラルネットワークのバックアップ(No.84)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- パーセプトロン
- ニューラルネットワーク
  - ニューラルネットワーク（推論）
  - ニューラルネットワーク（学習）

目次 †

目次
概要
数学的に
活性化関数
出力層の活性化関数
- Sigmoid関数
- Softmax関数
推論と学習
- ニューラルネットワーク（推論）
- ニューラルネットワーク（学習）
  - 深層学習の誤差逆伝播法
  - 深層学習のテクニック
ニューラルネットワークの問題点
ニューラルネットワークの色々
参考

↑

概要 †

↑

モデル †

脳機能に見られるいくつかの特性に類似した数理的モデル（確率モデルの一種）

シナプスの結合によりネットワークを形成した人工ニューロン（ノード）が、
学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般。

実際に生物の神経系のシミュレーションであるか否かについては
議論があるため人工ニューラルネットワークなどと呼ばれることもある。

↑

学習 †

↑

ニューラルネットワークは、 †

ネットワークにループする結合を持たず、

単一方向へのみ信号が伝播する。

第０層        第１層          第２層~
入力層 → 中間層（隠れ層） → 出力層

機械学習の、
- 学習フェーズでは、信号は逆方向に伝播する。
- 推論フェーズでは、信号は順方向に伝播する。

≒ 多層パーセプトロン

パーセプトロンでは、活性化関数にStep関数（段階関数）を使用していたが、
ニューラルネットワークでは、これ以外の活性化関数（Sigmoid関数、ReLU関数）を使用する。

線形の座標変換（アフィン変換）をしたモノに対して
目盛の振り直しを行い新しい非線形の座標系を作る。
「重み」によって「新しい非線形の座標系」が変わる。

参考
- ニューラルネットワークと深層学習
  　CHAPTER 4 ニューラルネットワークが任意の関数を表現できることの視覚的証明
  　https://nnadl-ja.github.io/nnadl_site_ja/chap4.html

↑

「重み」のパラメタの決定 †

「重み」のパラメタ（w1, w2, θ（-b））の決定は人手によって行われる。
という問題を、データから自動で「重み」のパラメタを学習することで解決する。

ニューラルネットワークとは微分可能な変換が幾つも連なってできた一つの大きな合成関数で、この微分は逆伝播の連鎖律で計算できる。

従って、ネットワーク構造が複雑であっても、合成関数を構成する個々の変換が微分可能であれば、
勾配法によって目的関数（損失関数）を最適化することで（収束するかどうかは別にして）求めることが出来る。

↑

構造 †

↑

第０層（入力層 †

そのままの値を出力（出力に重みを掛けられる。

↑

第１層（中間層（隠れ層 †

入出力変換後、重みを掛けて多分岐。
以下のような関数を使用できる。
- 任意の実数を非線形に変換出来る関数
- 誤差逆伝播法を用いるため微分できる関数

↑

第２層（出力層 †

０、１の間の値に変換（全部の和が１となるように正規化する場合もある
これにはSigmoid関数またはSoftmax関数が必要。

↑

誤差の計算と重みの更新 †

出力と教師信号の誤差の計算をし、
２→１→０層と層の重みを更新していく（誤差逆伝播法）

↑

数学的に †

↑

関数 †

関数はニューラルネットワーク全体で１つの関数、個々の合成関数。

(x) → (z) → (w) → (p)

◯ → ◯ の「→」の部分が関数と重み（重みは入力に掛ける値）

(x) ─ f1(x1, x2, x3, ...) → (z) ─ f2(z1, z2, z3, ...) → (w) ─ f3(w1, w2, w3, ...) → (p)

↑

特徴 †

複雑性（表現力）、計算可能性

深くする（p=fn(...f3(f2(f1(x)))...)と
少ないパラメタで複雑（≒ 高次）な関数を作れる。

1次関数だと複雑にならない。
2次関数だとパラメタが多過ぎ。

非線形なΦ（活性関数）に1次関数（w1x1+w2x2+w3x3+...+b）を入力

z1 = Φ1(w11x1 + w12x2 + w13x3 + ... + b1)
z2 = Φ1(w21x1 + w22x2 + w23x3 + ... + b2)
...
zn = Φ1(wn1x1 + wn2x2 + wn3x3 + ... + bn)

↑

計算 †

↑

入力層～中間層の †

上記を行列計算に出来る。

オンライン

(t1,t2,t3,t4) = (x1,x2,x3,x4)┌w11,w12,w13,w14┐ + (b1,b2,b3,b4)
                             │w21,w22,w23,w24│
                             │w31,w32,w33,w34│
                             │w41,w42,w43,w44│
                             │w51,w52,w53,w54│
                             └w61,w62,w63,w64┘
(z1,z2,z3,z4) = Φ((t1,t2,t3,t4))

バッチ（サイズ３

┌t11,t12,t13,t14┐   ┌x11,x12,x13,x14┐┌w11,w12,w13,w14┐   ┌b1,b2,b3,b4┐
│t21,t22,t23,t24│ = │x21,x22,x23,x24││w21,w22,w23,w24│ + │b1,b2,b3,b4│
└t31,t32,t33,t34┘   └x31,x32,x33,x34┘│w31,w32,w33,w34│   └b1,b2,b3,b4┘
                                         │w41,w42,w43,w44│
                                         │w51,w52,w53,w54│
                                         └w61,w62,w63,w64┘

┌z11,z12,z13,z14┐      ┌t11,t12,t13,t14┐
│z21,z22,z23,z24│ = Φ(│t21,t22,t23,t24│)
└z31,z32,z33,z34┘      └t31,t32,t33,t34┘

↑

出力層と誤差計算 †

出力層
分類問題の場合、Softmax関数
以下は、２値分類の例

オンライン
```
softmax((p1,p2)) = (f1,f2)
```

バッチ

        ┌p11,p12┐    ┌f11,f12┐
softmax(│p21,p22│) = │f21,f22│
        └p31,p32┘    └f31,f32┘

誤差計算
分類問題の場合、交差エントロピー誤差
以下は、２値分類の例

オンライン
```
cross_entropy_error((f1,f2)) = (l1,l2)
```

バッチ

                    ┌f11,f12┐    ┌l11,l12┐
cross_entropy_error(│f21,f22│) = │l21,l22│
                    └f31,f32┘    └l31,l32┘

↑

活性化関数 †

各層の出力する前に、出力結果をどの程度活性（発火）させるかを決める関数。

ニューラルネットワークでは、非線形な関数を使用する必要がある。
- 線形関数を用いてはならないのは、多層化の意味が無くなるため。
- 例 : 線形な h(x) = cx を多層化しても h(h(h(x))) = cccx となり１層で表現可能。

Step関数、Sigmoid関数、tanh関数、ReLU関数がある。

しかし、最近は、勾配消失問題を防ぐReLU関数の利用が主流になっている。

↑

Step関数とSigmoid関数 †

↑

共通点 †

微分可能な非線形な関数
0 <= 出力信号 <= 1 に収める。
入力信号が重要な時に１（に近い）、重要でない時０（に近い）値を返す。

↑

相違点 †

Step関数：0, 1の信号
- 単純パーセプトロンの活性化関数はStep関数。
- ある閾値を超えたら「1」、それ以外は「0」を返す関数。

Sigmoid関数：連続的な実数の信号
- 生物の神経細胞が持つ性質をモデル化したもの。
- 微分可能で誤差逆伝播法（バックプロパゲーション）が可能だが、勾配消失問題が起こる。

↑

Step関数 †

↑

実装 †

なんとなくAPI仕様を知らないと難しい感じ（グラフ参照）。

パターン１

"""This is a test program."""

import numpy as np

def step_function(x_1):
    """This is a test program."""
    y_1 = x_1 > 0
    return y_1.astype(np.int)

パターン２

"""This is a test program."""

import numpy as np

def step_function(x_1):
    """This is a test program."""
    return np.array(x_1 > 0, dtype=np.int)

↑

グラフ †

－5.0 ～ 5.0までの0.1刻みのプロットをStep関数にかけてグラフ化する。

"""This is a test program."""

import numpy as np
import matplotlib.pylab as plt

def step_function(x_1):
    """This is a test program."""
    # 上記のいずれかの実装を選択。

X = np.arange(-5.0, 5.0, 0.1)
Y = step_function(X)
plt.plot(X, Y)
plt.ylim(-0.1, 1.1)  # 図で描画するy軸の範囲を指定
plt.show()

↑

Sigmoid関数 †

              1
h(x) = ────────
        1 + exp(-x)

exp(-x)とは、eの-x乗を意味する。
eはネイピア数(2.7182)の実数を表す。

↑

実装 †

ポイントは、Pythonのブロードキャストによって配列も計算できる点。

"""This is a test program."""

import numpy as np

def sigmoid(x_1):
     """This is a test program."""
    return 1 / (1 + np.exp(-x_1))

↑

グラフ †

－5.0 ～ 5.0までの0.1刻みのプロットをSigmoid関数にかけてグラフ化する。

"""This is a test program."""

import numpy as np
import matplotlib.pylab as plt

def sigmoid(x_1):
    """This is a test program."""
    return 1 / (1 + np.exp(-x_1))

X = np.arange(-5.0, 5.0, 0.1)
Y = sigmoid(X)
plt.plot(X, Y)
plt.ylim(-0.1, 1.1)
plt.show()

↑

tanh関数 †

tanh（Hyperbolic tangent function）関数、双曲線正接関数
あらゆる入力値を-1.0～1.0の範囲の数値に変換して出力する関数である。

微分値の最大が
- Sigmoid関数が最大0.25
- tanh関数が最大1.0

で、勾配消失問題を引き起こし難く、学習をより高速化させる。

ただ、それでも勾配消失問題は発生する。
（非常に深いネットワークでは勾配消失問題は防ぎ難い）

↑

実装 †

...

↑

グラフ †

...

↑

ReLU関数 †

ReLU(Rectified Linear Unit)関数、正規化線形関数

勾配消失問題を防ぐ関数として主流。
- 入力x が０以下なら０を出力する。
- 入力x が０を超えていれば x をそのまま出力する。
```
           ┌
           │0 ( a <= 0 )
y = h(a) = <
           │a ( a > 0 )
           └
```

↑

主流 †

最近の主流。

その理由は、

Sigmoid関数の利用は
- ...ロジスティック回帰などの名残
- ...勾配消失問題を引き起こす問題がある｡

ReLU関数

...は勾配消失問題を緩和できる｡
・微分結果が 0 or 1 なので、
・ただし、0（の時は）では学習が上手くいかない。

...は非常にシンプルで学習時間が短縮される｡

↑

実装 †

"""This is a test program."""

import numpy as np

def relu(x_1):
    """This is a test program."""
    return np.maximum(0, x)

↑

グラフ †

－5.0 ～ 5.0までの0.1刻みのプロットをReLU関数にかけてグラフ化する。

"""This is a test program."""

import numpy as np
import matplotlib.pylab as plt

def relu(x_1):
    """This is a test program."""
    return np.maximum(0, x_1)

X = np.arange(-5.0, 5.0, 0.1)
Y = relu(X)
plt.plot(X, Y)
plt.ylim(-0.1, 5.1)
plt.show()

↑

ReLU派生系 †

↑

Leaky ReLU関数 †

x < 0においてわずかな傾きをもっている。
このため微分値が0になることはなくなり、
ReLUよりも勾配消失問題を引き起こし難い。

↑

Parametric ReLU †

LeakyReLU のく 0 部分の直線の傾きを「学習によって最適化」

↑

Randomized ReLU †

LeakyReLU のく 0 部分の直線の傾きを「ランダムに試す」

↑

Maxout関数 †

ReLUをさらに一般化した関数
Dropoutと組み合わせることで高い精度が得られる｡

↑

出力層の活性化関数 †

↑

Sigmoid関数 †

2クラス分類の機械学習で使用される。
xで条件付けされたyのベルヌーイ分布を推定｡
Sigmoid関数の確率の値をベルヌーイ分布の式にブチ込む
と条件付き確率が求まるモノなのか？確率分布と条件付き確率の関係がよー解らん。

↑

Softmax関数 †

多クラス分類の機械学習で使用される。
xで条件付けされたyのマルチヌーイ分布を推定｡
Softmax関数の確率の値をマルチヌーイ分布の式にブチ込む
と条件付き確率が求まるモノなのか？確率分布と条件付き確率の関係がよー解らん。

↑

推論と学習 †

↑

ニューラルネットワークの問題点 †

↑

過学習を起こし易い †

↑

概要 †

従来手法よりも過学習を起こし易い。
データサンプルは､パラメータの10倍あると良い。
少ないデータ量でもできるだけ性能を落とさずに済むような工夫が新たに必要。

↑

解決 †

DNNの場合、

CNNの場合は（データ拡張、バッチ正規化）

↑

学習率の調整が難しい †

↑

概要 †

学習率とは、

一回の学習でどれだけ学習るか？
＝どれだけパラメタ更新するか？で、

学習率が従来の機械学習の手法よりも大きく影響する。

学習率が

学習率が適切な場合、
スムーズに学習が進行する。

小さ過ぎると
- 収束後は安定するものの、
- 収束までに時間がかかり過ぎる。

大き過ぎると
- 素早く学習官僚するものの、
- 発散（≒ 極小値周辺を行ったり来たり）する｡
- 著しく大きい場合、学習するほど誤差が増える。

↑

解決 †

調整

一般的に、10^-1（0.1）～10^-6（0.000001）の間で調整。

もしくは、学習率が自動調整されるような工夫がある。

↑

勾配消失問題が起こる †

誤差逆伝播法の計算において入力層に近い手前の層まで学習が行き渡らなくなる現象

↑

理由 †

誤差逆伝播法では奥にある出力層から､手前にある入力層へ順番に伝わる。

活性化関数にSigmoid関数を使用する場合、微分値が最大でも+0.25

勾配の値は層を遡るほど１未満の値のかけ算する回数が増え小さくなる。

このため、
- 手前の層ほど学習の際に用いる勾配の値が小さくなり、
- 手前の層ほど十分なパラメタの更新ができなくなる｡

↑

解決 †

一時的に、事前学習とファイン・チューニングの方法で解決した。

その後、

活性化関数をSigmoid関数からReLU関数に変更、

ドロップアウト（Dropout）

バッチ正規化（Batch Normalization）

ResNet?のSkip Connection

ハードウェア性能の向上（CPU、GPU、TPU）

により（事前学習とファイン・チューニングを用いず、）全体の学習ができるようになった。

↑

ニューラルネットワークの色々 †

↑

順伝播型ニューラルネットワーク（FNN） †

（Feedforward Neural Network: FNN）

DNNやCNNなどは、FNNになる。
多分、RNNの登場で出来た区分

↑

ディープニューラルネットワーク（DNN） †

(Deep Neural Network: DNN)

DNNの説明は本項で行われています。

ニューラルネットワーク内の層が多層（ディープ）化されている仕組み

DNNを用いた近似は、非線形関数である活性化関数を何層にも
組み合わせることで多種・多様な強い表現力を獲得することが可能

線形の座標変換（アフィン変換）をしたモノに対して目盛の振り直しを行い、新しい非線形の座標系を作る。
"重み"によって"新しい非線形の座標系"を変えることで、現象を高次元の関数で近似することが出来る。

↑

畳み込みニューラルネットワーク（CNN） †

↑

再帰型ニューラルネットワーク（RNN） †

↑

長短期記憶ニューラルネットワーク（LSTM） †

（Long short-term memory: LSTM）

↑

特徴 †

長期的特徴と短期的特徴を学習することができる。欠点は計算量が多いこと。

長期依存が学習できない原因は勾配消失問題があり、
（遠くの層ほど勾配の大きさが小さくなってしまい、学習が進み難い）
過去10ステップ程しか記憶できなかったRNNに
過去1000ステップ以上の記憶を保持できる機能が追加されている。

以下の問題点に対するソリューション

勾配消失・爆発の問題
長期記憶を実現するCEC（記憶セル）

重み衝突（入力重み衝突、出力重み衝突）
３つのゲートを追加（Attention機構に近い）。
- 入力重み衝突：入力ゲート
- 出力重み衝突：出力ゲート
- 上記以外に、忘却ゲート

追加のニューロン
- ゲートをコントロールするニューロン
- セルへの入力を求めるニューロン
- 追加のニューロンへもCEC（記憶セル）の値を入力

↑

LSTMでできること †

≒ RNNでできること

↑

拡張形式、GRU †

双方向LSTM

多層双方向LSTM

GRU（gated recurrent unit）
- ゲート付き回帰型ユニット
- LSTMの簡略版（ゲートの数が更新ゲートとリセットゲートの２つ）
  - 更新ゲート：過去の情報をどれだけ取り込むかを決定する。
  - リセットゲート：過去の情報をどれだけ捨てるかを決定する。

↑

自己符号化器（AE：オートエンコーダ） †

↑

特徴 †

ニューラルネットワークの一種で

教師あり、なし
- 入力データと一致するデータを出力することを目的とする教師なし学習
- データとしては教師なしだが（、学習としては）、入力データを用いた教師あり学習。

隠れ層の次元を小さくして情報量を小さくした特徴表現を獲得する。
（入力の情報を圧縮される。→ 学習の結果、重みとして要約される。）
- 入力したデータをエンコーダーで潜在変数に圧縮（次元削減・特徴抽出）し、
- 潜在変数からデコーダで復元（再び戻して出力）する。
- エンコーダーもデコーダもニューラルネットワーク

入出力が一致するように各エッジの重みを調整
出力と入力に対して誤差を算出し、その差が
小さくなるように誤差逆伝播法を用い重みを学習する。

種類
様々な種類があるもよう。
- 変分AE（VAE : Variational auto-encoder）
- スタック型AE
- スパースAE
- ディープAE
- デノイジングAE
- , etc.

↑

AEでできること †

様々な用途で利用されている。

異常検知
需要予測
ロボティクス

↑

AEの歴史 †

元々、（入出力兼務の）可視層と隠れ層の２層のネットワークだが、

展開すれば、３層のニューラルネットワークと ≒ のものだった。
AEのポイントは、可視層より隠れ層の次元（数）を少なくしてある（情報の圧縮）。
このAEを積み重ね、ディープAE、正確には、積層AEを作成（ジェフリー・ヒントン）。
層の積み重ねは、事前学習とファイン・チューニングによって達成される。
- はじめに事前学習を行い層を積み重ねていく。
- 最上部に層を足し、教師あり学習にする（？）
  - ロジスティク回帰層
  - 回帰問題の場合、線形回帰層
- 最後の仕上げにファイン・チューニング（全体で再学習）する。

※ AEは、勾配消失問題を事前学習とファイン・チューニングに
　よって解決しニューラルネットワーク発展の礎となった。

↑