長短期記憶ニューラルネットワーク（LSTM）のバックアップ(No.8) - .NET 開発基盤部会 Wiki

[ トップ ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- 順伝播型ニューラルネットワーク（FNN）
- ディープニューラルネットワーク（DNN）
- 畳み込みニューラルネットワーク（CNN）
- 再帰型ニューラルネットワーク（RNN）
  - 長短期記憶ニューラルネットワーク（LSTM）
  - 自己符号化器（AE：オートエンコーダ）

目次 †

目次
概要
詳細

概要 †

（Long short-term memory: LSTM）
memoryと言うがハード的なメモリが実装されているということではない。
ゲートという仕組みを使用して長期的特徴と短期的特徴を学習できる。

特徴 †

シンプルなRNNのhtはコロコロ変わるので記憶力が弱いと言える。
（長文を読んで要約をするというようなタスクには記憶力が足りない）

LSTMでは、ゲートという仕組みを使用してコレを補い、
長期的特徴と短期的特徴を学習することができる。

欠点は計算量が多いこと。

構造 †

そもそもゲートとはなにか？ †

LSTMには回路中にゲートというモノが含まれる。

コレはRNN系の回路上で次にどの程度前の情報を渡すか？を制御する。

この制御に使うベクトルをXゲート・ベクトルと呼ぶ。

このベクトルの

計算方法は、どれも、だいたい同じ様に計算される（学習結果で重みは異なる）。
具体的には、xとht-1の全結合を足して、最後にSigmoid関数（σ）にかける。
値は0-1の値になり、次にどの程度前の情報を渡すか？を制御する。

GRU (Gated Recurrent Unit) †

ゲート付き回帰型ユニット

LSTMの簡略版で、
- 長期的特徴と短期的特徴を学習する方法として、
- リセット・ゲートと更新ゲートを採用しており、
- どの程度を忘れるか制御して長期記憶を実現する。

ゲートがリセット・ゲートと更新ゲートの２つ
- リセット・ゲート：前の情報をどれだけ捨てるかを決定する。
- 更新ゲート：今の情報をどれだけ取り込むかを決定する。

LSTM (Long short-term memory) †

長・短期記憶
- 長期的特徴と短期的特徴を学習する方法として、
- 入力ゲート、忘却ゲート、出力ゲートを採用しており、
- どの程度を忘れるか制御して長期記憶を実現する。

３つのゲートを追加（Attention機構に近い）。
- 入力ゲート
- 出力ゲート
- 忘却ゲート

LSTMでできること †

≒ RNNでできること

詳細 †

GRUの仕組みと構造の説明 †

数式と構造 †

数式	GRUセルの構造

※ 「*」はアダマール積と言う。

　

リセット・ゲート	更新ゲート

要素の説明 †

数式

rtは、リセット・ゲート・ベクトルと呼ばれる。

式は、Xゲート・ベクトルの計算方法で
・RNNの式と同じだが活性化関数がSigmoid関数（σ）なので0-1の値
・更に、重みはWhとWxではなくWrと、同じものを使っているぽい。

\~ht（今の情報）の式での使われ方の観点からは、
ht-1（前の情報）をどの程度減衰させるかを決める。

ztは、更新ゲート・ベクトルと呼ばれる。

式は、Xゲート・ベクトルの計算方法で
・RNNの式と同じだが活性化関数がSigmoid関数（σ）なので0-1の値
・更に、重みはWhとWxではなくWzと、同じものを使っているぽい。

ht（出力）の式での使われ方の観点からは、
ht（出力）をht-1（前の情報）から~ht（今の情報）に、どの程度変化させるか？を決める。

\~ht（今の情報）は、

式の意味としては、
・活性化関数含め、ほとんどRNNの式。
・rt（リセット・ゲート・ベクトル）によってht-1（前の情報）が減衰される点が異なる。

ht（出力）の式での使われ方の観点からは、
ht（出力）を算出する際にht-1（前の情報）にブレンドされる~ht（今の情報）。

ht（出力）は、
計算済みのht-1（前の情報）と~ht（今の情報）を、
計算したzt（更新ゲート・ベクトル）の割合でブレンドしている。
- ztが０に近いと、ht-1（前の情報）が強調される（文脈に変化がない場合）。
- ztが１に近いと、~ht（今の情報）が強調される（文脈に変化がある場合）。

ゲート

リセット・ゲート：過去の情報をどれだけ捨てるかを決定する。
- 入力と重みを使ってrt（リセット・ゲート・ベクトル）を計算する。
- \~ht（今の情報）の計算の回路にrt（リセット・ゲート・ベクトル）を流す。

更新ゲート：過去の情報をどれだけ取り込むかを決定する。
- 入力と重みを使ってzt（更新ゲート・ベクトル）を計算する。
- （前の情報を減衰する）rt（リセット・ゲート・ベクトル）を使って~ht（今の情報）の計算を行う。
- ht（出力）にht-1（前の情報）と~ht（今の情報）を
  どんな比率でブレンドするかをzt（更新ゲート・ベクトル）を使って計算する。

LSTMの仕組みと構造の説明 †

数式と構造 †

数式	セルの構造

※ 「*」はアダマール積と言う。

　

忘却ゲート	入力ゲート

　

コンテキスト計算	出力ゲート

要素の説明 †

数式
Cは長期記憶（コンテキスト）、Hは短期記憶（...）

ftは、忘却ゲート・ベクトルと呼ばれる。

式は、Xゲート・ベクトルの計算方法で

Ct（コンテキスト）の式での使われ方の観点からは、Ct（コンテキスト）に、Ct-1（前コンテキスト）を、どの程度含めるか？を決める。

itは、入力ゲート・ベクトルと呼ばれる。

式は、Xゲート・ベクトルの計算方法で

Ct（コンテキスト）の式での使われ方の観点からは、~Ct（現コンテキスト）に、どの程度変化させるか？を決める。

otは、出力ゲート・ベクトルと呼ばれる。

式は、Xゲート・ベクトルの計算方法で

ht（出力の短期記憶）の式での使われ方の観点からは、Ct（コンテキスト）中の短期記憶を抜き出す。

\~Ctは、前コンテキストで、

式の意味としては、活性化関数含め、ほとんどRNNの式。

Ct（コンテキスト）の式での使われ方の観点からは、
Ct（コンテキスト）を算出する際にCt-1（前コンテキスト）にブレンドする~Ct（現コンテキスト）を、どの程度含めるか？を決める。

Ctは、長期記憶（コンテキスト）で以下のように計算する。
- ft（忘却ゲート・ベクトル）とCt-1（前コンテキスト）のアダマール積
- it（入力ゲート・ベクトル）と~Ct（...）のアダマール積

ht（出力の短期記憶）は、
- 計算済みのCt（コンテキスト）と計算したot（出力ゲート・ベクトル）を使って
- Ct（コンテキスト）中の短期記憶を抜き出したもの。

ゲート

入力ゲート
出力ゲート
忘却ゲート

拡張形式 †

双方向LSTM

多層双方向LSTM