自己符号化器（AE：オートエンコーダ）のバックアップ(No.11)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- 一般的なフツーのニューラルネットワーク
- 再帰型ニューラルネットワーク（RNN）
  - 長短期記憶ニューラルネットワーク（LSTM）
  - RNN Encoder-Decoder（Sequence-to-Sequence）
- 生成モデル系のニューラルネットワーク
  - 自己符号化器（AE：オートエンコーダ）
  - 敵対的生成ネットワーク（GAN）

目次 †

↑

概要 †

自己符号化器（AE：オートエンコーダ）、自己識別機とも呼ばれる。

↑

歴史 †

元々、（入出力兼務の）可視層と隠れ層の２層のニューラルネットワーク、展開すれば、３層のニューラルネットワークで、

勾配消失問題を事前学習とファイン・チューニングによって解決しニューラルネットワーク発展の礎となった。

AEのポイントは、可視層より隠れ層の次元（数）を少なくしてある（情報の圧縮）。

このAEを積み重ね、ディープAE、正確には、積層AEを作成（ジェフリー・ヒントン）。
層の積み重ねは、事前学習とファイン・チューニングによって達成される。
- はじめに事前学習を行い層を積み重ねていく。
- 最上部に層を足し、教師あり学習にする（？）
  - ロジスティク回帰層
  - 回帰問題の場合、線形回帰層

最後の仕上げにファイン・チューニング（全体で再学習）する。

↑

特徴 †

↑

教師あり、なし †

入力データと一致するデータを出力することを目的とする教師なし学習
データとしては教師なしだが（、学習としては）、入力データを用いた教師あり学習。

↑

入出力を一致させる。 †

入出力が一致するように各エッジの重みを調整
出力と入力に対して誤差を算出し、その差が小さくなるように誤差逆伝播法を用い重みを学習する。

↑

特徴表現の獲得 †

隠れ層の次元を小さくして情報量を小さくした特徴表現を獲得する。
（入力の情報を圧縮される。→ 学習の結果、重みとして要約される。）

入力したデータをEncoderで潜在空間上の特徴量（潜在変数ｚ）に圧縮（次元削減・特徴抽出）し、

潜在空間上の特徴量（潜在変数ｚ）からDecoderで復元（再び戻して出力）する。

潜在空間：何かしらの分布を仮定した潜在空間を学習

※ EncoderもDecoderもニューラルネットワーク

↑

種類 †

様々な種類があるもよう。

変分AE（VAE : Variational auto-encoder）
スタック型AE
スパースAE
ディープAE
デノイジングAE
, etc.

↑

できること †

様々な用途で利用されている。

↑

詳細 †

↑

変分オートエンコーダ（VAE） †

画像生成では変分オートエンコーダ（VAE）を使う。
AEを活用、学習データが何らかの分布に基づいて生成されていると仮定
生成される画像は鮮明ではなく、ぼやけた画像になる。

↑

仕組み †

Encoder
- 入力データが多次元ガウス分布として符号化され、その分布から潜在変数ｚをサンプリング。
- つまり、多次元ガウス分布を記述する平均 μ と分散 σ^2 を返すようにEncoderを学習。

Decoder
- サンプリングされた潜在変数ｚから、元々の入力データを再構成したものを出力。

↑

潜在変数z †

層
- Encoder
  - μ,σ^2 = encoder(x)

中間層
- z～N(μ, σ^2)
- ノイズ : ϵ～N(0, I)
- z = μ+σϵ

Decoder
- X=decoder(z)

潜在空間上の特徴量、潜在変数ｚ...
- ...は入力x1, x2を、異なる潜在変数の領域に正規分布に沿ってマッピング。
- ...が連続的な分布（正規分布）になっているので、
- ...を調整することで連続的に生成データが変化する。

↑

最適化 †

x をより良く表現する p(X) のパラメータを学習するには、周辺尤度 logp(X) の最大化を考える。

記号	説明
X	再構成されるデータ
p(X)	再構成されるデータの確率分布
z	潜在変数ｚ
p(z)	潜在変数ｚの確率分布
p(X｜z)	潜在変数ｚが与えられた時のxの確率分布（Decoder）
q(z｜X)	データXが与えられた時のzの確率分布（Encoder）

↑

復元誤差 †

Decoderによる誤差

↑

KLダイバージェンス †

Encoderによる誤差

↑

損失関数 †

復元誤差とKLダイバージェンスの展開式を損失関数として利用することでVAEを最適化出来る

↑

Transformer †

その情報に注目スべきか判断して情報を処理するAttentionの導入。
Self-Attention機構の重要性を示し、他の分野にも影響を与えた。
汎用性が高くコレを画像処理に応用したのが、Vision Transformer。

※ RNN Encoder-DecoderのAttention機構と同じ目的を達成するが機構は異なる。

↑

アーキテクチャ †

オートエンコーダ、Attention、全結合層

RNN Encoder-Decoder（Sequence-to-Sequence）を用いないオートエンコーダ・モデル
- RNNもCNNも使わず（再帰も畳込も行わず）に
- 入力と出力の文章同士の広範囲な依存関係を捉えられる、
- Attention機構の概念を導入したオートエンコーダ・モデル

RNN Encoder-Decoder（Sequence-to-Sequence）の逐次処理を
オートエンコーダの並列処理に変更して従来モデルの問題を解決。

Attention機構をMulti-head Attentionに置き換えた、
「並列化できない」「長期記憶ができない（大域的な特徴・ニュアンスを捉え難い）」問題を解決。
・並列計算で高速な学習が可能になった。
・後半に行けばいくほど昔の記憶を維持するのが難しくなる問題を解決。
・Positional Encoding（位置エンコーディング）でベクトルに語順情報を付加。

↑

パフォーマンス †

RNN Encoder-Decoder（Sequence-to-Sequence）系よりも早くて精度が高い

処理が速い：並列化によって学習時間を大幅に短縮。
- データを逐次処理する必要がなく、
- 並列化で訓練時間が圧倒的に削減でき
- ビッグデータで効率的に学習できる。

精度が高い：英独翻訳タスクで従来モデルの最良結果を超える。
汎用性が高い：汎用的で、大規模なモデルも構築可能

↑

タスクの概要と構造 †

翻訳タスク
スペイン語 → 英語
- Yo tengo gatos → I have cats
- ...と、catsを予測するTransformer.

入力と出力
翻訳タスク（Yo tengo gatos → I have cats）

入力
- Self-Attention：「Yo tengo gatos」
- Masked Self-Attention：「I have」

Encoderの出力を一気にDecoderに入れる。

出力
- 次単語予測（BEAM search）：「cats」を予想する。
- Decoderが通常のSeq2seqのように逐次的に単語を出力していく。

EncoderとDecoderの入力に以下の前処理が処理前に行われる。
- ストップワード削除済み原文
- Embeding：単語の分散表現
- Positional Encoding：単語の順番情報を埋込。

構造

#ref(): File not found: "Transformer0.png" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer1.png" at page "自己符号化器（AE：オートエンコーダ）"
https://qiita.com/omiita/items/07e69aef6c156d23c538

Encoder
文章を意味に変換する。
- Self-Attention（Multi-head Attention）
  ・1文の単語だけを使って計算された単語間の関連度スコア
  ・Source-Target Attentionは異なる2文の単語たちの関連度スコアを計算する
  I have cats
  I 0.88 0.10 0.02
  have 0.08 0.80 0.12
  cats 0.03 0.14 0.83

Feedforward Neural Network（Position-Wise Feed-Forward Networks）

Decoder
意味を文章に変換する。
- Masked Self-Attention
  予想する単語の部分をマスクしたSelf-Attention
- Encoder Decoder Self-Attention
- Feedforward Neural Network
- 全結合層・Softmax関数

↑

オートエンコーダ †

左半分がEncoder

N=6層のTransformer Blockで構成されていて、6層とも同じ構造。

各Transformer Block層は2つのサブ層で構成される。

Multi-head Attention層は文脈を埋込。
文脈の理解力が高いAttentionの進化版で複数箇所の重要な部分に注目することができる。

Position-Wise Feed-Forward Networks層は...
・入力はQと同サイズのトークン・ベクトルが並んだ文章で
・Position-Wiseは各トークン毎（位置単位）に計算をすると言う意味

それぞれのサブ層の後にはAdd＆Normがある。
- Add：残差接続
- Norm：Layer Normalization（学習高速化の正規化）

右半分がDecoder
- N=6層のTransformer Blockで構成されていて、6層とも同じ構造。
- 各Transformer Block層は2つのサブ層で構成される。
- 2つのサブ層の間にエンコーダの出力を受け取るMulti-head Attention層が追加されている。

#ref(): File not found: "Transformer2.jpg" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer3.jpg" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer4.jpg" at page "自己符号化器（AE：オートエンコーダ）"
https://nlpillustration.tech/?p=2171

↑

Transformer Block †

Transformer ≒ Transformer Block

Q、K、VからAttentionを計算する。
- Query Q
  各単語がそれぞれの持っているベクトル。
- Key K
  各単語がそれぞれの持っているベクトル。
- Value V
  加重はQとKを使って計算され、Vの加重和がAttention

メモリセルをKey・Valueの対で構成し、
Queryに近いKeyでメモリセルからValueを返すと言う、
KVSが語源になっているが実際の仕組みは全然違う。

y = f(x, h(, r)) の精度向上に関する情報 r を、
x, h に応じて、メモリから拾い上げる機能を実現する。

計算結果（Qと同サイズ）をQのAdd＆Norm（前述）をする。

計算結果をPosition-Wise Feed-Forward Networksに適用。

さらに計算結果（入力と同サイズ）をAdd＆Norm（前述）をする。

最終的なTransformer Blockの出力とする。

#ref(): File not found: "Transformer5.png" at page "自己符号化器（AE：オートエンコーダ）"

https://agirobots.com/multi-head-attention/

↑

Multi-head Attention †

Single-Head Attention（Scaled Dot-Product AttentionとLinear層からなる）を並列化したもの。
獲得された学習パラメタを可視化すると並列に並んでいる各Single-Headが異なる注意表現を獲得している。

Multi-head Attention	Single-Head Attention
#ref(): File not found: "Transformer6.png" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer7.png" at page "自己符号化器（AE：オートエンコーダ）"
https://agirobots.com/multi-head-attention/

Single-Head Attention
HeadとはLinear層*3とScaled Dot-Product Attention層*1の4つの組合せ

Linear層
Scaled Dot-Product Attention層の直前に学習パラメタを持つリニア層を設け、
多種多様な特徴部分空間における注意表現を学習可能にする柔軟性を獲得させている。

Scaled Dot-Product Attention層
- 内積に基づく注意計算を行うだけとなっていて内部に学習パラメタを持たない。
- スケール化内積注意と訳せるだけに、内積を利用したベクトル間の類似性に基づく変換を行う注意機構
  #ref(): File not found: "Transformer8.png" at page "自己符号化器（AE：オートエンコーダ）"
  https://agirobots.com/multi-head-attention/

Concat＋Linear層
- Concat
- Linear：活性化関数が恒等関数（なのでPosition-Wise Feed-Forward Networksがある）

↑

数式 †

ポイント
- Xは縦ベクトルではなく横ベクトル
- WXではなくXW（= tWtX）

Q、K、VからAttentionを計算する。

入力としてQ、K、Vがあり、
Q、Kの内積計算が行われる
後スケール化が行われ
オプションでマスクストアが行われ
Softmax関数が適用されて
計算結果とVの内積を出力

ますが本質的なところで言うとこちらですねソフトマックスの 12:59 ルートDK分の9KTを計算しているにすぎません 13:05 具体的な例を見た方が分かりやすいと思いますので具体例を見ていきましょう 13:10 ここではクエリーに任意の単語を表すベクトルをそして 13:16 キーとバリューには文章を単語ごとにベクトル化して並べた行列を入力するということを考え 13:23 たいと思いますちなみに単語のベクトル化においては 13:28 埋め込み層と呼ばれるものを使用することができます例えば今回は 13:34 Ihaveapentという単語文章を単語ごとにトークン化してベクトル化する 13:40 ことを考えてみましょう単語ごとということですので 13:46 Ihaveapenピリオドですねこの5 つについてベクトル化した時に右のように 13:55 なったとしますそれぞれ列ベクトルとなっています 14:00 ここではベクトルの値については考えませんがベクトルの違いというのは色の違いで 14:07 表してやりますここでクエリとしてhas を表すベクトルこちらですねこれを 14:15 与えることとしますそしてキーとバリューには各ベクトルを 14:21 順番に並べた行列そうですねこちらを行列化したものですねこれ 14:27 これを入力することを考えますこの時ソフトマックス関数の入力である 14:35 ルートDK分の9KTこれはどれかというとこちらですねソフトマックス関数はここ 14:42 にあるのでここまでの処理ですちょっとマスクについては後で説明しますがまあ要するにここですね 14:49 ルートDK分の 9ktということで 14:54 この計算はクエリのベクトルと入力文章の全 14:59 ベクトルはいクエリーのベクトルと入力文章の全ベクトルですね 15:06 に関して内積を計算し金の長さこれはトークン数になりますのでここですね 15:14 のルートでスケール化したベクトルとなりますすなわち 15:19 Ihaveapenを構成するトークンこちらに対してハーブを表すベクトルに 15:25 それぞれのベクトルがどの程度近いのかを内積を使って 15:31 計算するのですスケール化についてはソフトマックス関数の兼ね合いで必要になっているという形 15:38 です内積ですのでスケール化しないと値がものすごく大きくなってしまいます 15:44 値が大きくなるとソフトマックス関数の性質上勾配がですねどんどんあまりよろしくない 15:52 わけですよねですのでその全体をスケール化してあげて 15:58 その値をソフトマックス関数に入力するということを行っております 16:05 でソフトマックス関数は皆さんクラス分類の機械学習の出力層とかでよく使うと思う 16:11 んですけれどもこれによってですね類似している単語ほど1に近く相違して 16:18 いる単語ほどゼロに近くかつ全体の和は1 というような変換を 16:24 施すことができますこの結果を用いて valuと内積を計算するということです 16:31 一言でまとめるとスケールドットプロダクトアテンションと 16:37 はクエリーベクトルとキーの各ベクトルの類似性に基づいて 16:43 valuの各ベクトルの線形結合を計算するということになりますここまでの流れを全て図に

↑

参考 †

【図解】誰でもわかるTransformer入門！凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM
https://nlpillustration.tech/?p=2171

↑

Qiita †

深層学習界の大前提Transformerの論文解説！
https://qiita.com/omiita/items/07e69aef6c156d23c538

↑

YouTube? †

↑

［Transformers入門］日本語のセンチメント分析
https://agirobots.com/transformers-sentiment-analysis/

【Transformerの基礎】Multi-Head Attentionの仕組み
https://agirobots.com/multi-head-attention/

【詳説】Attention機構の起源から学ぶTransformer
https://agirobots.com/attention-mechanism-transformer/

Transformerについて本質を分かりやすく解説！
https://agirobots.com/essence-transformer/

Scaled Dot-Product Attentionの本当の凄さを考える
https://agirobots.com/essence-of-scaled-dot-product-attention/

強化学習のパラダイムシフト！Decision Transformerとは？
https://agirobots.com/decision-transformer/

自己符号化器（AE：オートエンコーダ）のバックアップ(No.11)

目次 †

概要 †

歴史 †

特徴 †

教師あり、なし †

入出力を一致させる。 †

特徴表現の獲得 †

種類 †

できること †

詳細 †

変分オートエンコーダ（VAE） †

仕組み †

潜在変数z †

最適化 †

復元誤差 †

KLダイバージェンス †

損失関数 †

Transformer †

アーキテクチャ †

パフォーマンス †

タスクの概要と構造 †

オートエンコーダ †

Transformer Block †

Multi-head Attention †

数式 †

参考 †

Qiita †

YouTube? †

AIcia Solid Project †

AI教室 AIRS-Lab †

AGIRobots †

	I	have	cats
I	0.88	0.10	0.02
have	0.08	0.80	0.12
cats	0.03	0.14	0.83

自己符号化器（AE：オートエンコーダ） のバックアップ(No.11)

目次 †

概要 †

歴史 †

特徴 †

教師あり、なし †

入出力を一致させる。 †

特徴表現の獲得 †

種類 †

できること †

詳細 †

変分オートエンコーダ（VAE） †

仕組み †

潜在変数z †

最適化 †

復元誤差 †

KLダイバージェンス †

損失関数 †

Transformer †

アーキテクチャ †

パフォーマンス †

タスクの概要と構造 †

オートエンコーダ †

Transformer Block †

Multi-head Attention †

数式 †

参考 †

Qiita †

YouTube? †

AIcia Solid Project †

AI教室 AIRS-Lab †

AGIRobots †

自己符号化器（AE：オートエンコーダ）のバックアップ(No.11)