自己符号化器（AE：オートエンコーダ）のバックアップ(No.8)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- 一般的なフツーのニューラルネットワーク
- 再帰型ニューラルネットワーク（RNN）
  - 長短期記憶ニューラルネットワーク（LSTM）
  - RNN Encoder-Decoder（Sequence-to-Sequence）
- 生成モデル系のニューラルネットワーク
  - 自己符号化器（AE：オートエンコーダ）
  - 敵対的生成ネットワーク（GAN）

目次 †

↑

概要 †

自己符号化器（AE：オートエンコーダ）、自己識別機とも呼ばれる。

↑

歴史 †

元々、（入出力兼務の）可視層と隠れ層の２層のニューラルネットワーク、展開すれば、３層のニューラルネットワークで、

勾配消失問題を事前学習とファイン・チューニングによって解決しニューラルネットワーク発展の礎となった。

AEのポイントは、可視層より隠れ層の次元（数）を少なくしてある（情報の圧縮）。

このAEを積み重ね、ディープAE、正確には、積層AEを作成（ジェフリー・ヒントン）。
層の積み重ねは、事前学習とファイン・チューニングによって達成される。
- はじめに事前学習を行い層を積み重ねていく。
- 最上部に層を足し、教師あり学習にする（？）
  - ロジスティク回帰層
  - 回帰問題の場合、線形回帰層

最後の仕上げにファイン・チューニング（全体で再学習）する。

↑

特徴 †

↑

教師あり、なし †

入力データと一致するデータを出力することを目的とする教師なし学習
データとしては教師なしだが（、学習としては）、入力データを用いた教師あり学習。

↑

入出力を一致させる。 †

入出力が一致するように各エッジの重みを調整
出力と入力に対して誤差を算出し、その差が小さくなるように誤差逆伝播法を用い重みを学習する。

↑

特徴表現の獲得 †

隠れ層の次元を小さくして情報量を小さくした特徴表現を獲得する。
（入力の情報を圧縮される。→ 学習の結果、重みとして要約される。）

入力したデータをEncoderで潜在空間上の特徴量（潜在変数ｚ）に圧縮（次元削減・特徴抽出）し、

潜在空間上の特徴量（潜在変数ｚ）からDecoderで復元（再び戻して出力）する。

潜在空間：何かしらの分布を仮定した潜在空間を学習

※ EncoderもDecoderもニューラルネットワーク

↑

種類 †

様々な種類があるもよう。

変分AE（VAE : Variational auto-encoder）
スタック型AE
スパースAE
ディープAE
デノイジングAE
, etc.

↑

できること †

様々な用途で利用されている。

↑

詳細 †

↑

変分オートエンコーダ（VAE） †

画像生成では変分オートエンコーダ（VAE）を使う。
AEを活用、学習データが何らかの分布に基づいて生成されていると仮定
生成される画像は鮮明ではなく、ぼやけた画像になる。

↑

仕組み †

Encoder
- 入力データが多次元ガウス分布として符号化され、その分布から潜在変数ｚをサンプリング。
- つまり、多次元ガウス分布を記述する平均 μ と分散 σ^2 を返すようにEncoderを学習。

Decoder
- サンプリングされた潜在変数ｚから、元々の入力データを再構成したものを出力。

↑

潜在変数z †

層
- Encoder
  - μ,σ^2 = encoder(x)

中間層
- z～N(μ, σ^2)
- ノイズ : ϵ～N(0, I)
- z = μ+σϵ

Decoder
- X=decoder(z)

潜在空間上の特徴量、潜在変数ｚ...
- ...は入力x1, x2を、異なる潜在変数の領域に正規分布に沿ってマッピング。
- ...が連続的な分布（正規分布）になっているので、
- ...を調整することで連続的に生成データが変化する。

↑

最適化 †

x をより良く表現する p(X) のパラメータを学習するには、周辺尤度 logp(X) の最大化を考える。

記号	説明
X	再構成されるデータ
p(X)	再構成されるデータの確率分布
z	潜在変数ｚ
p(z)	潜在変数ｚの確率分布
p(X｜z)	潜在変数ｚが与えられた時のxの確率分布（Decoder）
q(z｜X)	データXが与えられた時のzの確率分布（Encoder）

↑

復元誤差 †

Decoderによる誤差

↑

KLダイバージェンス †

Encoderによる誤差

↑

損失関数 †

復元誤差とKLダイバージェンスの展開式を損失関数として利用することでVAEを最適化出来る

↑

Transformer †

その情報に注目スべきか判断して情報を処理するAttentionの導入。
Self-Attention機構の重要性を示し、他の分野にも影響を与えた。
汎用性が高くコレを画像処理に応用したのが、Vision Transformer。

※ RNN Encoder-DecoderのAttention機構と同じ目的を達成するAttentionだが機構は異なる。

↑

アーキテクチャ †

オートエンコーダ、Attention、全結合層

RNN Encoder-Decoder（Sequence-to-Sequence）を用いないオートエンコーダ・モデル
- RNNもCNNも使わず（再帰も畳込も行わず）に
- 入力と出力の文章同士の広範囲な依存関係を捉えられる、
- Attentionの概念を導入したオートエンコーダ・モデル

「並列化できない」「長期記憶ができない（大域的な特徴・ニュアンスを捉え難い）」という従来モデルの問題を解決
RNNをMulti-head Attentionに置き換えた、完全にAttentionに基づく最初のシーケンス変換モデル。
- RNN Encoder-Decoder（Sequence-to-Sequence）の逐次処理からオートエンコーダで並列処理を可能にした。
- 後半に行けばいくほど昔の記憶を維持するのが難しくなる問題を、逐次処理から並列処理に変更することで解決した。

↑

パフォーマンス †

RNN Encoder-Decoder（Sequence-to-Sequence）系よりも早くて精度が高い

処理が速い：並列化によって学習時間を大幅に短縮。
- データを逐次処理する必要がなく、
- 並列化で訓練時間が圧倒的に削減でき
- ビッグデータで効率的に学習できる。

精度が高い：英独翻訳タスクで従来モデルの最良結果を超える。
汎用性が高い：汎用的で、大規模なモデルも構築可能

↑

タスクの概要と構造 †

翻訳タスク
スペイン語 → 英語
- Yo tengo gatos → I have cats
- ...と、catsを予測するTransformer.

入力と出力
翻訳タスク（Yo tengo gatos → I have cats）

入力
- Self-Attention：「Yo tengo gatos」
- Masked Self-Attention：「I have」

Encoderの出力を一気にDecoderに入れる。

出力
- 次単語予測（BEAM search）：「cats」を予想する。
- Decoderが通常のSeq2seqのように逐次的に単語を出力していく。

EncoderとDecoderの入力に以下の前処理が処理前に行われる。
- ストップワード削除済み原文
- Embeding：単語の分散表現
- Positional Encoding：単語の順番情報を埋込。

構造

#ref(): File not found: "Transformer0.png" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer1.png" at page "自己符号化器（AE：オートエンコーダ）"
https://qiita.com/omiita/items/07e69aef6c156d23c538

Encoder
文章を意味に変換する。
- Self-Attention（Multi-Head Attention）
  ・1文の単語だけを使って計算された単語間の関連度スコア
  ・Source-Target Attentionは異なる2文の単語たちの関連度スコアを計算する
  I have cats
  I 0.88 0.10 0.02
  have 0.08 0.80 0.12
  cats 0.03 0.14 0.83

Feedforward Neural Network（Position-Wise Feed-Forward Networks）

Decoder
意味を文章に変換する。
- Masked Self-Attention
  予想する単語の部分をマスクしたSelf-Attention
- Encoder Decoder Self-Attention
- Feedforward Neural Network
- 全結合層・Softmax関数

↑

オートエンコーダ †

左半分がEncoder
- N=6層のTransformer Blockで構成されていて、6層とも同じ構造。
- 各Transformer Block層は2つのサブ層で構成される。
  - Multi-head Attention層は文脈を埋込。
    文脈の理解力が高いAttentionの進化版で複数箇所の重要な部分に注目することができる。
  - Position-Wise Feed-Forward Networks層は...
    ..................................................
- それぞれのサブ層の後にはAdd&Normがある。
  - Add：残差接続
  - Norm：Layer Normalization（学習高速化の正規化）

右半分がDecoder
- N=6層のTransformer Blockで構成されていて、6層とも同じ構造。
- 各Transformer Block層は2つのサブ層で構成される。
- 2つのサブ層の間にエンコーダの出力を受け取るMulti-Head Attention層が追加されている。

#ref(): File not found: "Transformer2.jpg" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer3.jpg" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer4.jpg" at page "自己符号化器（AE：オートエンコーダ）"
https://nlpillustration.tech/?p=2171

↑

数式 †

ポイント
- 横ベクトル
- WXではなくXW（→tWtX）

Multi-head Attention
Scaled Dot-Product AttentionとLinear層からなるSingle-Head Attentionを並列化したもの。

Scaled Dot-Product Attention

↑

参考 †

↑

AGIRobots †

以下はブログ側

［Transformers入門］日本語のセンチメント分析
https://agirobots.com/transformers-sentiment-analysis/

【Transformerの基礎】Multi-Head Attentionの仕組み
https://agirobots.com/multi-head-attention/

【詳説】Attention機構の起源から学ぶTransformer
https://agirobots.com/attention-mechanism-transformer/

Transformerについて本質を分かりやすく解説！
https://agirobots.com/essence-transformer/

Scaled Dot-Product Attentionの本当の凄さを考える
https://agirobots.com/essence-of-scaled-dot-product-attention/

強化学習のパラダイムシフト！Decision Transformerとは？
https://agirobots.com/decision-transformer/

	I	have	cats
I	0.88	0.10	0.02
have	0.08	0.80	0.12
cats	0.03	0.14	0.83

自己符号化器（AE：オートエンコーダ） のバックアップ(No.8)