自己符号化器（AE：オートエンコーダ）のバックアップ(No.27)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- 一般的なフツーのニューラルネットワーク
- 再帰型ニューラルネットワーク（RNN）
  - 長短期記憶ニューラルネットワーク（LSTM）
  - RNN Encoder-Decoder（Sequence-to-Sequence）
- 生成モデル系のニューラルネットワーク
  - 自己符号化器（AE：オートエンコーダ）
  - 敵対的生成ネットワーク（GAN）

目次 †

目次
概要
詳細
参考

↑

概要 †

自己符号化器（AE：オートエンコーダ）、自己識別機とも呼ばれる。

↑

歴史 †

元々、（入出力兼務の）可視層と隠れ層の２層のニューラルネットワーク、展開すれば、３層のニューラルネットワークで、

勾配消失問題を事前学習とファイン・チューニングによって解決しニューラルネットワーク発展の礎となった。

AEのポイントは、可視層より隠れ層の次元（数）を少なくしてある（情報の圧縮）。

このAEを積み重ね、ディープAE、正確には、積層AEを作成（ジェフリー・ヒントン）。
層の積み重ねは、事前学習とファイン・チューニングによって達成される。
- はじめに事前学習を行い層を積み重ねていく。
- 最上部に層を足し、教師あり学習にする（？）
  - ロジスティク回帰層
  - 回帰問題の場合、線形回帰層

最後の仕上げにファイン・チューニング（全体で再学習）する。

↑

特徴 †

↑

教師あり、なし †

入力データと一致するデータを出力することを目的とする教師なし学習
データとしては教師なしだが（、学習としては）、入力データを用いた教師あり学習。

↑

入出力を一致させる。 †

入出力が一致するように各エッジの重みを調整
出力と入力に対して誤差を算出し、その差が小さくなるように誤差逆伝播法を用い重みを学習する。

↑

特徴表現の獲得 †

隠れ層の次元を小さくして情報量を小さくした特徴表現を獲得する。
（入力の情報を圧縮される。→ 学習の結果、重みとして要約される。）

入力したデータをEncoderで潜在空間上の特徴量（潜在変数ｚ）に圧縮（次元削減・特徴抽出）し、

潜在空間上の特徴量（潜在変数ｚ）からDecoderで復元（再び戻して出力）する。

潜在空間：何かしらの分布を仮定した潜在空間を学習

※ EncoderもDecoderもニューラルネットワーク

↑

種類 †

様々な種類があるもよう。

変分AE（VAE : Variational auto-encoder）
スタック型AE
スパースAE
ディープAE
デノイジングAE
, etc.

↑

できること †

様々な用途で利用されている。

↑

詳細 †

↑

変分オートエンコーダ（VAE） †

画像生成では変分オートエンコーダ（VAE）を使う。
AEを活用、学習データが何らかの分布に基づいて生成されていると仮定
生成される画像は鮮明ではなく、ぼやけた画像になる。

↑

仕組み †

Encoder
- 入力データが多次元ガウス分布として符号化され、その分布から潜在変数ｚをサンプリング。
- つまり、多次元ガウス分布を記述する平均 μ と分散 σ^2 を返すようにEncoderを学習。

Decoder
- サンプリングされた潜在変数ｚから、元々の入力データを再構成したものを出力。

↑

潜在変数z †

層
- Encoder
  - μ,σ^2 = encoder(x)

中間層
- z～N(μ, σ^2)
- ノイズ : ϵ～N(0, I)
- z = μ+σϵ

Decoder
- X=decoder(z)

潜在空間上の特徴量、潜在変数ｚ...
- ...は入力x1, x2を、異なる潜在変数の領域に正規分布に沿ってマッピング。
- ...が連続的な分布（正規分布）になっているので、
- ...を調整することで連続的に生成データが変化する。

↑

最適化 †

x をより良く表現する p(X) のパラメータを学習するには、周辺尤度 logp(X) の最大化を考える。

記号	説明
X	再構成されるデータ
p(X)	再構成されるデータの確率分布
z	潜在変数ｚ
p(z)	潜在変数ｚの確率分布
p(X｜z)	潜在変数ｚが与えられた時のxの確率分布（Decoder）
q(z｜X)	データXが与えられた時のzの確率分布（Encoder）

↑

復元誤差 †

Decoderによる誤差

↑

KLダイバージェンス †

Encoderによる誤差

↑

損失関数 †

復元誤差とKLダイバージェンスの展開式を損失関数として利用することでVAEを最適化出来る

↑

Transformer †

その情報に注目スべきか判断して情報を処理するAttentionの導入。
Self-Attention機構の重要性を示し、他の分野にも影響を与えた。
汎用性が高くコレを画像処理に応用したのが、Vision Transformer。

※ RNN Encoder-DecoderのAttention機構と同じ目的を達成するが機構は異なる。

↑

アーキテクチャ †

オートエンコーダ、Attention、全結合層

RNN Encoder-Decoder（Sequence-to-Sequence）を用いないオートエンコーダ・モデル
- RNNもCNNも使わず（再帰も畳込も行わず）に
- 入力と出力の文章同士の広範囲な依存関係を捉えられる、
- Attention機構の概念を導入したオートエンコーダ・モデル

RNN Encoder-Decoder（Sequence-to-Sequence）の逐次処理を
オートエンコーダの並列処理に変更して従来モデルの問題を解決。

Attention機構をMulti-head Attentionに置き換えた、
「並列化できない」「長期記憶ができない（大域的な特徴・ニュアンスを捉え難い）」問題を解決。
- 並列計算で高速な学習が可能になった。
- 後半に行けばいくほど昔の記憶を維持するのが難しくなる問題を解決。
- Positional Encoding（位置エンコーディング）でベクトルに語順情報を付加。

↑

パフォーマンス †

RNN Encoder-Decoder（Sequence-to-Sequence）系よりも早くて精度が高い

処理が速い：並列化によって学習時間を大幅に短縮。
- データを逐次処理する必要がなく、
- 並列化で訓練時間が圧倒的に削減でき
- ビッグデータで効率的に学習できる。

精度が高い：英独翻訳タスクで従来モデルの最良結果を超える。
汎用性が高い：汎用的で、大規模なモデルも構築可能

↑

タスクの概要と構造 †

翻訳タスク
スペイン語 → 英語
- Yo tengo gatos → I have cats
- ...と、catsを予測するTransformer.

入力と出力
翻訳タスク（Yo tengo gatos → I have cats）

入力
- Self-Attention：「Yo tengo gatos」
- Masked Self-Attention：「I have [cats]」※ []はMask

出力
- 次単語予測（BEAM search）：「cats」を予想する。
- Decoderが通常のSeq2seqのように逐次的に単語を出力していく。

以下の前処理が処理前に行われる。
- ストップワード削除済み原文
- Embeding：単語の分散表現で512次元のベクトルに圧縮
- Positional Encoding：単語の順番情報を埋込。

Encoderの出力を一気にDecoderに入れる。

構造

#ref(): File not found: "Transformer0.png" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer1.png" at page "自己符号化器（AE：オートエンコーダ）"
https://qiita.com/omiita/items/07e69aef6c156d23c538

Encoder
文章を意味に変換する。
- Self-Attention（Multi-head Attention）
  1文の単語だけを使って計算された単語間の照応関係を付加
  I have cats
  I 0.88 0.10 0.02
  have 0.08 0.80 0.12
  cats 0.03 0.14 0.83

Position-Wise Feed-Forward Networks（PFFN）
2層のDNN：FFN(x) = ReLU(xW1+b1)W2+b2

Decoder
意味を文章に変換する。
- Masked Self-Attention（Multi-head Attention）
  予想する単語の部分をマスクした文の単語だけを使って計算された単語間の照応関係を付加

Source-Target Attention（Multi-head Attention）
ここまでの出力をQueryに、Encoderの出力をKeyとValueにして
Multi-Head AttentionでAttentionを計算し異なる時系列データの照応関係情報を獲得

Position-Wise Feed-Forward Networks（PFFN）
2層のDNN：FFN(x) = ReLU(xW1+b1)W2+b2

全結合層（元の次元に戻す）・Softmax関数（確率分布（p(yi)））

↑

オートエンコーダ †

左半分がEncoder

N=6層のTransformer Blockで構成されていて、6層とも同じ構造。

各Transformer Block層は2つのサブ層で構成される。

Self-Attention（Multi-head Attention）層は文脈を埋込。
文脈の理解力が高いAttentionの進化版で複数箇所の重要な部分に注目することができる。

Position-Wise Feed-Forward Networks層は...
・入力はQと同サイズのトークン・ベクトルが並んだ文章で
・Position-Wiseは各トークン毎（位置単位）に計算をすると言う意味

それぞれのサブ層の後にはAdd＆Normがある。
- Add：残差接続
- Norm：Layer Normalization（学習高速化の正規化）

右半分がDecoder
- N=6層のTransformer Blockで構成されていて、6層とも同じ構造。
- 各Transformer Block層は2つのサブ層で構成される。
- 2つのサブ層の間にEncoderの出力を受け取る
  Source-Target Attention（Multi-head Attention）層が追加されている。

#ref(): File not found: "Transformer2.jpg" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer3.jpg" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer4.jpg" at page "自己符号化器（AE：オートエンコーダ）"
https://nlpillustration.tech/?p=2171

↑

Transformer Block †

Transformer ≒ Transformer Block

RNNのAttention機構と同様に、Q、K、VからAttentionを計算するが、
コチラでは、後述のMulti-head Attentionと言う機構を使用する。

計算結果（Qと同サイズ）をQのAdd＆Norm（前述）をする。

計算結果をPosition-Wise Feed-Forward Networksに適用。

さらに計算結果（入力と同サイズ）をAdd＆Norm（前述）をする。

最終的なTransformer Blockの出力とする。

Transformer ≒ Transformer Block
#ref(): File not found: "Transformer5.png" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer51.png" at page "自己符号化器（AE：オートエンコーダ）"
https://agirobots.com/multi-head-attention/

↑

Multi-head Attention †

Multi-head Attention
- Single-Head Attention（Scaled Dot-Product AttentionとLinear層からなる）を並列化したもの。
- 獲得された学習パラメタを可視化すると並列に並んでいる各Single-Headが異なる注意表現を獲得している（後述の①）。
- これは、後述のScaled Dot-Product AttentionのK、Vの値を決める重み、出力を調整する重みの学習になる。

Single-Head Attention	Multi-head Attention
#ref(): File not found: "Transformer6.png" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer7.png" at page "自己符号化器（AE：オートエンコーダ）"
Multi-head Attention内部で行われる計算
#ref(): File not found: "Transformer8.png" at page "自己符号化器（AE：オートエンコーダ）"
#ref(): File not found: "Transformer9.png" at page "自己符号化器（AE：オートエンコーダ）"
① 行列をかける。Q = K = V = Xなのでそれぞれを変形させる。・QWiqはh=8なのでXの次元を1/8にする。= Xのどの部分を処理するか？を変える。・KWikは内積を取る前にXの角度を変える。= どの部分に注目するか？注目の仕方を変える。・VWivは出力する前にXの角度を変える。= 出力の様子を調整する。
② Scaled Dot-Product Attentionを行う（後述）。
③ Concatで横に繋げる（1/hにしたものをh倍にする）。
④ 行列Woをかける。
https://agirobots.com/multi-head-attention/

Single-Head Attention
HeadとはLinear層*3とScaled Dot-Product Attention層*1の4つの組合せ

Linear層
Scaled Dot-Product Attention層の直前に学習パラメタを持つLinear層を設け、
多種多様な特徴部分空間における注意表現を学習可能にする柔軟性を獲得させている。

Scaled Dot-Product Attention層

内積に基づく注意計算を行うだけとなっていて内部に学習パラメタを持たない。

スケール化内積注意と訳せるだけに、内積を利用したベクトル間の類似性に基づく変換を行う注意機構

#ref(): File not found: "Transformer10.png" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer11.png" at page "自己符号化器（AE：オートエンコーダ）"
	・Qは横ベクトルqの縦ベクトル・Kは横ベクトルkの縦ベクトル・Vは横ベクトルvの縦ベクトル（KV（kv）はペアになっている）
	QをqにしてSingle-Head Attentionで考えると、qtKは、同様に、qkの内積（類似度）の横ベクトルになる。また、√dkは、次元が大きくなると長くなるので補正する。コレを同様にSoftmaxで重み（Attention_Weight）に変換し、この重み（Attention_Weight）とVのdot積＝加重和がCi（文脈を加味した単語ベクトル）になる。
	Attention(q, K, V)では、qとkiが似ていて場合 Pi≒1 他≒0となる場合、kiとの類似度に応じたVの加重和はほぼviになる。Attention(Q, K, V)はバッチで処理。
https://agirobots.com/multi-head-attention/

Concat＋Linear層（前述の③、④）
- Concat
- Linear：活性化関数が恒等関数（なのでPosition-Wise Feed-Forward Networksがある）

↑

数式のポイントとベクトルの内容 †

数式のポイント

Xは縦ベクトルではなく横ベクトル、WXではなくXW（= tWtX）

詰まる所、以下の様な事をやっているらしい。

Attention（Scaled Dot-Product Attention）	K、Vの値を決める重み、出力を調整する重みの学習
#ref(): File not found: "Transformer19.png" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer20.png" at page "自己符号化器（AE：オートエンコーダ）"
https://www.youtube.com/@AIcia_Solid

ベクトルの内容

文のベクトル	#ref(): File not found: "Transformer12.png" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer14.png" at page "自己符号化器（AE：オートエンコーダ）"
QKVのベクトル	#ref(): File not found: "Transformer13.png" at page "自己符号化器（AE：オートエンコーダ）"
QKVから計算して得たCi（文脈を加味した単語ベクトル）
#ref(): File not found: "Transformer15.png" at page "自己符号化器（AE：オートエンコーダ）"		#ref(): File not found: "Transformer16.png" at page "自己符号化器（AE：オートエンコーダ）"	#ref(): File not found: "Transformer17.png" at page "自己符号化器（AE：オートエンコーダ）"
並列に並んでいる各Single-Headが異なる注意表現を獲得している
#ref(): File not found: "Transformer18.png" at page "自己符号化器（AE：オートエンコーダ）"
https://agirobots.com/multi-head-attention/

↑

GPT-n †

↑

アーキテクチャ †

Encoderを持たず、TransformerのDecoderと似た構造を持つネットワーク

TransformerのDecoder側、Masked Multi-Head AttentionとFFNを抽出したブロックを用いる。

#ref(): File not found: "GPT1.png" at page "自己符号化器（AE：オートエンコーダ）"

https://www.youtube.com/@AIcia_Solid

Token Embedding、Positional Embedding、Decoder型のTransformer Blockを12層、出力層で構成

Et + Ei
- Token Embedding（Et）
- Positional Embedding（~~Encoding~~）(Ei)

Decoder型のTransformer Blockを12層

出力層
- 事前学習用の出力層
- ファイン・チューニング用の出力層

入出力
- 入力
  - 分類：Start - 文 - Extract
  - NLI：Start - 文1 - Delimiter - 文2 - Extract
  - Q&A：
    ・Start - 文Q - Delimiter -文A1（選択肢）- Extract
    ・...
    ・Start - 文Q - Delimiter - 文An（選択肢）- Extract

出力
- 事前学習では次単語予測
- ファイン・チューニングではタスク毎に異なる

↑

パフォーマンス †

Transformerは凄い
研究を除く実務では、なんでもTransformerを使っておけはOK。

パラメタ、コーパスを増やして精度アップ
多様なタスクを１つのモデルで解いた。
12 DataSet?中、9つでSOTA
（（State-of-the-Art）現時点での最高／最良の性能）

事前学習とファイン・チューニングは凄い
学習コストが高い中で、コレが適切に機能した。
- GPT-3は、1回の学習に数億円の費用が掛かる。
- 教師あり学習の場合、教師データの作成が大変

↑

タスクの概要と構造 †

得意なタスク

次単語予測、文章穴埋
自然言語推論 (NLI) ：2テキスト間の推論的関係の同定
分類、意味、文章生成（翻訳、要約、対話生成、Q&A）
計算（足し算・引き算）もできる。
ソースコード生成、デザイン支援もできる。

苦手なタスク
文の意味を人間のように理解していない
- 比較が苦手
- 人間社会、物理現象の慣習や常識を認識、推論できない。

↑

事前学習とファイン・チューニング †

事前学習

サブタスクで言語を理解。
- 過去の単語列から次の単語を予測（教師なし学習）
- 使用するDataSet?は、BookCorpus?、1B Word Benchmark
- この大規模なDataSet?で100エポックもの学習を行う。
その後、僅かな教師あり学習（ファイン・チューニング）で本タスクを学習する。

ファイン・チューニング
少データ、少資源でOKのため、多くの応用が可能。
- 最終層のみ取り替えて教師あり学習
- 数例のデータしか必要としないので教師データの作成が楽
- 学習も３エポック程度の学習で済む。
- 代替手段となるfew-shot学習は、学習を行っているわけではなく、
  巨大な汎用事前学習モデルの中の学習結果から求められている学習結果を引き出しているだけ。

↑

バージョン †

2019年にGPT-2、2020年にGPT-3、2020年にGPT-3が発表

GPT-2

概要

【論文】Language models are unsupervised multitask learners.
特定のタスクに特化するのではなく、色々なタスクに応用できる、
できるだけ汎用的なモデルを構築する事を目指す。

事前学習とファイン・チューニングが面倒なので、
なんかすっごいの１つ作って、ソレで全部なんか出来ない？

言語モデル（次単語予測）の可能性
Commonsense reasoning（常識的な推論）を解ける。

大モデル、大データならもっと凄いのではないか？
結果、半分凄い、半分まだまだ。この方向性に大きな可能性（GPT-3へ）。

モデル
#ref(): File not found: "GPT2.png" at page "自己符号化器（AE：オートエンコーダ）"
https://www.youtube.com/@AIcia_Solid
- ほとんどGPT-1と同じ。
- タスクは翻訳ではなく次単語予測
- 一番大きいものでTransformer Blockブロックが12 → 48
- Add＆Normの位置が少々異なる。
  ・Add：残差接続の位置の変更
  ・Norm：Layer Normalizationの位置の変更

データ
- WebText?コーパスを新規に開発
- 量と質と幅（様々な話題と文脈）
- 約800万のウェブページから抽出された高品質自然言語テキストコーパス
- 3つ以上のカルマを持つRedditの発信リンクからのWebページ（8Mリンク、40GB）

性能
8タスク

言語モデル（次単語予測）
・8つ中、7データセットでSoTA
・Perplexity予測性能：10-40

Children's Book Test (CBT)
10選択単語穴埋めタスクでSoTA

LAMBADA Benchmark
最後の単語を予測するタスクでSoTA

Winograd Schema Challenge
・Commonsense reasoning（常識的な推論）でSoTA
・ポイントは教師データを使用していない点

CoQA
・会話型質問応答システムを構築するための大規模なデータセット
・TOEICのようなテストの質問と回答を最高性能に匹敵
・同様に、ポイントは教師データを使用していない点

Summary
・長文の要約を作る。
・長文＋TL;DRを入力。

Translate
・WMT-14の仏→英がBLEU：11.5（当時の最高は40ぐらい）
・ただしデータは英語のみで仏データが僅か10M程度しか混じって無かったのにも関わらず。

QA
１問１答はまったくSoTAに届いていないが、一番小さなモデルで1%、一番大きなモデルで4%と、
大モデル、大データならもっと凄いのではないか？と言う可能性。
（実は、WebText?に対して未学習（もっとモデルを複雑にしたら...））

GPT-3

概要

【論文】Language Models are Few-Shot Learners
BERTに比べてあまりにも巨大
時代背景
・Scaling Law：大きなTransformerは強い。
・NLP & DL：
　・DL：数十万件のデータが必要
　・PT & FT：1,000件程度のデータで済む。
　・FS（Few-Shot）：10件程度のデータで済む。

モデル
- GPT-2 + Sparse Transformer（Sparse Multi-Headed Attention）
  チェック・ポイント以前はチェック・ポイントのみ参照する。
  #ref(): File not found: "SparseTransformer.png" at page "自己符号化器（AE：オートエンコーダ）"
  https://www.youtube.com/@AIcia_Solid

1750億（175B）のパラメタ（GPT-2：1.5B、T5：11B）
ベクトルの次元：12288（GPT-2は1600）
Transformer Block層：96（GPT-2は48）
Multi-head Attentionのヘッド数（nhead）：96（GPT-2は）
Single-Head Attentionの次元？（dhead）：128（GPT-2は）
トークン数：2048
バッチサイズ：3.2M
学習率：6e^-1

データ

約45TBの大規模データセットを前処理した
約570GBテキストデータ（GPT-2は40GB）
・Common Crawl（をCleaningしたもの）
・Books1
・Books2
・WebText?
・Wikipedia

上記中の300Bトークンで事前学習

Few/One/Zero-Shot
GPT-3におけるFew/One/Zero-Shotの説明

Few-Shot
・推論時にタスクに関する説明と少量のデモンストレーションを与える方式
・パラメタを更新しない＝デモを学習しない＝デモを過学習しない。
One-Shot
・Few-shotのデモンストレーションの数が1つであるケース
・人が例示を見てタスクに取り組むという状況に近い

Zero-Shot
・推論時にはタスクに関する説明のみが与えられる。
・デモンストレーションは全く与えられないケース

	一般的な扱い	GPT-3での扱い
Few/One-Shot	少量の教師ありデータに基づく学習方法	タスク説明と少量のデモンストレーションを入力とした予測
Zero-Shot	学習時に存在しないクラスのデータを扱う枠組み	タスク説明のみを入力とした予測

性能

GPT-4

概要
- ...
- 大規模化は頭打ち

モデル
データ
性能

2022年11月にChatGPTが公開される。

↑

BERT †

GPT-nを少し改変しているので、高性能で汎用性が高く応用し易い。

Google検索
Regal BERT（特定ドメイン＝法律領域向けのBERTモデル

↑

アーキテクチャ †

TransformerのEncoderを双方向多層に積み重ねたアーキテクチャ
- 双方向（文頭と文末）から学習することによって「文脈を読むこと」が実現された。
- 膨大な量のテキストデータからテキストの単語の連なりの「言語らしさ」を学習
- 長く複雑な文章を読み取ることができ文脈を読むことが可能になった

#ref(): File not found: "BERT.png" at page "自己符号化器（AE：オートエンコーダ）"

https://www.youtube.com/@AIcia_Solid