テキスト生成系（Transformer系）のバックアップ(No.3)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る（ニューラルネットワーク、画像処理とコンピュータビジョン（AI））
- 一般的なフツーのニューラルネットワーク
- 再帰型ニューラルネットワーク（RNN）
  - 長短期記憶ニューラルネットワーク（LSTM）
  - RNN Encoder-Decoder（Sequence-to-Sequence）
- 生成モデル系のニューラルネットワーク
  - 自己符号化器（AE：オートエンコーダ）
  - テキスト生成系（Transformer系）
  - 敵対的生成ネットワーク（GAN）

目次 †

↑

概要 †

↑

Transformer †

その情報に注目スべきか判断して情報を処理するAttentionの導入。
Self-Attention機構の重要性を示し、他の分野にも影響を与えた。
汎用性が高くコレを画像処理に応用したのが、Vision Transformer。

※ RNN Encoder-DecoderのAttention機構と同じ目的を達成するが機構は異なる。

↑

アーキテクチャ †

オートエンコーダ、Attention、全結合層

RNN Encoder-Decoder（Sequence-to-Sequence）を用いないオートエンコーダ・モデル
- RNNもCNNも使わず（再帰も畳込も行わず）に
- 入力と出力の文章同士の広範囲な依存関係を捉えられる、
- Attention機構の概念を導入したオートエンコーダ・モデル

RNN Encoder-Decoder（Sequence-to-Sequence）の逐次処理を
オートエンコーダの並列処理に変更して従来モデルの問題を解決。

Attention機構をMulti-head Attentionに置き換えた、
「並列化できない」「長期記憶ができない（大域的な特徴・ニュアンスを捉え難い）」問題を解決。
- 並列計算で高速な学習が可能になった。
- 後半に行けばいくほど昔の記憶を維持するのが難しくなる問題を解決。
- Positional Encoding（位置エンコーディング）でベクトルに語順情報を付加。

↑

パフォーマンス †

RNN Encoder-Decoder（Sequence-to-Sequence）系よりも早くて精度が高い

処理が速い：並列化によって学習時間を大幅に短縮。
- データを逐次処理する必要がなく、
- 並列化で訓練時間が圧倒的に削減でき
- ビッグデータで効率的に学習できる。

精度が高い：英独翻訳タスクで従来モデルの最良結果を超える。
汎用性が高い：汎用的で、大規模なモデルも構築可能

↑

タスクの概要と構造 †

翻訳タスク
スペイン語 → 英語
- Yo tengo gatos → I have cats
- ...と、catsを予測するTransformer.

入力と出力
翻訳タスク（Yo tengo gatos → I have cats）

入力
- Self-Attention：「Yo tengo gatos」
- Masked Self-Attention：「I have [cats]」※ []はMask

出力
- 次単語予測（BEAM search）：「cats」を予想する。
- Decoderが通常のSeq2seqのように逐次的に単語を出力していく。

以下の前処理が処理前に行われる。
- ストップワード削除済み原文
- Embeding：単語の分散表現で512次元のベクトルに圧縮
- Positional Encoding：単語の順番情報を埋込。

Encoderの出力を一気にDecoderに入れる。

構造

https://qiita.com/omiita/items/07e69aef6c156d23c538

Encoder
文章を意味に変換する。
- Self-Attention（Multi-head Attention）
  1文の単語だけを使って計算された単語間の照応関係を付加
  I have cats
  I 0.88 0.10 0.02
  have 0.08 0.80 0.12
  cats 0.03 0.14 0.83

Position-Wise Feed-Forward Networks（PFFN）
2層のDNN：FFN(x) = ReLU(xW1+b1)W2+b2

Decoder
意味を文章に変換する。
- Masked Self-Attention（Multi-head Attention）
  予想する単語の部分をマスクした文の単語だけを使って計算された単語間の照応関係を付加

Source-Target Attention（Multi-head Attention）
ここまでの出力をQueryに、Encoderの出力をKeyとValueにして
Multi-Head AttentionでAttentionを計算し異なる時系列データの照応関係情報を獲得

Position-Wise Feed-Forward Networks（PFFN）
2層のDNN：FFN(x) = ReLU(xW1+b1)W2+b2

全結合層（元の次元に戻す）・Softmax関数（確率分布（p(yi)））

↑

オートエンコーダ †

左半分がEncoder

N=6層のTransformer Blockで構成されていて、6層とも同じ構造。

各Transformer Block層は2つのサブ層で構成される。

Self-Attention（Multi-head Attention）層は文脈を埋込。
文脈の理解力が高いAttentionの進化版で複数箇所の重要な部分に注目することができる。

Position-Wise Feed-Forward Networks層は...
・入力はQと同サイズのトークン・ベクトルが並んだ文章で
・Position-Wiseは各トークン毎（位置単位）に計算をすると言う意味

それぞれのサブ層の後にはAdd＆Normがある。
- Add：残差接続
- Norm：Layer Normalization（学習高速化の正規化）

右半分がDecoder
- N=6層のTransformer Blockで構成されていて、6層とも同じ構造。
- 各Transformer Block層は2つのサブ層で構成される。
- 2つのサブ層の間にEncoderの出力を受け取る
  Source-Target Attention（Multi-head Attention）層が追加されている。


https://nlpillustration.tech/?p=2171

↑

Transformer Block †

Transformer ≒ Transformer Block

RNNのAttention機構と同様に、Q、K、VからAttentionを計算するが、
コチラでは、後述のMulti-head Attentionと言う機構を使用する。

計算結果（Qと同サイズ）をQのAdd＆Norm（前述）をする。

計算結果をPosition-Wise Feed-Forward Networksに適用。

さらに計算結果（入力と同サイズ）をAdd＆Norm（前述）をする。

最終的なTransformer Blockの出力とする。
Transformer ≒ Transformer Block

https://agirobots.com/multi-head-attention/

↑

Multi-head Attention †

Multi-head Attention
- Single-Head Attention（Scaled Dot-Product AttentionとLinear層からなる）を並列化したもの。
- 獲得された学習パラメタを可視化すると並列に並んでいる各Single-Headが異なる注意表現を獲得している（後述の①）。
- これは、後述のScaled Dot-Product AttentionのK、Vの値を決める重み、出力を調整する重みの学習になる。

Single-Head Attention	Multi-head Attention

Multi-head Attention内部で行われる計算


① 行列をかける。Q = K = V = Xなのでそれぞれを変形させる。・QWiqはh=8なのでXの次元を1/8にする。= Xのどの部分を処理するか？を変える。・KWikは内積を取る前にXの角度を変える。= どの部分に注目するか？注目の仕方を変える。・VWivは出力する前にXの角度を変える。= 出力の様子を調整する。
② Scaled Dot-Product Attentionを行う（後述）。
③ Concatで横に繋げる（1/hにしたものをh倍にする）。
④ 行列Woをかける。
https://agirobots.com/multi-head-attention/

Single-Head Attention
HeadとはLinear層*3とScaled Dot-Product Attention層*1の4つの組合せ

Linear層
Scaled Dot-Product Attention層の直前に学習パラメタを持つLinear層を設け、
多種多様な特徴部分空間における注意表現を学習可能にする柔軟性を獲得させている。

Scaled Dot-Product Attention層

内積に基づく注意計算を行うだけとなっていて内部に学習パラメタを持たない。

スケール化内積注意と訳せるだけに、内積を利用したベクトル間の類似性に基づく変換を行う注意機構


	・Qは横ベクトルqの縦ベクトル・Kは横ベクトルkの縦ベクトル・Vは横ベクトルvの縦ベクトル（KV（kv）はペアになっている）
	QをqにしてSingle-Head Attentionで考えると、qtKは、同様に、qkの内積（類似度）の横ベクトルになる。また、√dkは、次元が大きくなると長くなるので補正する。コレを同様にSoftmaxで重み（Attention_Weight）に変換し、この重み（Attention_Weight）とVのdot積＝加重和がCi（文脈を加味した単語ベクトル）になる。
	Attention(q, K, V)では、qとkiが似ていて場合 Pi≒1 他≒0となる場合、kiとの類似度に応じたVの加重和はほぼviになる。Attention(Q, K, V)はバッチで処理。
https://agirobots.com/multi-head-attention/

Concat＋Linear層（前述の③、④）
- Concat
- Linear：活性化関数が恒等関数（なのでPosition-Wise Feed-Forward Networksがある）

↑

数式のポイントとベクトルの内容 †

数式のポイント
- Xは縦ベクトルではなく横ベクトル、WXではなくXW（= tWtX）
- 詰まる所、以下の様な事をやっているらしい。
  Attention（Scaled Dot-Product Attention） K、Vの値を決める重み、出力を調整する重みの学習
  
  https://www.youtube.com/@AIcia_Solid

ベクトルの内容

文のベクトル
QKVのベクトル
QKVから計算して得たCi（文脈を加味した単語ベクトル）

並列に並んでいる各Single-Headが異なる注意表現を獲得している

https://agirobots.com/multi-head-attention/

↑

GPT-n †

↑

アーキテクチャ †

Encoderを持たず、TransformerのDecoderと似た構造を持つネットワーク

TransformerのDecoder側、Masked Multi-Head AttentionとFFNを抽出したブロックを用いる。

https://www.youtube.com/@AIcia_Solid

Token Embedding、Positional Embedding、Decoder型のTransformer Blockを12層、出力層で構成

Et + Ei
- Token Embedding（Et）
- Positional Embedding（~~Encoding~~）(Ei)

Decoder型のTransformer Blockを12層

出力層
- 事前学習用の出力層
- ファイン・チューニング用の出力層

入出力
- 入力
  - 分類：Start - 文 - Extract
  - NLI：Start - 文1 - Delimiter - 文2 - Extract
  - Q&A：
    ・Start - 文Q - Delimiter -文A1（選択肢）- Extract
    ・...
    ・Start - 文Q - Delimiter - 文An（選択肢）- Extract

出力
- 事前学習では次単語予測
- ファイン・チューニングではタスク毎に異なる

↑

パフォーマンス †

Transformerは凄い
研究を除く実務では、なんでもTransformerを使っておけはOK。

パラメタ、コーパスを増やして精度アップ
多様なタスクを１つのモデルで解いた。
12 DataSet?中、9つでSOTA
（（State-of-the-Art）現時点での最高／最良の性能）

事前学習とファイン・チューニングは凄い
学習コストが高い中で、コレが適切に機能した。
- GPT-3は、1回の学習に数億円の費用が掛かる。
- 教師あり学習の場合、教師データの作成が大変

↑

タスクの概要と構造 †

得意なタスク

次単語予測、文章穴埋
自然言語推論 (NLI) ：2テキスト間の推論的関係の同定
分類、意味、文章生成（翻訳、要約、対話生成、Q&A）
計算（足し算・引き算）もできる。
ソースコード生成、デザイン支援もできる。

苦手なタスク
文の意味を人間のように理解していない
- 比較が苦手
- 人間社会、物理現象の慣習や常識を認識、推論できない。

↑

事前学習とファイン・チューニング †

事前学習

サブタスクで言語を理解。
- 過去の単語列から次の単語を予測（教師なし学習）
- 使用するDataSet?は、BookCorpus?、1B Word Benchmark
- この大規模なDataSet?で100エポックもの学習を行う。
その後、僅かな教師あり学習（ファイン・チューニング）で本タスクを学習する。

ファイン・チューニング
少データ、少資源でOKのため、多くの応用が可能。
- 最終層のみ取り替えて教師あり学習
- 数例のデータしか必要としないので教師データの作成が楽
- 学習も３エポック程度の学習で済む。
- 代替手段となるfew-shot学習は、学習を行っているわけではなく、
  巨大な汎用事前学習モデルの中の学習結果から求められている学習結果を引き出しているだけ。

↑

BERT †

GPT-nを少し改変しているので、高性能で汎用性が高く応用し易い。

Google検索
Regal BERT（特定ドメイン＝法律領域向けのBERTモデル

↑

アーキテクチャ †

TransformerのEncoderを双方向多層に積み重ねたアーキテクチャ
- 双方向（文頭と文末）から学習することによって「文脈を読むこと」が実現された。
- 膨大な量のテキストデータからテキストの単語の連なりの「言語らしさ」を学習
- 長く複雑な文章を読み取ることができ文脈を読むことが可能になった

https://www.youtube.com/@AIcia_Solid

Token / Segment / Positional Embedding、型のTransformer Blockを24層

Et + (Ea or Eb) + Ei
- Token Embedding（Et）
- Segment Embedding（Ea or Eb）
- Positional Embedding（~~Encoding~~）(Ei)

型のTransformer Blockを24層

出力層
事前学習とファイン・チューニングで変更無し。

入出力

入力
１つ２つの文章を入力
- 文1 : t1...tn
- 文2 : t'1...t'm
- 一文 : CLS 文1 SEP 文2 SEP
- 二文 : CLS 文1 SEP SEP

出力
基本的には一文、C T1...TN TSEP T'SEP
- 文単位のタスク（分類問題など）ではC（文章の意味ベクトル）を使用
- 単語単位のタスク（固有表現抽出（NER）など）ではT1...TN（単語の意味ベクトル）を使用

↑

パフォーマンス †

高性能で汎用性が高く応用し易い。

TransformerベースのGPT-nベース
- Transformerは凄い
- 事前学習とファイン・チューニングは凄い

上記に加えて双方向が凄い
上位の層では意味・文脈に関する抽象化された情報を獲得

↑

タスクの概要と構造 †

マスクされた単語の前後のテキストを使って単語を予測する。

元々は機械翻訳で利用されていた。
今は自然言語処理なら大概できる。
- 質問応答（質問に対する回答を文書中から見つけてくる）
- 文の比較（片方の文がもう一方の文の内容を含んでいるか）

↑

事前学習とファイン・チューニング †

基本的にGPTと事前学習とファイン・チューニングと同じ。

事前学習に工夫をしている。
- 単語・文法を学習：15%マスクされた単語の予測を学習（MLM）
- 文意・文脈を学習：連続する２文であるかないか（5:5）判断を学習（NSP）

チューニング
実現したいタスクに応じた数百レベルの学習データを用意してファイン・チューニング
- 事前学習結果を実際に使う場合。
- BERTの上にタスク依存の層を重ねる。
- 数百件レベルの学習データで実施可能

リソースと時間が必要なので学習済みモデル（汎用事前学習モデル）をGoogleが無償で公開

↑

GPTのバージョン †

2019年にGPT-2、2020年にGPT-3、202n年にGPT-3.5、202n年にGPT-4が発表

↑

GPT-2 †

概要

【論文】Language models are unsupervised multitask learners.
特定のタスクに特化するのではなく、色々なタスクに応用できる、
できるだけ汎用的なモデルを構築する事を目指す。

事前学習とファイン・チューニングが面倒なので、
なんかすっごいの１つ作って、ソレで全部なんか出来ない？

言語モデル（次単語予測）の可能性
Commonsense reasoning（常識的な推論）を解ける。

大モデル、大データならもっと凄いのではないか？
結果、半分凄い、半分まだまだ。この方向性に大きな可能性（GPT-3へ）。

モデル
https://www.youtube.com/@AIcia_Solid
- ほとんどGPT-1と同じ。
- タスクは翻訳ではなく次単語予測
- 一番大きいものでTransformer Blockブロックが12 → 48
- Add＆Normの位置が少々異なる。
  - Add：残差接続の位置の変更
  - Norm：Layer Normalizationの位置の変更

データ
- WebText?コーパスを新規に開発
- 量と質と幅（様々な話題と文脈）
- 約800万のウェブページから抽出された高品質自然言語テキストコーパス
- 3つ以上のカルマを持つRedditの発信リンクからのWebページ（8Mリンク、40GB）

性能
8タスク

言語モデル（次単語予測）
- 8つ中、7データセットでSoTA
- Perplexity予測性能：10-40

Children's Book Test (CBT)
10選択単語穴埋めタスクでSoTA

LAMBADA Benchmark
最後の単語を予測するタスクでSoTA

Winograd Schema Challenge
- Commonsense reasoning（常識的な推論）でSoTA
- ポイントは教師データを使用していない点

CoQA
- 会話型質問応答システムを構築するための大規模なデータセット
- TOEICのようなテストの質問と回答を最高性能に匹敵
- 同様に、ポイントは教師データを使用していない点

Summary
- 長文の要約を作る。
- 長文＋TL;DRを入力。

Translate
- WMT-14の仏→英がBLEU：11.5（当時の最高は40ぐらい）
- ただしデータは英語のみで仏データが僅か10M程度しか混じって無かったのにも関わらず。

QA
１問１答はまったくSoTAに届いていないが、一番小さなモデルで1%、一番大きなモデルで4%と、
大モデル、大データならもっと凄いのではないか？と言う可能性。
（実は、WebText?に対して未学習（もっとモデルを複雑にしたら...））

↑

GPT-3 †

概要

【論文】Language Models are Few-Shot Learners
BERTに比べてあまりにも巨大
時代背景
- Scaling Law：大きなTransformerは強い。
- NLP & DL：
  ・DL：数十万件のデータが必要
  ・PT & FT：1,000件程度のデータで済む。
  ・FS（Few-Shot）：10件程度のデータで済む。

モデル
GPT-2 + Sparse Transformer

Sparse Transformer（Sparse Multi-Headed Attention）
チェック・ポイント以前はチェック・ポイントのみ参照する。
https://www.youtube.com/@AIcia_Solid

1750億（175B）のパラメタ（GPT-2：1.5B、T5：11B）
ベクトルの次元：12288（GPT-2：1600）
Transformer Block層：96（GPT-2：48）
Multi-head Attentionのヘッド数（nhead）：96（GPT-2：...）
Single-Head Attentionの次元？（dhead）：128（GPT-2：...）
トークン数：2048
バッチサイズ：3.2M
学習率：6e^-1

データ

約45TBの大規模データセットを前処理した
約570GBテキストデータ（GPT-2：40GB）
- Common Crawl（をCleaningしたもの）
- Wikipedia
- Books1, Books2
- WebText?（GPT-2）

上記中の300Bトークンで事前学習

特性
大規模言語モデル（LLM）の創発的な特性

コンテキスト内学習
- 手法はGPT-3の登場にともない一般に普及した大規模言語モデルの創発的な特性で、
- 与えられたコンテキスト内で情報を学習し、その学習を元に出力を生成する。
- 何故かはよく解っていないので下の様な絵で説明されてたりする。
  https://www.youtube.com/@AIcia_Solid

GPT-3におけるFew / One / Zero-Shotの説明
・≒ コンテキスト内学習でファインチューニングと異なりパラメタ更新は不要。
・Attention機構を変形して見方を変えると勾配降下法をシミュレーションしている。
・モデルがタスクを試みる前に例を処理できるようにするプロンプトとしてコンテキストを与える。

Few-Shot（FS）
・推論時にタスクに関する説明と少量のデモンストレーションを与える方式
・パラメタを更新しない＝デモを学習しない＝デモを過学習しない。
One-Shot（1S）
・Few-shotのデモンストレーションの数が1つであるケース
・人が例示を見てタスクに取り組むという状況に近い

Zero-Shot（0S）
・推論時にはタスクに関する説明のみが与えられる。
・デモンストレーションは全く与えられないケース

	一般的な扱い	GPT-3での扱い
Few / One-Shot	少量の教師ありデータに基づく学習方法	タスク説明と少量のデモンストレーションを入力とした予測
Zero-Shot	学習時に存在しないクラスのデータを扱う枠組み	タスク説明のみを入力とした予測

性能
9タスク、得意と苦手がある。

Language Model, Cloze, Continuation Tasks SOTA有り

Closed Book Question Answering SOTA有り

関連文書から正解の可能性が高い文字列を抜き出すことによって解答する（Open-book）のではなく、
関連文書を用いないで与えられる質問について何を知っているかを直接問う（Closed-book）
TriviaQA：T5 < 0S < 旧SOTA < 1S < FS

Translation En SOTA有り
- FS ≒ 教師なし SOTA < 教師あり SOTA
- 非英語データは7%、英語に翻訳する方が精度が高い。

Winggrad-Style Tasks SOTA有り

Common Sense Reasoning △

Reading Comprehension ◯☓

Super GLUE ◯☓
単語は2つの文書で同じ使われ方をしているか？

Natural Language Inference ☓
2番目の文書は1番目の文章の賛成 / 反対 / 中立のどれか？

Synthetic and Qualitative Tasks ◯☓
- 2桁の±が99-100％
- 3-5桁の±、2桁の*、1桁の±, *, ()が20％

News Article Response
タイトル・サブタイトルから人間と区別できない文書を生成

課題

何故か2文間の比較を要するタスクが苦手

文書生成で
・単語単位の繰り返しは無いが。
・文単位の繰り返しがある。
・長文の一貫性に欠ける。

双方向性
双方向性は無いので文の後ろを考慮しない（コンテキストが読めない）。

Pre-Training dejective
次単語予測の事前学習の精度はScaling Lawで上がるが
Scaling Lawの頭打ちや実問題での性能（次単語予測以外の事前学習）

人間から学ぶ
強化学習でチューニング
マルチ・モーダルでやる

学習の効率化
GPT-3は300Bトークンで学習するが、
人間は生涯で0.3Bトークンの入力程度（1000倍の差）

Few-Shotで何が起きる?
・学習済みの内容を思い出している。
・新しい能力を獲得している。

解釈・制御
DLと同じ（人間も直感では同じ）。

バイアス
データのバイアスを受け継いでいる。

↑

GPT-3.5 †

概要
モデル
データ
性能

↑

GPT-4 †

概要
- ...
- 大規模化は頭打ち

モデル
データ
性能

↑

ChatGPT †

2022年11月に公開される。

↑

参考 †

【図解】誰でもわかるTransformer入門！凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&LLM
https://nlpillustration.tech/?p=2171
30分で完全理解するTransformerの世界
https://zenn.dev/zenkigen_tech/articles/2023-01-shimizu
【論文解説】Transformerを理解する | 楽しみながら理解するAI・機械学習入門
https://data-analytics.fun/2020/04/01/understanding-transformer/

自然言語処理 | DeepSquare?
https://deepsquare.jp/tag/language/
- 自然言語処理の必須知識 Transformer を徹底解説！
  https://deepsquare.jp/2020/07/transformer/
- 自然言語処理の必須知識 BERT を徹底解説！
  https://deepsquare.jp/2020/09/bert/

↑

ゼロつく２ †

↑

Qiita †

ざっくり理解する分散表現, Attention, Self Attention, Transformer #機械学習
https://qiita.com/norihitoishida/items/2fead107792b504eaccf
自然言語処理を理解しよう　Seq2SeqからTransFormer?(Attention)まで #Python
https://qiita.com/DeepTama/items/20b93ff8b8547428f662
【深層学習】図で理解するAttention機構
https://qiita.com/ps010/items/0bb2931b666fa602d0fc
作って理解する Transformer / Attention #DeepLearning?
https://qiita.com/halhorn/items/c91497522be27bde17ce
深層学習界の大前提Transformerの論文解説！
https://qiita.com/omiita/items/07e69aef6c156d23c538

ta2bonn
https://qiita.com/ta2bonn/

Self-Attention(+MultiHead?)を図・ベクトル（行列）の両方で整理してみた。
https://qiita.com/ta2bonn/items/60601d18db57bd98d142
Attention Is All You Need = Transformerをざっくり理解してみる。
https://qiita.com/ta2bonn/items/4ec687bc136a41c364ae

↑