.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

Transformer

RNN Encoder-DecoderのAttention機構と同じ目的を達成するが機構は異なる。

アーキテクチャ

パフォーマンス

RNN Encoder-Decoder(Sequence-to-Sequence)系よりも早くて精度が高い

タスクの概要と構造

オートエンコーダ

イメージ
イメージ
イメージ
https://nlpillustration.tech/?p=2171

Transformer Block

Transformer ≒ Transformer Block

Multi-head Attention

Single-Head AttentionMulti-head Attention
イメージ
イメージ
Multi-head Attention内部で行われる計算
イメージ
イメージ
① 行列をかける。Q = K = V = Xなのでそれぞれを変形させる。
・QWiqはh=8なのでXの次元を1/8にする。= Xのどの部分を処理するか?を変える。
・KWikは内積を取る前にXの角度を変える。= どの部分に注目するか?注目の仕方を変える。
・VWivは出力する前にXの角度を変える。= 出力の様子を調整する。
② Scaled Dot-Product Attentionを行う(後述)。
③ Concatで横に繋げる(1/hにしたものをh倍にする)。
④ 行列Woをかける。
https://agirobots.com/multi-head-attention/

数式のポイントとベクトルの内容

GPT-n

アーキテクチャ

イメージ

https://www.youtube.com/@AIcia_Solid

パフォーマンス

タスクの概要と構造

事前学習ファイン・チューニング

BERT

GPT-nを少し改変しているので、高性能で汎用性が高く応用し易い。

アーキテクチャ

イメージ

https://www.youtube.com/@AIcia_Solid

パフォーマンス

高性能で汎用性が高く応用し易い。

タスクの概要と構造

マスクされた単語の前後のテキストを使って単語を予測する。

事前学習ファイン・チューニング

基本的にGPTと事前学習とファイン・チューニングと同じ。

リソースと時間が必要なので学習済みモデル(汎用事前学習モデル)をGoogleが無償で公開

GPTのバージョン

2019年にGPT-2、2020年にGPT-3、202n年にGPT-3.5、202n年にGPT-4が発表

GPT-2

GPT-3

GPT-3.5

GPT-4

ChatGPT

2022年11月に公開される。

参考

ゼロつく2

Qiita

YouTube?

AIcia Solid Project

AI教室 AIRS-Lab

AGIRobots

以下はブログ側

Wikipedia

Transformer

GPT-n

BERT

https://ja.wikipedia.org/wiki/BERT_(%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB)


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS