「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
詳細 †
| 分類 | 手法 |
| 全体調整型 | Full Fine-Tuning |
| 表現調整型 | ReFT (Representation Fine-Tuning), Reward Fine-Tuning |
| パラメータ効率型(PEFT: Parameter-Efficient Fine-Tuning) | LoRA, QLoRA, Adapter, Prefix Tuning, BitFit? |
| 指示・強化学習型 | Instruction Tuning, RLHF |
全体調整型 †
Full Fine-Tuning †
表現調整型 †
ReFT †
ReFT (Representation Fine-Tuning)
Reward Fine-Tuning †
パラメータ効率型 †
(PEFT: Parameter-Efficient Fine-Tuning)
LoRA †
LoRA(Low-Rank Adaptation)
- 主に大規模な機械学習モデル(特にLLMや画像生成モデル)に対して、追加の知識やスタイルを効率的に学習させる技術
- 通常、モデル全体を学習し直すのではなく、一部の重み行列を低ランク行列に制限して学習を行う。
- 既存の知識を補強する形で使うのが適しています。
- 得意なケース
- 特定のドメインに適応させる
- 新しい言葉や概念を学習させる
- 特定の文章スタイルやキャラクターの言い回し
- 不得意なケース
- 完全に未知の知識をゼロから学習する
- 長大なデータを一度に追加する
- LoRAの適用(ベースモデルにLoRAを組み込んで学習)
- ファインチューニング(追加の知識やスタイルを反映)
- モデルの評価・テスト(意図した知識やスタイルが反映されているか確認)
QLoRA †
Adapter †
Prefix Tuning †
BitFit? †
指示・強化学習型 †
Instruction Tuning †
RLHF †