LLMのファイン・チューニングのバックアップ(No.4)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る

目次 †

↑

概要 †

LLMのファイン・チューニング（FT）は既存LLMを特定の用途や業界向けに最適化するための手法

LLMの新規作成時にタスクへ適応させるためのFT（GPT-n、BERT）ではなく、
作成後のLLMの精度を上げるために行われるFTについて言及

↑

基本概念 †

一般的なLLMが持つ汎用的な知識を特定の専門分野や業務プロセスに特化させるために追加の学習。
これにより、より正確で一貫性のある回答が可能になる。

↑

適用場面 †

FTは、以下のような場面で活用される。

場面	使途
カスタマーサポート	自社独自のFAQや業界特有の表現に適応させる。
医療や法律分野	専門用語や規制対応の正確な知識を学習させる。
文書生成や翻訳	高精度な自然言語処理を必要とする場面。

↑

手法の種類 †

主に以下の手法がある。

分類	種類	解説
フル・ファインチューニング	全体調整型	LLM全体を再学習させる方法。高いカスタマイズ性があるが、学習に大量のデータと計算リソースが必要。
軽量ファイン・チューニング	表現調整型・パラメタ効率型	一部のパラメタや特定の層に限定して調整を加える方法。計算コストを抑えつつ高いカスタマイズ性を維持。

↑

トレードオフ †

↑

メリット †

精度向上: 特定の用途に特化したモデルを構築できる。
カスタマイズ性: 企業独自のデータやノウハウを学習させることで、ブランド固有の表現や業界標準に沿った応答が可能。

↑

デメリット †

コスト: 高性能なGPUやクラウド環境が必要で、運用コストが増加。
データ量: 大量の学習データが求められ、データ収集・整理の負担が発生。

↑

技法 †

分類	手法
全体調整型	Full Fine-Tuning
部分調整型	ReFT (Representation Fine-Tuning), Reward Fine-Tuning
パラメタ効率型（PEFT: Parameter-Efficient Fine-Tuning）	LoRA, QLoRA, Adapter, Prefix Tuning, BitFit
指示・強化学習型	Instruction Tuning, RLHF（Reinforcement Learning from Human Feedback）

↑

全体調整型 †

モデル全体のパラメータを調整する手法。
データセット全体を使ってモデルを再学習させる。

↑

Full Fine-Tuning †

モデルの全パラメタを特定のタスクやドメインに合わせて調整するプロセス

一般的に通常のFTの様に元のモデルに対して層（パラメタ）の追加を行わない。
全体のパラメタを調整することで、特定のタスクに対して高い精度を達成できるが、大量の計算資源が必要となる。

↑

部分調整型 †

PEFT：Parameter-Efficient Fine-Tuning

モデルの部分（埋め込み層、隠れ層、アテンション機構など既存パラメタの一部）を調整する手法
既存のデータセットを使ったモデルの精度向上が目的で、新しい事実を覚えさせることには向いていない。

↑

ReFT †

ReFT：Representation Fine-Tuning
モデルの内部表現（≒埋め込み層）を微調整する。
特定のタスクに対する性能を向上させることを目的とする。

手法
- 初期段階: モデルは通常の教師あり学習（SFT）でウォームアップ
- 強化学習: その後、オンライン強化学習（例えばPPO）を使用してモデルをさらに微調整。

結果
- 質問に対して複数の推論パスが自動的にサンプリングされ、真の答えから自然に報酬が得られる。
- 方策（埋め込みモデルの部分）を最適化する強化学習を採用し、回答精度を上げることができる。

↑

Reward Fine-Tuning †

モデルの内部（≒埋め込み層、隠れ層、アテンション機構）を報酬を使って微調整する。

モデルの出力を評価し、そのフィードバックを基に行う強化学習。
これにより、モデルは高品質な出力を生成するように学習する。

↑

パラメタ効率型 †

モデルの一部のパラメタのみを調整
- 低ランク適応層を追加：LoRAやQLoRA
- 特定の層を調整：AdapterやPrefix Tuning
- バイアス・パラメタのみを調整：BitFit?

新しい事実を覚えさせることにも対応する。

↑

LoRA †

LoRA：Low-Rank Adaptation（低ランク適応）

主に大規模な機械学習モデル（特にLLMや画像生成モデル）に対して、追加の知識やスタイルを効率的に学習させる技術
通常のFTの様に出力層側に層を追加するのではなく、スキップ接続された線形結合層を追加しそこだけ転移学習する。
線形結合層は「低ランク近似行列」は元来の行列を二つの小さな行列の積として近似するものでココでは入出力がX次元である場合、XX行列とせず、Xr行列 * rX行列（rは低ランクの次元）とする。
具体的には、W_new = W_old + W_b W_a とした場合、W_b W_a がそれぞれ低ランクの行列で、W_b のサイズが (X, r) で W_a のサイズが (r, X) となり、パラメタ数を削減できる。

特徴
従って、転移学習と同じ特徴を持っている。

効率性：少ないデータで高い性能を達成できる。
柔軟性：既存のモデルを様々なタスクに適応させやすい。

計算資源の節約
- モデル全体を再学習する必要がないため、計算コストが低い。
- LLM/SLMに適用する際、LLMの方が学習コストが大きい理由は順/逆伝播のコストが高いため

得意なケース
「既存の知識の補強」の目的で使う事に適している。
- 特定のドメインに適応させる。
- 新しい言葉や概念を学習させる。
- 特定の文章スタイルやキャラクターの言い回し。

不得意なケース
- 完全に未知の知識をゼロから学習する。
- 長大なデータを一度に追加する。

補足
- HuggingFace?のPEFT（Parameter-Efficient Fine-Tuning）ライブラリで簡単に試すことができる。
- 言語モデルだけでなく、画像生成モデル（例：StableDiffusion?）にも適用されている。

手順（簡単な流れ）

学習データの準備（追加したい知識やスタイルのデータセットを作る）
```
JSON: {"input": "ユーザーの質問", "output": "AIの回答"}
```

LoRAの適用（ベース・モデルにLoRAを組み込んで学習）
ファイン・チューニング（追加の知識やスタイルを反映）
モデルの評価・テスト（意図した知識やスタイルが反映されているか確認）

↑

QLoRA †

QLoRA：Quantized Low-Rank Adaptation

QLoRAはLoRAのアップグレード版で、量子化手法を取り入れ、さらにメモリ効率を高めている。
新しいデータ型「4-bit NormalFloat?（NF4）」を導入し、メモリ効率、計算速度をも改善。

※ 余談だが、

Hugging Faceなどでリリースされている同シリーズ＆バージョンのサイズ大/小のLLMは量子化/サイズの小さいモデルで学習させたものの両方がある。
ちなみに、SLMは、量子化したものではなく、特定のタスクに特化して効率的に動作するように設計されたサイズの小さいモデルとのこと。

↑

Adapter †

LoRA：Low-Rank Adaptationの「スキップ接続された線形結合層」（Adapter）を追加（Adaptation）するような方法、全般。

↑

Prefix Tuning †

入力の先頭に特別なprefixトークンを追加し、元のモデル本体のパラメタは固定
prefixトークンに対応する少量の追加パラメタのみ学習させる（同様に転移学習的）。
タスク毎に異なるprefixベクトルを付加することで効率的に適応させることができる。
Faster Transformerなどの実装に対応している（追加パラメタに効率的に対応する機構を持っているらしい）
LoRAと比較して「学習コストは低い」が「新しい事実を覚えさせるのは苦手」とのこと。

例えるなら

「この後は医療系の話をします：」のような前置きを付けるイメージ

ただし、これだけの説明だとPrompt Tuning的、
Prompt Tuningとの違いは、各層のアクティベーション系列のPrefixが学習プロセスを通じて最適化される点。
- 追加トークンの位置: Prompt Tuningは入力系列の先頭に追加トークンを付加するのに対し、Prefix Tuningは各層の入力に追加トークンを付加。
- 追加パラメタの学習: Prefix Tuningは各層にPrefixに対応した学習可能なパラメタを付加し、さらにPrefix付のアクティベーション系列を生成する。

↑