.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

LLMのファイン・チューニング(FT)は既存LLMを特定の用途や業界向けに最適化するための手法

基本概念

適用場面

FTは、以下のような場面で活用される。

場面使途
カスタマーサポート自社独自のFAQや業界特有の表現に適応させる。
医療や法律分野専門用語や規制対応の正確な知識を学習させる。
文書生成や翻訳高精度な自然言語処理を必要とする場面。

トレードオフ

メリット

デメリット

手法の種類

主に以下の手法がある。

全体・部分の分類

教師なし/あり学習、強化学習

個々の説明

Full Fine-Tuning

モデルの全パラメタを特定のタスクやドメインに合わせて調整するプロセス

PEFT

PEFT:Parameter-Efficient Fine-Tuning

RLHF

RLHF:Reinforcement Learning from Human Feedback

Instruction Tuning

指示に基づいてモデルを調整する教師あり学習(Supervised Fine-Tuning, SFT)

Reward Fine-Tuning

報酬モデルを使って、モデルを人間の好みに合わせて強化学習。

PEFT系

差分学習型(元の重みに対する差分を学習)

LoRA

LoRA:Low-Rank Adaptation(低ランク適応)

QLoRA

QLoRA:量子化 + LoRA、Quantized Low-Rank Adaptation

※ 余談だが、

ReLoRA

(LoRAの逐次再初期化)

モジュール追加型(新たな層やブロックを追加)

Adapter

「スキップ接続された線形結合層」(Adapter)を追加(Adaptation)するような方法、全般。

Prefix Tuning

Prompt Tuning

(Embeddingに仮想トークンを追加)

P-Tuning

(深層プロンプトを最適化)

微小パラメタ更新型

(既存パラメタのごく一部を更新)

BitFit?

BitFit?:Bias-only fine-tuning

LayerNorm?-tuning

LayerNorm?のみ更新)

ReFT

ReFT:Representation Fine-Tuning

その他・派生手法

Compacter

Adalora(動的に重要な層だけにLoRA適用)

IA³(Attention/FFNにスカラー重みを掛けて調整)

実地

構築

アウトライン

実際の手順

実装

アウトライン

実際のコード

運用

アウトライン

実際のスクリプト

参考

LoRA

環境

VM費用見積もり

GPU付きVMを準備

GPUを認識させる

実装

phi3

Llama2-3

その他

運用

モデル取り回し


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS