.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

LLMのファイン・チューニング(FT)は既存LLMを特定の用途や業界向けに最適化するための手法

基本概念

適用場面

FTは、以下のような場面で活用される。

場面使途
カスタマーサポート自社独自のFAQや業界特有の表現に適応させる。
医療や法律分野専門用語や規制対応の正確な知識を学習させる。
文書生成や翻訳高精度な自然言語処理を必要とする場面。

手法の種類

主に以下の手法がある。

分類種類解説
フル・ファインチューニング全体調整型LLM全体を再学習させる方法。高いカスタマイズ性があるが、学習に大量のデータと計算リソースが必要。
軽量ファイン・チューニング表現調整型パラメタ効率型一部のパラメタや特定の層に限定して調整を加える方法。計算コストを抑えつつ高いカスタマイズ性を維持。

トレードオフ

メリット

デメリット

技法

分類手法
全体調整型Full Fine-Tuning
部分調整型ReFT (Representation Fine-Tuning), Reward Fine-Tuning
パラメタ効率型(PEFT: Parameter-Efficient Fine-Tuning)LoRA, QLoRA, Adapter, Prefix Tuning, BitFit
指示・強化学習型Instruction Tuning, RLHF(Reinforcement Learning from Human Feedback)

全体調整型

Full Fine-Tuning

モデルの全パラメタを特定のタスクやドメインに合わせて調整するプロセス

部分調整型

PEFT:Parameter-Efficient Fine-Tuning

ReFT

Reward Fine-Tuning

モデルの内部(≒埋め込み層、隠れ層、アテンション機構)を報酬を使って微調整する。

パラメタ効率型

LoRA

LoRA:Low-Rank Adaptation(低ランク適応)

QLoRA

QLoRA:Quantized Low-Rank Adaptation

※ 余談だが、

Adapter

LoRA:Low-Rank Adaptationの「スキップ接続された線形結合層」(Adapter)を追加(Adaptation)するような方法、全般。

Prefix Tuning

BitFit?

BitFit?:Bias-only fine-tuning

指示・強化学習型

Instruction Tuning

指示に基づいてモデルを調整する教師あり学習(Supervised Fine-Tuning, SFT)

RLHF

RLHF:Reinforcement Learning from Human Feedback

実地

構築

アウトライン

実際の手順

実装

アウトライン

実際のコード

運用

アウトライン

実際のスクリプト

参考

LoRA

環境

VM費用見積もり

GPUを認識させる

実装

phi3

Llama2

運用

モデル取り回し


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS