ファイン・チューニングの変更点

追加された行はこの色です。
削除された行はこの色です。
ファイン・チューニングは削除されています。
ファイン・チューニングの差分を削除

「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>テキスト生成系（Transformer系）]]

*目次 [#u4413184]
#contents

*概要 [#o6adc09b]

*詳細 [#sb0639d9]
|分類|手法|h
|全体調整型|Full Fine-Tuning|
|表現調整型|ReFT (Representation Fine-Tuning), Reward Fine-Tuning|
|パラメータ効率型（PEFT: Parameter-Efficient Fine-Tuning）|LoRA, QLoRA, Adapter, Prefix Tuning, BitFit|
|指示・強化学習型|Instruction Tuning, RLHF|

**全体調整型 [#m948d93d]
***Full Fine-Tuning [#b45c9886]

**表現調整型 [#t16de86b]

***ReFT [#c38bbd0f]
ReFT (Representation Fine-Tuning)

***Reward Fine-Tuning [#ud85a68e]

**パラメータ効率型 [#sbecc481]
（PEFT: Parameter-Efficient Fine-Tuning）

***LoRA [#edcd5d87]
LoRA（Low-Rank Adaptation）

-主に大規模な機械学習モデル（特にLLMや画像生成モデル）に対して、追加の知識やスタイルを効率的に学習させる技術
-通常、モデル全体を学習し直すのではなく、一部の重み行列を低ランク行列に制限して学習を行う。
-既存の知識を補強する形で使うのが適しています。

-得意なケース
--特定のドメインに適応させる
--新しい言葉や概念を学習させる
--特定の文章スタイルやキャラクターの言い回し

-不得意なケース
--完全に未知の知識をゼロから学習する
--長大なデータを一度に追加する

-手順（簡単な流れ）

--学習データの準備（追加したい知識やスタイルのデータセットを作る）
 JSON: {"input": "ユーザーの質問", "output": "AIの回答"}

--LoRAの適用（ベースモデルにLoRAを組み込んで学習）
--ファインチューニング（追加の知識やスタイルを反映）
--モデルの評価・テスト（意図した知識やスタイルが反映されているか確認）

***QLoRA [#iee439a7]
***Adapter [#o48215b0]
***Prefix Tuning [#oc09c52a]
***BitFit [#j15e942b]

**指示・強化学習型 [#nc47f676]
***Instruction Tuning [#m581916f]
***RLHF [#f617b1df]

ファイン・チューニング の変更点