「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>テキスト生成系(Transformer系)]]

*目次 [#u4413184]
#contents

*概要 [#o6adc09b]

*詳細 [#sb0639d9]
|分類|手法|h
|全体調整型|Full Fine-Tuning|
|表現調整型|ReFT (Representation Fine-Tuning), Reward Fine-Tuning|
|パラメータ効率型(PEFT: Parameter-Efficient Fine-Tuning)|LoRA, QLoRA, Adapter, Prefix Tuning, BitFit|
|指示・強化学習型|Instruction Tuning, RLHF|

**全体調整型 [#m948d93d]
***Full Fine-Tuning [#b45c9886]

**表現調整型 [#t16de86b]

***ReFT [#c38bbd0f]
ReFT (Representation Fine-Tuning)

***Reward Fine-Tuning [#ud85a68e]

**パラメータ効率型 [#sbecc481]
(PEFT: Parameter-Efficient Fine-Tuning)

***LoRA [#edcd5d87]
LoRA(Low-Rank Adaptation)

-主に大規模な機械学習モデル(特にLLMや画像生成モデル)に対して、追加の知識やスタイルを効率的に学習させる技術
-通常、モデル全体を学習し直すのではなく、一部の重み行列を低ランク行列に制限して学習を行う。
-既存の知識を補強する形で使うのが適しています。

-得意なケース
--特定のドメインに適応させる
--新しい言葉や概念を学習させる
--特定の文章スタイルやキャラクターの言い回し

-不得意なケース
--完全に未知の知識をゼロから学習する
--長大なデータを一度に追加する

-手順(簡単な流れ)

--学習データの準備(追加したい知識やスタイルのデータセットを作る)
 JSON: {"input": "ユーザーの質問", "output": "AIの回答"}

--LoRAの適用(ベースモデルにLoRAを組み込んで学習)
--ファインチューニング(追加の知識やスタイルを反映)
--モデルの評価・テスト(意図した知識やスタイルが反映されているか確認)

***QLoRA [#iee439a7]
***Adapter [#o48215b0]
***Prefix Tuning [#oc09c52a]
***BitFit [#j15e942b]

**指示・強化学習型 [#nc47f676]
***Instruction Tuning [#m581916f]
***RLHF [#f617b1df]


トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS