OSSのLLM のバックアップ(No.47) - .NET 開発基盤部会 Wiki

Hugging Face Transformersライブラリから利用する。
学習済みモデルに対して量子化を施すツール、方式、形式
サイズと推論コスト（メモリ・速度）を大幅に削減し、精度も保つ。
- 2bit, 3bit, 4bitなどへの量子化が可能
- Transformer層ごとに最適なスケーリングを行うことで、精度を最大限維持

よく使われる形式

項目	旧形式	Hugging Face形式
ファイル形式	PyTorchバイナリ（.bin）	HF標準構成（.safetensors で量子化済）
互換性	限定的（専用コード必要）	AutoGPTQ, transformers 互換
配布	zipやgitで配布	Hugging Face Hubで共有
安全性・速度	通常の.binは非検証	.safetensorsで検証＆高速
推奨度	過去の形式、現在は非推奨	標準化されており現在の主流・推奨

HF標準構成の場合の構成

your-gptq-model/
├── model.safetensors          ← GPTQで量子化された重み（低ビット）
├── config.json                ← 通常のTransformers config
├── tokenizer.*                ← トークナイザ設定
├── quantize_config.json       ← GPTQ量子化の設定情報

↑

図表 †

項目	GGML	GGUF	GPTQ
種類	推論実行ライブラリ兼モデルフォーマット	モデルフォーマット	量子化技術・ツール
主な用途	軽量モデルの実行	モデル配布・互換性統一	モデルの圧縮（量子化）
関連技術	llama.cpp	llama.cpp, koboldcpp など	ExLlama?, AutoGPTQ など
主な形式	.bin（旧）	.gguf（新）	.bin（旧）, .safetensors, .json, .model（新）

┌──────────────┐
│   llama.cpp │  ← 実際の推論エンジン
└────┬─────────┘
     │ uses
     ▼
┌──────────────┐
│    GGML     │  ← テンソル演算ライブラリ（中核）
└──────────────┘
     ▲
 uses models in │
     ▼
┌──────────────┐
│    GGUF     │  ← モデルファイルフォーマット
└──────────────┘

↑

HF標準構成 †

Hugging Face Transformersライブラリ※1と互換性のあるモデル・ディレクトリ構成
モデルの再利用・共有・ロード・保存をスムーズに行うために定められた標準的な構成

※1:
- Hugging Face が開発したOSSのTransformersライブラリ
- もともと PyTorch ベースで開発されたライブラリ
- 現在はTensorFlow, Flaxにも部分的に対応したマルチフレームワーク対応ライブラリ
- ただし、PyTorch が最も優先されており、最新機能も先に PyTorch に実装される傾向がある。

形式	内容	詳細	備考
Transformers形式	`pytorch_model.bin`, `tf_model.h5`, `flax_model.msgpack`, `config.json`, `tokenizer.json` など	Hugging Face Transformersライブラリが使用する標準的なファイル構成。フレームワークに応じたモデル重みファイル（PyTorch、TensorFlow?、Flax）と設定・トークナイザファイルを含む。	学習・微調整・推論が可能で、特に研究・開発用途に適している。ファイルは一般的にPythonのpickle形式で保存されるため、セキュリティ面では注意が必要（意図しないコードが実行される可能性がある）。
Safetensors形式	`.safetensors` というバイナリ形式	Hugging Face Transformersで利用可能な、安全性と読み込み速度を重視したフォーマット。pickleに比べて安全で、高速にロード可能。なお、TensorFlow?は非対応とのこと。	セキュアで信頼性が高く、推論用途や本番環境での利用に推奨される。構造化されたバイナリ形式で、意図しないコードの実行を防止。`pytorch_model.safetensors` などのファイル名で提供される。

↑

Transformers形式 †

ディレクトリ構成

my_model_directory/
├── config.json
├── pytorch_model.bin
├── tokenizer_config.json
├── vocab.txt / merges.txt / tokenizer.json
├── special_tokens_map.json
├── generation_config.json
└── added_tokens.json

ファイルの説明

ファイル	説明
config.json（必須）	モデルアーキテクチャの設定
pytorch_model.bin, tf_model.h5, flax_model.msgpack	PyTorch、TensorFlow、Flaxモデルの重み（PyTorchの場合は必須）
tokenizer_config.json	トークナイザの設定情報
vocab.txt, merges.txt, tokenizer.json	トークナイザの語彙情報
special_tokens_map.json	トークンのマッピング情報([CLS], [SEP], [PAD] など）
generation_config.json	テキスト生成関連のパラメータ（max_length, temperature, top_k など）
added_tokens.json（任意）	ユーザーが追加したトークンの情報

↑

Safetensors形式 †

ディレクトリ構成

my_model_directory/
├── config.json
├── model.safetensors         ← PyTorch版の重み
├── tokenizer_config.json
├── vocab.txt / merges.txt / tokenizer.json
├── special_tokens_map.json
└── generation_config.json

Safetensorsの特徴

特徴	内容
安全性	Pythonのpickleを使わないため、読み込み時に任意コードが実行されない（セキュア）
高速性	バイナリ形式で効率的にメモリマッピングされるため、ロードが速い
一貫性	ファイルを開かなくても中身（テンソル名・形状）をメタデータから確認できる
互換性	主にPyTorchとHF Transformersで広く使われているが、TensorFlow?・Flaxへのサポートはまだ限定的。

↑

検環環境 †

VM費用見積もり

↑

稼働時間 †

5（営業日/週） * 4（週/月）* 3（時間/日）＝ 60（時間/月）で見積もり

※ 1か月フル稼働は730時間なので30/730=0.04ヵ月分（つまり、以下の「/月」は、=0.04ヵ月分）

↑

VMサイズ †

LLaMA 3 1B、Phi-3はノートPCでも動作する。

LLaMA 3 8Bに必要なVMサイズは、
- AWSでg4dn.xlarge、AzureでNC4as_T4_v3辺りで、
- NC4as_T4_v3 - NC16as_T4_v3辺りで見積もると、0.5-1万/月程度、
- これは一か月上げっぱなすと10-20万

小さなモデルをファインチューニングをする場合、
- 24GBほどのVRAMが必要で、
- AzureでNC6s_v3や、NC24ads_A100_v4位のスペックが必要。
- NC6s_v3だと2万、NC24ads_A100_v4だと2.5万/月（これも行けそう）
- これは一か月上げっぱなすと50-60万

LLaMA 3 70Bを稼働させる場合、
- AWSでg5.xlarge、AzureでND96asr_A100_v4辺り
- ND96asr_A100_v4だと10万/月（無理（笑））
- これは一か月上げっぱなすと250万
- A100は1枚で$11,000（約163万円）

↑

付帯費用 †

Azureバッション2万/月など

↑

実費総額 †

コレはミニマム環境なので、予算としては、5万/月ほどあると良さそう。

↑

参考 †

深層学習についてのレポート（LLM編）
https://www.osscons.jp/joho108j0-537/#_537

↑

Ollama †

↑

Notebook †

DxCommon?/Notebook/Jupyter/path at master · OpenTouryoProject?/DxCommon?
https://github.com/OpenTouryoProject/DxCommon/tree/master/Notebook/Jupyter/path
- LLM_Ollama.ipynb
- LLM_Streamlit.py
- ,etc.

LLMの実行方法と周辺ツールまとめ #OpenAI
https://qiita.com/simakihiro/items/7467b849212fb3863e3b

LLM Tools - Ranking | OSS Insight
https://ossinsight.io/collections/llm-tools/

↑

VM費用見積もり †

料金計算ツール | Microsoft Azure
https://azure.microsoft.com/ja-jp/pricing/calculator/
- 料金 - Linux Virtual Machines | Microsoft Azure
  https://azure.microsoft.com/ja-jp/pricing/details/virtual-machines/linux/#pricing

AzureのGPU搭載VMを安い順に並べる（2023年9月版）｜saip(さいぴ)
https://note.com/sa1p/n/n0485cd0d8a04

Azureの仮想マシンでNVIDIA A100 GPUを使用する
https://zenn.dev/headwaters/articles/4a714937c9d17c
- NC_A100_v4 サイズシリーズ - Azure Virtual Machines | Microsoft Learn
  https://learn.microsoft.com/ja-jp/azure/virtual-machines/sizes/gpu-accelerated/nca100v4-series?tabs=sizebasic

AWS：g4dn.xlarge、Azure：NC4as_T4_v3 （￥91/時）
- 【UiPath?】AWS/Azure仮想マシンでローカルLLM環境を構築する #ollama - Qiita
  https://qiita.com/hidecha/items/dba9e863d3651989bfc3

ColabのGPU → A100は、AzureのNC_A100_v4シリーズ、NC24ads_A100_v4相当（￥682/時）
- Llama-3をColabで記事執筆用にファインチューニングしてみた
  https://zenn.dev/carenet/articles/0d2e1100121b0e

LLaMA 3を本番環境に導入するには？
https://nlpcloud.com/ja/how-to-install-and-deploy-llama-3-into-production.html