OSSのLLM のバックアップ(No.46) - .NET 開発基盤部会 Wiki

PyTorchベースのLLMに対するポストトレーニング量子化（Post-training Quantization）ツール
サイズと推論コスト（メモリ・速度）を大幅に削減し、精度も保つ。
- 2bit, 3bit, 4bitなどへの量子化が可能
- Transformer層ごとに最適なスケーリングを行うことで、精度を最大限維持

よく使われる形式

項目	旧形式	Hugging Face形式
ファイル形式	PyTorchバイナリ（.bin）	HF標準（.safetensors で量子化済）
互換性	限定的（専用コード必要）	AutoGPTQ, transformers 互換
配布	zipやgitで配布	Hugging Face Hubで共有
安全性・速度	通常の.binは非検証	.safetensorsで検証＆高速
推奨度	過去の形式、現在は非推奨	標準化されており現在の主流・推奨

↑

図表 †

項目	GGML	GGUF	GPTQ
種類	推論実行ライブラリ兼モデルフォーマット	モデルフォーマット	量子化技術・ツール
主な用途	軽量モデルの実行	モデル配布・互換性統一	モデルの圧縮（量子化）
関連技術	llama.cpp	llama.cpp, koboldcpp など	ExLlama?, AutoGPTQ など
主な形式	.bin（旧）	.gguf（新）	.bin（旧）, .safetensors, .json, .model（新）

┌──────────────┐
│   llama.cpp │  ← 実際の推論エンジン
└────┬─────────┘
     │ uses
     ▼
┌──────────────┐
│    GGML     │  ← テンソル演算ライブラリ（中核）
└──────────────┘
     ▲
 uses models in │
     ▼
┌──────────────┐
│    GGUF     │  ← モデルファイルフォーマット
└──────────────┘

※ GPTQは、GGML/GGUF/llama.cppとは直接の関係はないGPTQは、モデルを高精度に量子化するための手法。

↑

HF標準構成 †

Hugging Face Transformersライブラリ※1と互換性のあるモデルディレクトリ構成（HF標準構成）
モデルの再利用・共有・ロード・保存をスムーズに行うために定められた標準的な構成
※1: Hugging Face が開発したOSSのTransformersライブラリでPyTorch, TensorFlow?, Flaxに対応している。

形式	内容
Transformers形式（PyTorchベース）	pytorch_model.bin, config.json, tokenizer.json など
Safetensors形式	セキュアかつ効率的なバイナリ形式（.safetensors）
GGUF形式	llama.cppで使える形式（配布モデルがあれば）
GPTQ形式	GPTQで量子化済みのもの（.safetensors で量子化済）

↑

基本的 †

ディレクトリ構成

my_model_directory/
├── config.json
├── pytorch_model.bin
├── tokenizer_config.json
├── vocab.txt / merges.txt / tokenizer.json
├── special_tokens_map.json
├── generation_config.json
└── added_tokens.json

ファイル	説明
config.json（必須）	モデルアーキテクチャの設定
pytorch_model.bin（PyTorchの場合は必須）	PyTorch、TensorFlow?、Flaxモデルの重み
tokenizer_config.json	トークナイザの設定情報
vocab.txt, merges.txt, tokenizer.json	トークナイザの語彙情報
special_tokens_map.json	トークンのマッピング情報([CLS], [SEP], [PAD] など）
generation_config.json	テキスト生成関連のパラメータ（max_length, temperature, top_k など）
added_tokens.json（任意）	ユーザーが追加したトークンの情報

↑

safetensors †

ディレクトリ構成

my_model_directory/
├── config.json
├── model.safetensors         ← PyTorch版の重み
├── tokenizer_config.json
├── vocab.txt / merges.txt / tokenizer.json
├── special_tokens_map.json
└── generation_config.json

safetensors の特徴

特徴	内容
安全性	Pythonのpickleを使わないため、読み込み時に任意コードが実行されない（セキュア）
高速性	バイナリ形式で効率的にメモリマッピングされるため、ロードが速い
一貫性	ファイルを開かなくても中身（テンソル名・形状）をメタデータから確認できる

↑

検環環境 †

VM費用見積もり

↑

稼働時間 †

5（営業日/週） * 4（週/月）* 3（時間/日）＝ 60（時間/月）で見積もり

※ 1か月フル稼働は730時間なので30/730=0.04ヵ月分（つまり、以下の「/月」は、=0.04ヵ月分）

↑

VMサイズ †

LLaMA 3 1B、Phi-3はノートPCでも動作する。

LLaMA 3 8Bに必要なVMサイズは、
- AWSでg4dn.xlarge、AzureでNC4as_T4_v3辺りで、
- NC4as_T4_v3 - NC16as_T4_v3辺りで見積もると、0.5-1万/月程度、
- これは一か月上げっぱなすと10-20万

小さなモデルをファインチューニングをする場合、
- 24GBほどのVRAMが必要で、
- AzureでNC6s_v3や、NC24ads_A100_v4位のスペックが必要。
- NC6s_v3だと2万、NC24ads_A100_v4だと2.5万/月（これも行けそう）
- これは一か月上げっぱなすと50-60万

LLaMA 3 70Bを稼働させる場合、
- AWSでg5.xlarge、AzureでND96asr_A100_v4辺り
- ND96asr_A100_v4だと10万/月（無理（笑））
- これは一か月上げっぱなすと250万
- A100は1枚で$11,000（約163万円）

↑

付帯費用 †

Azureバッション2万/月など

↑

実費総額 †

コレはミニマム環境なので、予算としては、5万/月ほどあると良さそう。

↑

参考 †

深層学習についてのレポート（LLM編）
https://www.osscons.jp/joho108j0-537/#_537

↑

Ollama †

↑

Notebook †

DxCommon?/Notebook/Jupyter/path at master · OpenTouryoProject?/DxCommon?
https://github.com/OpenTouryoProject/DxCommon/tree/master/Notebook/Jupyter/path
- LLM_Ollama.ipynb
- LLM_Streamlit.py
- ,etc.

LLMの実行方法と周辺ツールまとめ #OpenAI
https://qiita.com/simakihiro/items/7467b849212fb3863e3b

LLM Tools - Ranking | OSS Insight
https://ossinsight.io/collections/llm-tools/

↑

VM費用見積もり †

料金計算ツール | Microsoft Azure
https://azure.microsoft.com/ja-jp/pricing/calculator/
- 料金 - Linux Virtual Machines | Microsoft Azure
  https://azure.microsoft.com/ja-jp/pricing/details/virtual-machines/linux/#pricing

AzureのGPU搭載VMを安い順に並べる（2023年9月版）｜saip(さいぴ)
https://note.com/sa1p/n/n0485cd0d8a04

Azureの仮想マシンでNVIDIA A100 GPUを使用する
https://zenn.dev/headwaters/articles/4a714937c9d17c
- NC_A100_v4 サイズシリーズ - Azure Virtual Machines | Microsoft Learn
  https://learn.microsoft.com/ja-jp/azure/virtual-machines/sizes/gpu-accelerated/nca100v4-series?tabs=sizebasic

AWS：g4dn.xlarge、Azure：NC4as_T4_v3 （￥91/時）
- 【UiPath?】AWS/Azure仮想マシンでローカルLLM環境を構築する #ollama - Qiita
  https://qiita.com/hidecha/items/dba9e863d3651989bfc3

ColabのGPU → A100は、AzureのNC_A100_v4シリーズ、NC24ads_A100_v4相当（￥682/時）
- Llama-3をColabで記事執筆用にファインチューニングしてみた
  https://zenn.dev/carenet/articles/0d2e1100121b0e

LLaMA 3を本番環境に導入するには？
https://nlpcloud.com/ja/how-to-install-and-deploy-llama-3-into-production.html