OSSのLLM のバックアップ(No.56) - .NET 開発基盤部会 Wiki

Hugging Face Transformersライブラリから利用する。
学習済みモデルに対して量子化を施すツール、方式、形式
サイズと推論コスト（メモリ・速度）を大幅に削減し、精度も保つ。
- 2bit, 3bit, 4bitなどへの量子化が可能
- Transformer層ごとに最適なスケーリングを行うことで、精度を最大限維持

よく使われる形式

項目	旧形式	Hugging Face形式
ファイル形式	PyTorchバイナリ（.bin）	HF標準構成（.safetensors で量子化済）
互換性	限定的（専用コード必要）	AutoGPTQ, transformers 互換
配布	zipやgitで配布	Hugging Face Hubで共有
安全性・速度	通常の.binは非検証	.safetensorsで検証＆高速
推奨度	過去の形式、現在は非推奨	標準化されており現在の主流・推奨

HF標準構成の場合の構成

your-gptq-model/
├── model.safetensors          ← GPTQで量子化された重み（低ビット）
├── config.json                ← 通常のTransformers config
├── tokenizer.*                ← トークナイザ設定
├── quantize_config.json       ← GPTQ量子化の設定情報

↑

図表 †

項目	GGML	GGUF	GPTQ
種類	推論実行ライブラリ兼モデルフォーマット	モデルフォーマット	量子化技術・ツール
主な用途	軽量モデルの実行	モデル配布・互換性統一	モデルの圧縮（量子化）
関連技術	llama.cpp	llama.cpp, koboldcpp など	ExLlama?, AutoGPTQ など
主な形式	.bin（旧）	.gguf（新）	.bin（旧）, .safetensors, .json, .model（新）

┌──────────────┐
│   llama.cpp │  ← 実際の推論エンジン
└────┬─────────┘
     │ uses
     ▼
┌──────────────┐
│    GGML     │  ← テンソル演算ライブラリ（中核）
└──────────────┘
     ▲
 uses models in │
     ▼
┌──────────────┐
│    GGUF     │  ← モデルファイルフォーマット
└──────────────┘

↑

HF標準構成 †

Hugging Face Transformersライブラリ※1と互換性のあるモデル・ディレクトリ構成
モデルの再利用・共有・ロード・保存をスムーズに行うために定められた標準的な構成

※1:
- Hugging Face が開発したOSSのTransformersライブラリ
- もともと PyTorch ベースで開発されたライブラリ
- 現在はTensorFlow, Flaxにも部分的に対応したマルチフレームワーク対応ライブラリ
- ただし、PyTorch が最も優先されており、最新機能も先に PyTorch に実装される傾向がある。

形式	内容	詳細	備考
Transformers形式	`pytorch_model.bin`, `tf_model.h5`, `flax_model.msgpack`, `config.json`, `tokenizer.json` など	Hugging Face Transformersライブラリが使用する標準的なファイル構成。フレームワークに応じたモデル重みファイル（PyTorch、TensorFlow?、Flax）と設定・トークナイザファイルを含む。	学習・微調整・推論が可能で、特に研究・開発用途に適している。ファイルは一般的にPythonのpickle形式で保存されるため、セキュリティ面では注意が必要（意図しないコードが実行される可能性がある）。
Safetensors形式	`.safetensors` というバイナリ形式	Hugging Face Transformersで利用可能な、安全性と読み込み速度を重視したフォーマット。pickleに比べて安全で、高速にロード可能。なお、TensorFlow?は非対応とのこと。	セキュアで信頼性が高く、推論用途や本番環境での利用に推奨される。構造化されたバイナリ形式で、意図しないコードの実行を防止。`pytorch_model.safetensors` などのファイル名で提供される。

↑

Transformers形式 †

ディレクトリ構成

my_model_directory/
├── config.json
├── pytorch_model.bin
├── tokenizer_config.json
├── vocab.txt / merges.txt / tokenizer.json
├── special_tokens_map.json
├── generation_config.json
└── added_tokens.json

ファイルの説明

ファイル	説明
config.json（必須）	モデルアーキテクチャの設定
pytorch_model.bin, tf_model.h5, flax_model.msgpack	PyTorch、TensorFlow、Flaxモデルの重み（PyTorchの場合は必須）
tokenizer_config.json	トークナイザの設定情報
vocab.txt, merges.txt, tokenizer.json	トークナイザの語彙情報
special_tokens_map.json	トークンのマッピング情報([CLS], [SEP], [PAD] など）
generation_config.json	テキスト生成関連のパラメータ（max_length, temperature, top_k など）
added_tokens.json（任意）	ユーザーが追加したトークンの情報

↑

Safetensors形式 †

ディレクトリ構成

my_model_directory/
├── config.json
├── model.safetensors         ← PyTorch版の重み
├── tokenizer_config.json
├── vocab.txt / merges.txt / tokenizer.json
├── special_tokens_map.json
└── generation_config.json

Safetensorsの特徴

特徴	内容
安全性	Pythonのpickleを使わないため、読み込み時に任意コードが実行されない（セキュア）
高速性	バイナリ形式で効率的にメモリマッピングされるため、ロードが速い
一貫性	ファイルを開かなくても中身（テンソル名・形状）をメタデータから確認できる
互換性	主にPyTorchとHF Transformersで広く使われているが、TensorFlow?・Flaxへのサポートはまだ限定的。

↑

検環環境 †

VM費用見積もり

↑

稼働時間 †

5（営業日/週） * 4（週/月）* 3（時間/日）＝ 60（時間/月）で見積もり

※ 1か月フル稼働は730時間なので30/730=0.04ヵ月分（つまり、以下の「/月」は、=0.04ヵ月分）

↑

VMサイズ †

SLM推論実行などではギリギリ不要だが、LLM実行やファインチューニングにはGPUが必要になる。

LLaMA 3 1B、Phi-3は（GPUを実装しない）ノートPCでも動作する。

LLaMA 3 8BにはGPUが必要で、必要なVMサイズは、
- AWSでg4dn.xlarge、AzureでNC4as_T4_v3辺りで、
- NC4as_T4_v3 - NC16as_T4_v3辺りで見積もると、0.5-1万/月程度、
- これは一か月上げっぱなすと10-20万

小さなモデルをファインチューニングをする場合、
- GPUのVRAMが24GBほど必要で、
- AzureでNC6s_v3や、NC24ads_A100_v4位のスペックが必要。
- NC6s_v3だと2万、NC24ads_A100_v4だと2.5万/月（これも行けそう）
- これは一か月上げっぱなすと50-60万

LLaMA 3 70Bを稼働させる場合、
- AWSでg5.xlarge、AzureでND96asr_A100_v4辺り
- ND96asr_A100_v4だと10万/月（無理（笑））
- これは一か月上げっぱなすと250万
- A100は1枚で$11,000（約163万円）

↑

付帯費用 †

Azureバッション2万/月など

↑

実費総額 †

コレはミニマム環境なので、予算としては、5万/月ほどあると良さそう。

↑

環境準備 †

最終的に、GPUはフレームワークから使用するので、フレームワークとのバージョン互換を確認しておく。
（PyTorch安定版（2.7.0）には Python 3.9 以降、CUDA 12.8が必要である模様：https://pytorch.org/get-started/locally/）

GPU付きVMを準備する。

使用可能なVMサイズを表示

az vm list-sizes --location japaneast --output table --query "[?contains(name, 'Standard_N')]"

Standard_NC8as_T4_v3 は時間１ドル程度らしい。

以下の変数を変更し、

vmSize=Standard_NC8as_T4_v3
vmOS=Ubuntu2404
vmName=GPU-VM1
vmUser=XXXX
vmPassword=XXXX

az vm create
- JumpBox?
  https://github.com/OpenTouryoProject/DxCommon/tree/master/AzureIaC/Simplest#virtual-machine
- Sandbox
  https://github.com/OpenTouryoProject/DxCommon/tree/master/AzureIaC/Simplest#virtual-machine-1

ドライバ・インストール時にハングるので、セキュアブートと vTPM を無効k化
https://learn.microsoft.com/ja-jp/azure/virtual-machines/trusted-launch-portal

VMの基礎的な構成をする。

Bastion＆Ubuntuの基本的な構成

GPU 割り当て確認

PCIバス接続デバイス情報を表示

lspci | grep -i nvidia
0001:00:00.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)

NVIDIA製GPUドライバ情報を表示
ココで認識できていれば、ドライバのインストールは不要かも
```
nvidia-smi
Command 'nvidia-smi' not found, but can be installed with:
sudo apt install nvidia-utils-...
```

既存ドライバの削除（再構成時はこの手順が必要

sudo apt --purge remove -y nvidia-*
sudo apt --purge remove -y cuda-*
sudo apt --purge remove -y libcudnn*
sudo apt --purge remove -y cudnn-*
sudo apt autoremove -y
sudo reboot

↑

インストレーション †

調査＆試行していたら手詰まったので、以下の手順に準拠
- 【Ubuntu 24.04 LTS】NVIDIAドライバおよびCUDAのインストール #機械学習 - Qiita
  https://qiita.com/YaezakuraP/items/507a7a9713b4e6f63f4b
- Linux 用 Azure N シリーズ GPU ドライバーのセットアップ - Azure Virtual Machines | Microsoft Learn
  https://learn.microsoft.com/en-us/azure/virtual-machines/linux/n-series-driver-setup

手順の事前確認

CUDA Toolkit Archiveにアクセス
https://developer.nvidia.com/cuda-toolkit-archive

当該バージョンのインストレーションをチェック（※ deb_network）
https://developer.nvidia.com/cuda-12-8-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=24.04&target_type=deb_network
```
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-8
```

3行目のsudo apt-get updateまでを実行

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update

ドライバのインストール
gnome-terminalのGUIではなくコマンド実行

recommendedを確認

sudo apt update && sudo apt install -y ubuntu-drivers-common
ubuntu-drivers devices
...
driver   : nvidia-driver-575-open - third-party non-free recommended
...

最新版をインストール（Azureの手順はコッチ）
```
sudo ubuntu-drivers install
```

recommendedをインストール
recommendedがCUDA Toolkitと互換性がない場合は要手動選択？

自動
```
sudo ubuntu-drivers autoinstall
```

手動

sudo apt install -y nvidia-driver-535（例）

Your system has UEFI Secure Boot enabled. UEFI Secure Boot requires ...
というエラーが出たら「セキュアブート」「vTPM」無効化の手順を飛ばしている。

再起動
```
sudo reboot
```

ドライバロードの確認
```
sudo dmesg | grep -i nvidia
```

NVIDIA製GPUドライバ情報を表示
```
nvidia-smi
```
メモ忘れたが、ココでも正常ケースの出力あり。

CUDA Toolkitのインストール

4行目の指定バージョンのインストール
```
sudo apt-get -y install cuda-toolkit-12-8
```

再起動
```
sudo reboot
```

ドライバロードの確認
```
sudo dmesg | grep -i nvidia
```

NVIDIA製GPU情報を表示

nvidia-smi
※ 表示されているCUDAバージョンは、当該ドライバが対応している最大のCUDA Toolkitバージョンを示す。

nvidia-smi
Wed May 14 09:29:03 2025       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.230.02             Driver Version: 535.230.02   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla T4                       Off | 00000001:00:00.0 Off |                  Off |
| N/A   32C    P8              11W /  70W |     84MiB / 16384MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      1129      G   /usr/lib/xorg/Xorg                           81MiB |
+---------------------------------------------------------------------------------------+

nvcc -V ※ CUDA ToolKit?とともにインストールされる CUDA C++ のコンパイラ・ドライバ、-V オプションで（≒ CUDA ToolKit? ≒ CUDAの）バージョンを表示。
```
$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
...
```

cuDNNnのインストールはパス。

推奨とされていたが、現在のPyTorchにcuDNNは不要らしい。
CUDA 12.8 に対応する cuDNN のバージョンは、cuDNN 8.9.7。

cuDNNのサイトのチェック
https://developer.nvidia.com/

ver9未満のインストレーションのナビゲーションがよろしくない。
https://developer.nvidia.com/cudnn-archive

展開後のドライバ定期更新
```
sudo apt update
sudo apt full-upgrade
```

↑

Python 環境で確認 †

pythonのバージョンを確認
```
python3 -V
Python 3.12.3
```

pythonのパッケージマネージャーpipをインストール
```
sudo apt install python3-pip
```

コチラの手順に従い仮想環境を作成

venvをインストールする。
```
sudo apt install python3-venv
```
仮想環境作成
```
python3 -m venv .python3_venv
```
アクティブ化（環境外から実行）
```
source .python3_venv/bin/activate
```

CUDA環境の動作確認

CUDAプログラミング学習環境をAzureで構築する
https://zenn.dev/bobtk/articles/a84b26b46c6149#8.-%E5%8B%95%E4%BD%9C%E7%A2%BA%E8%AA%8D

...GitHubへのリンク...

フレームワークをインストール

ERROR: Could not install packages due to an OSError: [Errno 28] No space left on device対策

pipキャッシュをクリア
```
pip cache purge
```

FS内のFSの量を表示

df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/root        29G   23G  5.2G  82% /
tmpfs            28G     0   28G   0% /dev/shm
tmpfs            11G  1.3M   11G   1% /run
tmpfs           5.0M     0  5.0M   0% /run/lock
efivarfs        128K   35K   89K  28% /sys/firmware/efi/efivars
/dev/sda16      881M   60M  760M   8% /boot
/dev/sda15      105M  6.2M   99M   6% /boot/efi
/dev/sdb1       346G   32K  328G   1% /mnt
tmpfs           5.5G  108K  5.5G   1% /run/user/112
tmpfs           5.5G  112K  5.5G   1% /run/user/1000

/mntが大きそうなのでココにワーク領域を作成
```
mkdir -p $mnt/tmp
```

ワーク領域を指定してGPU対応版をインストール
```
TMPDIR=$mnt/tmp pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
```
- 「TMPDIR=$mnt/tmp pip」として、unpackingフォルダを指定
- index-urlでCUDA対応版を明示してGPU対応版がインストール

バージョン確認（torch 2.7.0+cu...を想定

pip list
Package                   Version
------------------------- --------------
...
torch                    2.7.0+cu128
torchaudio               2.7.0+cu128
torchvision              0.22.0+cu128
...

実行確認（インタラクティブ実行で）

python3
>>> import torch
>>> print(torch.cuda.is_available())  # TrueならOK
True
>>> print(torch.cuda.get_device_name(0))  # GPU名表示
Tesla T4

↑

Dockerを使用 †

↑

参考 †

深層学習についてのレポート（LLM編）
https://www.osscons.jp/joho108j0-537/#_537

↑

環境準備 †

↑

VM費用見積もり †

料金計算ツール | Microsoft Azure
https://azure.microsoft.com/ja-jp/pricing/calculator/
- 料金 - Linux Virtual Machines | Microsoft Azure
  https://azure.microsoft.com/ja-jp/pricing/details/virtual-machines/linux/#pricing

AzureのGPU搭載VMを安い順に並べる（2023年9月版）｜saip(さいぴ)
https://note.com/sa1p/n/n0485cd0d8a04

Azureの仮想マシンでNVIDIA A100 GPUを使用する
https://zenn.dev/headwaters/articles/4a714937c9d17c
- NC_A100_v4 サイズシリーズ - Azure Virtual Machines | Microsoft Learn
  https://learn.microsoft.com/ja-jp/azure/virtual-machines/sizes/gpu-accelerated/nca100v4-series?tabs=sizebasic

AWS：g4dn.xlarge、Azure：NC4as_T4_v3 （￥91/時）
- 【UiPath?】AWS/Azure仮想マシンでローカルLLM環境を構築する #ollama - Qiita
  https://qiita.com/hidecha/items/dba9e863d3651989bfc3

ColabのGPU → A100は、AzureのNC_A100_v4シリーズ、NC24ads_A100_v4相当（￥682/時）
- Llama-3をColabで記事執筆用にファインチューニングしてみた
  https://zenn.dev/carenet/articles/0d2e1100121b0e

LLaMA 3を本番環境に導入するには？
https://nlpcloud.com/ja/how-to-install-and-deploy-llama-3-into-production.html

↑

GPUを認識させる †

Linux 用 Azure N シリーズ GPU ドライバーのセットアップ - Azure Virtual Machines | Microsoft Learn
https://learn.microsoft.com/en-us/azure/virtual-machines/linux/n-series-driver-setup

Qiita
- 【Ubuntu 24.04 LTS】NVIDIAドライバおよびCUDAのインストール #機械学習
  https://qiita.com/YaezakuraP/items/507a7a9713b4e6f63f4b
- ubuntuにCUDA、nvidiaドライバをインストールするメモ #Ubuntu -
  https://qiita.com/porizou1/items/74d8264d6381ee2941bd
- 【UiPath?】AWS/Azure仮想マシンでローカルLLM環境を構築する #ollama
  https://qiita.com/hidecha/items/dba9e863d3651989bfc3
- Your system has UEFI Secure Boot enabled. UEFI Secure Boot requires ... というエラー（メッセージ）の対処 #GPU
  https://qiita.com/Yorozuya59/items/499a632cce827a912918
- NVIDIAのドライバをUbuntuにインストールするときにハマった話 #nvidia-driver
  https://qiita.com/abehiro/items/81af20369099a303b855
- PyTorchとGPU/CUDA周りの環境構築のバージョン解決 #Ubuntu
  https://qiita.com/ketaro-m/items/4de2bd3101bcb6a6b668

その他
- OCI Ubuntu 24.04にNVIDIA GPU DriverとCUDAをインストールする
  https://zenn.dev/shukawam/scraps/44f9cdf3df70ff
- GPUを使った機械学習の環境を作るためにすること/しないこと（Ubuntu 22.04/24.04編）
  https://zenn.dev/yuyakato/articles/6915e735bc6aa5

↑

ツール類 †

↑

Ollama †

↑

Notebook †

DxCommon?/Notebook/Jupyter/path at master · OpenTouryoProject?/DxCommon?
https://github.com/OpenTouryoProject/DxCommon/tree/master/Notebook/Jupyter/path
- LLM_Ollama.ipynb
- LLM_Streamlit.py
- ,etc.

LLMの実行方法と周辺ツールまとめ #OpenAI
https://qiita.com/simakihiro/items/7467b849212fb3863e3b

LLM Tools - Ranking | OSS Insight
https://ossinsight.io/collections/llm-tools/