「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
OSS(オープンソース)のLLMは、ローカルマシンやオンプレミス環境で動作可能なものが多く、
クラウドサービスに依存せずに利用でき、機密情報を扱うクローズドな環境でも安全に導入できる。
コミュニティの活動状況を確認。
OSS LLMのメンテナンス体制とサポート体制を確認。
モデルのトレーニングや推論に使用するデータの保護を確認。
アブダビのTechnology Innovation Institute(TII)によって開発
BigScience?という協力的AI研究ワークショップによって開発
草の根の非営利の人工知能研究グループによって開発
Salesforceが提供するLLM
AI/BI系のプラットフォームベンダで、色々なOSSをホストしている。
GGML、GGUF、GPTQは、主にLLMの軽量化・実行する際の 形式・技術・ツール
(Georgi Gerganov's ML Library)
(GGML Universal Format)
(GPT Quantization)
your-gptq-model/ ├── model.safetensors ← GPTQで量子化された重み(低ビット) ├── config.json ← 通常のTransformers config ├── tokenizer.* ← トークナイザ設定 ├── quantize_config.json ← GPTQ量子化の設定情報
項目 | GGML | GGUF | GPTQ |
種類 | 推論実行ライブラリ兼モデルフォーマット | モデルフォーマット | 量子化技術・ツール |
主な用途 | 軽量モデルの実行 | モデル配布・互換性統一 | モデルの圧縮(量子化) |
関連技術 | llama.cpp | llama.cpp, koboldcpp など | ExLlama?, AutoGPTQ など |
主な形式 | .bin(旧) | .gguf(新) | .bin(旧), .safetensors, .json, .model(新) |
┌──────────────┐ │ llama.cpp │ ← 実際の推論エンジン └────┬─────────┘ │ uses ▼ ┌──────────────┐ │ GGML │ ← テンソル演算ライブラリ(中核) └──────────────┘ ▲ uses models in │ ▼ ┌──────────────┐ │ GGUF │ ← モデルファイルフォーマット └──────────────┘
形式 | 内容 | 詳細 | 備考 |
Transformers形式 | `pytorch_model.bin`, `tf_model.h5`, `flax_model.msgpack`, `config.json`, `tokenizer.json` など | Hugging Face Transformersライブラリが使用する標準的なファイル構成。フレームワークに応じたモデル重みファイル(PyTorch、TensorFlow?、Flax)と設定・トークナイザファイルを含む。 | 学習・微調整・推論が可能で、特に研究・開発用途に適している。ファイルは一般的にPythonのpickle形式で保存されるため、セキュリティ面では注意が必要(意図しないコードが実行される可能性がある)。 |
Safetensors形式 | `.safetensors` というバイナリ形式 | Hugging Face Transformersで利用可能な、安全性と読み込み速度を重視したフォーマット。pickleに比べて安全で、高速にロード可能。なお、TensorFlow?は非対応とのこと。 | セキュアで信頼性が高く、推論用途や本番環境での利用に推奨される。構造化されたバイナリ形式で、意図しないコードの実行を防止。`pytorch_model.safetensors` などのファイル名で提供される。 |
my_model_directory/ ├── config.json ├── pytorch_model.bin ├── tokenizer_config.json ├── vocab.txt / merges.txt / tokenizer.json ├── special_tokens_map.json ├── generation_config.json └── added_tokens.json
ファイル | 説明 |
config.json(必須) | モデルアーキテクチャの設定 |
pytorch_model.bin, tf_model.h5, flax_model.msgpack | PyTorch、TensorFlow、Flaxモデルの重み(PyTorchの場合は必須) |
tokenizer_config.json | トークナイザの設定情報 |
vocab.txt, merges.txt, tokenizer.json | トークナイザの語彙情報 |
special_tokens_map.json | トークンのマッピング情報([CLS], [SEP], [PAD] など) |
generation_config.json | テキスト生成関連のパラメータ(max_length, temperature, top_k など) |
added_tokens.json(任意) | ユーザーが追加したトークンの情報 |
my_model_directory/ ├── config.json ├── model.safetensors ← PyTorch版の重み ├── tokenizer_config.json ├── vocab.txt / merges.txt / tokenizer.json ├── special_tokens_map.json └── generation_config.json
VM費用見積もり
5(営業日/週) * 4(週/月)* 3(時間/日)= 60(時間/月)で見積もり
※ 1か月フル稼働は730時間なので30/730=0.04ヵ月分(つまり、以下の「/月」は、=0.04ヵ月分)
SLM推論実行などではギリギリ不要だが、LLM実行やファインチューニングにはGPUが必要になる。
Azureバッション2万/月など
コレはミニマム環境なので、予算としては、5万/月ほどあると良さそう。
最終的に、GPUはフレームワークから使用するので、フレームワークとのバージョン互換を確認しておく。
(PyTorch安定版(2.7.0)には Python 3.9 以降、CUDA 12.8が必要である模様:https://pytorch.org/get-started/locally/)
az vm list-sizes --location japaneast --output table --query "[?contains(name, 'Standard_N')]"
vmSize=Standard_NC8as_T4_v3 vmOS=Ubuntu2404 vmName=GPU-VM1 vmUser=XXXX vmPassword=XXXX
lspci | grep -i nvidia 0001:00:00.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)
nvidia-smi Command 'nvidia-smi' not found, but can be installed with: sudo apt install nvidia-utils-...
sudo apt --purge remove -y nvidia-* sudo apt --purge remove -y cuda-* sudo apt --purge remove -y libcudnn* sudo apt --purge remove -y cudnn-* sudo apt autoremove -y sudo reboot
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo dpkg -i cuda-keyring_1.1-1_all.deb sudo apt-get update sudo apt-get -y install cuda-toolkit-12-8
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo dpkg -i cuda-keyring_1.1-1_all.deb sudo apt-get update
sudo apt update && sudo apt install -y ubuntu-drivers-common ubuntu-drivers devices ... driver : nvidia-driver-575-open - third-party non-free recommended ...
sudo ubuntu-drivers install
sudo ubuntu-drivers autoinstall
sudo apt install -y nvidia-driver-535(例)
sudo reboot
sudo dmesg | grep -i nvidia
nvidia-smiメモ忘れたが、ココでも正常ケースの出力あり。
sudo apt-get -y install cuda-toolkit-12-8
sudo reboot
sudo dmesg | grep -i nvidia
nvidia-smi Wed May 14 09:29:03 2025 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.230.02 Driver Version: 535.230.02 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 Tesla T4 Off | 00000001:00:00.0 Off | Off | | N/A 32C P8 11W / 70W | 84MiB / 16384MiB | 0% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 1129 G /usr/lib/xorg/Xorg 81MiB | +---------------------------------------------------------------------------------------+
$ nvcc -V nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2023 NVIDIA Corporation ...
sudo apt update sudo apt full-upgrade
python3 -V Python 3.12.3
sudo apt install python3-pip
sudo apt install python3-venv
python3 -m venv .python3_venv
source .python3_venv/bin/activate
pip cache purge
df -h Filesystem Size Used Avail Use% Mounted on /dev/root 29G 23G 5.2G 82% / tmpfs 28G 0 28G 0% /dev/shm tmpfs 11G 1.3M 11G 1% /run tmpfs 5.0M 0 5.0M 0% /run/lock efivarfs 128K 35K 89K 28% /sys/firmware/efi/efivars /dev/sda16 881M 60M 760M 8% /boot /dev/sda15 105M 6.2M 99M 6% /boot/efi /dev/sdb1 346G 32K 328G 1% /mnt tmpfs 5.5G 108K 5.5G 1% /run/user/112 tmpfs 5.5G 112K 5.5G 1% /run/user/1000
mkdir -p $mnt/tmp
TMPDIR=$mnt/tmp pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
pip list Package Version ------------------------- -------------- ... torch 2.7.0+cu128 torchaudio 2.7.0+cu128 torchvision 0.22.0+cu128 ...
python3 >>> import torch >>> print(torch.cuda.is_available()) # TrueならOK True >>> print(torch.cuda.get_device_name(0)) # GPU名表示 Tesla T4