「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
OSS(オープンソース)のLLMは、ローカルマシンやオンプレミス環境で動作可能なものが多く、
クラウドサービスに依存せずに利用でき、機密情報を扱うクローズドな環境でも安全に導入できる。
コミュニティの活動状況を確認。
OSS LLMのメンテナンス体制とサポート体制を確認。
モデルのトレーニングや推論に使用するデータの保護を確認。
アブダビのTechnology Innovation Institute(TII)によって開発
BigScience?という協力的AI研究ワークショップによって開発
草の根の非営利の人工知能研究グループによって開発
Salesforceが提供するLLM
AI/BI系のプラットフォームベンダで、色々なOSSをホストしている。
GGML、GGUF、GPTQは、主にLLMの軽量化・実行する際の 形式・技術・ツール
(Georgi Gerganov's ML Library)
(GGML Universal Format)
(GPT Quantization)
項目 | 旧形式 | Hugging Face形式 |
ファイル形式 | PyTorchバイナリ(.bin) | HF標準(.safetensors で量子化済) |
互換性 | 限定的(専用コード必要) | AutoGPTQ, transformers 互換 |
配布 | zipやgitで配布 | Hugging Face Hubで共有 |
安全性・速度 | 通常の.binは非検証 | .safetensorsで検証&高速 |
推奨度 | 過去の形式、現在は非推奨 | 標準化されており現在の主流・推奨 |
項目 | GGML | GGUF | GPTQ |
種類 | 推論実行ライブラリ兼モデルフォーマット | モデルフォーマット | 量子化技術・ツール |
主な用途 | 軽量モデルの実行 | モデル配布・互換性統一 | モデルの圧縮(量子化) |
関連技術 | llama.cpp | llama.cpp, koboldcpp など | ExLlama?, AutoGPTQ など |
主な形式 | .bin(旧) | .gguf(新) | .bin(旧), .safetensors, .json, .model(新) |
┌──────────────┐ │ llama.cpp │ ← 実際の推論エンジン └────┬─────────┘ │ uses ▼ ┌──────────────┐ │ GGML │ ← テンソル演算ライブラリ(中核) └──────────────┘ ▲ uses models in │ ▼ ┌──────────────┐ │ GGUF │ ← モデルファイルフォーマット └──────────────┘
※ GPTQは、GGML/GGUF/llama.cppとは直接の関係はないGPTQは、モデルを高精度に量子化するための手法。
形式 | 内容 |
Transformers形式(PyTorchベース) | pytorch_model.bin, config.json, tokenizer.json など |
Safetensors形式 | セキュアかつ効率的なバイナリ形式(.safetensors) |
GGUF形式 | llama.cppで使える形式(配布モデルがあれば) |
GPTQ形式 | GPTQで量子化済みのもの(.safetensors で量子化済) |
my_model_directory/ ├── config.json ├── pytorch_model.bin ├── tokenizer_config.json ├── vocab.txt / merges.txt / tokenizer.json ├── special_tokens_map.json ├── generation_config.json └── added_tokens.json
ファイル | 説明 |
config.json(必須) | モデルアーキテクチャの設定 |
pytorch_model.bin(PyTorchの場合は必須) | PyTorch、TensorFlow?、Flaxモデルの重み |
tokenizer_config.json | トークナイザの設定情報 |
vocab.txt, merges.txt, tokenizer.json | トークナイザの語彙情報 |
special_tokens_map.json | トークンのマッピング情報([CLS], [SEP], [PAD] など) |
generation_config.json | テキスト生成関連のパラメータ(max_length, temperature, top_k など) |
added_tokens.json(任意) | ユーザーが追加したトークンの情報 |
my_model_directory/ ├── config.json ├── model.safetensors ← PyTorch版の重み ├── tokenizer_config.json ├── vocab.txt / merges.txt / tokenizer.json ├── special_tokens_map.json └── generation_config.json
特徴 | 内容 |
安全性 | Pythonのpickleを使わないため、読み込み時に任意コードが実行されない(セキュア) |
高速性 | バイナリ形式で効率的にメモリマッピングされるため、ロードが速い |
一貫性 | ファイルを開かなくても中身(テンソル名・形状)をメタデータから確認できる |
VM費用見積もり
5(営業日/週) * 4(週/月)* 3(時間/日)= 60(時間/月)で見積もり
※ 1か月フル稼働は730時間なので30/730=0.04ヵ月分(つまり、以下の「/月」は、=0.04ヵ月分)
Azureバッション2万/月など
コレはミニマム環境なので、予算としては、5万/月ほどあると良さそう。