「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
OSS(オープンソース)のLLMは、ローカルマシンやオンプレミス環境で動作可能なものが多く、
クラウドサービスに依存せずに利用でき、機密情報を扱うクローズドな環境でも安全に導入できる。
コミュニティの活動状況を確認。
OSS LLMのメンテナンス体制とサポート体制を確認。
モデルのトレーニングや推論に使用するデータの保護を確認。
アブダビのTechnology Innovation Institute(TII)によって開発
BigScience?という協力的AI研究ワークショップによって開発
草の根の非営利の人工知能研究グループによって開発
Salesforceが提供するLLM
AI/BI系のプラットフォームベンダで、色々なOSSをホストしている。
GGML、GGUF、GPTQは、主にLLMの軽量化・実行する際の 形式・技術・ツール
(Georgi Gerganov's ML Library)
(GGML Universal Format)
(GPT Quantization)
your-gptq-model/ ├── model.safetensors ← GPTQで量子化された重み(低ビット) ├── config.json ← 通常のTransformers config ├── tokenizer.* ← トークナイザ設定 ├── quantize_config.json ← GPTQ量子化の設定情報
項目 | GGML | GGUF | GPTQ |
種類 | 推論実行ライブラリ兼モデルフォーマット | モデルフォーマット | 量子化技術・ツール |
主な用途 | 軽量モデルの実行 | モデル配布・互換性統一 | モデルの圧縮(量子化) |
関連技術 | llama.cpp | llama.cpp, koboldcpp など | ExLlama?, AutoGPTQ など |
主な形式 | .bin(旧) | .gguf(新) | .bin(旧), .safetensors, .json, .model(新) |
┌──────────────┐ │ llama.cpp │ ← 実際の推論エンジン └────┬─────────┘ │ uses ▼ ┌──────────────┐ │ GGML │ ← テンソル演算ライブラリ(中核) └──────────────┘ ▲ uses models in │ ▼ ┌──────────────┐ │ GGUF │ ← モデルファイルフォーマット └──────────────┘
形式 | 内容 | 詳細 | 備考 |
Transformers形式 | `pytorch_model.bin`, `tf_model.h5`, `flax_model.msgpack`, `config.json`, `tokenizer.json` など | Hugging Face Transformersライブラリが使用する標準的なファイル構成。フレームワークに応じたモデル重みファイル(PyTorch、TensorFlow?、Flax)と設定・トークナイザファイルを含む。 | 学習・微調整・推論が可能で、特に研究・開発用途に適している。ファイルは一般的にPythonのpickle形式で保存されるため、セキュリティ面では注意が必要(意図しないコードが実行される可能性がある)。 |
Safetensors形式 | `.safetensors` というバイナリ形式 | Hugging Face Transformersで利用可能な、安全性と読み込み速度を重視したフォーマット。pickleに比べて安全で、高速にロード可能。なお、TensorFlow?は非対応とのこと。 | セキュアで信頼性が高く、推論用途や本番環境での利用に推奨される。構造化されたバイナリ形式で、意図しないコードの実行を防止。`pytorch_model.safetensors` などのファイル名で提供される。 |
my_model_directory/ ├── config.json ├── pytorch_model.bin ├── tokenizer_config.json ├── vocab.txt / merges.txt / tokenizer.json ├── special_tokens_map.json ├── generation_config.json └── added_tokens.json
ファイル | 説明 |
config.json(必須) | モデルアーキテクチャの設定 |
pytorch_model.bin, tf_model.h5, flax_model.msgpack | PyTorch、TensorFlow、Flaxモデルの重み(PyTorchの場合は必須) |
tokenizer_config.json | トークナイザの設定情報 |
vocab.txt, merges.txt, tokenizer.json | トークナイザの語彙情報 |
special_tokens_map.json | トークンのマッピング情報([CLS], [SEP], [PAD] など) |
generation_config.json | テキスト生成関連のパラメータ(max_length, temperature, top_k など) |
added_tokens.json(任意) | ユーザーが追加したトークンの情報 |
my_model_directory/ ├── config.json ├── model.safetensors ← PyTorch版の重み ├── tokenizer_config.json ├── vocab.txt / merges.txt / tokenizer.json ├── special_tokens_map.json └── generation_config.json
VM費用見積もり
5(営業日/週) * 4(週/月)* 3(時間/日)= 60(時間/月)で見積もり
※ 1か月フル稼働は730時間なので30/730=0.04ヵ月分(つまり、以下の「/月」は、=0.04ヵ月分)
Azureバッション2万/月など
コレはミニマム環境なので、予算としては、5万/月ほどあると良さそう。