.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

OSS(オープンソース)のLLMは、ローカルマシンやオンプレミス環境で動作可能なものが多く、
クラウドサービスに依存せずに利用でき、機密情報を扱うクローズドな環境でも安全に導入できる。

詳細

注意点

ライセンスの確認

OSSのライセンス

コミュニティの活発度

コミュニティの活動状況を確認。

ベンチマークと評価

性能とスケーラビリティ

ハルシネーション・バイアスなど

メンテナンスとサポート

OSS LLMのメンテナンス体制とサポート体制を確認。

カスタマイズの容易さ

データ保護

モデルのトレーニングや推論に使用するデータの保護を確認。

モデル

Llama

Gemma

Phi-3

Mixtral

Falcon

アブダビのTechnology Innovation Institute(TII)によって開発

BLOOM

BigScience?という協力的AI研究ワークショップによって開発

EleutherAI

草の根の非営利の人工知能研究グループによって開発

Qwen2

CodeGen?

Salesforceが提供するLLM

Databricks

AI/BI系のプラットフォームベンダで、色々なOSSをホストしている。

フォーマット

GGML、GGUF、GPTQは、主にLLMの軽量化・実行する際の 形式・技術・ツール

GGML

(Georgi Gerganov's ML Library)

GGUF

(GGML Universal Format)

GPTQ

(GPT Quantization)

図表

項目GGMLGGUFGPTQ
種類推論実行ライブラリ兼モデルフォーマットモデルフォーマット量子化技術・ツール
主な用途軽量モデルの実行モデル配布・互換性統一モデルの圧縮(量子化)
関連技術llama.cppllama.cpp, koboldcpp などExLlama?, AutoGPTQ など
主な形式.bin(旧).gguf(新).bin(旧), .safetensors, .json, .model(新)
┌──────────────┐
│   llama.cpp │  ← 実際の推論エンジン
└────┬─────────┘
     │ uses
     ▼
┌──────────────┐
│    GGML     │  ← テンソル演算ライブラリ(中核)
└──────────────┘
     ▲
 uses models in │
     ▼
┌──────────────┐
│    GGUF     │  ← モデルファイルフォーマット
└──────────────┘

HF標準構成

形式内容詳細備考
Transformers形式`pytorch_model.bin`, `tf_model.h5`, `flax_model.msgpack`, `config.json`, `tokenizer.json` などHugging Face Transformersライブラリが使用する標準的なファイル構成。フレームワークに応じたモデル重みファイル(PyTorchTensorFlow?、Flax)と設定・トークナイザファイルを含む。学習・微調整・推論が可能で、特に研究・開発用途に適している。ファイルは一般的にPythonのpickle形式で保存されるため、セキュリティ面では注意が必要(意図しないコードが実行される可能性がある)。
Safetensors形式`.safetensors` というバイナリ形式Hugging Face Transformersで利用可能な、安全性と読み込み速度を重視したフォーマット。pickleに比べて安全で、高速にロード可能。なお、TensorFlow?は非対応とのこと。セキュアで信頼性が高く、推論用途や本番環境での利用に推奨される。構造化されたバイナリ形式で、意図しないコードの実行を防止。`pytorch_model.safetensors` などのファイル名で提供される。

Transformers形式

ファイル説明
config.json(必須)モデルアーキテクチャの設定
pytorch_model.bin, tf_model.h5, flax_model.msgpackPyTorchTensorFlow、Flaxモデルの重み(PyTorchの場合は必須)
tokenizer_config.jsonトークナイザの設定情報
vocab.txt, merges.txt, tokenizer.jsonトークナイザの語彙情報
special_tokens_map.jsonトークンのマッピング情報([CLS], [SEP], [PAD] など)
generation_config.jsonテキスト生成関連のパラメータ(max_length, temperature, top_k など)
added_tokens.json(任意)ユーザーが追加したトークンの情報

Safetensors形式

検環環境

VM費用見積もり

稼働時間

5(営業日/週) * 4(週/月)* 3(時間/日)= 60(時間/月)で見積もり

※ 1か月フル稼働は730時間なので30/730 = 0.04ヵ月分(つまり、以下の「/月」は、=0.04ヵ月分)

VMサイズ

SLM推論実行などではギリギリ不要だが、LLM実行やファインチューニングにはGPUが必要になる。

※ リージョンを変えると価格が大きく変わるので、検証用途なら、日本にする必要はないかも。

付帯費用

Azureバッション2万/月など

実費総額

コレはミニマム環境なので、予算としては、5万/月ほどあると良さそう。

環境準備

最終的に、GPUはフレームワークから使用するので、フレームワークとのバージョン互換を確認しておく。
PyTorch安定版(2.7.0)には Python 3.9 以降、CUDA 12.8が必要である模様:https://pytorch.org/get-started/locally/

インストレーション

Python 環境で確認

Dockerを使用

参考

環境準備

VM費用見積もり

GPUを認識させる

ツール類

Ollama

Notebook


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS