OSSのLLM のバックアップ(No.41)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- OpenAI
- OSSのLLM
- LLMのPE
- LLMのRAG
- LangChain
- LlamaIndex
- Dify、FlowiseAI
- AutoGen

目次 †

目次
概要
詳細
検環
研究
- ローカルRAG
- ファイン・チューニング
参考

↑

概要 †

OSS（オープンソース）のLLMは、ローカルマシンやオンプレミス環境で動作可能なものが多く、
クラウドサービスに依存せずに利用でき、機密情報を扱うクローズドな環境でも安全に導入できる。

↑

詳細 †

↑

注意点 †

↑

ライセンスの確認 †

ライセンス形態を確認し、商業利用や再配布の条件を理解。
ライセンス条項を確認しプロジェクトやビジネスへの適用可能性を評価。

※ OSSのライセンス

↑

コミュニティの活発度 †

コミュニティの活動状況を確認。

活発なコミュニティは、
- 質問やサポートを得易い。
- バグ修正や機能改善が迅速に行われる可能性が高い。

GitHubを参考にする。
- スター数
- フォーク数
- プルリクエスト数

↑

ベンチマークと評価 †

性能を評価するためのベンチマークテストを実施。
既存のベンチマーク結果や評価レポートを確認
自社の使用ケースに対する適用性を検討。

↑

性能とスケーラビリティ †

項目
- モデルの性能（応答速度、精度）
- スケーラビリティ（負荷分散、水平スケーリング）

環境
- 大規模なデータセット
- 高トラフィック環境

↑

ハルシネーション・バイアスなど †

LLMの生成する出力が虚偽情報や偏見を含む可能性があるため注意。
これらの問題を緩和するための対策（フィルタリング、ポスト・プロセッシングなど）を講じる。

↑

メンテナンスとサポート †

OSS LLMのメンテナンス体制とサポート体制を確認。

商用版のサポートがあるか？
開発が活発に行われているか？
バグフィックスやセキュリティ・アップデートが定期的に提供されているか？

↑

カスタマイズの容易さ †

自社のニーズに合わせたカスタマイズの容易さを評価。
開発が簡単かどうかを確認
- コードの理解し易さ
- ドキュメントの充実度
- プラグインやエクステンション

↑

データ保護 †

モデルのトレーニングや推論に使用するデータの保護を確認。

著作権侵害や情報漏洩に繋がらないように対策が施されていることを確認
なお、アクセス制御、セキュリティ対策は構築で確保する。

↑

モデル †

↑

Llama †

Metaによって開発、リコーなどで導入事例あり。
事前学習済みのLlamaを動かす情報はネットにも確認できる。

↑

Gemma †

Googleによって開発、企業での導入事例は発見できず。
事前学習済みのGemmaを動かす情報はネットにも確認できる。

↑

Phi-3 †

MicrosoftがSLM(Small Language Model)として開発したPhi-3、企業での導入事例は発見できず。
事前学習済みのPhi-3を動かす情報はネットにも確認できる。

↑

Mixtral †

Mistral AIによって開発、SB、楽天、トヨタなどで導入事例あり。
事前学習済みのMistral AIを動かす情報はネットにも確認できる。

↑

Falcon †

アブダビのTechnology Innovation Institute（TII）によって開発

↑

BLOOM †

BigScience?という協力的AI研究ワークショップによって開発

↑

EleutherAI †

草の根の非営利の人工知能研究グループによって開発

↑

Qwen2 †

アリババによって開発、企業での導入事例は発見できず。
事前学習済みのQwen2を動かす情報はネットにも確認できる。

↑

CodeGen? †

Salesforceが提供するLLM

↑

Databricks †

AI/BI系のプラットフォームベンダで、色々なOSSをホストしている。

Llama 2
Dolly（EleutherAI系）
DBRX（Databricks謹製）

↑

周辺SDK的な †

破壊的に変更によりコードがすぐに動かなくなる。
ネットやGPTの情報より、公式サイトの当該バージョンの情報（≒一次情報）を当たると良い。

↑

フレームワーク †

LangChain
- LLMを自作プログラムの実行環境と接続するライブラリ
- プロンプトに、Chat履歴を含めたり、RAGをしたりするのに必要。

LlamaIndex
- RAGなどのインフラを構築する。
- LLMと外部データを接続するためのI/Fを提供
- テキストをある単位でチャンク分割する処理を行う。
- 以下のような処理も追加されつつある模様。
  - エージェントの構築
  - ワークフローの構築
  - 構造化データ抽出

AutoGen
- LLMマルチ・エージェント・システムを構築するためのOSSフレームワーク
- 複数のLLMエージェントが相互作用する仕組みで遂行能力の向上が期待される。

↑

ローコード †

フロントアプリ作成（データパイプラインの構築と管理）をサポートするローコード・ツール

Dify、FlowiseAI
LangFlow

↑

検環 †

↑

Ollama †

LLMをローカルで実行するためのアプリケーション
その他にも、LM Studio、Llamafile、GPT4ALL、H2oGPTなどがあるらしい。

↑

インストール †

Window
WindowにOllama - Llama3をインストールして実行する。

Ollamaのインストーラーをダウンロードして実行
https://ollama.com/download/windows

PowerShell?からOllamaを起動
```
ollama
```

以下のようなコマンドを使用してLLMを実行

llama
```
ollama run llama2
ollama run llama3
```

gemma
```
ollama run gemma2
```

phi
```
ollama run phi3
```

Linux
LinuxにOllama - Llama3をインストールして実行する。

インストール
```
curl https://ollama.ai/install.sh | sh
```
※ リダイレクトされる場合は、-Lオプションを追加する。

サーバ起動
```
ollama serve
```

LLMの起動
（別ターミナルで）
```
ollama run llama3
```

↑

Error: digest mismatch †

Error: digest mismatchになる場合（恐らくプロキシ環境で発生）、
huggingface.co（dockerで言うとdocker.comみたいな仕組み）から、
モデルのファイル（GGUF file、Model file）を手動ダウンロード。

Phi-3-mini-4k

GGUF file、Model fileをダウンロード
https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-gguf

Download the GGUF model:

huggingface-cli download microsoft/Phi-3-mini-4k-instruct-gguf Phi-3-mini-4k-instruct-q4.gguf --local-dir .

Get the Modelfile:

huggingface-cli download microsoft/Phi-3-mini-4k-instruct-gguf Modelfile_q4 --local-dir .

GGUF file、Model fileをファイルをカレント・ディレクトリに配置

モデルを

作成する。
※ Model file中からGGUF fileをポイント
```
ollama create phi3 -f Modelfile_q4
```

実行する。
```
ollama run phi3
```

削除する。
```
ollama rm phi3
```

Llama-3.2-1B

GGUF fileをダウンロード
https://huggingface.co/bartowski/Llama-3.2-1B-Instruct-GGUF

Downloading using huggingface-cli

huggingface-cli download bartowski/Llama-3.2-1B-Instruct-GGUF Llama-3.2-1B-Instruct-Q8_0.gguf --local-dir .

Model fileを作成する

プロキシなし環境で以下を試みる。
（何気に、コレで動かせてしまうかも？）
```
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF:Q8_0
```

以下のコマンドの出力をModelfile.txtに保存する。

ollama show --modelfile hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF:Q8_0 > Modelfile.txt

GGUF file、Model fileをファイルをカレント・ディレクトリに配置

モデルを

作成する。
※ Modelfile中からGGUF fileをポイント
```
ollama create Llama3 -f Modelfile.txt
```

実行する。
```
ollama run Llama3
```

削除する。
```
ollama rm Llama3
```

参考
- `digest mismatch` on download · Issue #941 · ollama/ollama
  https://github.com/ollama/ollama/issues/941
- 【対策】Ollamaでダウンロードが完了しない場合の解決方法
  (Error: digest mismatch, file must be downloaded again)｜ノリハラ
  https://note.com/takusamu/n/n5983c2b91ec5
- Ollama で Hugging Face Hub の GGUF をそのまま使ってみる｜ぬこぬこ
  https://note.com/schroneko/n/n6a7c34f0a50c

↑

動作確認 †

標準I/Oから

success
>>> こんにちは、あなたは誰ですか？
こんにちは！I'm LLaMA, a large language model trained by a team of researcher at Meta AI. My primary function is
to understand and respond to human input in a helpful and informative manner. I can converse on a wide range of
topics, from science and history to entertainment and culture. I'm constantly learning and improving my abilities,
so please bear with me if I make any mistakes. Nice to meet you!

WebAPIから

Window＋curl

curl -X POST -H "Content-Type:application/json" http://localhost:11434/api/chat -d "{\"model\": \"llama3\", \"messages\": [{ \"role\": \"user\", \"content\": \"why is the sky blue?\" }]}"

WSL2＋curl→Window

IPアドレスを取得

>ipconfig
 イーサネット アダプター vEthernet (WSL):
   接続固有の DNS サフィックス . . . . .:
   リンクローカル IPv6 アドレス. . . . .: ...
   IPv4 アドレス . . . . . . . . . . . .: 172.xxx.xxx.1
   サブネット マスク . . . . . . . . . .: 255.255.240.0
   デフォルト ゲートウェイ . . . . . . .:

環境変数
なににどう設定したら良いか解らんわ（笑）
```
OLLAMA_HOST
OLLAMA_ORIGINS
```

WSL2寄せ
modelをphi3にして、ollama run phi3もWebAPIで動作した
（故に、11434ポートのWebAPIはollama仕様と思われる）。

＋curl
生成形式

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt":"user", "content": "why is the sky blue?"
}'

チャット形式

curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

＋Notebook HTTPClient

import requests
url = "http://localhost:11434/api/chat"
payload = {
    "model": "llama3",
    "messages": [
        {"role": "user", "content": "why is the sky blue?"}
    ]
}

response = requests.post(url, json=payload)
print(response.text) # print(response.json())

↑

Open WebUI †

Pythonで実装されており、モデル設定のURLからサーバサイドで実行されている事が解る。

↑

インストール †

WSL2からDockerを起動するには...
- The command 'docker' could not be found in this WSL 2 distro. #Docker - Qiita
  https://qiita.com/chovin/items/3057b35b776f70c3bcb5

WSL2からDockerでOpen WebUIを起動して、

docker run -d -p 5955:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

↑

動作確認 †

以下のURLにアクセスすると（何故か）WLS2上のOllamaにアクセスできる。
```
http://127.0.0.1:5955/
```

設定を確認すると、モデルは以下のように設定されており、
コンテナからホスト上のサービスにアクセスしているらしい。
```
http://host.docker.internal:11434
```

↑

Streamlit †

StreamlitはPythonアプリ（CLI）を迅速にWeb化するツール。
標準I/Oへ書き込むのではなくAPIを使用して専用のStreamへの書き込む。

↑

インストール †

インストールして
```
pip install streamlit
```

↑

動作確認 †

実行する。
```
streamlit run LLM_Streamlit.py
```

UIにアクセスする。
```
http://localhost:8501/
```

↑

稼働時間 †

5（営業日/週） * 4（週/月）* 3（時間/日）＝ 60（時間/月）で見積もり

※ 1か月フル稼働は730時間なので30/730=0.04ヵ月分（つまり、以下の「/月」は、=0.04ヵ月分）

↑

VMサイズ †

LLaMA 3 1B、Phi-3はノートPCでも動作する。

LLaMA 3 8Bに必要なVMサイズは、
- AWSでg4dn.xlarge、AzureでNC4as_T4_v3辺りで、
- NC4as_T4_v3 - NC16as_T4_v3辺りで見積もると、0.5-1万/月程度、
- これは一か月上げっぱなすと10-20万

小さなモデルをファインチューニングをする場合、
- 24GBほどのVRAMが必要で、
- AzureでNC6s_v3や、NC24ads_A100_v4位のスペックが必要。
- NC6s_v3だと2万、NC24ads_A100_v4だと2.5万/月（これも行けそう）
- これは一か月上げっぱなすと50-60万

LLaMA 3 70Bを稼働させる場合、
- AWSでg5.xlarge、AzureでND96asr_A100_v4辺り
- ND96asr_A100_v4だと10万/月（無理（笑））
- これは一か月上げっぱなすと250万
- A100は1枚で$11,000（約163万円）

↑

付帯費用 †

Azureバッション2万/月

↑

実費総額 †

コレはミニマム環境なので、予算としては、5万/月ほどあると良さそう。

↑

研究 †

↑

ローカルRAG †

LlamaIndexを使うか、NoSQLの機能を使用する（古くはElasticsearchなどあるが、ベクトル検索、グラフ検索に対応した新しいものが出てきている）。

↑

ファイン・チューニング? †

LLMの新規作成時にタスクへ適応させるためのFT（GPT-n、BERT）ではなく、作成後のLLMの精度を上げるために行われるFTについて言及

↑

参考 †

深層学習についてのレポート（LLM編）
https://www.osscons.jp/joho108j0-537/#_537

DxCommon?/Notebook/Jupyter/path at master · OpenTouryoProject?/DxCommon?
https://github.com/OpenTouryoProject/DxCommon/tree/master/Notebook/Jupyter/path
- LLM_Ollama.ipynb
- LLM_Streamlit.py
- ,etc.

LLMの実行方法と周辺ツールまとめ #OpenAI
https://qiita.com/simakihiro/items/7467b849212fb3863e3b

LLM Tools - Ranking | OSS Insight
https://ossinsight.io/collections/llm-tools/

↑

Ollama †

【Ollama】自宅サーバーでかんたんにローカルLLMを動かす方法*
https://zenn.dev/fp16/articles/e8c61e2f62e6b6
LLaMa?-3をAPIサーバーのように使う方法 #LLM
https://qiita.com/tasuku-revol/items/6a287fb69ce4a423dbe0

↑

Ubuntu †

第825回　ローカルLLMの実行ツールであるOllamaをUbuntuで動かす | gihyo.jp
https://gihyo.jp/admin/serial/01/ubuntu-recipe/0825

＋Docker

Llama3の環境構築からCUIでの実行まで #Docker
https://qiita.com/masa3000/items/8ed69d2036255e5f0af2

↑

Windows †

10分の作業で利用可能。WindowsPCで簡単に
生成AI（LLM）が動くようになっていたので紹介 #ollama
https://qiita.com/kit/items/cd3a7f8116982d61c06d

WindowsでOllamaを使って、ローカルで動くLLMのLlama3やPhi3を使いこなす！
https://zenn.dev/shohei6117/scraps/0b07661a5e670e

＋WSL2

WSLでローカルLLMを動かす #ollama - Qiita
https://qiita.com/thistle0420/items/b095d169404806002b55

WSL2を使ってAI用の環境を構築（Ollama試行利用編）
https://enrock2023-itblogger.com/ollama-review/

初心者がとりあえずローカルLLMを触ってみる（Windows10×WSL2×Llama-3-ELYZA-JP-8B） #生成AI - Qiita
https://qiita.com/yoku8983/items/9ddbe1b30182d672c9ac

【WSL2】WSL2側からホストのlocalhostで立っているAPIサーバーのAPIをcURLで叩く方法 #WSL - Qiita
https://qiita.com/b_tanukiudon_rk/items/416cd1547fb4504972d3

＋Docker

WSL2とDockerでWindows上にOllamaを構築する
https://zenn.dev/toki_mwc/articles/d1ebbd634ff488

Windows の WSL2 で入れた Ubuntu で Docker + Ollama + llama3 を動かしたメモ – 1ft-seabass.jp.MEMO
https://www.1ft-seabass.jp/memo/2024/05/26/windows-wsl2-ubuntu-docker-ollama-llama3/

ollama (llama3) + docker + wsl2 + ubuntu24メモ #Docker - Qiita
https://qiita.com/kiyotaman/items/cf405a654cee1f21641f

プロダクションでOllamaを使う場合のインストールメモ #LLM - Qiita
https://qiita.com/kiyotaman/items/1aeb098b5ff0d6d5e641

↑

LLM †

Llama、Gemma、phiなどがある。

【ollama / Phi-3】ニュースで話題のLLMをローカルPC上で動かしてみる
https://zenn.dev/tanny/articles/705682d88e254e

Phi-3をOllamaを使ってローカルで動作させる #AI - Qiita
https://qiita.com/ishidahra01/items/16e560105137d41a79f0

↑

Python Library †

↑

Ollama †

【ローカルLLM】Ollama Python Libraryのメソッド一覧と動作例 #DeepLearning? - Qiita
https://qiita.com/LiberalArts/items/6492e54d479789eddbcd

↑

OpenAI †

↑

フレームワーク †

↑

LangChain †

↑

LlamaIndex †

↑

AutoGen †

↑

UI †

↑

Open WebUI †

Ollamaをwslにインストールして使う。ついでにwebブラウザでOllamaを表示させる #WSL - Qiita
https://qiita.com/mkuwan/items/ff84679ed8308ae78979

↑

Ollama-ui †

Windows版 Ollama と Ollama-ui を使ってPhi3-mini を試してみた #Windows,Ollama,Ollama-ui - Qiita
https://qiita.com/programing_diy_kanrinin/items/24d0778a42ae0f24deae

↑

Streamlit †

streamlitを使ったお手軽Webアプリ開発 #Python - Qiita
https://qiita.com/sypn/items/80962d84126be4092d3c

Streamlit入門＋応用～データ分析Webアプリを爆速で開発する #Python - Qiita
https://qiita.com/tamura__246/items/366b5581c03dd74f4508

↑

ローコード †

↑

LangFlow †

↑

FlowiseAI †

↑

Dify †

プロキシ環境下のローカルPCに"Dify"と"Ollama"を導入して、
インターネットを通らない「完全ローカルRAGアプリ」を作る #生成AI - Qiita
https://qiita.com/yuki_ink/items/c3125f45fb725612910e

↑

... †

↑

ファイン・チューニング †

Google Colab で Llama 3 のファインチューニングを試す｜npaka
https://note.com/npaka/n/n315c0bdbbf00

日本語LLMのファインチューニング入門 – 自作・Hugging Face公開データセット対応 | 子供プログラマー
https://child-programmer.com/llm-ft-tutorial/

MetaのオープンソースLLM「Llama 3」を日本語版にファインチューニング（SFT） #生成AI - Qiita
https://qiita.com/bostonchou/items/bf4a34dcbaf45828f886

↑

LoRA †

LoRAによるSLMのファインチューニングのハイパーパラメータチューニング - target_modules
https://zenn.dev/headwaters/articles/123f4b68e07ea6

LoRA(ローラ)とは｜今年注目の画像生成AI (Stable Diffusion) のファインチューニングを試してみた | Ledge.ai
https://ledge.ai/articles/LoRA

↑

VM費用見積もり †

AzureのGPU搭載VMを安い順に並べる（2023年9月版）｜saip(さいぴ)
https://note.com/sa1p/n/n0485cd0d8a04

AWS：g4dn.xlarge、Azure：NC4as_T4_v3 （￥91/時）
- 【UiPath?】AWS/Azure仮想マシンでローカルLLM環境を構築する #ollama - Qiita
  https://qiita.com/hidecha/items/dba9e863d3651989bfc3

ColabのGPU → A100は、AzureのNC_A100_v4シリーズ、NC24ads_A100_v4相当（￥682/時）
- Llama-3をColabで記事執筆用にファインチューニングしてみた
  https://zenn.dev/carenet/articles/0d2e1100121b0e

LLaMA 3を本番環境に導入するには？
https://nlpcloud.com/ja/how-to-install-and-deploy-llama-3-into-production.html

料金計算ツール | Microsoft Azure
https://azure.microsoft.com/ja-jp/pricing/calculator/

目次 †

概要 †

詳細 †

注意点 †

ライセンスの確認 †

コミュニティの活発度 †

ベンチマークと評価 †

性能とスケーラビリティ †

ハルシネーション・バイアスなど †

メンテナンスとサポート †

カスタマイズの容易さ †

データ保護 †

モデル †

Llama †

Gemma †

Phi-3 †

Mixtral †

Falcon †

BLOOM †

EleutherAI †

Qwen2 †

CodeGen? †

Databricks †

周辺SDK的な †

フレームワーク †

ローコード †

検環 †

Ollama †

インストール †

Error: digest mismatch †

動作確認 †

Open WebUI †

インストール †

動作確認 †

Streamlit †

インストール †

動作確認 †

Chainlit †

インストール †

動作確認 †

VM費用見積もり †

稼働時間 †

VMサイズ †

付帯費用 †

実費総額 †

研究 †

ローカルRAG †

ファイン・チューニング? †

参考 †

Ollama †

Ubuntu †

Windows †

LLM †

Python Library †

Ollama †

OpenAI †

フレームワーク †

LangChain †

LlamaIndex †

AutoGen †

UI †

Open WebUI †

Ollama-ui †

Streamlit †

ローコード †

LangFlow †

FlowiseAI †

Dify †

... †

ファイン・チューニング †

LoRA †

VM費用見積もり †