「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -戻る([[データサイエンス力]]、[[LLM系ツール]])~ LLM界隈のPFっぽいヤツ --[[Kaggle]] --[[Ollama]] --Hugging Face ---[[...]] ---[[...]] ---[[LLMのFT]]~ ・[[huggingface/transformers Trainer]]~ ・[[huggingface/trl SFTTrainer]] *目次 [#d6b3bda9] #contents *概要 [#l21dfed3] -Hugging Face社は、自然言語処理(NLP)を中心とした機械学習のOSS-PFを提供する米国のAI企業。 -Hugging Face Hubは、GitHub、Docker Hub、[[Kaggle]] に似ている。 --多くのAI開発者が利用する[[OSSのLLM]]モデル・ライブラリのホスティングPF --様々なファインチューニングされたモデルがアップロードされている。 --Libraryは「Transformer」が有名、Datasetsでデータセットを非常に簡単に使える。 -[[Kaggle]]と似た界隈のPFっぽいヤツだが、以下のような違いがある。 --[[Kaggle]]:「実践で腕試しし、学ぶ」 --Hugging Face:「モデルを使い、広める」 -[[Ollama]]と同様にLLM界隈のPFっぽいヤツだが、機能的には補完関係にある。 --Hugging Face:OSSのLLMを学習させ、その結果をホスティングするPF&ツール --[[Ollama]]:OSSのLLMをローカル実行させるためのPF&ツール *詳細 [#xc6c8be3] Hugging Face(以下、HFと略す) **モデル [#odbc8bde] https://huggingface.co/models -世界中の研究者・開発者が作成した モデルの共有・検索プラットフォーム -LLM(Llama、Phi、Gemma、Qwen)など特にファインチューニングされたもの。 -その他、CV(画像)、音声など幅広い分野に対応 -[Use this model] → [[[Google Colaboratory]]]で簡単に試用可能。 -他にも、[Deploy]から、[[エンドポイント>#j58496cf]]、[[プロバイダ>#b8fbceeb]]を選択できる。 **データセット [#t9e860e5] https://huggingface.co/datasets -機械学習向けの大規模な公開データセット を簡単にダウンロード・前処理できるツール **スペース [#ld6456f0] https://huggingface.co/spaces -Notebookではなく、Gradio や Streamlit をベースにした AIアプリのホスティング環境 -GUIでモデルのデモが作成可能、コードをアップロードしてすぐ共有できる -無料枠や共有リソースを使用している場合、混雑で使用できないことがある。 **エンドポイント [#j58496cf] https://endpoints.huggingface.co -HFの[[モデル>#odbc8bde]]を Web APIとしてデプロイし、外部から呼び出せるようにする仕組み。 -無料ではなく有料(定額+利用量ベース)で、別サイトになっており、HFと認証連携してログイン。 -HFの[[モデル>#odbc8bde]]の[Deploy]から、HF Inference Endpointを選択する。 **プロバイダ [#b8fbceeb] https://huggingface.co/inference/get-started -HFの[[モデル>#odbc8bde]]をバックエンド(プロバイダ)で推論させるか選択できる柔軟な仕組み。 -選択肢の「委任先インフラ」には、前述の[[エンドポイント>#j58496cf]]も含まれ、HF社がルーティングする。 -HFの[[モデル>#odbc8bde]]の[Deploy]から、HF Inference Providersを選択する。 **ライブラリ [#m935c9a5] https://huggingface.co/docs ***モデル [#udbc13af] -言語系 --[[Transformer>huggingface/transformers Trainer]] --Tokenizers -画像系 --Diffusers ***推論 [#q75a6818] -Pipeline ***学習 [#k30e0396] -[[Transformer>huggingface/transformers Trainer]] -Accelerate -TRL --[[SFTTrainer>huggingface/trl SFTTrainer]] -PEFT ***パラメタ系 [#c14afa60] -Safetensors -Bitsandbytes ***データ [#mf7039e4] -Datasets **APIキー [#fb4f4ba6] https://huggingface.co/settings/tokens *参考 [#kdd1f9e3] -https://huggingface.co/ -https://ja.wikipedia.org/wiki/Hugging_Face -[[LLM系ツール > Hugging Face>LLM系ツール#o67d37ab]]