「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
LLMエージェントは通常、以下のような構成要素を持ちます:
自然言語の理解・生成を担当する中核部分。タスクの実行や推論を行う。
会話履歴やタスクの進行状況などを保持。長期的な記憶も可能。
Web検索、計算、コード実行、API呼び出しなど、外部リソースと連携して作業を遂行。
プランナーとLLMのやりとりを制御。ループを回す。
ゴールに向けタスクを分割し、順序立てて実行計画を作る。
LLMの計画した出力に従って具体的なアクションを実行するモジュール。
多くのLLMエージェントは以下のようなエージェント・ループで動作
ユーザーから与えられた指示や問いを分析し、何を達成すべきかを明確にする。
目的を達成するための一連の手順や方針(プラン)を考案する。
MRKL(Modular Reasoning, Knowledge and Language)
ReAct?(Reasoning + Acting)
※ LlamalndexやLangGraph?でも利用可能とのこと。
AIエージェント開発のためのサービス/ツール
(Function calling以前)
GPT-4やGPT-3.5に特定のAPIや関数を呼び出させ外部タスクを実行する仕組み。
AWSが提供するLLMエージェント実行環境。複数のLLMと連携可能なマネージド型AIサービス。
以下の5つの分野の有名なAIエージェントとその工夫
マルチエージェントで、エージェント同士(またはエージェント⇔人間⇔ツール)の通信インタフェースや意味論を標準化するプロトコル。
LLMマルチエージェントは、LLMを用いた複数のエージェントが連携・協調・競合しながらタスクを遂行するシステムや枠組みのことを指す。
各エージェントは専門性を持たせ、以下のような役割に分かれることが多い
Self-Consistency, GKP, Self-Ask, ToT, AoTといったPEの推論促進技法の構造やアイデアを、明示的または暗黙的にシミュレーションしている。