「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
最近の、LLMエージェント研究や実装では、次の要素が増えるほど「エージェントっぽい」とされる(≒ 自律性)。
Anthropic社が提示するデザインパターンが適用されている。
LLMエージェントは通常、以下のような構成要素を持ちます:
自然言語の理解・生成を担当する中核部分。タスクの実行や推論を行う。
会話履歴やタスクの進行状況などを保持。長期的な記憶も可能。
Web検索、計算、コード実行、API呼び出しなど、外部リソースと連携して作業を遂行。
プランナーとLLMのやりとりを制御。ループを回す。
ゴールに向けタスクを分割し、順序立てて実行計画を作る。
LLMの計画した出力に従って具体的なアクションを実行するモジュール。
多くのLLMエージェントは以下のようなエージェント・ループで動作
ユーザーから与えられた指示や問いを分析し、何を達成すべきかを明確にする。
目的を達成するための一連の手順や方針(プラン)を考案する。
MRKL(Modular Reasoning, Knowledge and Language)
ReAct?(Reasoning + Acting)
※ LlamalndexやLangGraphでも利用可能とのこと。
以下の5つの分野の有名なAIエージェントとその工夫
GPT Researcher
Generative Agents
LLMに特定のAPIや関数を呼び出させ外部タスクを実行する仕組み。
マルチエージェントで、エージェント同士(またはエージェント⇔人間⇔ツール)の通信インタフェースや意味論を標準化するプロトコル。
LLMマルチエージェントは、LLMを用いた複数のエージェントが連携・協調・競合しながらタスクを遂行するシステムや枠組みのことを指す。
各エージェントは専門性を持たせ、以下のような役割に分かれることが多い
Self-Consistency, GKP, Self-Ask, ToT, AoTといったPEの推論促進技法の構造やアイデアを、明示的または暗黙的にシミュレーションしている。
OpenAIによって2024年夏に発表された新SDK
「複数エージェントが協力してプロジェクトを進める」チーム型エージェント