.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

詳細

エージェントの定義

エージェントらしさ

最近の、LLMエージェント研究や実装では、次の要素が増えるほど「エージェントっぽい」とされる(≒ 自律性)。

デザインパターン

Anthropic社が提示するデザインパターンが適用されている。

構成要素

LLMエージェントは通常、以下のような構成要素を持ちます:

LLM本体

自然言語の理解・生成を担当する中核部分。タスクの実行や推論を行う。

メモリ

会話履歴やタスクの進行状況などを保持。長期的な記憶も可能。

ツール / プラグイン

Web検索、計算、コード実行、API呼び出しなど、外部リソースと連携して作業を遂行。

コントローラー

プランナーとLLMのやりとりを制御。ループを回す。

プランナー

ゴールに向けタスクを分割し、順序立てて実行計画を作る。

アクション実行器

LLMの計画した出力に従って具体的なアクションを実行するモジュール。

思考ループ(Reasoning Loop)

多くのLLMエージェントは以下のようなエージェント・ループで動作

タスクの理解(Goal Recognition)

ユーザーから与えられた指示や問いを分析し、何を達成すべきかを明確にする。

プランの生成(Plan)

目的を達成するための一連の手順や方針(プラン)を考案する。

次のアクションの選択(Reason)

アクションの実行(Act)

観測と反省(Reflect)

再計画(Replan)

応用研究

MRKL

MRKL(Modular Reasoning, Knowledge and Language)

ReAct

ReAct?(Reasoning + Acting)

Plan-and-Solve

LLMCompiler

※ LlamalndexやLangGraphでも利用可能とのこと。

例と工夫

以下の5つの分野の有名なAIエージェントとその工夫

リサーチ

GPT Researcher

シミュレーション

Generative Agents

ゲーム

ソフトウェア開発

汎用のコンピュータ操作

標準化・プロトコル

対象

団体

Function calling

LLMに特定のAPIや関数を呼び出させ外部タスクを実行する仕組み。

MCP(Model Context Protocol)

ACP(Agent Communication Protocol)

マルチエージェントで、エージェント同士(またはエージェント⇔人間⇔ツール)の通信インタフェースや意味論を標準化するプロトコル。

マルチエージェント

LLMマルチエージェントは、LLMを用いた複数のエージェントが連携・協調・競合しながらタスクを遂行するシステムや枠組みのことを指す。

利用例

役割分担

各エージェントは専門性を持たせ、以下のような役割に分かれることが多い

PE技法

Self-Consistency, GKP, Self-Ask, ToT, AoTといったPEの推論促進技法の構造やアイデアを、明示的または暗黙的にシミュレーションしている。

実装例

繋がり方

フレームワーク

OpenAI Agents SDK

OpenAIによって2024年夏に発表された新SDK

CrewAI

「複数エージェントが協力してプロジェクトを進める」チーム型エージェント

LangGraph

AutoGen

参考

https://speakerdeck.com/os1ma/imakosoxue-bullmbesunoaiezientoru-men-ji-ben-de-nasikumi-slash-kai-fa-turu-slash-you-ming-naossyalun-wen-noshao-jie


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS