LLMエージェントのバックアップ(No.23)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る > 開発系、チューニング / 拡張系
- LLMのPE
- LLMのRAG
- LLMのFT
- LLMエージェント

目次 †

目次
概要
詳細
参考

↑

概要 †

情報の収集・解析・意思決定・アクション実行を行うシステム

あるサーベイ論文では、AIエージェントを「脳」「知覚」「アクション」という3つの要素で整理。
入力を「知覚」し「アクション」を計画的に実行する「脳」としてAIが機能することで、タスクを代行する。

LLMエージェントについて「タスクを代行するもの」であるとして、最も原始的な実装であれば
- 入力に対応したワークフローを代行するようなものでも、エージェントと呼ぶことはできる。
- ただし、単一の呼び出しや、都度アドホック・プロンプト入力が必要なChatはエージェントとは呼べない。

↑

エージェントの定義 †

↑

エージェントらしさ †

最近の、LLMエージェント研究や実装では、次の要素が増えるほど「エージェントっぽい」とされる（≒ 自律性）。

LLMでタスク分解（大きな問題を理解し、個々の実行ステップに分割）
LLMでアクションの選択・実行（ツール利用、Function calling、構造化出力）
状態管理（メモリや履歴を使って文脈を保持）
LLMで自己評価・再試行（出力が不十分なら修正を試みる）
エージェントが協働できるエージェント環境

↑

デザインパターン †

Anthropic社が提示するデザインパターンが適用されている。

ワークフロー型エージェント
ワークフローを持つエージェント・システムの5つのデザインパターン
- プロンプト・チェイニング：固定された一連のサブタスクに分解し、LLM呼び出しを連鎖させる方式
- ルーティング：LLMが入力を分類し、専門性の異なる複数のLLMの中から最適なものを選択
- パラレライゼーション：「コードが」タスクを複数に分割し、複数のLLMで同時処理、結果を束ねる。
- オーケストレーター・ワーカー：「LLMが」複雑なタスクを複数に分割し、複数のLLMで同時処理、結果を束ねる。
- エバリュエーター・オプティマイザー：生成LLM と評価LLM の二段構えのフィードバックループ

オープンエンド型エージェント
ワークフローの対極、オープンエンド型のエージェントデザインパターン
- 固定パスがない：一連のステップに従うのではなく、動的で流動的。
- 継続可能でフィードバックループがある：LLMは環境から情報を受け取りつつ繰り返し行動できる。
- 大きな柔軟性：より複雑で広範な問題を扱える。
- 予測不可能性：パス（時間、コスト）、出力（品質）が予測できない。
- 対策として、モニタリングやガードレールを実装

↑

エージェントの †

↑

開発スタイル †

AIエージェントをどう作るか？

タイプ	特徴	代表的なツール／例
コーディング型	LangGraph等のライブラリやPythonなどのプログラミング言語を用いてエージェントを実装する。柔軟性が高く、細かな制御やカスタマイズが可能。	LangGraph、LangChain、OpenAI Agents SDK等
ローコード・ワークフロー型	GUIやノーコード環境で複数のアクションをつなぎ、チャットフローやツール呼び出しを組み立てる。業務担当者でも扱いやすいが、複雑なロジックは実装しにくい。	Dify、LangFlow、n8nなど
プロンプト・エンジニアリング型	MS Copilot Studioのようなツールでプロンプトやルールを記述し、LLMが内部的にエージェントを組み立てる。素早く試作できるが、動作のブラックボックス化に注意。	MS Copilot Studio、LibreChat?、Watsonx Orchestrator

※ 上から下に、プリミティブ → ハイ・レベル。

↑

パーソナライズ †

AIエージェントの業務特化性能（現場適応レベル）

レベル		概要	対応ツール・技術
Human-in-theLoop	１	人の詳細な指示と知識DBからの情報を生成AIに入力し、その結果出力して要求に対応	RAG等
Human-in-theLoop	２	事前に人が定義した計画(フロー)に即して生成AIや知識DB、ツール等活用し要求に対応	プロンプト・フロー
Human-on-theLoop	３	要求理解・計画立案・行動/ツール活用にも生成AIを活用し、自律的に要求に対応	ユーザがAgentにインストラクション
Human-on-theLoop	４	レベル3に加え、利用者に応じたパーソナライズした要求理解や要求対応を実施	Text-to-LoRA等、コンテキストを踏まえた回答生成容易化
Human-out-of-theLoop	５	レベル4に加え、継続的な自己改善の能力を持ち、成長し続けることが可能	Agentの外部・内部の振舞いの可視化を通じた自己改善

※ Human-x-theLoop とは、業務特化型AI（現場適応型AI）において、人間（Human）がAIの自律的成長（theLoop）に、どの程度（x）介入（監督・判断）するかを表す。
※ フレームワークで実装したエージェントは、レベル2〜3を確実に実現し、レベル4の一部にも到達するが、プロダクションや企業の業務での導入はまだこれからとされている。

↑

例と工夫 †

以下の5つの分野の有名なAIエージェントとその工夫

↑

リサーチ †

GPT Researcher

核となるアイデアは「プランナー」と「実行」のエージェント
https://github.com/assafelovic/gpt-researcher

↑

シミュレーション †

Generative Agents

25人のAIエージェントを仮想的な街で生活させるシミュレーション
Memoryの工夫が有名、最新性・重要性・関係性のあるものを検索して使用
https://github.com/joonspk-research/generative_agents

↑

ゲーム †

Voyager
- できるだけ多様な発見をすることを最終目標として行動するMinecraftを自動プレイするAIエージェント
- Minecraftのクライアントライブラリ (JavaScript)を使った「スキル」を生成して使用

PokéLLMon
- 過去のターンのフィードバックやポケモンの技などの外部知識をプロンプトに含めることで、不利な選択をしないように制御
- 相手が強力なポケモンだとパニック状態になってポケモンの入れ替えを繰り返すのを防ぐよう、Self-Consistency (自己整合性) プロンプティングを使用

↑

ソフトウェア開発 †

GPT-Engineer
- 自動でプログラムを実装するという分野で話題になったエージェント
- 「こういう機能を開発して」と記述しておくと、自動でプログラムを実装してくれる
- https://github.com/gpt-engineer-org/gpt-engineer
- https://apt-engineer.readthedocs.io/en/latest/index.html

ChatDev?
- プログラマー・テスター・デザイナーなど、様々な役割のAIエージェントに共同作業させて、自動でソフトウェアを開発させる

↑

汎用のコンピュータ操作 †

Open Interpreter
- 自然言語の指示でコンピュータを操作するツール
- https://github.com/KillianLucas/open-interpreter/

OS-Copilot
- OSの操作を提供するエージェント
- https://github.com/OS-Copilot/FRIDAY

↑

詳細 †

↑

構成要素 †

LLMエージェントは通常、以下のような構成要素を持つ

↑

LLM本体 †

自然言語の理解・生成を担当する中核部分。タスクの実行や推論を行う。

↑

メモリ †

会話履歴やタスクの進行状況などを保持。
VDBやRDBを使用した長期的な記憶も可能。

↑

ツール / プラグイン †

Web検索、計算、コード実行、API呼び出しなど、外部リソースと連携して作業を遂行。
Function callingやMCP、ACP、A2Aなどを使用できる。

↑

コントローラー †

プランナーとLLMのやりとりを制御。ループを回す。
別のエージェントに切り出せるが、単一エージェントのツールとしても実装できる。

↑

プランナー †

ゴールに向けタスクを分割し、順序立てて実行計画を作る。
別のエージェントに切り出せるが、単一エージェントのツールとしても実装できる。

↑

アクション実行器 †

LLMの計画した出力に従って具体的なアクションを実行するモジュール。
別のエージェントに切り出せるが、単一エージェントのツールとしても実装できる。

↑

思考ループ（Reasoning Loop） †

多くのLLMエージェントは以下のような思考ループ（Reasoning Loop）で動作している。
与えられたインストラクションから以下のステップで動作するように設計・実装されている。
実装によって名称や粒度は異なるが、概念的にはほぼ同じ構造で動いている。

↑

タスクの理解（Goal Recognition） †

ユーザーから与えられた指示や問いを分析し、何を達成すべきかを明確にする。

自然言語で書かれた曖昧な指示から「最終的な目的」を推測する能力が求められる。
LLMエージェントは、文脈や過去の対話履歴も考慮して目的を解釈する。

↑

プランの生成（Plan） †

目的を達成するための一連の手順や方針（プラン）を考案する。

Web検索が必要 → 検索 → 情報要約 → 回答生成、のようなステップ分割。
単純なプランではタスク分割、複雑なプランには外部ツール（計算機、検索エンジン等）との連携も含まれる。

↑

次のアクションの選択（Reason） †

プランに基づき、今の状況において最も適切な次のアクションを選ぶ。
「今なにをするべきか？」という意思決定プロセスであり、状況に応じた柔軟な判断が求められる。
ここでは推論（Reasoning）能力が重要となる。

↑

アクションの実行（Act） †

選択したアクションを実行する。
実行対象は、ツールの呼び出し、情報取得、外部APIへのアクセス、またはユーザーへの返答など。
実行結果は次のステップに活かされる。

↑

観測と反省（Reflect） †

アクションの結果を観察し、目的に近づいたか、想定とずれがないかを評価する。
不十分な結果が出た場合は原因を考え、改善点を洗い出す。
エージェントが「何がうまくいかなかったか」を自己評価する重要な段階。

↑

再計画（Replan） †

反省の結果に基づき、プランの修正・更新を行う。
新たな情報や環境の変化に応じて、アクションの優先順位や順序を再構築する。

その後、再び次のアクションの選択へとループが戻る。
- 上記のステップを繰り返しながら、最終的な目標達成を目指す。
- このループは、ユーザーが満足する結果を得るまで、あるいは明示的な停止条件が満たされるまで続く。
- このような思考ループは、自律エージェントにおいて特に重要な「目的志向の行動」が可能となる基盤。

↑

推論・行動戦略 †

推論・行動戦略（Reasoning & Acting Paradigms）に関する代表的アプローチ

思考ループ（Reasoning Loop）が、LLMエージェントがタスクを遂行する際の抽象的なプロセス・モデルであるとすると、
推論・行動戦略（Reasoning & Acting Paradigms）は、そのプロセスをどのように実装するかの具体的な戦略・アルゴリズムとなる。
LLMベースのAIエージェントには、以下の5つの実装方法があり、「ReAct」が有名だが他にも多くの手法がある。

↑

MRKL †

MRKL（Modular Reasoning, Knowledge and Language）

概要：AIエージェントが複数のツールを統合的に使うためのモジュラー・アーキテクチャ。
特徴：モデルが入力を解析し、適切なツールにタスクを振り分けて実行。LLMは「どのツールを使うべきか」を推論する役割。
MRKLは、OpenAIの論文「ReAct?: Synergizing Reasoning and Acting in Language Models」などでも言及されている。

Reasoning Loop	MRKL の対応
Goal Recognition	LLM が入力から目的を抽出
Plan	ほぼ行わない（短期的）
Reason	どの専門モジュール（ツール）を使うかを推論
Act	選択したツールを実行
Reflect	ツール結果を受け取り再推論
Replan	必要に応じて別ツールを選択

↑

ReAct †

ReAct?（Reasoning + Acting）

概要：思考（Reasoning）と行動（Acting）を交互に繰り返すことで、LLMがより柔軟かつ強力な問題解決を行うフレームワーク。
特徴：思考（Reason）と行動（Act）を交互に繰り返し、最も思考ループらしく「Reason → Act → Reflect」をそのまま実装した戦略
論文：Yao et al., 2022（例：「Let's think step by step」のようなプロンプト技法を拡張）

エージェントはActだけでも実装できるが、Reason（思考過程を言語化）してからAct（実行内容を言語化）させる「ReAct?」の精度がよかったという論文
- Reasonなし・Actなし
- Reasonあり・Actなし (CoT)
- Reasonなし・Actあり (WebGPTのようなもの)
- Reasonあり・Actあり (ReAct?)

Reasoning Loop	ReAct? の対応
Goal Recognition	LLM がタスクを理解
Plan	明示的な長期計画は作らない
Reason	「次に何をすべきか」を逐次推論
Act	推論に基づきツール実行
Reflect	観測結果を「Observation」として取り込み内省
Replan	次の Reason で自然に再計画

↑

Plan-and-Solve †

概要：問題を解く前に、まず全体の計画（Plan）を立て、それに従ってステップごとに解決する「Plan」フェーズを強化した戦略で長期タスク・複雑タスクに強い。
特徴：「まず計画を立ててから解く」→ 思考の整理ができ、正確な回答率が上がる。CoTのような技法と組み合わせて使用される。

Reasoning Loop	Plan-and-Solve の対応
Goal Recognition	タスク理解
Plan	最初に詳細な計画を生成（中核）
Reason	計画に沿ってステップを推論
Act	必要ならツール実行
Reflect	計画との差異を確認
Replan	計画が破綻した場合に再計画

↑

LLMCompiler †

概要：タスクの自然言語仕様をプログラム的な実行計画やコードに「コンパイル」するLLMベースの手法。

特徴：
- LLMが自然言語からタスクグラフや関数構成などを生成。
- プログラムのような表現を通じて複雑なタスクを実行可能にする。
- 「計画＝プログラム」「再計画＝デバッグ」という形で Reasoning Loop を実装する。

応用：マルチステップの意思決定やエージェントプランニングなど。

Reasoning Loop	LLMCompiler の対応
Goal Recognition	タスクを形式的に理解
Plan	タスクをプログラム構造に分解（強い）
Reason	プログラムの各ステップを推論
Act	実行環境でコードを実行
Reflect	実行結果を検証（テスト）
Replan	コード修正（self-debug）として再計画

↑

デファクト標準 †

LLM/Agent の世界では、言語生成機であるLLMを「外部システムと連携する実行エンジン」に変える基盤技術として、
「Function Calling」と「Structured Outputs」が「事実上の標準（デファクト・スタンダード）」

↑

Function calling †

LLMに特定のAPIや関数を呼び出させ外部タスクを実行する仕組み。

OpenAI Function calling
Anthropic tool use
Gemini tool calling

LLMが自然言語から適切な関数名と引数を構造化出力（JSON）。
関数をLLMに使わせる事で、外部のツール・APIと接続可
高精度なツール選択と使い分けが可能

↑

Structured Outputs †

LLMの出力形式を厳密な構造（JSON等）に制約する仕組み。

OpenAI Structured Outputs
JSON Schema
Pydantic model

事前定義したスキーマ（型・必須項目・制約）に適合させて出力させる。
出力の型安全性・検証可能性が高く、後段処理（パース・保存・検証）が安定。
関数実行を伴わず、データ抽出・要約・分類・設定生成などに適する。

↑

2つの技術の類似点 †

Function Calling と Structured Outputs の類似点

「LLM を自然言語の世界から構造化データの世界へ橋渡しする」という本質が同じ。

両者とも、以下の点で本質的に同じ方向性を持つため。
- LLM の出力を構造化し、外部システムと安全に連携させる制御技術
- JSON Schema を使い、揺らぎを抑え、機械可読なデータを返す

類似点の一覧

どちらも「LLM の出力を構造化する」技術
自然文ではなく、機械が扱える構造化データを LLM に強制する。
- Function Calling：関数呼び出しの引数を構造化データで返す
- Structured Outputs：任意のスキーマに従った構造化データを返す

構造化データの前提スキーマがSON Schema
- Function Calling：関数の引数定義は JSON Schema
- Structured Outputs：出力スキーマは JSON Schema

LLM の曖昧さ・揺らぎを抑制し信頼性・再現性を高める仕組み
- 余計な文章を生成しない
- フォーマットが揺れない
- パース可能なデータが返る

外部システムと連携するための“インターフェース”
- Function Calling：外部 API を呼ぶための入力インターフェース
- Structured Outputs：外部 API に渡すための出力インターフェース

エージェント通信プロトコルの基盤
- A2A、MCP、Azure Agents などのプロトコル設計の前提となっている。
- 理由は人間は自然言語で要求してもエージェント通信は構造化データで行う必要があるため。

↑

... †

↑

標準化 †

↑

対象 †

Tool Registry / Metadata
ツールや機能の定義情報（引数、用途など）を共有するためのスキーマ

Agent-to-Agent Protocols
複数エージェントがやり取りする際の通信仕様（メッセージ構造や状態管理）

Observability
エージェントの動作トレース、ログ記録の標準フォーマット（OpenTelemetry?などと連携）

↑

団体 †

OpenAI
Open Agents、Function calling APIの提案

LangChain
LangGraph、LangServe?で標準的な構成提供

Anthropic, Google, Meta
独自API提供＋相互運用性の議論に参加（例: AI Alliance）

W3C / ISOなど
将来的な正式標準化の議論も一部で始動

Agent Protocol Community
自主的なコミュニティ駆動の標準仕様作成

↑

プロトコル †

↑

プロトコル †

プロトコル	主目的	主導	主な対象	例えるなら
MCP	ツール呼び出しの標準化	Anthropic	LLM → ツール	手足の使い方のルール
ACP	エージェント間通信	BeeAI/コミュニティ	エージェント⇔エージェント	会話のルール
A2A	異企業エージェント連携	Google Cloud	異なるプラットフォームのエージェント	国際共通語

観点	A2A	ACP
主目的	クロスベンダー相互運用性	ローカル/エッジ自律性
想定環境	クラウド・分散システム	エッジ・帯域制限環境
通信方式	HTTP/HTTPS, JSON-RPC, SSE	軽量メッセージング
セキュリティ	OAuth2, API Key, スコープ制御	ローカル前提で軽量
状態管理	セッション/タスク/メモリを包括的に管理	必要最小限
エージェント発見	Agent Card によるメタデータ	なし（軽量）
ガバナンス	Linux Foundation（Google → 移管）	Linux Foundation（IBM 系）
得意領域	異種システム連携、大規模協業	プライバシー重視、低遅延

↑

MCP（Model Context Protocol） †

AIモデルと外部システムのやりとりを標準化するオープン・プロトコル

↑

ACP（Agent Communication Protocol） †

AIモデルと外部エージェントのやりとりを標準化するオープン・プロトコル
ローカル/エッジでの軽量・低遅延・プライバシー重視
将来的に A2A に“統合される／継承される”方向。

↑

A2A（Agent2Agent Protocol） †

AIモデルと外部エージェントのやりとりを標準化するオープン・プロトコル
クラウド横断の相互運用性・高度な協業・強力なセキュリティ
ACPより上位の次世代標準だが実装複雑性/パフォーマンスでは劣る。

↑

マルチエージェント †

LLMマルチエージェントは、LLMを用いた複数のエージェントが連携・協調・競合しながらタスクを遂行するシステムや枠組みのことを指す。

↑

利用例 †

ソフトウェア開発支援：プロジェクトの要件を受けて、複数のエージェントが設計、実装、レビュー、テストを分担。
複雑な意思決定支援：複数の視点から情報を収集・分析し、意見を統合して提案を生成。
教育やチュータリング：異なる学習スタイルや領域に対応した複数のエージェントが、個別に支援。

↑

役割分担 †

各エージェントは専門性を持たせ、以下のような役割に分かれることが多い

プランナー（Planner）：全体の戦略やステップを立案
リサーチャー（Researcher）：外部情報を収集・分析
エンジニア（Coder）：コードを生成・検証
レビュワー（Reviewer）：他エージェントの出力を評価・改善提案
メタ・エージェント：全体を制御する「指揮官」的エージェント（オーケストレーター、マネージャーなど）

↑

PE技法 †

PE技法のReActは「単体エージェントの内部推論フレーム」として機能しているが、
マルチエージェントでは、PE技法のSelf-Consistency, GKP, Self-Ask, ToT, AoTを、
オーケストレーション設計によって、明示的または暗黙的にシミュレーションできる。

Self-Consistency（自己整合性）
- 関係性：マルチエージェントが独立に推論を行い、それらの出力から最も整合的なものを選ぶという点で一致。
- シミュレーション性：高い。各エージェントを一つの「自己実行のバリエーション」と見なすことで、Self-Consistencyの仕組みと同様の効果が得られる。

GKP（Generated Knowledge Prompting）
- 関係性：あるエージェントが生成した知識を別のエージェントが利用するという点で、GKP的。
- シミュレーション性：中〜高。知識共有や知識ベースのプロンプティングが実装されていれば、かなり近い。

Self-Ask
- 関係性：タスク分解や質問の生成→他エージェントに解決させるプロセスが、Self-Askの「質問して自分で答える」構造に似る。
- シミュレーション性：高。特に質問応答・サブタスク分担型のマルチエージェントシステムでは、Self-Askに近い設計になる。

ToT（Tree of Thoughts）
- 関係性：各エージェントが「思考の分岐」や「候補生成」に相当する役割を担うことで、ToTの木構造探索を模倣。
- シミュレーション性：中〜高。特に評価・選択メカニズムを持つマルチエージェント構成では、ToT的な探索が可能。

AoT（Algorithm of Thoughts）
- 関係性：タスク解決を「アルゴリズム」として明示的に分解し、各部分をエージェントに割り当てることで、AoTに似た形になる。
- シミュレーション性：高。構造化された役割分担とステップ的な思考展開はAoTそのものに近い。

↑

実装例 †

Generative Agents
- 架空の町（例: Smallville）に複数のエージェントが暮らし、日常生活を送る。
- 各エージェントは「観察」「記憶」「計画」「行動」などのモジュールを持つ。
- GPT-4などのLLMで内面の思考・対話・行動を生成。

ChatDev?：
- 開発プロセスを企業のようにモデル化（例: CEO、CTO、プログラマー、テスターなどの役割）。
- 各役職に対応するLLMエージェントが協調してコードを設計・実装・レビュー。
- 各フェーズでチャットを通じて議論・意思決定。

↑

繋がり方 †

同期的チャット：エージェント同士がリアルタイムで交互に発言。
非同期メッセージパッシング：あるエージェントがメッセージを送信し、他のエージェントが後から反応。
ブラックボードアーキテクチャ：共通の「知識ベース」や「ワークスペース」を全エージェントが読み書き。
メモリ共有と再利用：各エージェントが記憶や知識を共有する仕組み。
オーケストレーション（制御）：マスターエージェントやタスクマネージャが全体の進行を制御。

↑

フレームワーク †

全体比較（要点）

観点	OpenAI Agents SDK	CrewAI	LangGraph	AutoGen
思想	制御・安全	人的分業	状態遷移	会話駆動
抽象度	低〜中	高	中	中
再現性	高	中	非常に高	低〜中
本番向き	◎	△	◎	△
研究向き	△	△	○	◎

↑

参考 †

https://speakerdeck.com/os1ma/imakosoxue-bullmbesunoaiezientoru-men-ji-ben-de-nasikumi-slash-kai-fa-turu-slash-you-ming-naossyalun-wen-noshao-jie

LLMエージェント のバックアップ(No.23)

目次 †

概要 †

エージェントの定義 †

エージェントらしさ †

デザインパターン †

エージェントの †

開発スタイル †

パーソナライズ †

例と工夫 †

リサーチ †

シミュレーション †

ゲーム †

ソフトウェア開発 †

汎用のコンピュータ操作 †

詳細 †

構成要素 †

LLM本体 †

メモリ †

ツール / プラグイン †

コントローラー †

プランナー †

アクション実行器 †

思考ループ（Reasoning Loop） †

タスクの理解（Goal Recognition） †

プランの生成（Plan） †

次のアクションの選択（Reason） †

アクションの実行（Act） †

観測と反省（Reflect） †

再計画（Replan） †

推論・行動戦略 †

MRKL †

Plan-and-Solve †

LLMCompiler †

デファクト標準 †

Function calling †

Structured Outputs †

2つの技術の類似点 †

... †

標準化 †

対象 †

団体 †

プロトコル †

マルチエージェント †

利用例 †

役割分担 †

PE技法 †

実装例 †

繋がり方 †

フレームワーク †

参考 †

LLMエージェントのバックアップ(No.23)