複数LLMの合議設計:ツール自動化の裏にある「判断構造」の問題
AI Broadcasterの開発を通じて見えてきたこと(2026.03.08)
複数LLMの合議設計:ツール自動化の裏にある「判断構造」の問題
AI Broadcasterの開発を通じて見えてきたこと(2026.03.08)
ChatGPT、Claude、Geminiを使い分けているユーザーは多くなりました。それぞれの応答特性が異なるからです。問題は、この「使い分け」が手動の往復作業になっている点にあります。コピーして、貼り付けて、読み比べて、また別のウィンドウへ。これは知的作業ではなく、プロセスの欠如です。
自動化の手段として最初に思いつくのはAPIでしょう。
前稿(「AI Agentが『実行する側』になった時代に、専門家は何を見ているか」)で触れた通り、LangGraphを用いたマルチエージェント基盤の構築は経験しています。それとは別に、ローカルDifyで複数のLLMに並列にクエリを投げ、回答の共通部分と差分を抽出する構成を試したこともあります。こうした構成がどのような設計上の問題を持つかも、試行の中で把握しています。
それでも今回はAPIを使いませんでした。
理由は合理性の問題です。ChatGPT Plus、Claude、GeminiはSubscriptionで契約済みです。API経由で叩けば別途トークン課金が発生します。用途がコンサル業務の思考整理や記事ドラフト確認であれば、既存契約を最大活用する方が費用対効果が高い。「技術的にできる」と「それが最適解か」は別の問いです。
開発したKEN AI Broadcasterは、以下の構造で動作します。
第一層:Refiner ChatGPTとGeminiそれぞれに対し、入力クエリを「そのAIが最も処理しやすい形式」に整形させます。プロンプトエンジニアリングを外部委託する発想に近い。各AIの応答特性に合わせた最適化を自動化しています。
第二層:Merge 二つのRefiner出力を統合し、最終プロンプトを生成します。この統合処理自体もAIが担います。
第三層:Integrator 統合プロンプトをChatGPT、Gemini、Claudeに一斉送信します。各AIが独立して回答を生成した後、それぞれに「他のAIの回答も踏まえた統合」を行わせる二次処理をかけます。
実際の処理例として、「AI時代にどう備えるか」という一行のクエリを入力した結果を示します。
ChatGPT Refiner:539字
Gemini Refiner:650字
Merge(最終統合プロンプト):714字
この整形済みプロンプトが各AIに飛び、
ChatGPT 回答:5,307字 / 統合結果:4,199字
Gemini 回答:2,001字 / 統合結果:2,402字
Claude 回答:5,291字 / 統合結果:3,405字
三者がそれぞれ独立して回答し、さらに三者がそれぞれ全員の回答を比較・統合する。この二段階の構造が一行の入力から全自動で回ります。
入力後にユーザーがすることは何もありません。
最終的には三つの統合結果が並んで手元に残ります。どれを採用するか、あるいはどこが一致していてどこが割れているかを見ながら判断できます。
実装の技術的な問題より、設計思想の問題に時間を要しました。
「どこまでをシステム側が決めるか」という問いです。
最初の設計ではRefinerの処理方針を統一しようとしました。しかし試行の結果、各AIのRefiner出力に個性を残した方が、最終的な回答の多様性と質が上がることがわかりました。「プロンプトを最良化する」という目的だけを共通化し、アプローチはAIの判断に委ねる構造が機能しました。
これは組織の意思決定設計と同型の問題です。メンバー全員に同一の思考フレームを強制すると多様性が失われ、集合知の質が下がります。AIの合議設計でも同じことが起きます。
副次的な気づきとして、出力の「文字数表示」が意外に重要でした。3,104字と2,204字が並ぶとき、それは量の違いではなく、どちらのAIがその問いをどの深さで処理したかの粗い指標になります。「どちらが正しいか」ではなく「どちらの視点を今必要としているか」を判断する材料として機能します。
単一モデルへの依存は、単一障害点の設計と同じリスク構造を持ちます。判断の多様性、相互検証、統合プロセスの透明性——これらはシステムの信頼性設計における基本要件であり、AIガバナンスの文脈でも同様です。
ISO/IEC 42001やNIST AI RMFが求める「AIの出力に対する適切な理解と管理」を実装レベルで実現するには、どのモデルがどの判断を行い、その根拠はどこにあるかを追跡できる構造が必要です。複数LLMの合議設計は、その構造を自然に担保する一つのアプローチになりえます。
AIの意思決定品質は、個々のモデルの性能だけでは決まりません。合議の設計によって変わります。これはシステム設計の問題であり、同時にガバナンスの問題でもあります。
本記事は2026年3月時点の情報に基づいた筆者個人の見解であり、所属組織・関係組織の見解ではありません。