[論文レビュー] Learning to Trust the Crowd: A Multi-Model Consensus Reasoning Engine for Large Language Models
この論文は複数のLLM出力を監視付きメタ学習器の入力として扱い、回答を統合する学習を行い、グラフベースのコンセンサスモデルを用いた最良単一モデルや多数決よりも精度を改善します。
Large language models (LLMs) achieve strong average performance yet remain unreliable at the instance level, with frequent hallucinations, brittle failures, and poorly calibrated confidence. We study reliability through the lens of multi-model consensus: given responses from several heterogeneous LLMs, can we learn which answer is most likely correct for a given query? We introduce a Multi-Model Consensus Reasoning Engine that treats the set of LLM outputs as input to a supervised meta-learner. The system maps natural language responses into structured features using semantic embeddings, pairwise similarity and clustering statistics, lexical and structural cues, reasoning-quality scores, confidence estimates, and model-specific priors, and then applies gradient-boosted trees, listwise ranking, and graph neural networks over similarity graphs of answers. Using three open-weight LLMs evaluated on compact, resource-constrained subsets of GSM8K, ARC-Challenge, HellaSwag, and TruthfulQA, our best graph-attention-based consensus model improves macro-average accuracy by 4.6 percentage points over the strongest single LLM and by 8.1 points over majority vote, while also yielding lower Brier scores and fewer TruthfulQA hallucinations. Ablation and feature-importance analyses show that semantic agreement and clustering features are most influential, with reasoning-quality and model-prior features providing complementary gains, suggesting supervised multi-model consensus is a practical route toward more reliable LLM behavior, even in a modest single-machine setup.
研究の動機と目的
- LLMの信頼性をモデル間の不一致と一致を活用して動機付ける。
- 複数のLLM出力から得られる構造化特徴上で動作する監視付きメタ学習コンセンサスフレームワークを提案する。
- コンパクトなマルチタスクベンチマーク上で独立分類器、リストワイズランキング、グラフネットワークといった複数のコンセンサスアーキテクチャを実装・評価する。
- 三つのオープンウェイトLLMを用いてミニデータセット上で精度・較正・幻覚の低減を示す。
- 特徴寄与とコンセンサス手法の限界を理解するアブレーション解析を提供する。
提案手法
- M個の基本モデルの出力集合をメタモデルf_thetaの入力として扱い、モデルごとの正解確率を出力する。
- 埋め込み・ペアワイズ類似度・クラスタリング・語彙/構造的ヒント・推論品質スコア・信頼度・モデル事前確率などから各回答の豊富な特徴を抽出する。
- 回答間の類似グラフを構築し、グラフベースのメタモデル(GCN/GAT)または特徴上の独立/リストワイズ学習器を適用する。
- 三つのオープンウェイトLLM(Llama-3-8B-Instruct、Mistral-7B-Instruct、Qwen2-7B-Instruct)を用い、compact GSM8K、ARC-Challenge、HellaSwag、TruthfulQAミニデータセットを利用する。
- 自由形式の出力から最終回答を解析・正解ラベリングを可能とする正解抽出プロトコルを導入して正答を正規化する。
- 早期終了を用いたメタモデルを訓練し、連続特徴を標準化し、精度・MRR・ブライアススコアで評価する。

実験結果
リサーチクエスチョン
- RQ1監視付きメタラーナーがクロスモデル出力を解釈して、特定の問いに対してどの回答が正しいかを予測できるか。
- RQ2最も強力に推進する特徴ファミリー(意味的合意・クラスタリング・推論品質・信頼 priors)はどれか。
- RQ3グラフベースのコンセンサスモデルは独立分類器やランキングモデルを多様なタスクで上回るか。
- RQ4コンセンサスは較正と幻覚傾向にどのような影響を及ぼすか。
- RQ5小規模な commodity ハードウェア環境での多モデルコンセンサスの実用的な制約と故障モードは何か。
主な発見
| Method | GSM8K | ARC | HellaSwag | TruthfulQA |
|---|---|---|---|---|
| Random model | 49.0 | 32.5 | 63.4 | 35.2 |
| Majority vote | 57.8 | 38.7 | 70.1 | 42.3 |
| Self-consistency | 61.3 | 40.9 | 72.0 | 44.0 |
| Best single model | 62.5 | 41.8 | 73.2 | 45.1 |
| Consensus (logreg) | 65.8 | 44.0 | 74.4 | 47.6 |
| Consensus (GBDT) | 67.1 | 45.2 | 75.1 | 48.9 |
| Consensus (RankNet) | 67.4 | 45.6 | 75.4 | 49.3 |
| Consensus (GAT) | 68.2 | 46.7 | 76.0 | 50.1 |
- グラフアテンション型コンセンサスモデル(GAT)は、最良の単一LLMよりもマクロ平均精度を4.6ポイント、多数決よりも8.1ポイント向上させる。
- GATはGSM8K、ARC-Challenge、HellaSwag、TruthfulQAミニデータセットの全てのベースラインを一貫して上回る。
- アブレーション分析では意味的合意とクラスタリング特徴が最も影響力を持ち、推論品質とモデル事前特徴が補完的な利益を提供する。
- コンセンサス下で較正が改善され、ブライアススコアの低下とTruthfulQAでの幻覚が減少する。
- グラフベースの手法は構造的な不一致を活用して、特に不一致の大きい状況で少数だが正しい回答を高める。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。