[論文レビュー] More Rounds, More Noise: Why Multi-Turn Review Fails to Improve Cross-Context Verification
この研究は、複数ターンの動的クロスコンテキストレビュー(D-CCR)が、誤陽性圧力とレビューターゲットドリフトのため、単回のクロスコンテキストレビュー(CCR)よりも劣ることを示している。独立した並行レビューが望ましい。
Cross-Context Review (CCR) improves LLM verification by separating production and review into independent sessions. A natural extension is multi-turn review: letting the reviewer ask follow-up questions, receive author responses, and review again. We call this Dynamic Cross-Context Review (D-CCR). In a controlled experiment with 30 artifacts and 150 injected errors, we tested four D-CCR variants against the single-pass CCR baseline. Single-pass CCR (F1 = 0.376) significantly outperformed all multi-turn variants, including D-CCR-2b with question-and-answer exchange (F1 = 0.303, $p < 0.001$, $d = -0.59$). Multi-turn review increased recall (+0.08) but generated 62% more false positives (8.5 vs. 5.2), collapsing precision from 0.30 to 0.20. Two mechanisms drive this degradation: (1) false positive pressure -- reviewers in later rounds fabricate findings when the artifact's real errors have been exhausted, and (2) Review Target Drift -- reviewers provided with prior Q&A exchanges shift from reviewing the artifact to critiquing the conversation itself. Independent re-review without prior context (D-CCR-2c) performed worst (F1 = 0.263), confirming that mere repetition degrades rather than helps. The degradation stems from false positive pressure in additional rounds, not from information amount -- within multi-turn conditions, more information actually helps (D-CCR-2b > D-CCR-2a). The problem is not what the reviewer sees, but that reviewing again invites noise.
研究の動機と目的
- Cross-Context Review (CCR) に対して多ターンの相互作用を追加することが、注入エラーを含むアーティファクトの検証を改善するかを調査する。
- 文脈分離の下で、後続のレビューで著者回答や prior questions を含むことに有益性があるか。
- 多ターン CCR の性能を低下させる機序(偽陽性、ドリフト)を特定する。
- 文脈分離の下で最適なレビュー戦略を特定し、検証予算の実践的ガイダンスを提供する。
提案手法
- 30 のアーティファクトと 150 の注入エラーを用いて、4つのD-CCR variantes と単回 CCR のベースラインを再現する。
- 各レビュ ーラウンドの文脈分離を保持するため、独立セッションで Claude Opus 4.6 を使用する。
- variantes の評価: CCR-1(アーティファクトのみ)、D-CCR-2a(アーティファクト + 質問)、D-CCR-2b(アーティファクト + Q&A)、D-CCR-2c(アーティファクトのみ、2回目の新規レビュー)。
- 審査結果を ground-truth のエラーとマッチングさせるため、行近接性、韓国語正規化とのキーワード重複、ファジー部分文字列一致を組み合わせたスコアリング関数を用いる(閾値 1.0–3.0)。
- 各アーティファクトごとに F1、適合率、再現率を算出し、条件を比較するために対をなす t 検定と Bonferroni 誤差訂正付き Wilcoxon 検定を実施する。

実験結果
リサーチクエスチョン
- RQ1RQ1. 多ターンの D-CCR は単回 CCR を上回るか?
- RQ2RQ2. 著者の回答はレビュアーを助けるか、それともアンカーとなるか?
- RQ3RQ3. 連続性は複数ラウンドのレビューにおいて独立性より有利か?
- RQ4RQ4. 独立した繰り返しは単回を上回るか?
主な発見
| Findings | TP | FP | Dup | Precision | Recall | F1 | F1 SD |
|---|---|---|---|---|---|---|---|
| CCR-1 | 9.3 | 2.64 | 5.23 | 1.43 | 0.297 | 0.376 | 0.136 |
| D-CCR-2a | 15.4 | 2.96 | 9.17 | 3.27 | 0.197 | 0.293 | 0.102 |
| D-CCR-2b | 15.2 | 3.03 | 8.47 | 3.70 | 0.204 | 0.303 | 0.110 |
| D-CCR-2c | 18.4 | 3.10 | 9.70 | 5.60 | 0.168 | 0.263 | 0.091 |
- 単回 CCR は全ての多ターン variante よりも F1 で上回った(CCR-1 F1 = 0.376、多ターンは 0.263–0.303、すべて p < 0.001、ただし1つは非有意)。
- 多ターン variante は再現率を+0.08 する一方、適合率を大幅に低下させ(CCR-1 0.297 対多ターン 0.168–0.204)、F1 が崩れる。
- 偽陽性圧力が劣化を引き起こす:ラウンド2 の所見では、アーティファクトごとに新しい真陽性だけでなく、3–4 個の追加の偽陽性が生じる。
- レビューターゲット・ドリフトは Q&A の内容が評価者の注目をアーティファクトの誤りから会話の質へ移す要因となることを説明する。
- 独立した CCR レビューのアンサンブル(多数決)は、いずれの多ターン variant よりも F1 が高く(0.393)、並列の独立したレビューが逐次的な反復より望ましいことを示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。