[論文レビュー] UniRank: A Multi-Agent Calibration Pipeline for Estimating University Rankings from Anonymized Bibliometric Signals
UniRankは、 memorizationを避けるデータ隠蔽と匿名化を用いたオープンな文献指標信号から世界大学ランキングを推定する3段階のマルチエージェントLLMパイプラインを提示する。THEランキングでの評価では序数相関が強い。
We present UniRank, a multi-agent LLM pipeline that estimates university positions across global ranking systems using only publicly available bibliometric data from OpenAlex and Semantic Scholar. The system employs a three-stage architecture: (a) zero-shot estimation from anonymized institutional metrics, (b) per-system tool-augmented calibration against real ranked universities, and (c) final synthesis. Critically, institutions are anonymized -- names, countries, DOIs, paper titles, and collaboration countries are all redacted -- and their actual ranks are hidden from the calibration tools during evaluation, preventing LLM memorization from confounding results. On the Times Higher Education (THE) World University Rankings ($n=352$), the system achieves MAE = 251.5 rank positions, Median AE = 131.5, PNMAE = 12.03%, Spearman $ρ= 0.769$, Kendall $τ= 0.591$, hit rate @50 = 20.7%, hit rate @100 = 39.8%, and a Memorization Index of exactly zero (no exact-match zero-width predictions among all 352 universities). The systematic positive-signed error (+190.1 positions, indicating the system consistently predicts worse ranks than actual) and monotonic performance degradation from elite tier (MAE = 60.5, hit@100 = 90.5%) to tail tier (MAE = 328.2, hit@100 = 20.8%) provide strong evidence that the pipeline performs genuine analytical reasoning rather than recalling memorized rankings. A live demo is available at https://unirank.scinito.ai .
研究の動機と目的
- 公開可能な文献統計データのみから survey や独自信号を用いずに大学ランキングを推定する動機付け。
- ランキング推定のためにMAgICoReに触発された3段階のマルチエージェントアーキテクチャを提案。
- LLMにおける memorizationを防ぐための匿名化とデータ隠蔽プロトコルを導入。
- OpenAlexとSemantic Scholarから16機能の文献指標信号セットを開発。
- 新規のMemorization Indexと信頼区間を用いた厳格な評価フレームワークを提供。
提案手法
- OpenAlexとSemantic Scholarから各機関について16の文献指標を算出。
- 数値指標を保持しつつ特定可能情報を匿名化。
- ステージ1:匿名化した指標からゼロショット推定を行いランキング範囲を生成。
- ステージ2:システムごとのツール補助による較正(get_ranking_samplesとcompute_metricsを使用)でレンジを洗練。
- ステージ3:ステージ1およびステージ2の出力から最終的な構造化分析報告を合成。
- Wilsonスコア区間を用いて95%信頼区間を報告し、 memorizationを検出する Memorization Index(MI)を計算。

実験結果
リサーチクエスチョン
- RQ1公開されている文献指標データだけでマルチエージェントLLMパイプラインは大学のランキング位置を推定できるか。
- RQ2匿名化とデータ隠蔽は推論を可能にしつつ memorizationを防ぐ効果があるか。
- RQ3主要システム(THE, QS, ARWU)間でランキング精度に対する較正と初期推定の寄与はどの程度か。
主な発見
| Metric | Value |
|---|---|
| MAE | 251.5 |
| Median AE | 131.5 |
| RMSE | 411.4 |
| PNMAE | 12.03% |
| Spearman’s ρ | 0.769 |
| Pearson’s r | 0.677 |
| Kendall’s τ | 0.591 |
| Hit Rate @25 | 10.2% (36/352) |
| Hit Rate @50 | 20.7% (73/352) |
| Hit Rate @100 | 39.8% (140/352) |
| Range Coverage | 8.2% (29/352) |
| Mean Range Width | 42.9 positions |
- THEランキング(n=352)ではMAEは251.5位、Spearman ρは0.769、Memorization Indexは0.000。
- 較正は全体のMAEを控えめに改善(256.8→251.5, -2.1%)、エリート層およびテール層がより恩恵。
- Hit@100は39.8%、Hit@50は20.7%で、データ制約にもかかわらず意味のある序数整合を示す。
- 系統的に正の符号誤差(+190.1位)は、評価が評判や教育信号の欠如によりランキングを過小推定することを示す。
- MIは階層間でゼロのままで、予測の源として memorization より推論が寄与していることを支持。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。