[논문 리뷰] UniRank: A Multi-Agent Calibration Pipeline for Estimating University Rankings from Anonymized Bibliometric Signals
UniRank는 OpenAlex와 Semantic Scholar의 익명화된 서지 신호를 사용하여 전 세계 대학 순위를 추정하는 3단계 다중 에이전트 LLM 파이프라인을 제시하며, 기억화를 방지하기 위한 데이터 숨김을 적용합니다.
We present UniRank, a multi-agent LLM pipeline that estimates university positions across global ranking systems using only publicly available bibliometric data from OpenAlex and Semantic Scholar. The system employs a three-stage architecture: (a) zero-shot estimation from anonymized institutional metrics, (b) per-system tool-augmented calibration against real ranked universities, and (c) final synthesis. Critically, institutions are anonymized -- names, countries, DOIs, paper titles, and collaboration countries are all redacted -- and their actual ranks are hidden from the calibration tools during evaluation, preventing LLM memorization from confounding results. On the Times Higher Education (THE) World University Rankings ($n=352$), the system achieves MAE = 251.5 rank positions, Median AE = 131.5, PNMAE = 12.03%, Spearman $ρ= 0.769$, Kendall $τ= 0.591$, hit rate @50 = 20.7%, hit rate @100 = 39.8%, and a Memorization Index of exactly zero (no exact-match zero-width predictions among all 352 universities). The systematic positive-signed error (+190.1 positions, indicating the system consistently predicts worse ranks than actual) and monotonic performance degradation from elite tier (MAE = 60.5, hit@100 = 90.5%) to tail tier (MAE = 328.2, hit@100 = 20.8%) provide strong evidence that the pipeline performs genuine analytical reasoning rather than recalling memorized rankings. A live demo is available at https://unirank.scinito.ai .
연구 동기 및 목표
- 공개적으로 이용 가능한 서지 데이터에서 설문조사나 독점 신호 없이 대학 순위를 추정하는 동기를 부여한다.
- ranking 추정을 위한 MAgICoRe에서 영감을 받은 3단계 다중 에이전트 아키텍처를 제안한다.
- LLM의 기억화를 방지하기 위한 익명화 및 데이터 숨김 프로토콜을 도입한다.
- OpenAlex와 Semantic Scholar에서 16개의 특징 서지 신호 세트를 개발한다.
- 새로운 Memorization Index와 신뢰 구간을 포함한 엄격한 평가 프레임워크를 제공한다.
제안 방법
- 각 기관에 대해 OpenAlex와 Semantic Scholar로부터 16개의 서지 지표를 계산한다.
- 숫자 메트릭을 보존하면서 식별 정보를 익명화한다.
- Stage 1: 익명화된 지표에서 제로샷 추정을 통해 순위 범위를 산출한다.
- Stage 2: get_ranking_samples와 compute_metrics를 사용한 도구 보강 기반 보정을 통해 범위를 다듬는다.
- Stage 3: Stage 1과 Stage 2의 출력으로 최종 구조화된 분석 보고서를 합성한다.
- Wilson 점수 구간을 사용하여 95% 신뢰 구간을 보고하고 Memorization Index(MI)를 계산하여 기억화된 예측 여부를 탐지한다.

실험 결과
연구 질문
- RQ1공개적으로 이용 가능한 서지 데이터만으로 다중 에이전트 LLM 파이프라인이 대학 순위 위치를 추정할 수 있는가?
- RQ2익명화 및 데이터 숨김이 추론 능력을 가능하게 하면서 기억화를 방지하는 데 얼마나 효과적인가?
- RQ3Calibratio n이 초기 추정에 비해 순위 정확도에 기여하는 바는 무엇이며 주요 시스템(THE, QS, ARWU) 간의 차이는 무엇인가?
주요 결과
| 지표 | 값 |
|---|---|
| MAE | 251.5 |
| Median AE | 131.5 |
| RMSE | 411.4 |
| PNMAE | 12.03% |
| Spearman’s ρ | 0.769 |
| Pearson’s r | 0.677 |
| Kendall’s τ | 0.591 |
| Hit Rate @25 | 10.2% (36/352) |
| Hit Rate @50 | 20.7% (73/352) |
| Hit Rate @100 | 39.8% (140/352) |
| Range Coverage | 8.2% (29/352) |
| Mean Range Width | 42.9 positions |
- THE 순위(n=352)에서 MAE는 251.5 위치이고 Spearman ρ는 0.769이며 Memorization Index는 0.000이다.
- 보정은 전반적인 MAE를 미미하게 개선(256.8에서 251.5로, -2.1%)하며, 엘리트 및 꼬리 구간에서 더 큰 이득을 보인다.
- Hit@100은 THE에서 39.8%이며 Hit@50은 20.7%로, 데이터 한계에도 불구하고 의미 있는 순서 정렬 정합성을 시사한다.
- (+190.1 위치)의 체계적으로 양의 부호 오차는 신뢰도 및 교육 신호 누락으로 인해 모델이 순위를 과소 추정하는 경향이 있음을 보여준다.
- MI는 구간 간에 0으로 남아 추론이 기억화보다 기억화의 원인이라는 가정에 반박한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.