Skip to main content
QUICK REVIEW

[논문 리뷰] UniRank: A Multi-Agent Calibration Pipeline for Estimating University Rankings from Anonymized Bibliometric Signals

Pedram Riyazimehr, Seyyed Ehsan Mahmoudi|arXiv (Cornell University)|2026. 02. 21.
scientometrics and bibliometrics research인용 수 0
한 줄 요약

UniRank는 OpenAlex와 Semantic Scholar의 익명화된 서지 신호를 사용하여 전 세계 대학 순위를 추정하는 3단계 다중 에이전트 LLM 파이프라인을 제시하며, 기억화를 방지하기 위한 데이터 숨김을 적용합니다.

ABSTRACT

We present UniRank, a multi-agent LLM pipeline that estimates university positions across global ranking systems using only publicly available bibliometric data from OpenAlex and Semantic Scholar. The system employs a three-stage architecture: (a) zero-shot estimation from anonymized institutional metrics, (b) per-system tool-augmented calibration against real ranked universities, and (c) final synthesis. Critically, institutions are anonymized -- names, countries, DOIs, paper titles, and collaboration countries are all redacted -- and their actual ranks are hidden from the calibration tools during evaluation, preventing LLM memorization from confounding results. On the Times Higher Education (THE) World University Rankings ($n=352$), the system achieves MAE = 251.5 rank positions, Median AE = 131.5, PNMAE = 12.03%, Spearman $ρ= 0.769$, Kendall $τ= 0.591$, hit rate @50 = 20.7%, hit rate @100 = 39.8%, and a Memorization Index of exactly zero (no exact-match zero-width predictions among all 352 universities). The systematic positive-signed error (+190.1 positions, indicating the system consistently predicts worse ranks than actual) and monotonic performance degradation from elite tier (MAE = 60.5, hit@100 = 90.5%) to tail tier (MAE = 328.2, hit@100 = 20.8%) provide strong evidence that the pipeline performs genuine analytical reasoning rather than recalling memorized rankings. A live demo is available at https://unirank.scinito.ai .

연구 동기 및 목표

  • 공개적으로 이용 가능한 서지 데이터에서 설문조사나 독점 신호 없이 대학 순위를 추정하는 동기를 부여한다.
  • ranking 추정을 위한 MAgICoRe에서 영감을 받은 3단계 다중 에이전트 아키텍처를 제안한다.
  • LLM의 기억화를 방지하기 위한 익명화 및 데이터 숨김 프로토콜을 도입한다.
  • OpenAlex와 Semantic Scholar에서 16개의 특징 서지 신호 세트를 개발한다.
  • 새로운 Memorization Index와 신뢰 구간을 포함한 엄격한 평가 프레임워크를 제공한다.

제안 방법

  • 각 기관에 대해 OpenAlex와 Semantic Scholar로부터 16개의 서지 지표를 계산한다.
  • 숫자 메트릭을 보존하면서 식별 정보를 익명화한다.
  • Stage 1: 익명화된 지표에서 제로샷 추정을 통해 순위 범위를 산출한다.
  • Stage 2: get_ranking_samples와 compute_metrics를 사용한 도구 보강 기반 보정을 통해 범위를 다듬는다.
  • Stage 3: Stage 1과 Stage 2의 출력으로 최종 구조화된 분석 보고서를 합성한다.
  • Wilson 점수 구간을 사용하여 95% 신뢰 구간을 보고하고 Memorization Index(MI)를 계산하여 기억화된 예측 여부를 탐지한다.
Figure 1 : UniRank system architecture. Data from OpenAlex and Semantic Scholar is aggregated, normalized, and anonymized before entering the three-stage LLM pipeline. During evaluation, the target university is hidden from the ranking store (dashed line) to prevent data leakage.
Figure 1 : UniRank system architecture. Data from OpenAlex and Semantic Scholar is aggregated, normalized, and anonymized before entering the three-stage LLM pipeline. During evaluation, the target university is hidden from the ranking store (dashed line) to prevent data leakage.

실험 결과

연구 질문

  • RQ1공개적으로 이용 가능한 서지 데이터만으로 다중 에이전트 LLM 파이프라인이 대학 순위 위치를 추정할 수 있는가?
  • RQ2익명화 및 데이터 숨김이 추론 능력을 가능하게 하면서 기억화를 방지하는 데 얼마나 효과적인가?
  • RQ3Calibratio n이 초기 추정에 비해 순위 정확도에 기여하는 바는 무엇이며 주요 시스템(THE, QS, ARWU) 간의 차이는 무엇인가?

주요 결과

지표
MAE251.5
Median AE131.5
RMSE411.4
PNMAE12.03%
Spearman’s ρ0.769
Pearson’s r0.677
Kendall’s τ0.591
Hit Rate @2510.2% (36/352)
Hit Rate @5020.7% (73/352)
Hit Rate @10039.8% (140/352)
Range Coverage8.2% (29/352)
Mean Range Width42.9 positions
  • THE 순위(n=352)에서 MAE는 251.5 위치이고 Spearman ρ는 0.769이며 Memorization Index는 0.000이다.
  • 보정은 전반적인 MAE를 미미하게 개선(256.8에서 251.5로, -2.1%)하며, 엘리트 및 꼬리 구간에서 더 큰 이득을 보인다.
  • Hit@100은 THE에서 39.8%이며 Hit@50은 20.7%로, 데이터 한계에도 불구하고 의미 있는 순서 정렬 정합성을 시사한다.
  • (+190.1 위치)의 체계적으로 양의 부호 오차는 신뢰도 및 교육 신호 누락으로 인해 모델이 순위를 과소 추정하는 경향이 있음을 보여준다.
  • MI는 구간 간에 0으로 남아 추론이 기억화보다 기억화의 원인이라는 가정에 반박한다.
Figure 2 : Three-stage pipeline: Stage 1 produces coarse zero-shot estimates from anonymized metrics. Stage 2 refines per-system with tool-augmented calibration (parallel). Stage 3 synthesizes the final report.
Figure 2 : Three-stage pipeline: Stage 1 produces coarse zero-shot estimates from anonymized metrics. Stage 2 refines per-system with tool-augmented calibration (parallel). Stage 3 synthesizes the final report.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.