QUICK REVIEW

[논문 리뷰] Predicting the future relevance of research institutions - The winning solution of the KDD Cup 2016

Vlad Sandulescu, Mihai Chiru|arXiv (Cornell University)|2016. 09. 09.

Delphi Technique in Research참고 문헌 1인용 수 49

한 줄 요약

이 논문은 KDD 컵 2016의 우승 솔루션을 제시하며, 최고의 학술 회의에서 수락된 전문 논문 수를 예측함으로써 향후 연구 기관의 관련성을 예측한다. 마이크로소프트 애카데믹 그래프(MAG)를 사용하여 특징 공학과 기울기 부스팅 결정 트리(GBDT)를 적용함으로써 기초 확률 모델을 능가하였으며, 대회에서 최고의 종합 순위를 기록하였다.

ABSTRACT

The world's collective knowledge is evolving through research and new scientific discoveries. It is becoming increasingly difficult to objectively rank the impact research institutes have on global advancements. However, since the funding, governmental support, staff and students quality all mirror the projected quality of the institution, it becomes essential to measure the affiliation's rating in a transparent and widely accepted way. We propose and investigate several methods to rank affiliations based on the number of their accepted papers at future academic conferences. We carry out our investigation using publicly available datasets such as the Microsoft Academic Graph, a heterogeneous graph which contains various information about academic papers. We analyze several models, starting with a simple probabilities-based method and then gradually expand our training dataset, engineer many more features and use mixed models and gradient boosted decision trees models to improve our predictions.

연구 동기 및 목표

이력 출판 기록을 바탕으로 연구 기관의 향후 영향력을 투명하고 데이터 기반으로 예측하는 방법을 개발하기 위해.
주요 학술 회의에서의 영향력 전망을 기반으로 소속 기관을 객관적으로 순위 매기는 문제를 해결하기 위해.
마이크로소프트 애카데믹 그래프(MAG)에서 추출한 시간적 추세와 변화하는 인용 패턴을 활용하여 예측 정확도를 향상시키기 위해.
여러 대회 단계에 걸쳐 특징 세트와 모델을 체계적으로 평가하고 튜닝하여 NDCG@20 성능을 극대화하기 위해.
공개된 학술 데이터를 활용한 기관의 연구 관련성 예측을 위한 확장 가능하고 일반화 가능한 프레임워크를 구축하기 위해.

제안 방법

2016년 2월 기준 마이크로소프트 애카데믹 그래프(MAG) 버전을 사용하여, 2000~2015년 동안의 논문, 저자, 소속 기관, 인용, 키워드를 포함한 데이터셋을 구축하였다.
2011~2015년 기간 동안 KDD, SIGIR 등 주요 회의별 상위 20개 소속 기관의 이력적 논문 수락 기록을 추출하여 과거의 관련성을 모델링하였다.
과거 관련성 점수의 이동 평균, 중앙값, 표준편차, 지수가중 이동 평균 등을 포함한 시간 창 기반 특징을 공학하였다.
장기적 및 단기적 동적 변화를 포착하기 위해 드리프트 트렌드(dt)와 지수 평활화(es) 등의 추세 기반 특징을 도입하였다.
공학된 특징을 기반으로 기울기 부스팅 결정 트리(GBDT) 모델을 훈련하였으며, NDCG@20 최적화를 위해 다양한 구성에서 초모델 하이퍼파rameter 튜닝을 수행하였다.
모델 평가에 NDCG@20를 사용하였으며, 모든 대회 단계에서 단순 확률 기반 기준 모델과의 성능을 비교하였다.

실험 결과

연구 질문

RQ1최고의 학술 회의에서의 이력적 출판 추세는 향후 회의에서 기관의 관련성을 신뢰성 있게 예측할 수 있는가?
RQ2이동 창 기반, 지수 평활화 등 다양한 시간적 특징 공학 전략(예: 이동 평균, 지수 평균)이 예측 정확도에 어떤 영향을 미치는가?
RQ3장기적 기여와 단기적 추세가 함께 기관의 향후 논문 수락 비율을 얼마나 잘 예측하는가?
RQ4여러 대회 단계에 걸쳐 훈련 데이터 크기와 더 풍부한 특징 세트가 증가함에 따라 모델 성능이 향상되는가?
RQ5학술 그래프 데이터를 활용한 기관 순위 예측에서 기울기 부스팅 결정 트리(GBDT)가 단순 확률 기반 기준 모델을 능가할 수 있는가?

주요 결과

정밀하게 튜닝된 특징을 적용한 GBDT 모델은 모든 대회 단계와 회의에서 기초 확률 모델을 일관되게 능가하였다.
단기적 추세 특징(dt, es)과 이동 통계 특징(sw_y, w_y)을 모두 통합함으로써 KDD, FSE, MOBICOM의 예측 정확도가 크게 향상되었다.
MM의 경우 특징과 타겟 간 중간 정도의 상관관계를 관찰하였지만, GBDT 모델은 여전히 기초 모델보다 높은 NDCG@20 성능을 기록하였다.
FSE에서 가장 우수한 성능을 낸 특징 구성은 sw_y(rel) + dt(rel) + es(rel)로, 5개의 관련 회의를 기반으로 구성되었으며, 뛰어난 결과를 도출하였다.
모델은 시간이 지남에 따라 일관된 개선을 보였으며, 이전 연도들보다 최근 연도에 대해 더 높은 예측 능력을 보였다.
최종 솔루션은 KDD 컵 2016에서 최고의 종합 점수를 기록하여 최종 순위에서 1위를 차지하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.