[논문 리뷰] ExpFinder: An Ensemble Expert Finding Model Integrating $N$-gram Vector Space Model and $μ$CO-HITS
ExpFinder는 $n$VSM(N-gram Vector Space Model)와 새로운 그래프 기반 $\mu$CO-HITS 알고리즘을 통합하여 전문가 검색 성능을 향상시키는 앙상블 전문가 찾기 모델이다. 네 개의 학술 데이터셋에서 여섯 가지 기준 모델 대비 19%에서 160.2%까지 뛰어난 성능을 기록한다.
Finding an expert plays a crucial role in driving successful collaborations and speeding up high-quality research development and innovations. However, the rapid growth of scientific publications and digital expertise data makes identifying the right experts a challenging problem. Existing approaches for finding experts given a topic can be categorised into information retrieval techniques based on vector space models, document language models, and graph-based models. In this paper, we propose $ extit{ExpFinder}$, a new ensemble model for expert finding, that integrates a novel $N$-gram vector space model, denoted as $n$VSM, and a graph-based model, denoted as $ extit{$μ$CO-HITS}$, that is a proposed variation of the CO-HITS algorithm. The key of $n$VSM is to exploit recent inverse document frequency weighting method for $N$-gram words and $ extit{ExpFinder}$ incorporates $n$VSM into $ extit{$μ$CO-HITS}$ to achieve expert finding. We comprehensively evaluate $ extit{ExpFinder}$ on four different datasets from the academic domains in comparison with six different expert finding models. The evaluation results show that $ extit{ExpFinder}$ is a highly effective model for expert finding, substantially outperforming all the compared models in 19% to 160.2%.
연구 동기 및 목표
- 급격히 증가하는 과학 논문과 디지털 전문성 데이터의 맥락에서 관련 전문가를 식별하는 데 도전하는 것.
- 벡터 공간 모델, 언어 모델, 그래프 기반 모델에 기반한 기존 전문가 찾기 방법의 한계를 극복하는 것.
- semantic 표현을 위한 $n$VSM과 구조적 관계를 위한 $\mu$CO-HITS를 동시에 활용하여 정확도를 향상시키는 하이브리드 모델을 개발하는 것.
- 다양한 학술 데이터셋에서 제안된 모델을 평가하고, 여섯 가지 확립된 전문가 찾기 모델과의 성능을 비교하는 것.
제안 방법
- 최근에 제안된 역문헌 빈도 가중치 기법을 $N$-gram 특징에 적용하여 텍스트의 의미적 표현을 향상시키는 새로운 $n$VSM을 제안한다.
- 이질적 네트워크에서 링크 분석을 활용하여 저자-주제 관계를 모델링하기 위해 CO-HITS 알고리즘의 수정된 버전인 $\mu$CO-HITS를 도입한다.
- 두 구성 요소에서 유도된 점수를 통합하여 최종 전문가 순위를 산정하기 위해 $n$VSM과 $\mu$CO-HITS를 앙상블 프레임워크에 통합한다.
- semantic 유사도와 structural 유사도를 조합하기 위해 가중치 기반 융합 전략을 활용한다.
- 학술 인용 네트워크의 저자, 출판물, 주제로 구성된 이질적 네트워크를 활용하여 $\mu$CO-HITS 구성 요소를 학습하고 평가한다.
- 성능 평가를 위해 네 개의 학술 데이터셋에서 정밀도, 재현율, F1 점수와 같은 표준 평가 지표를 적용한다.
실험 결과
연구 질문
- RQ1n$VSM과 $\mu$CO-HITS의 통합이 독립적으로 작동하는 모델 대비 전문가 찾기 성능을 얼마나 향상시키는가?
- RQ2제안된 $n$VSM이 주제 기반 전문성을 포착하는 데 기존의 벡터 공간 모델에 비해 얼마나 뛰어난가?
- RQ3$\mu$CO-HITS 알고리즘이 학술 인용 네트워크에서 네트워크 구조를 효과적으로 활용하여 전문가 검색에 얼마나 기여하는가?
- RQ4앙상블 모델에서 의미적 신호와 구조적 신호의 상대적 기여도는 어떠한가?
주요 결과
- ExpFinder는 네 개의 학술 데이터셋에서 여섯 가지 기준 전문가 찾기 모델 대비 19%에서 160.2%까지 성능 향상을 기록한다.
- $n$VSM과 $\mu$CO-HITS의 통합은 의미적 신호와 구조적 신호를 조합하여 전문가 검색 정확도를 크게 향상시킨다.
- $n$VSM 구성 요소는 역문헌 빈도 가중치를 적용한 $N$-gram 특징을 통해 주제 기반 용어를 효과적으로 포착함을 보여준다.
- $\mu$CO-HITS 모델은 저자-주제 관계의 네트워크 구조를 효과적으로 활용하여 관련 전문가를 식별하는 데 성공한다.
- 모든 평가된 데이터셋에서 F1 점수, 정밀도, 재현율 측면에서 앙상블 모델이 모든 기준 모델을 뛰어넘는 일관된 성능을 보였다.
- 결과는 의미적 모델링과 구조적 모델링을 융합함으로써 학술 분야에서 강력하고 확장 가능한 전문가 찾기 솔루션이 가능하다는 점을 확인시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.