QUICK REVIEW

[논문 리뷰] PECOS: Prediction for Enormous and Correlated Output Spaces

Hsiang‐Fu Yu, Kai Zhong|arXiv (Cornell University)|2020. 10. 12.

Topic Modeling참고 문헌 26인용 수 28

한 줄 요약

PECOS는 거대하고 상관관계가 있는 출력 공간에서 극단적 다중라벨 순위매기기 위한 모듈식 기계학습 프레임워크로, 세 단계 접근 방식(세분적 인덱싱, 학습된 매칭, 최종 순위매기기)을 사용한다. 280만 개 레이블에서 54.2%의 정밀도@1을 기록하며 최신 기술 수준의 정확도를 달성하지만, 선형 매칭기보다 100배 높은 학습 비용을 수반하여 성능과 효율성 사이의 상호 교환 가능성을 제시한다.

ABSTRACT

Many large-scale applications amount to finding relevant results from an enormous output space of potential candidates. For example, finding the best matching product from a large catalog or suggesting related search phrases on a search engine. The size of the output space for these problems can range from millions to billions, and can even be infinite in some applications. Moreover, training data is often limited for the long-tail items in the output space. Fortunately, items in the output space are often correlated thereby presenting an opportunity to alleviate the data sparsity issue. In this paper, we propose the Prediction for Enormous and Correlated Output Spaces (PECOS) framework, a versatile and modular machine learning framework for solving prediction problems for very large output spaces, and apply it to the eXtreme Multilabel Ranking (XMR) problem: given an input instance, find and rank the most relevant items from an enormous but fixed and finite output space. We propose a three phase framework for PECOS: (i) in the first phase, PECOS organizes the output space using a semantic indexing scheme, (ii) in the second phase, PECOS uses the indexing to narrow down the output space by orders of magnitude using a machine learned matching scheme, and (iii) in the third phase, PECOS ranks the matched items using a final ranking scheme. The versatility and modularity of PECOS allows for easy plug-and-play of various choices for the indexing, matching, and ranking phases. We also develop very fast inference procedures which allow us to perform XMR predictions in real time; for example, inference takes less than 1 millisecond per input on the dataset with 2.8 million labels. The PECOS software is available at https://libpecos.org.

연구 동기 및 목표

대부분의 레이블에 학습 인스턴스가 매우 적은 극단적 다중라벨 순위매기기에서의 데이터 희소성 문제를 해결하기 위해.
레이블 간의 의미적 상관관계를 활용하여 긴 꼬리 항목의 일반화 성능을 향상시키기 위해.
학습 비용과 예측 정확도 사이의 다양한 조정이 가능한 확장성 있고 모듈식 프레임워크를 설계하기 위해.
최대 280만 개 레이블을 가진 데이터셋에서 실시간 추론을 가능하게 하기 위해.
구조적 모델링을 통해 유한하거나 잠재적으로 무한한 출력 공간을 모두 지원하기 위해.

제안 방법

PECOS는 세 단계 파이프라인을 사용한다: (1) 관련성이 높은 레이블을 클러스터로 묶는 세분적 인덱싱, (2) 관련 클러스터를 식별하는 학습된 매칭 모듈, (3) 매칭된 클러스터 내에서 항목을 점수화하는 최종 순위매기기 모듈.
세분적 인덱싱 단계에서는 임베딩을 사용해 레이블을 클러스터링함으로써 각 클러스터의 학습 인스턴스 수를 늘리고 데이터 희소성을 줄인다.
매칭 단계에서는 재귀적 기계학습을 적용한다: 선형 매칭기 또는 트랜스포머 인코더 기반의 딥 네트워크 매칭기 중 선택 가능.
재귀적 매칭기는 입력 및 레이블 임베딩을 계층적으로 처리하여 효율성과 일반화 성능을 향상시킨다.
인덱싱, 매칭, 순위매기기 모듈에 대해 플러그-앤플레이 컴포넌트를 지원하여 구성의 유연성을 확보한다.
추론은 속도 최적화를 통해 구현되었으며, 280만 개 레이블을 가진 데이터셋에서 입력당 1ms 미만의 예측 시간을 달성했다.

실험 결과

연구 질문

RQ1세분적 인덱싱과 계층적 매칭은 극단적 다중라벨 순위매기기에서 데이터 희소성을 줄이는가?
RQ2대규모 데이터셋에서 재귀적 선형 매칭기와 신경 매칭기의 정확도와 학습 비용은 어떻게 비교되는가?
RQ3PECOS는 수백만 개 레이블을 가진 데이터셋에서 실시간 추론을 수행할 수 있는가?
RQ4딥 네트워크 매칭기와 선형 매칭기 사용 시 정확도와 학습 시간 간의 상호 교환 관계는 어떠한가?
RQ5PECOS는 무한하거나 생성적 출력 공간을 처리하는 데 확장 가능한가?

주요 결과

아마존-3M 데이터셋(280만 개 레이블)에서 재귀적 트랜스포머 매칭기는 54.2%의 정밀도@1을 기록하며 선형 매칭기의 48.6%보다 6%p 높은 성능을 보였다.
재귀적 트랜스포머 매칭기는 선형 매칭기 대비 약 100배 높은 학습 시간을 요구하여 성능-비용 간의 상호 교환 관계를 명확히 드러냈다.
280만 개 레이블을 가진 데이터셋에서 추론은 입력당 1밀리초 미만으로 완료되어 실시간 추론 능력을 입증했다.
위키-500K(501,000개 레이블)에서 프레임워크는 클러스터링을 통해 데이터 희소성을 감소시켰으며, 100개 이상의 학습 인스턴스를 가진 클러스터 비율을 99% 이상으로 끌올렸다.
XR-LINEAR 버전은 낮은 학습 비용과 빠른 추론을 통해 높은 효율성을 달성했고, XR-TRANSFORMER는 더 높은 계산 비용을 감수하면서 최신 기술 수준의 정확도를 제공했다.
PECOS 소프트웨어는 오픈소스로 공개되었으며, 커뮤니티의 활용과 확장 지원을 위해 https://libpecos.org 에서 이용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.