QUICK REVIEW

[논문 리뷰] Developing a Recommendation Benchmark for MLPerf Training and Inference

Carole-Jean Wu, Robin Burke|arXiv (Cornell University)|2020. 03. 16.

Recommender Systems and Techniques참고 문헌 13인용 수 22

한 줄 요약

이 논문은 MLPerf Training 및 Inference를 위한 확장 가능하고 산업적으로 유의미한 추천 벤치마크를 제안한다. 이는 다양한 모델 아키텍처, 희소성, 장꼬리 항목 분포, 다중 척도 데이터셋을 통합하여 실제 전자상거래 워크로드를 반영하도록 설계되었다. 모델과 데이터에 대한 핵심 설계 원칙을 제시하며 종단 간 CTR 및 전환율 예측을 강조하고, 지속적인 AI 시스템 및 추천 실무 발전에 대응하기 위해 연 1회 점검하는 거버넌스 프로세스를 수립한다.

ABSTRACT

Deep learning-based recommendation models are used pervasively and broadly, for example, to recommend movies, products, or other information most relevant to users, in order to enhance the user experience. Among various application domains which have received significant industry and academia research attention, such as image classification, object detection, language and speech translation, the performance of deep learning-based recommendation models is less well explored, even though recommendation tasks unarguably represent significant AI inference cycles at large-scale datacenter fleets. To advance the state of understanding and enable machine learning system development and optimization for the commerce domain, we aim to define an industry-relevant recommendation benchmark for the MLPerf Training andInference Suites. The paper synthesizes the desirable modeling strategies for personalized recommendation systems. We lay out desirable characteristics of recommendation model architectures and data sets. We then summarize the discussions and advice from the MLPerf Recommendation Advisory Board.

연구 동기 및 목표

실제 전자상거래 워크로드를 반영하는 대표성 있고 확장 가능한 추천 벤치마크를 정의하여 MLPerf Training 및 Inference에 적용한다.
다양한 지연 시간과 정확도 요구 사항을 가진 후보 생성 및 랭킹 모델을 포함한 추천 사용 사례의 다양성을 포괄한다.
희소성, 파워-법 분포, 대규모 특성 집합(최대 1억 개 카테고리)과 같은 현실적인 데이터 특성을 지원함으로써 벤치마크의 타당성을 확보한다.
딥 러닝 기반 추천의 현재 및 미래 산업 및 학술 트렌드를 반영할 수 있도록 모델 아키텍처 및 데이터셋 선택을 이끌어내는 데 목표를 둔다.
지속적인 발전에 대응하기 위해 MLPerf 추천 자문위원회를 통해 연 1회 벤치마크를 점검하고 개선하는 거버넌스 프로세스를 수립한다.

제안 방법

다양한 시스템 워크로드와 모델 용량을 반영하기 위해 소형, 중형, 대형 설정을 포함하는 다중 척도 벤치마크를 설계한다.
최대 1억 개 카테고리까지 허용하는 특성당 100~1,000개의 밀집형 및 희소형 특성을 포함하여 산업 규모의 추천 시스템을 반영한다.
실제 전산 환경의 특성을 반영하기 위해 파워-법 분포와 희소성을 고려하며, 더 현실적인 생산 환경을 반영하기 위해 Criteo Kaggle와 같은 데이터셋을 MovieLens보다 우선적으로 활용한다.
종단 간 CTR 및 전환율 예측을 지원하여 전체 추천 파이프라인의 요구 사항을 반영한다.
어텐션 레이어, 트랜스포머, RNN, 팩터리제이션 머신과 같은 고급 모델링 기법을 포함하여 현재 및 미래의 추천 아키텍처를 반영한다.
MLPerf 추천 자문위원회와 함께 연 1회 점검 프로세스를 수립하여 산업 및 학술 분야의 발전에 따라 벤치마크를 개선한다.

실험 결과

연구 질문

RQ1대규모 데이터센터 환경에서 실질적인 추천 워크로드를 가장 잘 반영하는 모델 아키텍처와 데이터 특성은 무엇인가?
RQ2지연 시간에 민감한 후보 생성에서 복잡한 랭킹 모델에 이르기까지 추천 작업의 전반적인 스펙트럼을 반영할 수 있는 벤치마크는 어떻게 설계할 수 있는가?
RQ3훈련 및 추론 워크로드의 시스템 수준 평가에 의미 있는 결과를 도출하기 위해 필요한 데이터 척도와 희소성 수준는 무엇인가?
RQ4희귀 항목이 요구하는 메모리 및 최적화 노력이 크기 때문에, 장꼬리 문제를 어떻게 벤치마크에 반영할 수 있는가?
RQ5어텐션 메커니즘, 팩터리제이션 머신, 다중 손잡이 랜덤 밴딧과 같은 신규 기법이 향후 벤치마크의 발전 방향을 어떻게 이끌어야 하는가?

주요 결과

Criteo Kaggle 데이터셋은 더 높은 희소성과 산업적 관련성 덕분에 MovieLens보다 실제 생산 환경에 더 부합한다.
모델 아키텍처는 지연 시간에 민감한 후보 생성과 높은 상호작용 복잡도를 요구하는 랭킹 모델을 모두 지원함으로써 종단 간 추천 파이프라인을 반영해야 한다.
데이터셋은 사용자 및 항목 특성, 상호작용 데이터(예: 클릭, 평점)를 포함하고, 실질적인 데이터 특성을 반영하기 위해 파워-법 분포를 따라야 한다.
벤치마크는 특성당 최대 1억 개 이상의 카테고리와 최대 100억 개의 훈련 예제를 지원하는 모델을 포함해야 하며, 이는 대규모 산업 시스템과 일치한다.
어텐션 레이어, 딥 크로스 네트워크, 페어와이즈 특성 크로싱과 같은 고급 기법의 통합은 현대 추천 시스템의 복잡성을 포괄하는 데 필수적이다.
자문위원회와 함께 연 1회 점검 프로세스를 운영하는 것이 중요하며, 이는 벤치마크가 지속적으로 변화하는 시스템 최적화 요구 사항과 새로운 연구 트렌드에 부합하도록 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.