[논문 리뷰] First Place Solution of KDD Cup 2021 OGB Large-Scale Challenge Graph-Level Track
이 논문은 KDD 컵 2021 OGB 라지스케일 챌린지 그래프 레벨 트랙에서 우승한 솔루션을 제시하며, 8중 교차검증 및 병합된 훈련/검증 세트에서의 추가 훈련을 통해 훈련된 Graphormer와 ExpC 모델을 사용한다. 최종 제출은 18개 모델의 단순 평균 앙상블을 활용하여 테스트 MAE 0.1200을 달성하였으며, 이는 1등을 차지하였다.
In this technical report, we present our solution of KDD Cup 2021 OGB Large-Scale Challenge - PCQM4M-LSC Track. We adopt Graphormer and ExpC as our basic models. We train each model by 8-fold cross-validation, and additionally train two Graphormer models on the union of training and validation sets with different random seeds. For final submission, we use a naive ensemble for these 18 models by taking average of their outputs. Using our method, our team MachineLearning achieved 0.1200 MAE on test set, which won the first place in KDD Cup graph-level track.
연구 동기 및 목표
- KDD 컵 2021 OGB 챌린지의 PCQM4M-LSC 데이터셋에 대해 강력하고 정확한 그래프 레벨 회귀 모델을 개발하기 위해.
- 고정밀도 예측을 요구하는 대규모 분자 그래프 회귀 문제에 대응하기 위해.
- 다양한 모델을 효과적으로 조합하여 테스트 세트에서 최신 기술 수준의 성능을 달성하기 위해.
- 교차검증 및 데이터 유니언 전략을 활용하여 모델의 일반화 능력을 향상시키기 위해.
제안 방법
- 저자들은 그래프 레벨 회귀를 위해 Graphormer와 ExpC를 기본 모델로 사용한다.
- 각 모델은 훈련 세트에서 8중 교차검증을 통해 훈련된다.
- 추가로 두 개의 Graphormer 모델이 서로 다른 랜덤 시드를 사용하여 훈련 세트와 검증 세트의 유니언 데이터에서 훈련된다.
- 최종 예측은 단순 앙상블 전략을 통해 18개의 서로 다른 모델 출력을 평균하여 생성된다.
- 다양한 훈련 분할 및 초기화를 통해 모델의 다양성과 견고성을 강조한다.
실험 결과
연구 질문
- RQ1Graphormer와 ExpC 모델의 조합이 대규모 분자 그래프 회귀에서 뛰어난 성능을 낼 수 있는가?
- RQ2다양한 훈련 분할 및 데이터 유니언 전략을 활용한 모델 앙상블은 일반화 능력을 얼마나 효과적으로 향상시키는가?
- RQ3교차검증 및 병합된 데이터 세트에서의 추가 훈련을 통해 얻을 수 있는 성능 향상은 어느 정도인가?
- RQ4이 설정에서 단순 평균 앙상블이 더 복잡한 앙상블 방법을 능가하는가?
주요 결과
- 제안된 앙상블 방법은 테스트 MAE 0.1200을 달성하여 KDD 컵 2021 OGB 라지스케일 챌린지에서 최고 성과를 기록하였다.
- 8중 교차검증의 사용은 다양한 데이터 분할에서의 모델 안정성과 일반화 능력을 향상시켰다.
- 훈련 세트와 검증 세트의 유니언 데이터에서 추가로 훈련된 Graphormer 모델은 성능 향상에 기여하였다.
- 18개 모델의 단순 평균 앙상블은 개별 모델을 초월하여 성능을 높였으며, 이는 이 설정에서 모델 평균화의 효과성을 입증하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.