Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Models of Interactions Across Sets

Jason Hartford, Devon R. Graham|arXiv (Cornell University)|2018. 03. 07.
Topic Modeling참고 문헌 25인용 수 52
한 줄 요약

논문은 교환 가능한 행렬/텐서에 대한 순열 등가 신경층을 도입하여 여러 집합 간의 상호 작용을 모델링하고, 확장 가능하고 귀납적 매트릭스/텐서 완성 및 강력한 교차 도메인 외삽을 가능하게 한다.

ABSTRACT

We use deep learning to model interactions across two or more sets of objects, such as user-movie ratings, protein-drug bindings, or ternary user-item-tag interactions. The canonical representation of such interactions is a matrix (or a higher-dimensional tensor) with an exchangeability property: the encoding's meaning is not changed by permuting rows or columns. We argue that models should hence be Permutation Equivariant (PE): constrained to make the same predictions across such permutations. We present a parameter-sharing scheme and prove that it could not be made any more expressive without violating PE. This scheme yields three benefits. First, we demonstrate state-of-the-art performance on multiple matrix completion benchmarks. Second, our models require a number of parameters independent of the numbers of objects, and thus scale well to large datasets. Third, models can be queried about new objects that were not available at training time, but for which interactions have since been observed. In experiments, our models achieved surprisingly good generalization performance on this matrix extrapolation task, both within domains (e.g., new users and new movies drawn from the same distribution used for training) and even across domains (e.g., predicting music ratings after training on movies).

연구 동기 및 목표

  • 교환 가능성 제약 하에서 두 개 이상의 집합(예: 사용자-아이템, 단백질-약물) 간의 상호 작용 학습을 동기 부여합니다.
  • 순열 등가(PE) 매개변수 공유 체계를 도입하여 PE를 위반하지 않으면서 최대한 표현력이 높도록 만듭니다.
  • 데이터 크기에 따라 확장 가능하고 보이지 않는 엔티티에 대한 귀납 일반화를 지원하는 아키텍처(교환 가능 행렬/텐서 계층)를 개발합니다.
  • 매트릭스 완성 벤치마크 및 교차 도메인 외삽에서의 강력한 실험적 성능을 보여줍니다.
  • 희소 입력과 대형 데이터셋에서의 부분 샘플링에 대한 실용적 고려사항을 제공합니다.

제안 방법

  • 계수 결합 계층(tied-parameter layer)을 통해 행렬 입력에 대해 순열 등가를 정의하고 강제하며, 간단하고 PE 보존 형태(Equation 3)로 축소됩니다.
  • 다채널 입력 및 채널 간 상호 작용으로 PE 계층을 일반화합니다(Equation 4).
  • 상응하는 매개변수 타이링 방식과 함께 고차원 텐서에 대한 PE 프레임워크를 확장합니다(Theorem 5.1).
  • 풀링 항목을 관찰된 엔트리들만으로 적응시켜 희소성을 처리합니다.
  • 두 가지 학습/추론 아키텍처를 제안합니다: 자기지도(Self-supervised) 교환 가능 모델과 Factorized Exchangeable Autoencoder(FEA).
  • 큰 매트릭스에서의 실용적 정규화(채널 드롭아웃) 및 부분 샘플링에 대한 전략을 논의합니다(균일 샘플링 및 조건부 샘플링).

실험 결과

연구 질문

  • RQ1뉴럴 모델에서 순열 등가성을 교환 가능 매트릭스/텐서 데이터에 대해 파라미터 수가 급증하지 않도록 어떻게 강제할 수 있을까요?
  • RQ2PE 기반 모델이 전이적 설정에서 매트릭스 완성 벤치마크에서 경쟁력 있거나 최첨단 성능을 달성하면서도 귀납적으로 작동할 수 있을까요?
  • RQ3 PE 모델은 보이지 않는 사용자/아이템에 일반화(귀납적 매트릭스 외삽) 및 심지어 다른 도메인 데이터셋(예: 영화 평점에서 음악 평점으로)까지 일반화할 수 있을까요?
  • RQ4희소성과 부분 샘플링이 교환 가능 PE 모델의 성능에 미치는 영향은 무엇이며 이를 어떻게 완화할 수 있을까요?
  • RQ5PE 프레임워크를 매트릭스에서 고차원 텐서 및 공동으로 교환 가능한 그래프와 같은 다른 구조로 확장할 수 있을까요?

주요 결과

  • 교환 가능 행렬 계층은 최소한의 구조화된 매개변수 공유를 통해 순열 등가를 보장하며 PE 함수로의 기능을 가능하게 합니다.
  • 자기지도형 교환 가능 모델은 Transductive 설정에서 MovieLens-100K에서 최첨단 성능을 달성합니다.
  • Factorized Exchangeable Autoencoder(FEA)는 귀납적 완성을 지원하고 보이지 않는 사용자/아이템에 일반화할 수 있으며 귀납 테스트에서 베이스라인을 능가합니다.
  • 메모리 제약으로 샘플링이 필요한 큰 데이터셋에서도 접근 방식이 경쟁력 있는 결과를 보이며, 조건부 샘플링이 일부 성능 회복에 도움을 줍니다.
  • 영화 평점으로 학습하고 음악 평점으로 테스트하는 경우에도 적절한 이진화/재스케일링 후 강력한 도메인 교차 외삽 성장을 보입니다.
  • 프레임워크는 고차원 텐서로 자연스러운 확장이 가능하며 매개변수 공유의 특수한 경우로 그래프 컨볼루션 아키텍처와 연결됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.