QUICK REVIEW

[논문 리뷰] Information Theoretic Counterfactual Learning from Missing-Not-At-Random Feedback

Zifeng Wang, Xi Chen|arXiv (Cornell University)|2020. 09. 06.

Domain Adaptation and Few-Shot Learning참고 문헌 37인용 수 28

한 줄 요약

이 논문은 손실이 랜덤화되지 않은(Non-randomized) 피드백(MNAR) 환경에서 관측된(사실적) 및 관측되지 않은(반사적) 결과 간의 모델 성능를 균형 있게 유지하기 위해 정보 이론적 정규화를 사용하는 RCT(임의 대조 시험)를 필요로 하지 않는 반사적 학습 프레임워크인 반사적 변동 정보 봉쇄(CVIB)를 제안한다. 정보 봉쇄의 작업 지향적 항목을 사실적 및 반사적 구성요소로 분해함으로써, CVIB는 대비 정보 손실과 신뢰도 페널티를 도입하여, RCT가 필요 없이 실제 추천 데이터셋에서 일반화 능력을 크게 향상시킨다.

ABSTRACT

Counterfactual learning for dealing with missing-not-at-random data (MNAR) is an intriguing topic in the recommendation literature since MNAR data are ubiquitous in modern recommender systems. Missing-at-random (MAR) data, namely randomized controlled trials (RCTs), are usually required by most previous counterfactual learning methods for debiasing learning. However, the execution of RCTs is extraordinarily expensive in practice. To circumvent the use of RCTs, we build an information-theoretic counterfactual variational information bottleneck (CVIB), as an alternative for debiasing learning without RCTs. By separating the task-aware mutual information term in the original information bottleneck Lagrangian into factual and counterfactual parts, we derive a contrastive information loss and an additional output confidence penalty, which facilitates balanced learning between the factual and counterfactual domains. Empirical evaluation on real-world datasets shows that our CVIB significantly enhances both shallow and deep models, which sheds light on counterfactual learning in recommendation that goes beyond RCTs.

연구 동기 및 목표

비균일한 선택 정책으로 인해 편향이 발생하는 실세계 추천 시스템에서 손실이 랜덤화되지 않은(MNAR) 피드백 문제를 해결한다.
편향 없는 반사적 평가를 위해 전통적으로 필요로 하지만 구현 비용이 매우 높아 실용적이지 않은 랜덤화 대조 시험(RCT)의 비현실성을 해결한다.
사실적 및 반사적 영역 모두에 대해 정보가 풍부한 표현 학습 방법을 개발하여 관측되지 않은(반사적) 결과로의 일반화 능력을 높인다.
외부에서 편향 없는 데이터 수집에 의존하는 기존의 성향 점수 및 도메인 적응 방법에 대한 이론적으로 타당한 RCT를 필요로 하지 않는 대안을 제공한다.

제안 방법

작업 지향적 상호정보량 항목을 사실적 및 반사적 구성요소로 분할하여 변동 정보 봉쇄(VIB) 프레임워크를 확장한다.
사실적 및 반사적 결과 모두에 대해 동일하게 정보가 풍부한 표현이 되도록 유도하기 위해 대비 정보 정규화를 도입한다.
특히 관측된 사례에서 예측에 대한 과도한 확신을 방지하기 위해 출력 신뢰도 페널티를 통합한다.
변동 추론을 사용하여 최종 CVIB 목적 함수를 최적화함으로써, RCT에 접근할 수 없는 MNAR 데이터에서 엔드 투 엔드 학습이 가능하게 한다.
기존 IB 라그랑주안을 사실적 및 반사적 항목으로 분해하여 관측된 피드백과 관측되지 않은 피드백 간의 상호 갈등을 명시적으로 모델링한다.
관측된 결과와 관측되지 않은 결과 간의 표현 품질 격차를 최소화하기 위해 대비 손실을 사용하여 균형 잡힌 일반화를 촉진한다.

실험 결과

연구 질문

RQ1편향 없는 데이터 수집을 위해 고비용의 랜덤화 대조 시험(RCT)이 필요 없이도 추천 시스템에서 효과적인 반사적 학습을 달성할 수 있는가?
RQ2MNAR 피드백 환경에서 관측된(사실적) 결과와 관측되지 않은(반사적) 결과 간의 모델 성능를 어떻게 균형 있게 유지할 수 있는가?
RQ3관측되지 않은 피드백의 진정한 레이블에 접근할 수 없는 상황에서 반사적 결과로의 일반화를 향상시키기 위해 어떤 정보 이론적 정규화 기법을 사용할 수 있는가?
RQ4실제 데이터셋에서 기존의 RCT에 의존하는 방법과 비교해 볼 때, 제안된 CVIB 프레임워크는 공정성, 정확도 및 강건성 측면에서 어떻게 성능을 내는가?

주요 결과

제안된 CVIB 프레임워크는 RCT가 필요 없이 얕은 모델과 깊은 모델 모두에서 모델 일반화 능력을 크게 향상시킨다.
실증적 평가 결과, 대비 정보 항목 계수 α를 증가시키면 테스트 AUC가 향상되어, 이 항목이 사실적 및 반사적 학습 간 균형을 이루는 데 기여하는 것으로 확인된다.
출력 신뢰도 페널티 γ는 과적합과 과소적합을 방지하는 데 도움이 되지만, 정확도 지표에 대한 영향은 다소 미미하다.
YAHOO 데이터셋에서는 MSE가 높게 나타났지만, NCF-CVIB는 가장 높은 AUC를 기록하여, 실세계 추천 작업에서는 순위 정확도(AUC)가 회귀 정확도(MSE)보다 우선시됨을 보여준다.
이 방법은 사실적 및 반사적 영역 간의 균형 잡힌 정보성 향상을 유도함으로써 MNAR 환경에서 정책 편향을 효과적으로 완화한다.
RCT 기반 탈편향 방법에 대한 실용적인 대안을 제공하여, 자원 제약이 있는 실세계 환경에서도 강건한 반사적 학습을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.