QUICK REVIEW

[논문 리뷰] From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood

Kelvin Guu, Panupong Pasupat|arXiv (Cornell University)|2017. 04. 25.

Topic Modeling참고 문헌 38인용 수 41

한 줄 요약

이 논문은 간접 지도 학습 하에서 신경 구문 분석을 향상시키기 위해 강화 학습(RL)과 최대 경계 가능성 최대화(MML)를 융합하는 새로운 학습 알고리즘 RandoMer를 제안한다. 탐색을 위한 랜덤화된 빔 서치와 정확한 프로그램에 대해 공정하게 가중치를 부여하는 β-민주적 기울기 갱신 방식을 결합함으로써, 유사한 프로그램에 대한 과적합을 크게 줄이고 SCONE 벤치마크에서 최신 기술 수준 성능을 달성하여 가장 도전적인 영역에서 정확도를 30퍼센트 이상 향상시켰다.

ABSTRACT

Our goal is to learn a semantic parser that maps natural language utterances into executable programs when only indirect supervision is available: examples are labeled with the correct execution result, but not the program itself. Consequently, we must search the space of programs for those that output the correct result, while not being misled by spurious programs: incorrect programs that coincidentally output the correct result. We connect two common learning paradigms, reinforcement learning (RL) and maximum marginal likelihood (MML), and then present a new learning algorithm that combines the strengths of both. The new algorithm guards against spurious programs by combining the systematic search traditionally employed in MML with the randomized exploration of RL, and by updating parameters such that probability is spread more evenly across consistent programs. We apply our learning algorithm to a new neural semantic parser and show significant gains over existing state-of-the-art results on a recent context-dependent semantic parsing task.

연구 동기 및 목표

직접 지도 학습이 불가능한 상황, 즉 정답 프로그램가 아니라 정확한 실행 결과만 제공되는 환경에서 구문 분석기를 학습하는 문제를 해결하기 위해.
오류가 있는 프로그램이 우연히 정확한 출력을 내는 '유사한 프로그램' 문제를 해결하기 위해 탐색과 기울기 갱신 방식을 개선함으로써.
강화 학습과 최대 경계 가능성 최대화(MML)의 목표를 통합하고 그 강점을 융합함으로써 두 기법을 연결하기 위해.
스택 기반 프로그래밍 언어로 프로그램을 생성하는 신경 구문 분석기를 개발하여 맥락 의존적 언어 현상(예: 생략, 지시어 등)을 효과적으로 처리하기 위해.
유사한 프로그램에 대한 과적합을 줄임으로써 SCONE 데이터셋에서 특히 도전적인 영역에서 최신 기술 수준의 성능을 달성하기 위해.

제안 방법

시스템적 빔 서치(정확한 프로그램 탐색에 유용함)와 랜덤화된 비정책 탐색(강화 학습에서 유래함)을 융합한 랜덤화된 빔 서치를 제안함으로써, 작은 빔 크기나 나쁜 초기화 조건에서도 정확한 프로그램을 효과적으로 발견할 수 있도록 탐색 능력을 향상시킴.
모든 정확한 출력을 생성하는 프로그램이 동일하게 기울기 갱신에 기여하도록 하는 β-민주적 기울기 갱신 규칙을 도입함으로써, 낮은 초기 확률을 가졌지만 유사한 프로그램에 대한 과적합을 줄임.
강화 학습과 MML의 목적 함수가 밀접하게 관련되어 있음을 증명함으로써, 강화 학습의 탐색 전략 및 분산 감소 기법을 직접 MML에 적용할 수 있도록 연결함.
스택 기반 프로그래밍 언어로 프로그램을 출력하는 신경 모델을 사용함으로써, 생략, 지시어 등 맥락 의존적 언어 현상을 효과적으로 처리할 수 있도록 설계함.
골드 프로그램이 필요 없이도 모델을 훈련시킬 수 있도록 경계 가능성 추정을 사용함으로써, 가능한 모든 프로그램 중에서 정확한 출력을 관측할 확률을 최대화함.
일관된 프로그램 간의 확률 할당을 균일하게 유지하기 위해 기울기 갱신에 지수 평균화를 적용함으로써, 유사한 해법에 대한 강건성을 향상시킴.

실험 결과

연구 질문

RQ1강화 학습의 탐색 전략과 MML의 체계적 탐색 전략을 융합함으로써, 간접 지도 학습 하에서 정확한 프로그램을 더 잘 발견할 수 있는가?
RQ2기울기 갱신 방식을 어떻게 수정하면, 우연히 정확한 출력을 내는 유사한 프로그램에 과적합되는 것을 줄일 수 있는가?
RQ3모든 정확한 프로그램이 동일하게 기울기 기여를 하도록 하는 β-민주적 갱신 규칙이, 기존의 표준 MML 또는 RL 목표 함수에 비해 일반화 성능을 얼마나 향상시키는가?
RQ4RandoMer로 훈련된 신경 구문 분석기가 SCONE와 같은 맥락 의존적 구문 분석 벤치마크에서 기존 최신 기술 수준의 모델을 초월할 수 있는가?
RQ5랜덤화된 빔 서치와 민주적 갱신 방식의 통합이, 표준 RL 또는 MML 기반 모델에 비해 더 강건하고 일반화 능력이 뛰어난 프로그램 생성을 이끌 수 있는가?

주요 결과

RandoMer는 SCONE 데이터셋에서 표준 강화 학습 및 최대 경계 가능성 최대화 기반 모델보다 유의미하게 뛰어난 성능을 보이며, 세 영역 모두에서 새로운 최신 기술 수준 성능을 달성함.
SCONE의 가장 도전적인 영역에서 RandoMer는 Long 등(2016)의 이전 최신 기술 수준 모델 대비 정확도를 30퍼센트 이상 향상시킴.
β-민주적 갱신 규칙은 초기 확률이 낮은 프로그램일지라도 정확한 프로그램이면 동일하게 기울기 갱신에 기여하도록 하여, 유사한 프로그램에 대한 과적합을 효과적으로 줄임.
랜덤화된 빔 서치는 탐색 능력을 향상시켜, 정책 분포가 피크를 이루거나 빔 크기가 작은 조건에서도 정확한 프로그램을 발견할 수 있도록 함.
골드 프로그램이나 레이블된 시퀀스의 사전 훈련이 필요 없이도 강력한 성능을 달성하여, 약한 지도 학습 환경에 적합한 구문 분석 기법임.
체계적 탐색과 랜덤 탐색의 조합은 각각의 방법만 사용할 때보다 더 신뢰성 있고 일반화 능력이 뛰어난 프로그램 생성을 가능하게 함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.