Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Compose Words into Sentences with Reinforcement Learning

Dani Yogatama, Phil Blunsom|arXiv (Cornell University)|2016. 11. 28.
Topic Modeling참고 문헌 20인용 수 44
한 줄 요약

이 논문은 강화학습을 활용해 문장 표현을 위한 임베디드 트리 구조적 조합을 작업별로 학습하는 방법을 제안한다. 트리LSTM와 정책 네트워크를 결합한 구조를 사용하여 구문 분석 동작을 최적화한다. 이 방법은 감성 분석, 자연어 추론, 의미 유사도, 문장 생성 등 다양한 자연어 처리 작업에서 왼쪽에서 오른쪽으로 순차 처리하는 RNN과 구문 정보를 활용한 트리 구조 모델을 모두 능가하며, 언어적으로 직관적이지만 비표준적인 문법적 구조를 발견한다.

ABSTRACT

We use reinforcement learning to learn tree-structured neural networks for computing representations of natural language sentences. In contrast with prior work on tree-structured models in which the trees are either provided as input or predicted using supervision from explicit treebank annotations, the tree structures in this work are optimized to improve performance on a downstream task. Experiments demonstrate the benefit of learning task-specific composition orders, outperforming both sequential encoders and recursive encoders based on treebank annotations. We analyze the induced trees and show that while they discover some linguistically intuitive structures (e.g., noun phrases, simple verb phrases), they are different than conventional English syntactic structures.

연구 동기 및 목표

  • 고정된 또는 언어학적으로 주석이 달린 구조에 의존하지 않고, 작업별로 최적화된 조합 순서를 발견함으로써 문장 표현 학습을 향상시키는 것.
  • 강화학습이 전통적인 순차적 또는 구문 기반 모델보다 더 잘 일반화되는 계층적 문장 구조를 유도할 수 있는지 조사하는 것.
  • 하위 작업에서 자발적으로 발견된 트리 구조의 언어학적 타당성과 성능을 분석하는 것.
  • 학습 중에 의미적 피드백을 제공함으로써 무 supervision 문법 유도나 고정 아키텍처보다 더 효과적인 조합 아키텍처를 도출할 수 있는지 평가하는 것.

제안 방법

  • 모델는 강화학습으로 훈련된 정책 네트워크에 의해 제어되는 시프트-리덕스 파서 아키텍처를 갖춘 트리LSTM를 사용한다. 조합 동작(시프트, 리덕스)은 정책 네트워크에 의해 결정된다.
  • 정책 네트워크는 각 문장에 대해 잠재적인 파싱 트리를 구성하기 위해 동작(시프트 또는 리덕스)을 선택하며, 최종 문장 표현은 유도된 트리의 루트에서 유도된다.
  • 강화학습은 분류 작업의 정확도나 생성 작업의 퍼플렉서티와 같은 하류 작업 성능의 보상 신호를 사용하여 정책을 최적화한다.
  • 모델는 정책 기반 강화학습 방법을 사용해 엔드 투 엔드로 훈련되며, 변동하는 트리 구조로 인해 각 예제마다 계산 그래프를 재구성한다.
  • 모델는 감독 없이 트리 구조를 유추하므로 표준 영어 문법에서 벗어나 다른 조합 순서를 발견할 수 있다.
  • 이 접근법은 감성 분석, 의미 유사도, 자연어 추론, 문장 생성의 네 가지 작업에서 평가되었으며, RNN, 고정 순서 모델, 구문 정보를 활용한 모델과 비교되었다.

실험 결과

연구 질문

  • RQ1고정된 왼쪽에서 오른쪽 순서 또는 구문 주석이 달린 트리 구조보다 강화학습이 하류 자연어 처리 작업 성능을 향상시키기 위해 조합 순서를 발견할 수 있는가?
  • RQ2모델이 학습하는 문법적 구조는 무엇이며, 인간이 주석을 달린 문법 트리와 비교해 언어학적 직관성과 구조 유사도 측면에서 어떻게 다른가?
  • RQ3작업별 보상 신호를 통해 조합 순서를 학습하는 것이 무 supervision 문법 유도나 고정 아키텍처보다 더 나은 일반화 성능을 낼 수 있는가?
  • RQ4정의된 조합 순서가 있는 모델과 비교해 잠재적 문법 모델의 성능은 다양한 자연어 처리 작업에서 어떻게 나타나는가?

주요 결과

  • 잠재적 문법 모델은 감성 분석, 의미 유사도, 자연어 추론, 문장 생성의 네 가지 하류 작업 전반에서 왼쪽에서 오른쪽으로 처리하는 RNN과 구문 정보를 활용한 트리 구조 모델을 모두 능가했다.
  • SNLI 및 스탠포드 감성 트리뱅크 데이터셋에서, 유도된 트리는 각각 41.73과 40.51의 언라벨드 브라켓링 F1 점수를 기록했으며, 표준 구문 트리보다는 왼쪽으로 기울어진 구조에 더 가까웠다.
  • 모델는 'a boy', 'his sleds'와 같은 명사구나 'wearing sunglasses', 'is frowning'과 같은 간단한 동사구와 같은 언어학적으로 직관적인 구조를 발견했지만, 일부 조합은 비직관적이었다.
  • 문장 생성 작업에서 모델는 단어 퍼플렉서티 99.0을 기록했으며, 감독된 구문 모델(100.8)과 준감독된 구문 모델(98.4)을 모두 능가하여 더 나은 생성 품질을 보였다.
  • 변동하는 트리 구조로 인해 각 예제마다 그래프 재구성과 정책 기반 강화학습 샘플링이 필요해 훈련 속도가 매우 느렸으며, SNLI나 IMDB와 같은 대규모 데이터셋에서 수렴까지 3~4일이 소요되었다.
  • 명시적인 구문 감독이 없음에도 불구하고, 유도된 트리는 전반적으로 왼쪽 기울기 경향을 보였으며, 이는 왼쪽에서 오른쪽 처리를 선호하는 작업에서 뛰어난 성능을 낼 수 있었던 이유일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.