QUICK REVIEW

[논문 리뷰] Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information

Seonhoon Kim, In-Ho Kang|arXiv (Cornell University)|2018. 05. 29.

Topic Modeling참고 문헌 35인용 수 40

한 줄 요약

논문은 외부 지식 없이도 여러 벤치마크에서 최첨단 성능을 달성하는 시맨틱 문장 매칭을 위한 밀집 연결 순환 및 상호 주의 네트워크 DRCN을 소개한다. 자동 인코더 병목을 사용하여 특징 성장(Feature growth)을 제어한다.

ABSTRACT

Sentence matching is widely used in various natural language tasks such as natural language inference, paraphrase identification, and question answering. For these tasks, understanding logical and semantic relationship between two sentences is required but it is yet challenging. Although attention mechanism is useful to capture the semantic relationship and to properly align the elements of two sentences, previous methods of attention mechanism simply use a summation operation which does not retain original features enough. Inspired by DenseNet, a densely connected convolutional network, we propose a densely-connected co-attentive recurrent neural network, each layer of which uses concatenated information of attentive features as well as hidden features of all the preceding recurrent layers. It enables preserving the original and the co-attentive feature information from the bottommost word embedding layer to the uppermost recurrent layer. To alleviate the problem of an ever-increasing size of feature vectors due to dense concatenation operations, we also propose to use an autoencoder after dense concatenation. We evaluate our proposed architecture on highly competitive benchmark datasets related to sentence matching. Experimental results show that our architecture, which retains recurrent and attentive features, achieves state-of-the-art performances for most of the tasks.

연구 동기 및 목표

두 문장 간의 시맨틱 이해를 개선하여 자연어 추론, 패러프레이즈 식별, 정답 선택과 같은 작업에서의 성능 향상을 목표로 한다.
깊고 밀집 연결된 순환 아키텍처를 제안하여 층 간에 순환 특징과 공동 주의 특징을 모두 보존한다.
문장 간 rich한 상호 작용을 유지하기 위해 합성(concatenation)을 통해 공동 주의 정보를 포함한다.
오토인코더 병목을 사용해 특징 확장을 제어하고 모델 크기를 관리하면서 정보를 보존한다.

제안 방법

학습 가능한 단어 임베딩과 고정 임베딩을 연결하고 문자 수준의 CNN 특징 및 exact-match 플래그를 더해 단어 표현을 구축한다.
모든 앞선 층의 출력을 연결하는 밀집 연결을 가진 BiLSTM 기반 RNN 층을 쌓는다.
문장 표현 간의 코사인 유사도 기반 주의를 통해 공동 주의 컨텍스트 벡터를 계산하고 이를 밀집 연결으로 융합한다.
밀집 연결된 순환 및 공동 주의 특징에 대해 단계적 최대풀링을 적용하여 고정 길이의 문장 표현을 얻는다.
문장 표현을 상호작용(p, q, p+q, p−q, |p−q|)과 함께 결합하고 두 개의 밀집 층을 거쳐 분류를 수행하며, 교차 엔트로피 손실과 오토인코더 재구성 손실로 학습한다.
dense한 특징 세트를 압축하고 학습을 정규화하기 위해 오토인코더를 병목으로 사용한다.

실험 결과

연구 질문

RQ1밀집 연결 순환 및 공동 주의 정보가 더 깊은 구조보다 시맨틱 문장 매칭을 어떻게 개선할 수 있는가?
RQ2밀집 연결을 통한 원래 특징과 공동 주의 특징 모두를 보존하는 것이 깊은 RNN에서 잔차 연결보다 성능을 상향시키는가?
RQ3오토인코더 병목이 여러 문장-쌍 작업에서 성능을 유지하거나 향상시키면서 특징 성장을 효과적으로 조절할 수 있는가?
RQ4학습 가능한 임베딩과 고정 임베딩의 혼합이 전체 성능에 미치는 영향은 무엇인가?

주요 결과

DRCN은 외부 맥락화된 단어 표현 없이도 SNLI 및 MultiNLI에서 경쟁력 있거나 최첨단 정확도를 달성한다.
Ensemble DR CN은 보고된 결과에서 SNLI에서 90.1%를 달성하여 외부 지식 없이도 여러 베이스라인을 넘어선다.
DRCN은 Quora 패러프레이즈 식별에서 강력한 결과를 내며(MAP 0.804, MRR 0.862; 앙상블 0.830, 0.908) TrecQA 및 SelQA의 답변 문장 선택에서 새로운 최첨단을 기록한다.
밀집 연결과 주의 정보가 성능에 결정적이며, 주의가 시맨틱 매칭에 크게 기여한다는 점이 확인된다.
ELMo 또는 맥락화된 임베딩을 도입하면 MultiNLI에서의 성능이 추가로 향상되어 DRCN과의 상보적 이득이 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.