[논문 리뷰] Sticking to the Facts: Confident Decoding for Faithful Data-to-Text Generation
논문은 주의 기반 신뢰도 점수(attention-derived confidence score)를 맞춤형 기본 언어 모델(base language model)과 변분 베이즈(training objective)와 결합하여 데이터-대-텍스트 생성에서 환각을 감소시키기 위한 인코더-디코더 모델용 신뢰 기반 디코딩 프레임워크를 도입한다.
We address the issue of hallucination in data-to-text generation, i.e., reducing the generation of text that is unsupported by the source. We conjecture that hallucination can be caused by an encoder-decoder model generating content phrases without attending to the source; so we propose a confidence score to ensure that the model attends to the source whenever necessary, as well as a variational Bayes training framework that can learn the score from data. Experiments on the WikiBio (Lebretet al., 2016) dataset show that our approach is more faithful to the source than existing state-of-the-art approaches, according to both PARENT score (Dhingra et al., 2019) and human evaluation. We also report strong results on the WebNLG (Gardent et al., 2017) dataset.
연구 동기 및 목표
- 출력물이 원본에 충실하지 않을 수 있는 데이터-대-텍스트 생성에서 환각을 유발하는 문제를 동기 부여하고 해결한다.
- 각 생성 토큰의 충실도를 판단하기 위해 주의 정보를 소스 정보와 연결하는 신뢰도 점수와 기본 언어 모델의 확률을 제시한다.
- 데이터에서 신뢰도 점수를 학습하고 학습 중에 자신감 있는 부분 시퀀스를 촉진하도록 변분 베이즈 학습 프레임워크를 개발한다.
- WikiBio 및 WebNLG에서 충실도와 유창성을 평가하고 최첨단 Baseline과 비교한다.
제안 방법
- 주의 기반 신호 A_t와 기본 언어 모델 확률 P_B(y_t | y_<t)을 결합하는 신뢰도 점수 C_t(y_t)를 정의한다.
- 분모에 상수를 정규화하여 ‘주지 않음’(not attending)을 허용하고 입력으로의 소스 정보를 제외시키도록 주의(attention)를 수정한다.
- 소스와 연결된 입력을 낮추어 부드러운 템플릿을 학습하는 Tailorable base language model RNN_B를 도입한다.
- Q(z|y,x)에서 자신감 있는 하위 시퀀스 Z를 샘플링하고 자신감 있고 충실한 토큰을 선호하는 경계를 최대화하는 변분 베이스 목적 함수를 사용하여 학습한다; 기대치를 근사하기 위해 몬테카를로 추정치를 사용한다.
- 추론 시 보정(calibration)과 <null> 토큰 메커니즘을 사용하여 재랭크하고 자신감이 없는 토큰을 억제하여 유창성을 해치지 않으면서 정확도를 향상시킨다.
실험 결과
연구 질문
- RQ1자신감 기반 디코딩 전략이 유창성을 해치지 않으면서 데이터-대-텍스트 생성의 환각을 줄일 수 있는가?
- RQ2구조화된 소스로부터의 충실한 생성을 지원하기 위해 주의 및 언어 모델링 구성 요소를 어떻게 재구성해야 하는가?
- RQ3변분 베이스 프레임워크가 데이터로부터 토큰 수준의 충실성에 대한 신뢰도 점수를 학습할 수 있는가?
- RQ4보정 및 <null> 토큰 전략이 충실도를 더 향상시키면서 유창성을 유지하거나 향상시키는가?
- RQ5출처-참조 발산이 다양한 데이터셋(WikiBio vs. WebNLG)에서 이러한 방법들이 효과적인가?
주요 결과
- 신뢰 기반 디코딩 접근법은 WikiBio 및 WebNLG 데이터셋에서 baselines에 비해 PARENT에서 충실도(정밀도) 및 F1이 더 높게 나타난다.
- 신뢰도 점수로 생성을 보정하면 토큰 선택이 향상되며 perplexity를 높이지 않고도 재현율을 향상시킬 수 있으며, 제어된 정밀도로 Recall을 증가시킬 수 있다.
- 변분 베이즈 부분 시퀀스 샘플링은 학습을 자신감 있고 소스가 지원하는 토큰에 집중시키는 반면, 기본 언어 모델은 유사한 템플릿을 학습하여 충실하지 않은 생성을 줄인다.
- 추론 시 <null> 토큰 전략과 길이 페널티는 Recall과 Precision의 균형을 돕고, 유창성의 큰 손실 없이 전체적으로 충실한 생성을 향상시킨다.
- 이 방법은 decoding 시 소스 벡터가 제거될 때 토큰 수준의 변경이 더 커지는 것을 보여주며, 소스 정보에 의존해 충실한 출력을 생성함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.