QUICK REVIEW
[논문 리뷰] BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model
Alex Wang, Kyunghyun Cho|arXiv (Cornell University)|2019. 02. 11.
Topic Modeling참고 문헌 23인용 수 141
한 줄 요약
논문은 BERT를 마르코프 랜덤 필드 언어 모델로 재구성하고 문장 생성을 위한 Gibbs 샘플링 절차를 도출하여, BERT가 좌→우 방향 모델보다 유창하면서도 더 다양한 텍스트를 생성할 수 있음을 보여주되 품질에 약간의 trade-off가 있다.
ABSTRACT
We show that BERT (Devlin et al., 2018) is a Markov random field language model. This formulation gives way to a natural procedure to sample sentences from BERT. We generate from BERT and find that it can produce high-quality, fluent generations. Compared to the generations of a traditional left-to-right language model, BERT generates sentences that are more diverse but of slightly worse quality.
연구 동기 및 목표
- BERT의 표준 양방향 사전학습 그 이상에서의 샘플링 및 생성 동기를 부여한다.
- pseudo log-likelihood 학습으로 BERT를 MRF-LM으로 형식화한다.
- BERT에서 문장을 생성하기 위해 Gibbs 샘플링 및 다른 MCMC 기법을 제안한다.
- 다양성 대비 품질의 trade-off를 BERT 기반 생성에서 평가한다.
- BERT 기반 생성 실험을 가능하게 하는 실용적 가이드와 코드를 제공한다.
제안 방법
- 토큰 변수의 완전 연결 그래프 X를 정의하고 전체 그래프 클리크 포텐셜을 각 토큰의 로그 포텐셜의 곱으로 분해한다.
- 마스킹된 토큰이 있을 때 모든 다른 토큰에 의존하는 로그 포텐셜을 사용하여 softmax 정규화가 있는 조건부 p(x_t|X_{ackslash t})를 가능하게 한다.
- 트랙터블한 공동 정규화가 불가능한 것을 피하기 위해 PLL 학습을 채택하고, 나머지 토큰을 고려했을 때 각 토큰의 기대 로그 확률을 최대화한다.
- 마스킹하고 예측할 토큰 위치를 샘플링하는 등의 확률적 PLL 추정을 구현하여 denoising autoencoder와 관련된 방법을 활용한다.
- 무작위 위치를 순차적으로 마스킹하고 p(x_t|X_{ackslash t})에서 토큰을 샘플링한 뒤 시퀀스를 업데이트하는 Gibbs 샘플링 기반 생성을 개발한다.
- 순차적 및 비순차적(left-to-right) 샘플링 방식과 실용적 선택(예: top-k=100 제안) 등을 설명한다.
- 자동 메트릭(예: corpus-BLEU, perplexity)과 인간의 유창성 판단을 통해 BERT 기반 생성과 GPT를 비교한다.

실험 결과
연구 질문
- RQ1BERT를 샘플링 가능한 tractable한 절차를 가진 마코프 랜덤 필드 언어 모델로 해석할 수 있는가?
- RQ2BERT 기반 생성은 품질과 다양성 측면에서 좌→우 모델과 어떻게 비교되는가?
- RQ3Bidirectional 모델인 BERT에서 텍스트를 생성하기 위한 효과적인 샘플링 전략(Gibbs, 순차적)은 무엇인가?
- RQ4PLL 기반 학습이 BERT를 MRF-LM으로 학습하고 샘플링하는 데 어떤 제약이나 가능성을 제공하는가?
주요 결과
- BERT는 MRF-LM으로 취급될 수 있으며, 추가 학습 없이 Gibbs 샘플링 생성 절차를 가능하게 한다.
- BERT에서 샘플링한 문장은 유창하고 대체로 잘 구성되며 GPT 기반 생성보다 더 다양한 텍스트를 생성한다.
- GPT에 비해 BERT 생성은 더 다양하지만 자동 지표 및 인간의 유창성 판단에 의해 때때로 품질이 약간 낮은 편이다.
- perplexity와 n-gram 다양성에서 도메인 관련 차이가 관찰되어 도메인 시프트가 BERT 생성 텍스트의 외부 언어 모델 평가에 영향을 준다.
- BERT 기반 생성은 참조 코퍼스와의 n-그램 중복이 더 낮아 GPT 및 데이터 분포에 비해 더 높은 다양성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.