QUICK REVIEW

[논문 리뷰] CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary Representations From Characters

Hicham El Boukkouri, Olivier Ferret|arXiv (Cornell University)|2020. 10. 20.

Topic Modeling참고 문헌 32인용 수 28

한 줄 요약

CharacterBERT는 서브워드 토크나이제이션 대신 문자 수준의 CNN을 사용하여 단어 수준의 오픈 뷰어포지션 표현을 생성하는 BERT의 변종을 제안한다. 이는 사전에 정의된 워드피ece 어휘에 의존하지 않고도 의료 NLP 작업에서 성능과 내성성을 향상시킨다. 이는 전문화된 의료 벤치마크에서 BERT를 능가하며 철자 오류에 더 강건한 성능을 보인다.

ABSTRACT

Due to the compelling improvements brought by BERT, many recent representation models adopted the Transformer architecture as their main building block, consequently inheriting the wordpiece tokenization system despite it not being intrinsically linked to the notion of Transformers. While this system is thought to achieve a good balance between the flexibility of characters and the efficiency of full words, using predefined wordpiece vocabularies from the general domain is not always suitable, especially when building models for specialized domains (e.g., the medical domain). Moreover, adopting a wordpiece tokenization shifts the focus from the word level to the subword level, making the models conceptually more complex and arguably less convenient in practice. For these reasons, we propose CharacterBERT, a new variant of BERT that drops the wordpiece system altogether and uses a Character-CNN module instead to represent entire words by consulting their characters. We show that this new model improves the performance of BERT on a variety of medical domain tasks while at the same time producing robust, word-level and open-vocabulary representations.

연구 동기 및 목표

일반 도메인 워드피스 어휘가 의료와 같이 전문화된 도메인에서는 도메인 특화 용어를 효과적으로 포착하지 못할 수 있는 한계를 해결하기 위해.
서브워드 토크나이제이션에 의존하지 않고 단어 수준의 문맥적 표현을 생성하는 BERT의 변종을 개발하여 모델 설계와 해석을 단순화하기 위해.
문자 기반 표현 학습이 철자 오류에 대한 내성성을 향상시키고 표준 BERT보다 전문화된 도메인에서 더 높은 성능을 내는지 평가하기 위해.
NLP 커뮤니티의 재현 가능성을 보장하기 위해 사전 학습된 모델과 코드를 공개하기 위해.

제안 방법

각 토큰의 개별 문자를 처리하여 문맥화된 단어 표현을 생성하는 Character-CNN 모듈로 BERT의 워드피스 임베딩 레이어를 대체한다.
입력 임베딩 구성 요소만 교체하고, 동일한 Transformer 인코더 아키텍처를 유지하여 주목적 메커니즘과 다층 자기주의 주목적을 그대로 보존한다.
BERT와 유사하게 마스크된 언어 모델링과 다음 문장 예측을 사용하여 대규모 의료 텍스트 코퍼스(MIMIC-III 및 PMC OA)에서 사전 학습한다.
임상 텍스트 유사도, 자연어 추론, 명명된 실체 인식과 같은 후행 의료 NLP 작업에서 모델을 미세 조정한다.
평가 중에 노이즈 증강을 적용하여 단일 문자 오류(예: 치환, 삽입, 삭제, 교환)를 도입하여 내성성을 테스트한다.
여러 실행에 걸쳐 CharacterBERT와 BERT 간 성능 차이의 통계적 유의성을 평가하기 위해 거의 확률적 순서(ASO) 테스트를 수행한다.

실험 결과

연구 질문

RQ1일반 도메인 워드피스 어휘의 사용이 생물의학과 같이 전문화된 도메인에서 최적화되지 않는가?
RQ2문자 수준의 표현 체계가 도메인 특화 NLP 작업에서 서브워드 토크나이제이션보다 더 높은 성능을 낼 수 있는가?
RQ3워드피스 토크나이제이션을 문자 수준 인코딩으로 대체하면 의료 텍스트의 철자 오류에 대한 내성성이 향상되는가?
RQ4단어 수준에서 작동하도록 모델의 입력 표현을 단순화함으로써 BERT 수준의 성능을 유지할 수 있는가?

주요 결과

CharacterBERT는 ClinicalSTS, MEDNLI, NER를 포함한 모든 평가된 의료 NLP 작업에서 BERT를 능가하며, 거의 확률적 순서(ASO) 테스트를 통해 통계적으로 유의미한 향상을 확인했다.
MEDNLI 벤치마크에서 CharacterBERT medical은 F1 스코어 86.3을 기록하여 BERT medical(85.8)을 능가했으며, 40%의 테스트 세트 노이즈 조건에서 5포인트의 우위를 보였다.
40%의 테스트 세트 노이즈 조건에서 CharacterBERT는 BERT보다 F1 점수에서 5포인트의 우위를 유지하여 철자 오류에 대한 뛰어난 내성성을 입증했다.
희귀어나 도메인 특화 용어에 대해 워드피스 분할을 줄였는데, 일반 도메인 어휘에 의해 분할된 토큰 비율은 13%에 불과했으며, BERT의 경우 이 비율이 더 높았다.
CharacterBERT의 사전 학습은 BERT보다 느리지만, 미세 조정 및 추론 시간은 유사하거나 약간 더 빠르며, 실용적인 구현에 적합하다.
BLUE 벤치마크에서 최고 성능을 기록했으며, 의료 전용 버전에서 가장 뛰어난 결과를 보여, 도메인 특화 환경에서의 효과성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.