QUICK REVIEW

[논문 리뷰] Probing Biomedical Embeddings from Language Models

Qiao Jin, Bhuwan Dhingra|arXiv (Cornell University)|2019. 04. 03.

Topic Modeling참고 문헌 25인용 수 29

한 줄 요약

이 논문은 도메인 특화 언어 모델에서 유도된 생물의학적 문맥 단어 임베딩을 탐구하며, 고정된 특징 추출기로써 BioELMo와 BioBERT를 비교한다. 최적화된 BioBERT는 다운스트림 작업에서 BioELMo를 능가하지만, 탐색 작업에서는 BioELMo가 더 뛰어난 성능을 보이며, 특히 질병-증상 및 질병-약물 상호작용과 같은 생물의학적 관계와 엔티티 유형을 더 잘 캡처함을 보여준다. 이는 시각화와 최근접 이웃 분석을 통해 입증된다.

ABSTRACT

Contextualized word embeddings derived from pre-trained language models (LMs) show significant improvements on downstream NLP tasks. Pre-training on domain-specific corpora, such as biomedical articles, further improves their performance. In this paper, we conduct probing experiments to determine what additional information is carried intrinsically by the in-domain trained contextualized embeddings. For this we use the pre-trained LMs as fixed feature extractors and restrict the downstream task models to not have additional sequence modeling layers. We compare BERT, ELMo, BioBERT and BioELMo, a biomedical version of ELMo trained on 10M PubMed abstracts. Surprisingly, while fine-tuned BioBERT is better than BioELMo in biomedical NER and NLI tasks, as a fixed feature extractor BioELMo outperforms BioBERT in our probing tasks. We use visualization and nearest neighbor analysis to show that better encoding of entity-type and relational information leads to this superiority.

연구 동기 및 목표

도메인 내 문맥 임베딩인 BioELMo와 BioBERT에 내재된 내재적 정보를 이해한다.
미세조정 없이 고정된 특징 추출기로서 BioELMo와 BioBERT의 성능을 탐색 작업에서 비교한다.
도메인 특화 사전학습이 생물의학적 엔티티 유형과 관계 지식을 얼마나 잘 캡처하는지 확인한다.
BioBERT보다 더 단순한 아키텍처를 가졌음에도 불구하고 BioELMo가 고정 특징 탐색 설정에서 BioBERT를 능가하는 이유를 규명한다.
다양한 임베딩이 생물의학 분야에서 작업 관련 언어적 및 관계적 신호를 얼마나 효과적으로 캡처하는지 특성화한다.

제안 방법

1000만 개의 PubMed 초록을 사용하여 ELMo 프레임워크와 양방향 LSTMs, 가중치 학습 기능을 활용해 BioELMo를 훈련한다.
비교 대상으로 생물의학 텍스트에서 사전학습된 BERT 모델인 BioBERT를 고정된 특징 추출기로 사용한다.
두 가지 탐색 작업을 설계한다: 하나는 생물의학 NER(종단 간 스패닝 식별 및 분류)를 위한 것이고, 다른 하나는 임베딩만을 입력으로 사용하는 NLI(필수성 예측)를 위한 것이다.
근접 이웃 분석을 적용하여 동일한 엔티티 유형 또는 관계 유형의 표현이 임베딩 공간에서 얼마나 밀집되어 있는지 평가한다.
주의 메커니즘과 표현 클러스터를 시각화하여 서로 다른 모델이 엔티티 유형과 관계 정보를 어떻게 캡처하는지 비교한다.
보류된 MedNLI 테스트 세트에서의 부분 집합 정확도를 사용하여 탐색 성능를 검증하고, 근접 이웃 클러스터링과 작업 정확도 간의 상관 분석을 수행한다.

실험 결과

연구 질문

RQ1도메인 내 문맥 임베딩인 BioELMo와 BioBERT는 일반 도메인 대비 생물의학적 엔티티 유형을 얼마나 잘 캡처하는가?
RQ2BioELMo와 BioBERT에 내재된 특정 언어적 또는 관계적 정보는 고정된 특징 추출기로서의 성능 향상에 어떤 기여를 하는가?
RQ3BioBERT가 다운스트림 작업에서 더 뛰어난 성능을 보임에도 불구하고, 왜 BioELMo가 탐색 작업에서 BioBERT를 능가하는가?
RQ4다양한 임베딩이 동일한 생물의학적 관계 유형(예: 질병-증상, 질병-약물)의 표현을 임베딩 공간에서 얼마나 효과적으로 클러스터링하는가?
RQ5아키텍처(기존 LSTM 기반 ELMo 대비 트랜스포머 기반 BERT)가 생물의학 텍스트의 문맥 및 관계 정보 캡처에 어떤 영향을 미치는가?

주요 결과

BioBERT가 NER 및 NLI 작업에서 더 뛰어난 최적화 성능를 보임에도 불구하고, 고정된 특징 추출기로서의 탐색 작업에서 BioELMo는 BioBERT를 크게 능가한다.
동일한 관계 유형에 대해 BioELMo는 57.5%의 평균 근접 이웃(NN) 비율을 기록했고, BioBERT는 47.1%를 기록하여 관계 정보의 더 나은 클러스터링을 보였다.
MedNLI 테스트 세트의 부분 집합에서 BioELMo는 73.9%의 부분 집합 정확도를 기록했고, BioBERT(71.4%)와 BERT-tog(65.0%)를 모두 앞섰으며, 근접 이웃 클러스터링과 작업 정확도 간 상관관계(r=0.52)가 뚜렷했다.
시각화 결과, BioELMo는 동일한 엔티티 유형(예: 에스트로겐 수용체와 엔도플라스믹 막)의 언급을 더 잘 클러스터링하는 반면, BERT 표현은 다양한 유형으로 산산이 흩어져 있었다.
LSTM의 순환적 성질 덕분에 BioELMo는 엔티티 이름 주변의 괄호와 같은 문맥적 신호를 BERT보다 효과적으로 캡처하여 표현 학습에 영향을 미친다.
질병-증상 관계(54.2% 대비 44.5%)와 질병-약물 관계(32.8% 대비 26.1%)에서 BioELMo는 ELMo와 BioBERT 모두를 압도적으로 능가하여 우수한 관계 캡처 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.