Skip to main content
QUICK REVIEW

[논문 리뷰] InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective

Boxin Wang, Shuohang Wang|arXiv (Cornell University)|2020. 10. 05.
Topic Modeling참고 문헌 43인용 수 61
한 줄 요약

InfoBERT는 두 가지 상호 정보 기반 정규화 기법—Information Bottleneck와 Anchored Feature—를 도입하여 사전 학습된 언어 모델을 텍스트 공격에 대한 강건성으로 미세 조정하고, NLI와 QA에서 정상 정확도를 희생하지 않으면서 최첨단 강건 정확도를 달성한다.

ABSTRACT

Large-scale language models such as BERT have achieved state-of-the-art performance across a wide range of NLP tasks. Recent studies, however, show that such BERT-based models are vulnerable facing the threats of textual adversarial attacks. We aim to address this problem from an information-theoretic perspective, and propose InfoBERT, a novel learning framework for robust fine-tuning of pre-trained language models. InfoBERT contains two mutual-information-based regularizers for model training: (i) an Information Bottleneck regularizer, which suppresses noisy mutual information between the input and the feature representation; and (ii) a Robust Feature regularizer, which increases the mutual information between local robust features and global features. We provide a principled way to theoretically analyze and improve the robustness of representation learning for language models in both standard and adversarial training. Extensive experiments demonstrate that InfoBERT achieves state-of-the-art robust accuracy over several adversarial datasets on Natural Language Inference (NLI) and Question Answering (QA) tasks. Our code is available at https://github.com/AI-secure/InfoBERT.

연구 동기 및 목표

  • 텍스트 공격에 대한 대규모 사전 학습 언어 모델의 강건한 미세 조정을 촉진한다.
  • 로컬(단어 수준) 및 글로벌(문장 수준) 표현을 다듬기 위한 정규화 규칙이 포함된 정보 이론적 프레임워크를 제안한다.
  • 이론적으로 강건성 개선을 분석하고, NLP 태스크 전반에 걸친 적대적 데이터셋으로 실증적으로 검증한다.

제안 방법

  • Input과 로컬 표현 간의 잡음이 많은 상호 정보(mutual information)를 억제하기 위해 Information Bottleneck (IB) 정규화를 제안하고, 다운스트림 태스크를 위한 근사적 최소 충분 통계치를 얻는다.
  • 토큰 수준 특징의 고차원을 처리하기 위해 시퀀스 길이에 따라 확장되는 로컬화된 IB 목적 함수를 도입한다.
  • 지역적 안정 특징을 식별하고 이를 전역 문장 표현과 정렬하기 위한 Anchored Feature 정규화를 제안하여 강건성을 향상시킨다.
  • 적대적 섭동(one-step PGD-like)을 활용하여 비강건하고 쓸모없는 로컬 특징을 식별하고, Algorithm 1을 통해 로컬 앵커링 특징을 선택한다.
  • I(Y;T)를 결합하고 로컬 특징에 대한 I(X_i;T_i)에 대한 페널티와 앵커된 특징을 전역 표현에 연결하는 MI 기반 항을 결합한 최종 목표를 구성하며, InfoNCE를 실현 가능한 하한으로 사용한다.

실험 결과

연구 질문

  • RQ1정보 이론적 정규화가 텍스트 기반 적대적 공격하에서 사전 학습된 언어 모델의 강건성을 어떻게 향상시킬 수 있는가?
  • RQ2로컬(단어 수준) 및 글로벌(문장 수준) 표현이 적대적 조작에 저항하기 위해 조정된 정규화의 혜택을 받는가?
  • RQ3IB 기반 정규화와 결합된 적대적 학습이 벤ign 정확도를 유지하면서 강건성을 더 높일 수 있는가?

주요 결과

  • InfoBERT는 강력한 Baselines와 비교했을 때 적대적 NLI 및 QA 벤치마크에서 강건 정확도에 상당한 개선을 보여준다.
  • Information Bottleneck 정규화는 잡음 정보를 가지치하는 데 도움을 주고, 표준 및 적대적 학습 모두에서 강건성을 지원한다.
  • Local Anchored Feature 정규화는 로컬 특징을 선택하고 이를 global 표현과 정렬하여 강건성에 크게 기여한다.
  • 적대적 학습과 InfoBERT의 결합은 각 방법만 사용할 때보다 더 나은 강건성을 보이며, 이론적 강건성 한계와 일치한다.
  • InfoBERT는 NLI 및 QA를 위한 여러 적대적 데이터셋에서 최첨단 강건 정확도를 달성하면서 정상 정확도를 유지하고 일부 기초 모델에 비해 학습 시간을 단축한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.