QUICK REVIEW

[논문 리뷰] InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective

Boxin Wang, Shuohang Wang|arXiv (Cornell University)|2020. 10. 05.

Topic Modeling참고 문헌 43인용 수 61

한 줄 요약

InfoBERT는 두 가지 상호 정보 기반 정규화 기법—Information Bottleneck와 Anchored Feature—를 도입하여 사전 학습된 언어 모델을 텍스트 공격에 대한 강건성으로 미세 조정하고, NLI와 QA에서 정상 정확도를 희생하지 않으면서 최첨단 강건 정확도를 달성한다.

ABSTRACT

Large-scale language models such as BERT have achieved state-of-the-art performance across a wide range of NLP tasks. Recent studies, however, show that such BERT-based models are vulnerable facing the threats of textual adversarial attacks. We aim to address this problem from an information-theoretic perspective, and propose InfoBERT, a novel learning framework for robust fine-tuning of pre-trained language models. InfoBERT contains two mutual-information-based regularizers for model training: (i) an Information Bottleneck regularizer, which suppresses noisy mutual information between the input and the feature representation; and (ii) a Robust Feature regularizer, which increases the mutual information between local robust features and global features. We provide a principled way to theoretically analyze and improve the robustness of representation learning for language models in both standard and adversarial training. Extensive experiments demonstrate that InfoBERT achieves state-of-the-art robust accuracy over several adversarial datasets on Natural Language Inference (NLI) and Question Answering (QA) tasks. Our code is available at https://github.com/AI-secure/InfoBERT.

연구 동기 및 목표

텍스트 공격에 대한 대규모 사전 학습 언어 모델의 강건한 미세 조정을 촉진한다.
로컬(단어 수준) 및 글로벌(문장 수준) 표현을 다듬기 위한 정규화 규칙이 포함된 정보 이론적 프레임워크를 제안한다.
이론적으로 강건성 개선을 분석하고, NLP 태스크 전반에 걸친 적대적 데이터셋으로 실증적으로 검증한다.

제안 방법

Input과 로컬 표현 간의 잡음이 많은 상호 정보(mutual information)를 억제하기 위해 Information Bottleneck (IB) 정규화를 제안하고, 다운스트림 태스크를 위한 근사적 최소 충분 통계치를 얻는다.
토큰 수준 특징의 고차원을 처리하기 위해 시퀀스 길이에 따라 확장되는 로컬화된 IB 목적 함수를 도입한다.
지역적 안정 특징을 식별하고 이를 전역 문장 표현과 정렬하기 위한 Anchored Feature 정규화를 제안하여 강건성을 향상시킨다.
적대적 섭동(one-step PGD-like)을 활용하여 비강건하고 쓸모없는 로컬 특징을 식별하고, Algorithm 1을 통해 로컬 앵커링 특징을 선택한다.
I(Y;T)를 결합하고 로컬 특징에 대한 I(X_i;T_i)에 대한 페널티와 앵커된 특징을 전역 표현에 연결하는 MI 기반 항을 결합한 최종 목표를 구성하며, InfoNCE를 실현 가능한 하한으로 사용한다.

실험 결과

연구 질문

RQ1정보 이론적 정규화가 텍스트 기반 적대적 공격하에서 사전 학습된 언어 모델의 강건성을 어떻게 향상시킬 수 있는가?
RQ2로컬(단어 수준) 및 글로벌(문장 수준) 표현이 적대적 조작에 저항하기 위해 조정된 정규화의 혜택을 받는가?
RQ3IB 기반 정규화와 결합된 적대적 학습이 벤ign 정확도를 유지하면서 강건성을 더 높일 수 있는가?

주요 결과

InfoBERT는 강력한 Baselines와 비교했을 때 적대적 NLI 및 QA 벤치마크에서 강건 정확도에 상당한 개선을 보여준다.
Information Bottleneck 정규화는 잡음 정보를 가지치하는 데 도움을 주고, 표준 및 적대적 학습 모두에서 강건성을 지원한다.
Local Anchored Feature 정규화는 로컬 특징을 선택하고 이를 global 표현과 정렬하여 강건성에 크게 기여한다.
적대적 학습과 InfoBERT의 결합은 각 방법만 사용할 때보다 더 나은 강건성을 보이며, 이론적 강건성 한계와 일치한다.
InfoBERT는 NLI 및 QA를 위한 여러 적대적 데이터셋에서 최첨단 강건 정확도를 달성하면서 정상 정확도를 유지하고 일부 기초 모델에 비해 학습 시간을 단축한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.