QUICK REVIEW

[논문 리뷰] HTLM: Hyper-Text Pre-Training and Prompting of Language Models

Armen Aghajanyan, Dmytro Okhonko|arXiv (Cornell University)|2021. 07. 14.

Topic Modeling참고 문헌 41인용 수 32

한 줄 요약

HTLM은 단순화된 HTML의 대규모 웹 크롤링으로 학습된 초문자하이퍼텍스트 언어 모델로, 구조화된 프롬프팅 및 자동 프롬프팅을 가능하게 한다; 이는 제로샷 프롬프팅 및 파인튜닝에서 텍스트 전용 언어모델과 동등하거나 더 우수하며, 제로샷 요약에서 최첨단 성능을 달성한다.

ABSTRACT

We introduce HTLM, a hyper-text language model trained on a large-scale web crawl. Modeling hyper-text has a number of advantages: (1) it is easily gathered at scale, (2) it provides rich document-level and end-task-adjacent supervision (e.g. class and id attributes often encode document category information), and (3) it allows for new structured prompting that follows the established semantics of HTML (e.g. to do zero-shot summarization by infilling title tags for a webpage that contains the input text). We show that pretraining with a BART-style denoising loss directly on simplified HTML provides highly effective transfer for a wide range of end tasks and supervision levels. HTLM matches or exceeds the performance of comparably sized text-only LMs for zero-shot prompting and fine-tuning for classification benchmarks, while also setting new state-of-the-art performance levels for zero-shot summarization. We also find that hyper-text prompts provide more value to HTLM, in terms of data efficiency, than plain text prompts do for existing LMs, and that HTLM is highly effective at auto-prompting itself, by simply generating the most likely hyper-text formatting for any available training data. We will release all code and models to support future HTLM research.

연구 동기 및 목표

문서 수준의 더 풍부한 감독 정보를 얻기 위해 사전 학습에서 하이퍼텍스트 신호(HTML 구조)를 활용하는 것을 동기화한다.
출력 길이를 제어하기 위해 크기 힌트를 포함한 간소화된 HTML(MHTML)에 대해 BART-스타일의 잡음 제거 목적을 도입한다.
제로샷, 소수 샷 및 전체 파인튜닝에서 HTLM의 다양항 작업으로의 전이(요약, 생성, 분류)를 시연한다.
기존 LMs에 대해 HTML 기반 프롬프팅이 일반 텍스트 프롬프팅보다 데이터 효율성을 제공한다.
데이터에서 HTML 형식의 프롬프트를 생성하여 HTLM의 자동 프롬프팅 기능을 보여준다.

제안 방법

Common Crawl에서 추출한 간소화된 HTML 데이터 23 TB로 HTLM을 사전 학습한다(MHTML).
추정된 마스킹 텍스트 길이를 지정하는 사이즈 힌트와 함께 span 마스킹을 갖춘 BART-Large 스타일의 denoising 자동 인코더를 사용한다.
프롬프팅 중 생성 출력 길이를 제어하기 위해 각 마스크 뒤에 사이즈 힌트 토큰을 도입한다.
생성 및 분류 작업을 수행하기 위해 수동 및 자동 프롬프트를 포함한 HTML 기반 프롬프트와 템플릿을 활용한다.
요약 벤치마크(Gigaword, CNN/DM, XSum, Reddit TIFU, WebNLG, DART) 및 표-텍스트 데이터셋(E2E, WebNLG, DART)에 대한 제로샷 및 소수 샷 프롬프팅을 평가한다.
생성 및 제로샷 분류에서 기초 모델(GPT-2, PEGASUS, RoBERTa, BART, T5)과의 비교를 통해 HTLM을 평가하고 GLUE에서의 파인튜닝 성능을 평가한다.

실험 결과

연구 질문

RQ1HTLM의 하이퍼텍스트 사전학습 및 프롬프팅이 제로샷 및 파인튜닝에서 분류 및 요약 작업에 대해 텍스트 전용 LMs를 능가할 수 있는가?
RQ2HTML 기반 프롬프팅이 기존 LMs에 대해 일반 텍스트 프롬프팅보다 데이터 효율성 이점을 제공하는가?
RQ3HTLM이 데이터를 사용해 효과적인 HTML 형식의 프롬프트를 생성함으로써 자동 프롬프팅을 자체적으로 수행할 수 있는가?
RQ4사이즈 힌트의 도입이 프롬프팅에서 출력 길이 제어와 작업 성능에 어떤 영향을 미치는가?
RQ5HTLM이 표-텍스트 및 기타 구조화된 자연어 생성 작업에 미치는 영향은 무엇인가?

주요 결과

HTLM은 GLUE 스타일 분류 벤치마크에서 제로샷 프롬프팅 및 전체 파인튜닝에 대해 텍스트 전용 LMs와 동등하거나 그 이상이다.
HTLM은 제로샷 요약에서 새로운 최첨단 성능을 달성하며, ROUGE-1 포인트에서 최대 8포인트의 이점을 보인다.
하이퍼텍스트 프롬프트는 기존 LMs에 대해 일반 텍스트 프롬프트보다 더 큰 데이터 효율성을 제공하며, 수천 개의 추가 학습 예제와 대응된다.
HTLM은 사용 가능한 훈련 데이터를 HTML로 형식화하여 자동 프롬프트를 생성할 수 있으며, 종종 수작업으로 설계된 프롬프트에 필적한다.
HTLM은 생성 및 분류 작업 전반에 걸쳐 강한 전이를 보여주며 프롬프트 기반 학습을 사용할 때 파인튜닝 성능이 향상된다.
HTML 기반 프롬프트는 크기 힌트를 통해 출력 길이에 대한 미세한 제어를 가능하게 하여 프롬프트의 강건성과 작업 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.