QUICK REVIEW

[논문 리뷰] GPT-Neo: Large Scale Autoregressive Language Modeling with Mesh-Tensorflow

Dan Hendrycks, Steven Basart|arXiv (Cornell University)|2021. 03. 21.

Software Engineering Research참고 문헌 32인용 수 137

한 줄 요약

본 논문은 APPS를 사용한 코드 생성 평가를 제시하며, 10,000문제 벤치마크를 도입하고 APPS에서 미세조정된 GPT-Neo가 비교적 주목할 만한 하지만 제한된 코드 생성 능력을 달성하며, 모델이 커질수록 구문 오류가 감소함을 보인다.

ABSTRACT

GPT-Neo is an implementation of model & data-parallel GPT-2 and GPT-3-like models, utilizing Mesh Tensorflow for distributed support. This codebase is designed for TPUs. It should also work on GPUs, though we do not recommend this hardware configuration.

연구 동기 및 목표

자연어에서 Python으로의 코드 생성을 위한 엄격한 벤치마크(APPS)를 정의한다.
자동 테스트 케이스 평가를 사용하여 실제 코드 생성 태스크에서 대형 언어 모델의 성능을 평가한다.
모델 규모, 미세조정, 디코딩 전략이 코드 생성 성능에 미치는 영향을 분석한다.

제안 방법

10,000개의 문제, 131,777개의 테스트 케이스, 232,421개의 인간이 작성한 해결책으로 APPS를 구성한다.
오염 제거를 위한 GitHub 유래 Python 데이터로 GPT-2를 사전 학습하고, 문제 설명 및 형식을 포함한 APPS로 미세조정한다.
생성된 프로그램을 테스트 케이스에 대해 실행하여 코드를 평가하고(테스트 케이스 평균) 모든 테스트 케이스를 통과하는 것을 요구하는 엄격한 정확도(strict accuracy)를 사용한다.
빔 너비 5의 빔 탐색을 사용하고 문제당 다섯 개의 빔을 평가한다.
Introductory/Interview/Competitive 난이도에서 GPT-2 변형, GPT-Neo, GPT-3(Few-shot), Codex-유사 대형 모델들을 비교한다.

실험 결과

연구 질문

RQ1대형 언어 모델은 자연어 설명이 주어졌을 때 파이썬 코드를 얼마나 잘 생성할 수 있는가?
RQ2코드 생성 벤치마크에 대해 미세조정이 일반 사전 학습에 비해 성능을 향상시키는가?
RQ3모델 규모, 구문 오류, 코드 정확도 간의 관계는 APPS에서 어떠한가?
RQ4자동 평가 지표(테스트 케이스 정확도 vs BLEU)가 실제 코드 정확도와 어떤 상관을 보이는가?

주요 결과

GPT-Neo 2.7B는 Introductory 문제에서 단일 생성 해답으로 약 15%의 테스트 케이스를 통과하고 약 4%의 엄격한 정확도를 보인다.
모델 규모와 미세조정으로 구문 오류가 급격히 감소하며, GPT-Neo 2.7B의 Introductory 문제에서 구문 오류가 약 3% 수준이다.
BLEU 점수는 코드의 정확도를 신뢰할 만한 지표가 아니며 골드 표준 정확도와 역상관일 수 있다.
GPT-3(175B)는 Few-shot 설정에서 APPS의 매우 적은 수의 문제만 해결하여 해당 설정에서의 코드 생성 능력이 제한적임을 시사한다.
더 큰 코드 중심 모델(G나 Codex 스타일)은 GPT-Neo 2.7B보다 더 우수한 성능을 보이지만 여전히 APPS를 완전히 해결하기에는 멀다.
빔 탐색(TOP-5)은 올바른 해법 비율을 높여 GPT-Neo 2.7B가 Introductory 문제에서 더 높은 엄격한 정확도에 도달하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.