QUICK REVIEW

[논문 리뷰] Can GPT-4 Perform Neural Architecture Search?

Mingkai Zheng, Xiu Su|arXiv (Cornell University)|2023. 04. 21.

Topic Modeling인용 수 16

한 줄 요약

GENIUS는 NAS를 위한 신경망 아키텍처를 제안하고 반복적으로 다듬기 위해 GPT-4를 블랙박스 최적화기로 사용하는 것으로, 제한된 도메인 전문지식으로도 여러 벤치마크에서 경쟁력 있는 결과를 보여준다.

ABSTRACT

We investigate the potential of GPT-4~\cite{gpt4} to perform Neural Architecture Search (NAS) -- the task of designing effective neural architectures. Our proposed approach, extbf{G}PT-4 extbf{E}nhanced extbf{N}eural arch extbf{I}tect extbf{U}re extbf{S}earch (GENIUS), leverages the generative capabilities of GPT-4 as a black-box optimiser to quickly navigate the architecture search space, pinpoint promising candidates, and iteratively refine these candidates to improve performance. We assess GENIUS across several benchmarks, comparing it with existing state-of-the-art NAS techniques to illustrate its effectiveness. Rather than targeting state-of-the-art performance, our objective is to highlight GPT-4's potential to assist research on a challenging technical problem through a simple prompting scheme that requires relatively limited domain expertise\footnote{Code available at \href{https://github.com/mingkai-zheng/GENIUS}{https://github.com/mingkai-zheng/GENIUS}.}. More broadly, we believe our preliminary results point to future research that harnesses general purpose language models for diverse optimisation tasks. We also highlight important limitations to our study, and note implications for AI safety.

연구 동기 및 목표

도메인 특화된 미세 조정 없이도 신경망 아키텍처 설계를 지원하는 일반-purpose 도구로서 GPT-4를 탐구하는 것을 동기 부여한다.
프롬프트 기반 GENIUS 워크플로우를 통해 간단하게 아키텍처 구성을 제안하고 평가하는 방법을 시연한다.
여러 NAS 벤치마크와 대규모 ImageNet 설정에서 GENIUS를 최신 NAS 방법과 비교한다.
과학적 작업에서 최적화기로서 LLM을 사용할 때의 실용적 한계와 AI 안전성 고려사항을 논의한다.

제안 방법

GPT-4에 NAS 문제를 사람이 읽기 쉬운 텍스트로 인코딩한다.
GPT-4에게 초기 아키텍처 구성을 제안하라고 프롬프트한다.
제안된 구성을 학습/평가하여 경험적 정확도를 얻는다.
결과를 합리적 사유 프롬프트와 함께 GPT-4에 피드백하여 더 나은 아키텍처를 생성한다.
정해진 반복 횟수만큼 반복하여 최적의 아키텍처를 식별한다.
제약을 강화하기 위해 FLOPs 피드백 루프를 선택적으로 도입한다.

Figure 1: An overview of the GENIUS framework . After an initial problem encoding (corresponding to iteration $T=0$ ), GPT-4 proposes a model configuration. A Python program is then executed to evaluate the quality of the configuration (assessed through its accuracy), and the results are passed back

실험 결과

연구 질문

RQ1GPT-4가 최소한의 인간 지도로 신경망 아키텍처 검색 공간을 효과적으로 탐색할 수 있는가?
RQ2GENIUS가 표준 벤치마크에서 선도적 NAS 방법에 비해 어떻게 성능을 발휘하는가?
RQ3검색 결과에 대한 프롬핑 무작위성(온도)의 효과는 무엇인가?
RQ4GPT-4를 NAS 최적화기로 활용하는 실제 한계(재현성, 데이터 오염, 안전성 등)는 무엇인가?

주요 결과

Method	CIFAR-10 Validation	CIFAR-10 Test	CIFAR-100 Validation	CIFAR-100 Test	ImageNet-16-120 Validation	ImageNet-16-120 Test
GENIUS - 329 (Ours)	91.07±0.20	93.79±0.09	70.96±0.33	70.91±0.72	45.29±0.81	44.96±1.02

GENIUS는 NAS-Bench-Macro 및 Channel-Bench-Macro에서 경쟁력 있는 결과를 달성했으며, 발견된 아키텍처가 상위 백분위에 랭크되는 경우도 포함된다.
NAS-Bench-201에서 GENIUS는 몇 가지 확립된 NAS 방법과 비교해 근접하거나 경쟁적인 결과를 얻으며, 예를 들어 GENIUS - 329가 CIFAR-10에서 91.07 ± 0.20 검증 및 93.79 ± 0.09 테스트, CIFAR-100에서 70.96 ± 0.33 검증 및 70.91 ± 0.72 테스트, ImageNet-16-120에서 45.29 ± 0.81 검증 및 44.96 ± 1.02 테스트를 달성한다.
모바일NetV2 유사 탐색 공간에서 대규모 ImageNet 실험에서 GENIUS는 약 329M FLOPs에서 Top-1 77.8%, 약 401M FLOPs에서 Top-1 78.2%를 달성하며 더 낮은 검색 비용으로 경쟁력 있는 성능을 보여준다.
전이 학습 실험에서 ImageNet에서 사전 학습된 모델과 비교하여 CIFAR-10/100에 대해 GENIUS 아키텍처가 경쟁력 있는 결과를 나타낸다.
정성적 분석은 GPT-4의 설계 원칙(예: 단계적 복잡도, 깊이 진행)과 LLM을 최적화기로 활용할 때의 안전성 및 재현성 고려의 중요성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.