[논문 리뷰] Quokka: An Open-source Large Language Model ChatBot for Material Science
Quokka는 1백만 개가 넘는 재료과학 기사로 사전학습된 LLaMA-2 기반 모델 7B 및 13B의 오픈 소스를 제공하며, 커뮤니티 사용을 위한 챗 기능 Variants를 출시했습니다.
This paper presents the development of a specialized chatbot for materials science, leveraging the Llama-2 language model, and continuing pre-training on the expansive research articles in the materials science domain from the S2ORC dataset. The methodology involves an initial pretraining phase on over one million domain-specific papers, followed by an instruction-tuning process to refine the chatbot's capabilities. The chatbot is designed to assist researchers, educators, and students by providing instant, context-aware responses to queries in the field of materials science. We make the four trained checkpoints (7B, 13B, with or without chat ability) freely available to the research community at https://github.com/Xianjun-Yang/Quokka.
연구 동기 및 목표
- 재료과학 연구자, 교육자, 학생을 돕기 위한 오픈 소스 도메인 특화 LLM의 개발을 촉진한다.
- 대규모 재료과학 말뭉치(S2ORC)에 대한 지속적 사전학습을 시연하여 도메인 지식을 주입한다.
- 모델을 일반 및 재료과학 특화 프롬프트에 맞추기 위한 지시 학습을 선보인다.
- 연구 및 재료 텍스트 처리의 하류 응용을 가속화하기 위해 자유롭게 이용 가능한 체크포인트를 제공한다.
제안 방법
- LLaMA-2 기본 모델(7B 및 13B)에서 시작하여 S2ORC의 1백만 개가 넘는 재료과학 기사에 대해 지속적 사전학습을 수행한다.
- 도메인 특화 사전학습 중 쇄기 망각(catastrophic forgetting)을 완화하기 위해 10%의 일반 RedPajama 데이터를 혼합한다.
- 사전학습은 bf16, flash-attention, 및 DeepSpeed FSDP를 8 A100 GPU로 수행하며 각 모델당 한 에폭을 학습한다.
- 그다음 LIMA 및 HoneyBee 데이터셋에서 추출한 3344개의 고유 지시문과 저자 추가 프롬프트를 사용해 지시 학습을 수행한다.
- 1024 최대 토큰에서 코사인 스케줄러를 사용하고 학습률 1e-4로 15 에폭으로 미세조정하며 4 A100 GPU를 사용한다.
실험 결과
연구 질문
- RQ1대규모 재료과학 코퍼스로의 지속적 사전학습이 LLaMA-2 모델의 도메인 특화 이해를 향상시킬 수 있는가?
- RQ2일반 및 재료과학 지시문으로의 지시 학습이 전문가 쿼리에 대한 정렬을 더 잘 이끌어내는가?
- RQ3오픈 소스 Quokka 체크포인트가 재료과학 NLP 하류 작업 및 대화 인터랙션의 기초로서 효과적인가?
- RQ4재료과학에서 도메인에 맞춰 조정된 LLM의 자원 요구사항과 학습 역학은 어떤가?
주요 결과
- Quokka-7B와 Quokka-13B는 사전학습 손실이 감소하는 모습을 보이며, 13B 모델이 더 낮은 최종 perplexity를 달성한다.
- 두 모델 모두 15에폭에서 손실이 0에 가까워지도록 지시 학습이 감소를 이끈다.
- Quokka-7B-Chat 및 Quokka-13B-Chat은 재료과학 질문에 대한 대화를 가능하게 하되 민감한 주제에 대해서는 안전 거부를 보인다.
- 저자는 연구 커뮤니티에 네 개의 오픈 소스 체크포인트를 공개한다.
- 훈련 시간은 지정된 하드웨어에서 모델당 수십 시간 수준이다(예: 사전학습에 8 A100 GPUs, 지시 학습에 4 A100 GPUs 등).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.