[논문 리뷰] Text Summarization Using Large Language Models: A Comparative Study of MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models
이 논문은 CNN/Daily Mail와 XSum 데이터셋에서 BLEU, ROUGE, BERT 점수를 사용해 MPT-7b-instruct, Falcon-7b-instruct, OpenAI text-davinci-003의 텍스트 요약 성능을 비교하고 text-davinci-003이 일반적으로 가장 강력하다는 것을 발견했다.
Text summarization is a critical Natural Language Processing (NLP) task with applications ranging from information retrieval to content generation. Leveraging Large Language Models (LLMs) has shown remarkable promise in enhancing summarization techniques. This paper embarks on an exploration of text summarization with a diverse set of LLMs, including MPT-7b-instruct, falcon-7b-instruct, and OpenAI ChatGPT text-davinci-003 models. The experiment was performed with different hyperparameters and evaluated the generated summaries using widely accepted metrics such as the Bilingual Evaluation Understudy (BLEU) Score, Recall-Oriented Understudy for Gisting Evaluation (ROUGE) Score, and Bidirectional Encoder Representations from Transformers (BERT) Score. According to the experiment, text-davinci-003 outperformed the others. This investigation involved two distinct datasets: CNN Daily Mail and XSum. Its primary objective was to provide a comprehensive understanding of the performance of Large Language Models (LLMs) when applied to different datasets. The assessment of these models' effectiveness contributes valuable insights to researchers and practitioners within the NLP domain. This work serves as a resource for those interested in harnessing the potential of LLMs for text summarization and lays the foundation for the development of advanced Generative AI applications aimed at addressing a wide spectrum of business challenges.
연구 동기 및 목표
- 다양한 LLM이 두 데이터셋(CNN/Daily Mail 및 XSum)에서 추상적 요약 작업을 어떻게 수행하는지 평가합니다.
- 모델 크기와 지시 학습(MPT-7b-instruct, Falcon-7b-instruct)이 요약 품질에 미치는 영향을 분석합니다.
- BLEU, ROUGE, BERT 점수를 사용하여 요약 품질을 정량화하고 실제 NLP 작업에 대한 모델 선택을 안내합니다.
제안 방법
- 일관된 추론 설정(온도 0.1, 최대 토큰 100)에서 LLM(MPT-7b-instruct, Falcon-7b-instruct, text-davinci-003)을 비교합니다.
- Prompt 엔지니어링 및 실행을 위해 LangChain과 Hugging Face 파이프라인을 사용하고 NVIDIA T4 GPU가 장착된 GCE VM에서 수행합니다.
- BLEU, ROUGE(N, L), 및 BERT Score로 생성 요약을 평가하고 데이터셋당 평균 단어 수를 보고합니다.
실험 결과
연구 질문
- RQ1어떤 LLM이 CNN/Daily Mail 및 XSum 요약에 대해 가장 높은 ROUGE 및 BERT 점수를 제공합니까?
- RQ27B-instruct 모델은 추상 요약에서 OpenAI text-davinci-003와 어떻게 비교됩니까?
- RQ3데이터셋 유형(CNN 대 XSum)이 메트릭 전반에 걸친 모델 성능에 어떤 영향을 미칩니까?
주요 결과
| LLM 모델 | 데이터셋 | 평균 단어 수 | ROUGE-1 | ROUGE-2 | ROUGE-L | BERT 점수 (P/R/F1) |
|---|---|---|---|---|---|---|
| falcon-7b-instruct | CNN (n=25) | 784.24 | 0.226 | 0.053 | 0.197 | 0.818 / 0.860 / 0.838 |
| falcon-7b-instruct | XSum (n=25) | 410.44 | 0.139 | 0.014 | 0.113 | 0.787 / 0.863 / 0.823 |
| mpt-7b-instruct | CNN (n=25) | 784.24 | 0.236 | 0.060 | 0.213 | 0.839 / 0.864 / 0.851 |
| mpt-7b-instruct | XSum (n=25) | 410.44 | 0.159 | 0.024 | 0.133 | 0.828 / 0.871 / 0.848 |
| text-davinci-003 | CNN (n=25) | 784.24 | 0.272 | 0.096 | 0.255 | 0.854 / 0.883 / 0.868 |
| text-davinci-003 | XSum (n=25) | 410.44 | 0.206 | 0.053 | 0.173 | 0.844 / 0.893 / 0.868 |
- text-davinci-003은 두 데이터셋 전반에서 ROUGE 및 BERT 점수가 높은 편입니다.
- 7B-instruct 모델 중에서 MPT-7b-instruct가 일반적으로 Falcon-7b-instruct보다 우수합니다.
- CNN/Daily Mail과 XSum은 평균 단어 수가 다르며, 모델과 데이터셋에 따른 자세한 지표 변동이 있습니다.
- ROUGE-1, ROUGE-2, ROUGE-L 및 BERT 점수는 모델과 데이터셋에 따라 현저히 다르게 나타나며 많은 경우 OpenAI 모델이 유리합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.