[논문 리뷰] Human-like Summarization Evaluation with ChatGPT
이 논문은 다섯 개 데이터셋에 걸쳐 네 가지 평가 방법을 사용하여 요약을 인간과 유사하게 평가하는 ChatGPT의 성능을 분석하고, 인간 판단과의 상관관계가 경쟁적이며 비용 효율적이고 재현 가능한 평가를 보여주며, 프롬프트 설계가 성능에 크게 영향을 미친다는 것을 보인다.
Evaluating text summarization is a challenging problem, and existing evaluation metrics are far from satisfactory. In this study, we explored ChatGPT's ability to perform human-like summarization evaluation using four human evaluation methods on five datasets. We found that ChatGPT was able to complete annotations relatively smoothly using Likert scale scoring, pairwise comparison, Pyramid, and binary factuality evaluation. Additionally, it outperformed commonly used automatic evaluation metrics on some datasets. Furthermore, we discussed the impact of different prompts, compared its performance with that of human evaluation, and analyzed the generated explanations and invalid responses.
연구 동기 및 목표
- 전통적인 자동 지표를 넘어 텍스트 요약 평가의 필요성에 대한 동기 부여.
- ChatGPT가 표준 방법을 사용하여 인간과 유사한 평가를 수행할 수 있는지 조사.
- 프롬프트가 ChatGPT의 평가 성능에 데이터세트 전반에 걸쳐 어떤 영향을 미치는지 평가.
- ChatGPT 기반 평가를 인간 판단 및 기존 지표와 비교.
제안 방법
- 온도 0 및 max_tokens 256으로 ChatGPT(gpt-3.5-turbo-0301)를 사용해 인간 평가자를 시뮬레이션.
- 네 가지 인간 평가 방법 적용: Likert 척도 점수화, 쌍대 비교, Pyramid, 이진 사실성 평가.
- 네 차원에 대해 원래의 인간 평가 지침을 반영하도록 프롬프트 설계.
- Likert의 경우 인간 판단과의 상관관계로 결과를 분석하고, 다른 방법은 정확도로 분석.
- SummEval, Newsroom 및 논문에서 언급된 추가 데이터세트에 걸쳐 평가.
- ChatGPT 출력에서 결과를 추출하고 NAN 케이스를 식별하기 위한 사후 처리 규칙 제공.
실험 결과
연구 질문
- RQ1ChatGPT가 표준 요약 평가 방법에서 인간과 유사한 평가를 재현할 수 있는가?
- RQ2프롬프트 설계가 ChatGPT의 인간 판단 일치에 어떤 영향을 미치는가?
- RQ3벤치마크 데이터세트에서 전통적 자동 지표보다 ChatGPT가 더 높은 상관관계나 정확도를 달성하는가?
- RQ4ChatGPT 기반 평가의 비용과 재현성 특성은 인간 평가와 비교하여 어떤가?
주요 결과
- ChatGPT는 상대적으로 매끄러운 주석으로 Likert, 쌍대, Pyramid 및 이진 사실성 요약 평가를 수행할 수 있다.
- SummEval에서 ChatGPT는 일반 자동 지표를 크게 능가한다.
- Newsroom에서 ChatGPT는 최고 BARTScore 변형 뒤에 위치해 강력한 성능을 보여준다.
- 프롬프트 설계가 성능에 상당한 영향을 미치며, 시스템 프롬프트와 정의가 인간 판단과의 상관관계에 영향을 준다.
- ChatGPT 기반 평가는 인간 평가보다 저렴하고 재현 가능하며, 비용 절감 추정치와 제어 가능한 무작위성을 제공한다.
- ChatGPT의 설명은 일반적으로 채점과 일치하며, 차원 정의를 제공하면 품질 차원의 구분이 개선된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.