[논문 리뷰] FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models
FinEval은 4개 카테고리(Finance, Economy, Accounting, Certificate)로 구성된 중국어 금융 도메인 MCQ 벤치마크로 총 4,661문항이며; 제로샷/펄샷 및 정답-만 응답/사고-유도(CoT) 프롬프트에서 다수의 LLM을 평가하고, GPT-4가 정확도에서 약 70%에 가장 가까운 것으로 나타났다.
Large language models have demonstrated outstanding performance in various natural language processing tasks, but their security capabilities in the financial domain have not been explored, and their performance on complex tasks like financial agent remains unknown. This paper presents FinEval, a benchmark designed to evaluate LLMs' financial domain knowledge and practical abilities. The dataset contains 8,351 questions categorized into four different key areas: Financial Academic Knowledge, Financial Industry Knowledge, Financial Security Knowledge, and Financial Agent. Financial Academic Knowledge comprises 4,661 multiple-choice questions spanning 34 subjects such as finance and economics. Financial Industry Knowledge contains 1,434 questions covering practical scenarios like investment research. Financial Security Knowledge assesses models through 1,640 questions on topics like application security and cryptography. Financial Agent evaluates tool usage and complex reasoning with 616 questions. FinEval has multiple evaluation settings, including zero-shot, five-shot with chain-of-thought, and assesses model performance using objective and subjective criteria. Our results show that Claude 3.5-Sonnet achieves the highest weighted average score of 72.9 across all financial domain categories under zero-shot setting. Our work provides a comprehensive benchmark closely aligned with Chinese financial domain.
연구 동기 및 목표
- 중국어 LLM의 재무 도메인 일반 지식 역량을 포괄적 벤치마크에서 평가합니다.
- 데이터를 더미 시험 및 교재에서 수집하여 네 가지 카테고리를 다룹니다(Finance, Economy, Accounting, Certificate).
- 모델을 다양한 프롬프트 체계(zero-shot, few-shot, answer-only, chain-of-thought) 하에서 평가합니다.
- 중요한 기준선과 공개 리더보드를 제공하여 중국어 금융 LLM 개발을 촉진합니다.
제안 방법
- FinEval을 Finance, Economy, Accounting, Certificate의 34개 과목에 걸친 4,661문항으로 구성합니다.
- 네 가지 프롬프트 체계: zero-shot AO, zero-shot CoT, five-shot AO, five-shot CoT를 사용합니다.
- 모든 질문을 4지선다형으로 변환하고 필요 시 가독성을 위해 영어 번역을 제공합니다.
- 데이터를 개발/검증/테스트 분할로 수동으로 정제하고 LaTeX 친화적 형식으로 구성합니다.
- 27개의 중국어 가능 LLM을 폭넓게 평가하고 모델별로 최적 설정에서의 정확도를 보고합니다.
실험 결과
연구 질문
- RQ1FinEval에서 도메인별 재무 지식에 대한 최첨단 중국어 및 영어 LLM의 성능은 어떠한가?
- RQ2다른 프롬프트 체계(AO vs CoT; zero-shot vs few-shot)가 중국어 재무 과제의 성능에 어떤 영향을 미치는가?
- RQ3재무, 경제, 회계, 자격의 중국어 재무 도메인 지식 처리를 가장 잘하는 모델은 어떤 규모와 아키텍처를 가지는가?
- RQ4사고 유도 프롬핑이 중국어 재무 도메인 MCQ에 이점이 있는가, 어떤 조건에서?
주요 결과
| 모델 | 크기 | 금융 | 경제 | 회계 | 자격 | 평균 |
|---|---|---|---|---|---|---|
| GPT-4 | unknown | 71.0 | 74.5 | 59.3 | 70.4 | 68.6 |
| ChatGPT | 175B | 59.3 | 61.6 | 45.2 | 55.1 | 55.0 |
| Qwen-7B | 7B | 54.5 | 54.4 | 50.3 | 55.8 | 53.8 |
| Qwen-Chat-7B | 7B | 51.5 | 52.1 | 44.5 | 53.6 | 50.5 |
| Baichuan-13B-Base | 13B | 52.6 | 50.2 | 43.4 | 53.5 | 50.1 |
| Baichuan-13B-Chat | 13B | 51.6 | 51.1 | 41.7 | 52.8 | 49.4 |
| ChatGLM2-6B | 6B | 46.5 | 46.4 | 44.5 | 51.5 | 47.4 |
| InternLM-7B | 7B | 49.0 | 49.2 | 40.5 | 49.4 | 47.1 |
| InternLM-Chat-7B | 7B | 48.4 | 49.1 | 40.8 | 49.5 | 47.0 |
| LLaMA-2-Chat-70B | 70B | 47.1 | 46.7 | 41.5 | 45.7 | 45.2 |
| Falcon-40B | 40B | 45.4 | 43.2 | 35.8 | 44.8 | 42.4 |
| Baichuan-7B | 7B | 44.9 | 41.5 | 34.9 | 45.6 | 42.0 |
| LLaMA-2-Chat-13B | 13B | 41.6 | 38.4 | 34.1 | 42.1 | 39.3 |
| Ziya-LLaMA-13B-v1 | 13B | 43.3 | 36.9 | 34.3 | 41.2 | 39.3 |
| Bloomz-7b1-mt | 7B | 41.4 | 42.1 | 32.5 | 39.7 | 38.8 |
| LLaMA-2-13B | 13B | 39.5 | 38.6 | 31.6 | 39.6 | 37.4 |
| ChatGLM-6B | 6B | 38.8 | 36.2 | 33.8 | 39.1 | 37.2 |
| Chinese-Llama-2-7B | 7B | 37.8 | 37.8 | 31.4 | 36.7 | 35.9 |
| Chinese-Alpaca-Plus-7B | 7B | 30.5 | 33.4 | 32.7 | 38.5 | 34.0 |
| moss-moon-003-sft | 16B | 35.6 | 34.3 | 28.7 | 35.6 | 33.7 |
| LLaMA-2-Chat-7B | 7B | 35.6 | 31.8 | 31.9 | 34.0 | 33.5 |
| LLaMA-2-7B | 7B | 34.9 | 36.4 | 31.4 | 31.6 | 33.4 |
| AquilaChat-7B | 7B | 34.2 | 31.3 | 29.8 | 36.2 | 33.1 |
| moss-moon-003-base | 16B | 32.2 | 33.1 | 29.2 | 30.7 | 31.2 |
| Aquila-7B | 7B | 27.1 | 31.6 | 32.4 | 33.6 | 31.2 |
| LLaMA-13B | 13B | 33.1 | 29.7 | 27.2 | 33.6 | 31.1 |
| Falcon-7B | 7B | 28.5 | 28.2 | 27.5 | 27.4 | 27.9 |
| Out of the 27 models | - | - | - | - | - | - |
- GPT-4는 카테고리 간 평균 정확도가 가장 높고(대략 68.6% 전체) 여러 카테고리에서 거의 70%에 근접합니다.
- 27개 모델 중 GPT-4는 종종 다른 모델보다 우수하고; ChatGPT는 두 번째로 평균 정확도 약 55.0%입니다.
- Qiwan형 중국어 LLM인 Qwen-7B, Qwen-Chat-7B, Baichuan-13B-Base/Chat은 평균 정확도 50%를 넘지만, 사고-유도 프롬프트에서 성능이 하락합니다.
- 모델들 간에 사고-유도(CoT) 설정에서 평균 정확도가 정답-만 설정보다 낮아 CoT가 보편적으로 이점이 없을 수 있음을 시사합니다.
- 동일 계열의 더 큰 모델에서 일반적으로 성능이 향상되지만 카테고리에 따라 이득이 다릅니다.
- FinEval 결과는 현재 LLM의 중국어 재무 도메인 능력에 여전히 상당한 개선 여지가 있음을 시사합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.