[논문 리뷰] Analyzing Sustainability Reports Using Natural Language Processing
저자들은 ClimateQA를 만들었으며, TCFD 질문을 사용해 금융 보고서에서 기후 관련 구절을 식별하도록 훈련된 트랜스포머 기반 QA 도구로, 금융 텍스트에 대한 사전 학습과 부문 및 질문 유형에 따른 평가를 포함한다.
Climate change is a far-reaching, global phenomenon that will impact many aspects of our society, including the global stock market \cite{dietz2016climate}. In recent years, companies have increasingly been aiming to both mitigate their environmental impact and adapt to the changing climate context. This is reported via increasingly exhaustive reports, which cover many types of climate risks and exposures under the umbrella of Environmental, Social, and Governance (ESG). However, given this abundance of data, sustainability analysts are obliged to comb through hundreds of pages of reports in order to find relevant information. We leveraged recent progress in Natural Language Processing (NLP) to create a custom model, ClimateQA, which allows the analysis of financial reports in order to identify climate-relevant sections based on a question answering approach. We present this tool and the methodology that we used to develop it in the present article.
연구 동기 및 목표
- ESG 보고에서 구조화된 기후 공시의 필요성을 촉진하고 기후 관련 정보를 추출하는 분석가의 시간을 단축한다.
- 재무 문서에서 기후 관련 구절을 찾아낼 수 있는 트랜스포머 기반 QA 모델을 개발한다.
- 도메인 특화 사전 학습을 활용해 금융 어휘를 포착하고 부문 및 질문에 걸친 성능을 평가한다.
- 클라우드 기반 파이프라인을 통해 PDF를 분석하는 사용자 친화적인 도구(ClimateQA)를 배포한다.
제안 방법
- 도메인 어휘를 포착하기 위해 2,249개의 금융 및 지속가능성 보고서에 대해 워드 임베딩 모델을 사전 학습한다.
- TCFD를 라벨링 가이드로 사용하는 14문항 QA 태스크로 추출 프레이밍을 설정한다.
- 질문-문장 쌍의 긍정/부정 예제와 함께 문장 수준 QA를 수행하기 위해 RoBERTa 기반 모델(Large vs Base)을 학습한다.
- 섹터 및 개별 TCFD 질문에 걸쳐 평가를 수행하며 일반화 및 오차 패턴을 분석한다.
- 텍스트 추출, TSV로의 파싱, 추론의 세 단계 파이프라인으로 Azure에서 ClimateQA를 배포한다.
실험 결과
연구 질문
- RQ1트랜스포머 기반 QA 모델이 재무 보고서에서 특정 TCFD 기후 공시 질문에 답하는 문장을 정확하게 식별할 수 있는가?
- RQ2모델의 성능은 섹터와 서로 다른 TCFD 질문에 따라 어떻게 달라지는가?
- RQ3RoBERTa-Base가 이 도메인 작업에 대해 RoBERTa-Large보다 실용적이고 효율적인 대안이 될 수 있는가?
- RQ4도구를 분석가가 지속가능성 보고서를 분석하는 데 도움을 주는 사용자 친화적인 웹 서비스로 배포할 수 있는가?
주요 결과
| Table | Context | Validation F1 | Test F1 | Val-Test Difference |
|---|---|---|---|---|
| Table 2 | RoBERTa-Large vs RoBERTa-Base (train/val/test) | 92.2% | 85.5% | -6.7% |
| Table 2 | RoBERTa-Base (final choice) | 91.7% | 82% | -9.7% |
| Table 3 | Energy sector results | 94.2% | 89.8% | -4.4% |
| Table 3 | Average across sectors | 91.7% | 82.0% | -9.7% |
- RoBERTa-Large는 RoBERTa-Base에 비해 F1에서 0.5–2.5%의 미미한 이점을 제공하지만, 효율성 및 배포 측면에서 RoBERTa-Base가 선호된다.
- 에너지 부문이 가장 높은 성능을 달성(유효성 검증 F1 94.2%, 테스트 F1 89.8%)한다.
- 섹터 전반의 평균 유효성 검증 및 테스트 F1은 좋은 일반화를 보이며, 전반적 차이는 -9.7%이다.
- 질문 간 일반화 난이도에 차이가 있으며, 예를 들어 4번 질문(기간)에 대해 일반화가 어려운 반면, 검증과 테스트 간 격차가 크게 나타나는 경우가 있다(최대 51%).
- 도구는 Azure를 통해 PDF 업로드, 배치 처리 및 TSV 결과 다운로드를 가능하게 배포된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.