QUICK REVIEW

[論文レビュー] Analyzing Sustainability Reports Using Natural Language Processing

Alexandra Sasha Luccioni, Emily Baylor|arXiv (Cornell University)|Nov 3, 2020

Sentiment Analysis and Opinion Mining参考文献 12被引用数 38

ひとこと要約

著者らはClimateQAを作成し、TCFDの質問を用いて財務報告から気候関連の段落を特定するよう訓練されたトランスフォーマー型QAツールであり、金融テキストでの事前学習と部門別および質問タイプ別の評価を行う。

ABSTRACT

Climate change is a far-reaching, global phenomenon that will impact many aspects of our society, including the global stock market \cite{dietz2016climate}. In recent years, companies have increasingly been aiming to both mitigate their environmental impact and adapt to the changing climate context. This is reported via increasingly exhaustive reports, which cover many types of climate risks and exposures under the umbrella of Environmental, Social, and Governance (ESG). However, given this abundance of data, sustainability analysts are obliged to comb through hundreds of pages of reports in order to find relevant information. We leveraged recent progress in Natural Language Processing (NLP) to create a custom model, ClimateQA, which allows the analysis of financial reports in order to identify climate-relevant sections based on a question answering approach. We present this tool and the methodology that we used to develop it in the present article.

研究の動機と目的

ESG報告における構造化された気候開示の必要性を動機づけ、気候関連情報の抽出にかかるアナリストの作業時間を削減する。
金融文書内の気候関連箇所を特定するトランスフォーマー型QAモデルを開発する。
金融用語を捉えるための領域特化事前学習を活用し、部門別および質問別の性能を評価する。
クラウドベースのパイプラインを介してPDFを分析する使いやすいツール（ClimateQA）を配備する。）

提案手法

ドメイン語彙を捉えるため、2,249件の金融・サステナビリティ報告書で単語埋め込みモデルを事前訓練する。
ラベリングされた指針としてTCFDを用い、14問のQAタスクとして抽出を位置づける。
正例/負例を用いた質問-文ペアの文レベルQAのためにRoBERTaベースモデル（Large対Base）を訓練する。
部門別および個々のTCFD質問を横断して評価し、一般化と誤差パターンを分析する。
テキスト抽出、TSVへの解析、推論の三段階パイプラインでAzure上にClimateQAをデプロイする。）

実験結果

リサーチクエスチョン

RQ1金融報告書内の特定のTCFD気候開示質問に答える文を、トランスフォーマー型QAモデルが正確に識別できるか？
RQ2部門別および異なるTCFD質問ごとにモデルの性能はどう変化するか？
RQ3RoBERTa-Baseはこの領域タスクに対してRoBERTa-Largeの実用的でより効率的な代替となり得るか？
RQ4アナリストがサステナビリティ報告を分析するのを支援する使いやすいWebサービスとしてツールを展開できるか？

主な発見

表	文脈	検証F1	テストF1	検証-テスト差
Table 2	RoBERTa-Large vs RoBERTa-Base (train/val/test)	92.2%	85.5%	-6.7%
Table 2	RoBERTa-Base (final choice)	91.7%	82%	-9.7%
Table 3	Energy sector results	94.2%	89.8%	-4.4%
Table 3	Average across sectors	91.7%	82.0%	-9.7%

RoBERTa-LargeはRoBERTa-Baseに対してF1で0.5–2.5%の僅かな向上を提供するが、効率とデプロイメントの点でRoBERTa-Baseが好まれる。
エネルギー部門が最高の性能を達成（検証F1 94.2%、テストF1 89.8%）。
部門間での平均検証およびテストF1は良好な一般化を示し、全体差は-9.7%。
質問は一般化の容易さに差があり、特に質問4（期間）などは一般性のために成績が振るわない一方で、検証とテストのギャップが著しく異なるものもあり（最大51%）。
ツールはAzure経由でPDFアップロード、バッチ処理、TSV結果のダウンロードを可能にしてデプロイされている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。