Skip to main content
QUICK REVIEW

[论文解读] Environmental Claim Detection

Dominik Stammbach, Nicolas Webersinke|arXiv (Cornell University)|Sep 1, 2022
Sentiment Analysis and Opinion Mining被引用 2
一句话总结

本文提出了一项新的自然语言处理任务——环境声明检测,旨在识别企业沟通中的可持续性相关声明。作者发布了包含2,647个句子的人工标注数据集,来自季度财报电话会议,并训练了能够以高准确率检测环境声明的模型,揭示自2015年《巴黎协定》以来此类声明的数量持续增长。

ABSTRACT

To transition to a green economy, environmental claims made by companies must be reliable, comparable, and verifiable. To analyze such claims at scale, automated methods are needed to detect them in the first place. However, there exist no datasets or models for this. Thus, this paper introduces the task of environmental claim detection. To accompany the task, we release an expert-annotated dataset and models trained on this dataset. We preview one potential application of such models: We detect environmental claims made in quarterly earning calls and find that the number of environmental claims has steadily increased since the Paris Agreement in 2015.

研究动机与目标

  • 解决企业沟通中环境声明检测数据集和模型缺乏的问题。
  • 通过实现对企业环境声明的自动化审查,支持向绿色经济的转型。
  • 通过首先大规模识别环境声明,为未来自动化识别虚假宣传(greenwashing)奠定基础。
  • 为研究人员和从业者提供公开可用的数据集和训练好的模型。
  • 展示利用真实财报电话会议数据进行自动化声明检测的可行性和实用性。

提出的方法

  • 将环境声明检测定义为一个句子级别的二分类任务:声明 vs. 非声明。
  • 从季度财报电话会议中收集并标注2,647个句子,采用专家共识进行标注。
  • 使用在标注数据集上微调的基于BERT的模型进行声明检测。
  • 应用零样本和少样本提示技术,评估模型的泛化能力和鲁棒性。
  • 将数据集、代码和模型托管在GitHub和Hugging Face上,供公众访问。
  • 进行消融研究,并在开发集和测试集上使用标准指标评估模型性能。

实验结果

研究问题

  • RQ1我们能否使用NLP可靠地检测企业财报电话会议中的环境声明?
  • RQ2模型性能在不同声明类型和语言模式下如何变化?
  • RQ3现有声明和承诺检测模型在环境声明任务上的泛化程度如何?
  • RQ4企业沟通中环境声明的频率是否随时间推移而增加?
  • RQ5一旦环境声明能够被可靠检测,自动化虚假宣传检测的潜力有多大?

主要发现

  • 所提出的环境声明检测模型在新发布的、由专家标注的2,647个句子数据集上表现优异。
  • 自2015年《巴黎协定》以来,季度财报电话会议中环境声明的数量稳步增加。
  • 现有声明和承诺检测模型在这一新任务上表现不佳,表明需要专门的数据集和方法。
  • 该数据集可通过GitHub和Hugging Face公开获取,支持可复现性和未来研究。
  • 训练最终模型耗时不足5分钟,所有实验的总能耗为1.6 kg CO2eq,单样本推理能耗仅为0.0067 mg CO2eq。
  • 该工作为未来自动化检测误导性、模糊或虚假的环境声明提供了支持,有助于监管和公众监督。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。