Skip to main content
QUICK REVIEW

[论文解读] Computational bioacoustics with deep learning: a review and roadmap

Dan Stowell|arXiv (Cornell University)|Dec 13, 2021
Animal Vocal Communication and Behavior被引用 35
一句话总结

对深度学习在计算生物声学中的应用进行全面综述,概述当前的做法、架构、表示以及未来研究的路线图。

ABSTRACT

Animal vocalisations and natural soundscapes are fascinating objects of study, and contain valuable evidence about animal behaviours, populations and ecosystems. They are studied in bioacoustics and ecoacoustics, with signal processing and analysis an important component. Computational bioacoustics has accelerated in recent decades due to the growth of affordable digital sound recording devices, and to huge progress in informatics such as big data, signal processing and machine learning. Methods are inherited from the wider field of deep learning, including speech and image processing. However, the tasks, demands and data characteristics are often different from those addressed in speech or music analysis. There remain unsolved problems, and tasks for which evidence is surely present in many acoustic signals, but not yet realised. In this paper I perform a review of the state of the art in deep learning for computational bioacoustics, aiming to clarify key concepts and identify and analyse knowledge gaps. Based on this, I offer a subjective but principled roadmap for computational bioacoustics with deep learning: topics that the community should aim to address, in order to make the most of future developments in AI and informatics, and to use audio data in answering zoological and ecological questions.

研究动机与目标

  • 澄清深度学习在计算生物声学中的当前用法,并总结跨物种和任务的标准实践。
  • 识别知识空白和未充分探索的主题,为未来的AI驱动生物声学研究提供指导。
  • 提供一个将深度学习进展与生态学与动物学问题结合在一起的基于原理的路线图。

提出的方法

  • 对自2016年起发表的生物声学深度学习相关文献进行综述,使用 Google Scholar 和 Web of Science 的关键词检索。
  • 总结生物声学分类、检测与分割的标准深度学习流程,包括数据准备、模型架构和评估指标。
  • 在生物声学数据背景下讨论输入表示(声谱图、波形等)、数据增强和训练实践。
  • 回顾神经网络架构(CNNs、CRNNs、TCNs、注意力/变换器),及其在生物声学任务中的适用性。
  • 强调生物类群覆盖范围(鸟类、鲸目、蝙蝠、哺乳动物、两栖类、昆虫、鱼类)以及数据挑战(如数据洪涌、数据不平衡等)。
  • 提出一份路线图,强调深度学习与生物声学领域需解决的议题,以推动该领域的发展。

实验结果

研究问题

  • RQ1跨越不同物种和任务的计算生物声学中深度学习方法的当前状态如何?
  • RQ2对于生物声学的分类和检测,哪些神经网络架构和输入表示最有效?
  • RQ3在深度学习驱动的计算生物声学方面,存在哪些主要知识空白与未来研究机会?

主要发现

  • 基于 CNN 的架构主导着生物声学深度学习在分类与检测中的工作流程。
  • 基于声谱图的输入(通常是梅尔频谱或 CQT)是标准,PCEN 作为有用的规范化,探索多种声谱表示或原始波形方法的潜在益处。
  • CRNN 与更新的架构(包括注意力/变换器和时序 CNN)正在被研究,收益因任务而异;训练复杂度各异。
  • 两步工作流(先检测再分类)在稀少事件声中很常见,尽管端到端的检测/分类也在探索。
  • 分类焦点广泛,鸟类和海洋哺乳动物代表性强,同时涉及蝙蝠、灵长类、昆虫、鱼类以及其他物种;数据挑战和大型数据集(如 BirdCLEF)推动了进展。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。