Skip to main content
QUICK REVIEW

[论文解读] Revise and Resubmit: An Intertextual Model of Text-Based Collaboration in Peer Review

Ilia Kuznetsov, Jan P. Buchmann|arXiv (Cornell University)|Apr 22, 2022
Topic Modeling被引用 2
一句话总结

本文提出了一种基于文本协作的同行评审互文模型,引入了三项核心任务——语用标注、链接和版本对齐,采用一种新颖的基于图的数据模型。该研究提出了 F1000RD,这是首个多领域、开放的出版后同行评审语料库,并展示了在自然语言处理中联合建模协作文本分析的可行性。

ABSTRACT

Peer review is a key component of the publishing process in most fields of science. Increasing submission rates put a strain on reviewing quality and efficiency, motivating the development of applications to support the reviewing and editorial work. While existing NLP studies focus on the analysis of individual texts, editorial assistance often requires modeling interactions between pairs of texts—yet general frameworks and datasets to support this scenario are missing. Relationships between texts are the core object of the intertextuality theory—a family of approaches in literary studies not yet operationalized in NLP. Inspired by prior theoretical work, we propose the first intertextual model of text-based collaboration, which encompasses three major phenomena that make up a full iteration of the review–revise–and–resubmit cycle: pragmatic tagging, linking, and long-document version alignment. While peer review is used across the fields of science and publication formats, existing datasets solely focus on conference-style review in computer science. Addressing this, we instantiate our proposed model in the first annotated multidomain corpus in journal-style post-publication open peer review, and provide detailed insights into the practical aspects of intertextual annotation. Our resource is a major step toward multidomain, fine-grained applications of NLP in editorial support for peer review, and our intertextual framework paves the path for general-purpose modeling of text-based collaboration. We make our corpus, detailed annotation guidelines, and accompanying code publicly available.

研究动机与目标

  • 为解决在同行评审中建模跨文档、基于文本的协作缺乏通用框架和数据集的问题。
  • 通过建模评审-修改-再提交周期中的关键现象,将互文性理论在自然语言处理中具体化。
  • 开发一种通用且可扩展的数据模型(互文图),支持长文档和互文关系。
  • 创建并发布首个多领域、开放的出版后同行评审语料库(F1000RD),并明确标注许可协议。
  • 通过提供标注数据和代码,支持细粒度、多领域的自然语言处理应用,以辅助编辑工作。

提出的方法

  • 提出一种基于图的互文图数据模型,用于表示文本和非文本元素,捕捉文档结构和跨文档关系。
  • 引入三项核心任务:语用标注(按交际目的分类语句)、链接(发现文本间的细粒度关联)和版本对齐(对齐同一文档的不同修订版本)。
  • 采用无监督、基于规则的 ITG 对齐技术,利用整数线性规划(ILP)约束实现段落级别的版本对齐。
  • 使用二元标签方案进行链接标注,未来工作计划探索分解式方法。
  • 开发灵活的标注界面和工作流,以支持高质量、可扩展的互文关系标注。
  • 在开放许可下发布 F1000RD 语料库及配套代码,以确保可复现性和可重用性。

实验结果

研究问题

  • RQ1如何在自然语言处理中具体化互文性理论,以建模同行评审中的基于文本的协作?
  • RQ2在多领域、出版后评审环境中,标注语用标注、链接和版本对齐时面临哪些关键挑战和设计考量?
  • RQ3所提出的无监督 ITG 基础对齐方法在实现高精度段落级别对齐方面效果如何,尤其是在不同文档修订版本之间?
  • RQ4当前标注方案和任务定义在协作文本分析中存在哪些实际权衡与局限性?
  • RQ5与单独分析各项任务相比,联合建模三项任务如何提升对同行评审话语的理解?

主要发现

  • 所提出的互文模型通过语用标注、链接和版本对齐,成功捕捉了评审-修改-再提交周期中的核心现象。
  • F1000RD 语料库是首个公开可用的、多领域、开放的出版后同行评审数据集,具有明确的许可协议,支持多样化的自然语言处理应用。
  • 无监督 ITG 对齐方法实现了高精度,但仅有 70% 的文档被完全对齐,表明仍有改进空间。
  • 联合建模揭示了任务间的依赖关系并非微不足道,其中链接的范围和粒度是关键的开放性问题。
  • 标注质量对界面设计和建议机制高度敏感,表明需要优化标注工作流。
  • 该框架具有可扩展性和适应性,可推广至其他领域,包括维基百科、新闻和在线讨论平台,为更广泛应用铺平道路。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。