QUICK REVIEW

[论文解读] The CLRS Algorithmic Reasoning Benchmark

Petar Veličković, Adrià Puigdomènech Badia|arXiv (Cornell University)|May 31, 2022

AI-based Problem Solving and Planning被引用 5

一句话总结

本文提出 CLRS-30，一个涵盖 CLRS《算法导论》中 30 种经典算法的综合性基准，提供输入-输出轨迹及中间的“提示”状态，用于训练与评估。该基准在分布外泛化能力方面评估了多种神经网络架构，结果表明图神经网络（尤其是 PGN）优于其他模型，但即使是最先进的模型在分布外泛化上的微 F1 分数也仅达到约 51%，凸显了在分布偏移之外的算法推理仍面临重大挑战。

ABSTRACT

Learning representations of algorithms is an emerging area of machine learning, seeking to bridge concepts from neural networks with classical algorithms. Several important works have investigated whether neural networks can effectively reason like algorithms, typically by learning to execute them. The common trend in the area, however, is to generate targeted kinds of algorithmic data to evaluate specific hypotheses, making results hard to transfer across publications, and increasing the barrier of entry. To consolidate progress and work towards unified evaluation, we propose the CLRS Algorithmic Reasoning Benchmark, covering classical algorithms from the Introduction to Algorithms textbook. Our benchmark spans a variety of algorithmic reasoning procedures, including sorting, searching, dynamic programming, graph algorithms, string algorithms and geometric algorithms. We perform extensive experiments to demonstrate how several popular algorithmic reasoning baselines perform on these tasks, and consequently, highlight links to several open challenges. Our library is readily available at https://github.com/deepmind/clrs.

研究动机与目标

通过基于《算法导论》中的经典算法创建一个标准化、全面的数据集，统一分散的算法推理基准。
在多样化的算法推理任务中，评估神经网络模型在分布外泛化方面的能力。
通过在算法执行与推理任务中系统比较 GNN、Transformer 和记忆网络等架构，实现架构间的对比。
通过提供可重用、文档齐全且带有中间监督的数据集，降低算法推理研究的入门门槛。
识别神经网络泛化中的持续性挑战，尤其是针对递归、长距离和字符串匹配算法。

提出的方法

该基准为 30 种经典算法构建了轨迹，包括输入、输出以及代表算法步骤的中间“提示”状态。
每种算法被编码为一系列操作，输入和输出以张量格式组织，供模型使用。
该数据集支持分布内和分布外（OOD）评估，其中 OOD 测试集使用比训练集更大的输入规模。
模型在训练集上进行训练，并在分布外泛化任务上进行评估，性能通过预测任务的微 F1 分数衡量。
评估了多种架构：Deep Sets、GAT、Memory Networks、MPNN 和 PGN，支持跨模型比较。
该基准包含特定于算法的归纳偏置，例如图算法使用图结构，字符串算法使用序列建模。

实验结果

研究问题

RQ1现代神经网络架构在算法推理任务中对分布外输入的泛化能力如何？
RQ2哪些架构归纳偏置（如图注意力、记忆网络）最符合经典算法的结构？
RQ3在一种算法上训练的模型，能在多大程度上泛化到具有共享子程序的相关算法？
RQ4为何某些模型在递归或长距离推理任务（如快速排序或深度优先搜索）中表现失败？
RQ5中间监督（提示）如何影响模型性能与学习效率？

主要发现

PGN 模型在整体 OOD 微 F1 分数上达到最高，为 50.84%，显著优于其他架构。
尽管在分布内表现良好，MPNN 在更大图上表现欠佳，表明其分布外泛化能力有限。
记忆网络和 Deep Sets 在大多数算法类别中均表现不佳，尤其在排序和字符串匹配任务中，F1 分数低于 15%。
基于 GNN 的模型（PGN、GAT）在图和动态规划任务中持续优于非 GNN 基线模型。
字符串匹配算法（如 KMP）仍极具挑战性，所有模型的微 F1 分数均低于 3.5%，表明需要专门的归纳偏置。
即使是最先进的模型，在分布外泛化上的微 F1 分数也仅达到约 51%，揭示了算法推理泛化能力仍存在显著差距。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。