QUICK REVIEW

[論文レビュー] How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks

Keyulu Xu, Mozhi Zhang|arXiv (Cornell University)|Sep 24, 2020

Domain Adaptation and Few-Shot Learning参考文献 90被引用数 108

ひとこと要約

本論文は、勾配降下法で訓練されたニューラルネットワークが訓練データの外側をどのように外挿するかを分析し、ReLU MLPが原点からの方向に沿って線形関数へ収束すること、またタスク固有の非線形性がアーキテクチャや特徴量に組み込まれている場合にGNNsが外挿できることを示す。NTKベースの理論結果と、DPタスク全体での実証的検証を提供する。

ABSTRACT

We study how neural networks trained by gradient descent extrapolate, i.e., what they learn outside the support of the training distribution. Previous works report mixed empirical results when extrapolating with neural networks: while feedforward neural networks, a.k.a. multilayer perceptrons (MLPs), do not extrapolate well in certain simple tasks, Graph Neural Networks (GNNs) -- structured networks with MLP modules -- have shown some success in more complex tasks. Working towards a theoretical explanation, we identify conditions under which MLPs and GNNs extrapolate well. First, we quantify the observation that ReLU MLPs quickly converge to linear functions along any direction from the origin, which implies that ReLU MLPs do not extrapolate most nonlinear functions. But, they can provably learn a linear target function when the training distribution is sufficiently "diverse". Second, in connection to analyzing the successes and limitations of GNNs, these results suggest a hypothesis for which we provide theoretical and empirical evidence: the success of GNNs in extrapolating algorithmic tasks to new data (e.g., larger graphs or edge weights) relies on encoding task-specific non-linearities in the architecture or features. Our theoretical analysis builds on a connection of over-parameterized networks to the neural tangent kernel. Empirically, our theory holds across different training settings.

研究の動機と目的

勾配降下法で訓練されたニューラルネットワークが訓練データの支配領域の外側をどの程度外挿するかを定量化する。
MLPが非線形の外挿に苦戦する一方で、GNNsがDPのようなタスクで成功できる理由を説明する。
MLPとGNNがどの条件下で良く外挿するかを特定する。
フィードフォワードの外挿に関する洞察をGNNのアーキテクチャと表現に結びつける。

提案手法

ニューラル・タンジェント・カーネル（NTK）領域における過 Parameterized ネットワークを分析し、訓練ダイナミクスとカーネル回帰を結びつける。
原点からの方向に沿って、2層ReLU MLPの線形外挿挙動を、速度 rate O(1/t) で証明する。
訓練分布が十分に多様である場合に、MLPが線形ターゲットを良く外挿することを示す（定理2）。
タスク固有の非線形性がアーキテクチャや入力表現に組み込まれている場合にGNNsがよく外挿するという仮説を提案・検証する（定理3とそれに付随する実験）。
簡略化したGNNケースで外挿を分析するためにGraph NTKを用い、最大次数、最短経路、n-体タスクで検証する。
外挿を可能にするアーキテクチャの役割（例: 最大/最小リードアウト）と入力表現について論じる。

実験結果

リサーチクエスチョン

RQ1ReLU MLPs が訓練データ分布の外側へどの程度良く外挿するのか？
RQ2GNNs が非線形タスクを外挿できる条件は何か、アーキテクチャと入力表現はどのように影響するか？
RQ3タスク固有の非線形性をGNNや表現に組み込むことで、未知のグラフサイズ・構造・エッジ重みへ外挿できるか？
RQ4MLPの線形ターゲットとGNNのDPのようなタスクに対する外挿は、訓練データの幾何学によってどう影響を受けるか？

主な発見

ReLU MLPは原点からの方向に沿って線形関数へ外挿し、速度は O(1/t)。
訓練分布が十分に多様な場合、MLPは線形ターゲットを外挿できる（多様な幾何学）。
GNNは適切な非線形性がアーキテクチャや特徴量に組み込まれている場合、DPのようなタスクで良く外挿できることを、理論（Graph NTK）と実験で裏付け。
最大次数や最短経路などのタスクで、和の集約を外挿更新を模したアーキテクチャ（例: min/max リードアウト）に置換することで外挿性が向上する。
入力表現の改善は、非線形ダイナミクスをMLPではなく表現側に移すことで、n-体のような非線形ダイナミクスをGNNが外挿できるようにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。