Skip to main content
QUICK REVIEW

[論文レビュー] Learning a Code: Machine Learning for Approximate Non-Linear Coded Computation

Jack Kosaian, K. V. Rashmi|arXiv (Cornell University)|Jun 4, 2018
Stochastic Gradient Optimization Techniques参考文献 19被引用数 41
ひとこと要約

本論文は、非線形計算に対するレジリエンスを提供する消失符号を作成するためのエンコーディングとデコーディングのニューラルネットワークを学習し、利用不能なニューラルネットワーク推論出力の近似再構成を可能にする。

ABSTRACT

Machine learning algorithms are typically run on large scale, distributed compute infrastructure that routinely face a number of unavailabilities such as failures and temporary slowdowns. Adding redundant computations using coding-theoretic tools called "codes" is an emerging technique to alleviate the adverse effects of such unavailabilities. A code consists of an encoding function that proactively introduces redundant computation and a decoding function that reconstructs unavailable outputs using the available ones. Past work focuses on using codes to provide resilience for linear computations and specific iterative optimization algorithms. However, computations performed for a variety of applications including inference on state-of-the-art machine learning algorithms, such as neural networks, typically fall outside this realm. In this paper, we propose taking a learning-based approach to designing codes that can handle non-linear computations. We present carefully designed neural network architectures and a training methodology for learning encoding and decoding functions that produce approximate reconstructions of unavailable computation results. We present extensive experimental results demonstrating the effectiveness of the proposed approach: we show that the our learned codes can accurately reconstruct $64 - 98\%$ of the unavailable predictions from neural-network based image classifiers on the MNIST, Fashion-MNIST, and CIFAR-10 datasets. To the best of our knowledge, this work proposes the first learning-based approach for designing codes, and also presents the first coding-theoretic solution that can provide resilience for any non-linear (differentiable) computation. Our results show that learning can be an effective technique for designing codes, and that learned codes are a highly promising approach for bringing the benefits of coding to non-linear computations.

研究の動機と目的

  • 分散型ML推論における非線形計算のレジリエンスを動機づけ、利用不能による遅延を低減する。
  • 任意の微分可能関数Fに対して機能するエンコードとデコード関数を設計するための学習ベースの手法を提案する。
  • EとDを実装するためのニューラルネットワークアーキテクチャ(MLPEncoder、ConvEncoder、デコーディングネットワーク)を開発する。
  • 適切な損失を用いて、基盤モデルFを通じて逆伝搬させ、EとDを共同で学習する。
  • MNIST、Fashion-MNIST、CIFAR-10にまたがるニューラルネットワーク分類器上で有効性を評価する。

提案手法

  • エンコードとデコードをエンドツーエンドで訓練されるニューラルネットワークとして表現する。
  • 3段階のパイプラインを用いる:入力データ→パリティ入力へのエンコード→すべての入力にFを適用→利用不能な出力をデコード。
  • Fを介して損失を逆伝搬させることでEとDを訓練し、Fベースの損失(MSE-BaseまたはKL-Base)またはラベルベースの損失(XENT-Label)を用いる。
  • r個のパリティ出力を生成するために、2つのエンコーディングアーキテクチャを採用する:MLPEncoder(全結合)とConvEncoder(膨張畳み込み)
  • 3層のMLPをデコーダとして用い、すべてのF(Xi)とF(Pj)(利用不能な場合は0)を入力として受け取り、再構成されたF(Xi)を出力する。
  • マルチチャネル入力はチャネルを独立にエンコードし、パリティチャネルを結合して処理する。

実験結果

リサーチクエスチョン

  • RQ1学習ベースのアプローチは、非線形(微分可能)計算に対してレジリエンスを提供するエンコードとデコード関数を設計できるか。
  • RQ2異なるデータセットと基盤モデルにおいて、学習済みコードは利用不能な出力をどれだけ正確に再構成できるか。
  • RQ3非線形Fを通じたEとDの効果的なエンドツーエンド学習を可能にするアーキテクチャと訓練損失は何か。
  • RQ4冗長性の量(kとr)は推論タスクの再構成品質にどのような影響を与えるか。

主な発見

  • 学習済みコードは利用不能な予測の64-98%を正確に再構成できる。
  • ResNet-18分類器では、 studied settings の下で:MNIST 98.87%、Fashion-MNIST 92.06%、CIFAR-10 80.84% が回復した。
  • 20%の冗長性(k=5, r=1)では、彼らのシナリオで全体の予測精度がCIFAR-10で84.12%から90.59%へ、MNISTで89.28%から98.75%へ改善された。
  • 本手法は、非線形計算(推論)のための消失符号とレジリエンスの初の学習ベース設計を示す。
  • 評価では2つのベースモデル(MLPとResNet-18)と3データセットを用い、学習済みコードの堅牢性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。