Skip to main content
QUICK REVIEW

[论文解读] Neural Joint Source-Channel Coding

Kristy Choi|arXiv (Cornell University)|Nov 19, 2018
Speech and Audio Processing被引用 27
一句话总结

该论文提出 NECST,一种通过注入潜在噪声以模拟信道干扰的离散变分自编码器联合学习压缩与纠错的神经联合信源信道编码框架。通过在互信息的变分下界下进行端到端训练,NECST 在重建质量上与独立的 WebP 和 LDPC 编码器相当,学习到对下游任务具有鲁棒性的表征,并实现了高达 10 倍于信念传播方法的神经解码速度。

ABSTRACT

For reliable transmission across a noisy communication channel, classical results from information theory show that it is asymptotically optimal to separate out the source and channel coding processes. However, this decomposition can fall short in the finite bit-length regime, as it requires non-trivial tuning of hand-crafted codes and assumes infinite computational power for decoding. In this work, we propose to jointly learn the encoding and decoding processes using a new discrete variational autoencoder model. By adding noise into the latent codes to simulate the channel during training, we learn to both compress and error-correct given a fixed bit-length and computational budget. We obtain codes that are not only competitive against several separation schemes, but also learn useful robust representations of the data for downstream tasks such as classification. Finally, inference amortization yields an extremely fast neural decoder, almost an order of magnitude faster compared to standard decoding methods based on iterative belief propagation.

研究动机与目标

  • 为解决在有限比特长度范围内经典分离式信源编码与信道编码的局限性,其中码率调整与计算复杂度限制了性能。
  • 在固定比特长度与计算预算下,利用深度学习联合优化压缩与纠错。
  • 学习对下游任务(如分类)有用的、鲁棒且解耦的数据表征。
  • 通过近似推理实现快速推理,克服传统解码中迭代信念传播带来的高延迟。
  • 证明在训练过程中向潜在代码中注入离散噪声可提升鲁棒性与泛化能力。

提出的方法

  • 使用离散变分自编码器将输入图像映射为二进制比特串,即使在存在离散潜在变量的情况下,仍能实现端到端可微训练。
  • 在训练过程中直接向潜在代码中注入噪声,以模拟离散无记忆信道,从而增强对干扰的鲁棒性。
  • 通过最小化输入图像与其二进制表示之间互信息的变分下界来训练模型,以优化压缩效率与抗干扰能力。
  • 在测试阶段应用近似推理,实现无需迭代解码过程的快速神经解码器。
  • 使用无偏、低方差的梯度估计器训练离散潜在变量模型,从而实现有效的反向传播。
  • 该方法通过联合信源信道编码目标隐式学习数据分布的生成模型。

实验结果

研究问题

  • RQ1通过深度神经网络联合学习信源编码与信道编码,是否能在有限比特长度范围内超越基于分离的古典方案?
  • RQ2在训练过程中向潜在空间注入离散噪声,是否能带来对重建与下游任务均更鲁棒、更具泛化能力的表征?
  • RQ3神经解码器中的近似推理是否能显著提升解码速度,相比迭代信念传播方法?
  • RQ4所学习的离散潜在代码在多大程度上保留了对分类任务有用的语义结构?
  • RQ5在各种信道噪声模型下,NECST 的性能与 WebP 和 LDPC 编码器等标准编解码器相比如何?

主要发现

  • NECST 在多个灰度与 RGB 图像数据集上实现了与 WebP(信源编码)和 LDPC 编码器(信道编码)组合相当的重建性能。
  • 该模型学习到对信道噪声具有鲁棒性的离散潜在表征,在训练中加入噪声后性能提升,表明其具备有效的去噪自编码器行为。
  • 通过近似推理实现的神经解码器比标准信念传播解码器快近一个数量级,且在 GPU 上最高可实现两个数量级的速度提升。
  • 所学习的潜在代码对下游分类任务具有实用性,表明鲁棒表征学习可自然地从联合编码目标中涌现。
  • 该框架在不同离散信道模型上均具有泛化能力,在各种噪声条件下均表现出一致的重建质量提升。
  • 即使在干净数据上进行训练,但在噪声条件下进行测试,模型依然表现良好,表明其具备强大的泛化能力与鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。