Skip to main content
QUICK REVIEW

[论文解读] Rethinking Lossy Compression: The Rate-Distortion-Perception Tradeoff

Yochai Blau, Tomer Michaeli|arXiv (Cornell University)|Jan 23, 2019
Image and Signal Denoising Methods参考文献 51被引用 63
一句话总结

本文引入一个率失真感知函数 R(D,P),用以量化码率、失真和感知质量之间的权衡,证明较高的感知质量通常会提高所需的码率或失真。它分析属性并通过 Bernoulli 和 MNIST 的 toy 示例演示,感知约束提升了率失真曲线。

ABSTRACT

Lossy compression algorithms are typically designed and analyzed through the lens of Shannon's rate-distortion theory, where the goal is to achieve the lowest possible distortion (e.g., low MSE or high SSIM) at any given bit rate. However, in recent years, it has become increasingly accepted that "low distortion" is not a synonym for "high perceptual quality", and in fact optimization of one often comes at the expense of the other. In light of this understanding, it is natural to seek for a generalization of rate-distortion theory which takes perceptual quality into account. In this paper, we adopt the mathematical definition of perceptual quality recently proposed by Blau & Michaeli (2018), and use it to study the three-way tradeoff between rate, distortion, and perception. We show that restricting the perceptual quality to be high, generally leads to an elevation of the rate-distortion curve, thus necessitating a sacrifice in either rate or distortion. We prove several fundamental properties of this triple-tradeoff, calculate it in closed form for a Bernoulli source, and illustrate it visually on a toy MNIST example.

研究动机与目标

  • 推动将感知质量纳入率失真理论的必要性
  • 定义并分析 rate-distortion-perception function R(D,P)
  • 证明 R(D,P) 对一般源以及失真度的基本属性
  • 为简单源提供闭式解以获得洞见、为实际失真提供界限
  • 通过 toy MNIST 实验说明权衡并讨论方法设计的含义

提出的方法

  • 采用 Blau & Michaeli (2018) 的感知质量定义 d(pX, pXhat)
  • 将 R(D,P) 定义为在 E[Δ(X,Xhat)] ≤ D 且 d(pX, pXhat) ≤ P 的前提下最小化 I(X; Xhat)
  • 给出伯努利源的闭式推导以说明权衡(使用 H_b 与 H_t 熵)
  • 在温和假设 A1、A2 下证明 R(D,P) 的单调性与凸性
  • 给出平方误差情形的上界:R(D,0) ≤ R(D/2, ∞)
  • 通过带有神经网络编码器-解码器和基于 GAN 的感知损失的 toy MNIST 实验演示

实验结果

研究问题

  • RQ1强制感知质量约束如何影响率失真权衡?
  • RQ2对于不同的失真和散度,R(D,P) 的一般性质是什么?
  • RQ3是否可以在不增加码率的情况下实现完美的感知质量,如若可以,失真可能增加到多少?
  • RQ4简单(伯努利)源与复杂(MNIST,神经网络)源如何说明 R(D,P) 的权衡?

主要发现

  • 约束感知质量会提高率失真曲线,表明码率、失真和感知之间存在权衡。
  • 对于伯努利源,R(D,P) 在 P ≤ p 时偏离经典的 R(D),体现感知约束效应。
  • 在给定失真下实现完美感知质量的码率提高是有界的(平方误差下:R(D,0) ≤ R(D/2, ∞))。
  • 三方权衡在多种失真度量下普遍存在,包括基于深度特征的失真,不仅限于均方误差(MSE) 。
  • MNIST 实验表明,在感知受限的重建下,虽然非常低的码率下也能保持视觉上令人满意,但身份保留可能会失败。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。