[论文解读] Reinforcement Learning-powered Semantic Communication via Semantic Similarity
本论文提出 SemanticRL,一种基于强化学习的语义通信框架,优化语义相似度而非逐比特精确度,使用自我评判训练以及解耦收发端(SCSIU)来处理不可微分目标和信道。它在文本数据上展示了更好的语义恢复,并扩展到一个基于强化学习的图像传输场景。
We introduce a new semantic communication mechanism - SemanticRL, whose key idea is to preserve the semantic information instead of strictly securing the bit-level precision. Unlike previous methods that mainly concentrate on the network or structure design, we revisit the learning process and point out the semantic blindness of commonly used objective functions. To address this semantic gap, we introduce a schematic shift that learns from semantic similarity, instead of relying on conventional paired bit-level supervisions like cross entropy and bit error rate. However, developing such a semantic communication system is indeed a nontrivial task considering the non-differentiability of most semantic metrics as well as the instability from noisy channels. To further resolve these issues, we put forward a self-critic reinforcement learning (RL) solution which allows an efficient and stable learning on any user-defined semantic measurement, and take a step further to simultaneously tackle the non-differentiable semantic channel optimization problem via self-critic stochastic iterative updating (SCSIU) training on the decoupled semantic transceiver. We have firstly tested the proposed method in the challenging European-parliament dataset, which confirms the superiority of our method in revealing the semantic meanings, and better handling the semantic noise. Apart from the experimental results, we further provide an in-depth look at how the semantic model behaves, along with its superb generalization ability in real-life examples. An RL-based image transmission extension is also exemplified, so as to prove the generalization ability and motivate future discussion.
研究动机与目标
- 将目标从比特级精度转向在通信系统中最大化语义相似度。
- 提供一个框架,将不可微的语义相似性度量作为训练目标进行优化。
- 采用自我评判强化学习方法来应对不可微的信道效应。
- 引入一个解耦的语义收发端变体(SCSIU),在不增加额外参数的情况下联合处理语义编码和解码。
- 在真实数据集上展示鲁棒性和泛化性,并扩展到基于强化学习的图像传输。
提出的方法
- 将语义相似度定义为收发端优化的目标,使得不可微分的度量(如 BLEU 和 CIDEr)能够引导学习。
- 采用强化学习范式,使用优化语义相似度分数 Theta(m, m_hat) 的策略梯度。
- 引入自我评判训练方案以降低梯度方差,并在不需要额外基线网络的情况下实现稳定学习。
- 提出 SemanticRL-JSCC,其中编码器和解码器在自我评判策略梯度下进行训练,包含用于探索的多项式采样。
- 扩展为 SemanticRL-SCSIU,其中编码器和解码器解耦并在连续(编码器)和离散(解码器)策略上使用自我评判更新进行训练。
- 提供处理稀疏奖励和情节序列生成的操作细节,包括回报和梯度估计的方程。
实验结果
研究问题
- RQ1在没有微分监督的情况下,语义相似性度量能否指导通信系统的端到端训练?
- RQ2如何利用自我评判强化学习稳定大规模语义传输任务的训练?
- RQ3相较于比特级目标,优化语义相似度是否能改善高阶语义对齐?
- RQ4该方法能否扩展到一个解耦的、可处理不可微信道的大规模收发端?
- RQ5在实际的、真实世界数据集以及基于 RL 的图像传输扩展中,基于 BLEU 和 CIDEr 的目标函数表现如何?
主要发现
- SemanticRL 通过优化语义相似度而非比特级精度来提升传输意义的对齐。
- 自我评判训练为大型语义空间提供低方差、稳定的策略梯度,而无需额外基线网络。
- 该框架将不可微的语义度量(如 BLEU 和 CIDEr)作为优化目标。
- 一个解耦的变体(SemanticRL-SCSIU)在不可微信道条件下实现编码器和解码器的联合或分离优化。
- 在 European-parliament 数据集和基于 RL 的图像传输的实验表明该语义导向方法的鲁棒性和泛化性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。