[论文解读] Wireless TokenCom: RL-Based Tokenizer Agreement for Multi-User Wireless Token Communications
本文提出一个混合 DQN–DDPG 强化学习框架,联合优化 Tokenizer 及其协议的一致性、子信道分配与波束成形,在多用户无线 TokenCom 中提升语义质量并减少视频卡顿。
Token Communications (TokenCom) has recently emerged as an effective new paradigm, where tokens are the unified units of multimodal communications and computations, enabling efficient digital semantic- and goal-oriented communications in future wireless networks. To establish a shared semantic latent space, the transmitters/receivers in TokenCom need to agree on an identical tokenizer model and codebook. To this end, an initial Tokenizer Agreement (TA) process is carried out in each communication episode, where the transmitter/receiver cooperate to choose from a set of pre-trained tokenizer models/ codebooks available to them both for efficient TokenCom. In this correspondence, we investigate TA in a multi-user downlink wireless TokenCom scenario, where the base station equipped with multiple antennas transmits video token streams to multiple users. We formulate the corresponding mixed-integer non-convex problem, and propose a hybrid reinforcement learning (RL) framework that integrates a deep Q-network (DQN) for joint tokenizer agreement and sub-channel assignment, with a deep deterministic policy gradient (DDPG) for beamforming. Simulation results show that the proposed framework outperforms baseline methods in terms of semantic quality and resource efficiency, while reducing the freezing events in video transmission by 68% compared to the conventional H.265-based scheme.
研究动机与目标
- 将 TokenCom 作为一个面向语义与目标的无线通信范式,利用预训练的 tokenizer/码本对。
- 将联合 tokenizer 一致性、子信道分配与下行多用户 TokenCom 波束成形的问题表述为混合整数非凸优化问题。
- 开发一个混合强化学习解法(离散决策用 DQN,连续动作用 DDPG)以求解该问题。
- 证明自适应 tokenizer 一致性能够提升语义质量与资源利用效率,同时降低视频卡顿。
- 在现实的视频分词设置下,展示对更多用户和天线数量的可扩展性。
提出的方法
- 将问题建模为一个状态包含信道条件、速率与所选 tokenizer 对的 MDP。
- 采用混合结构:DQN 选择离散的 tokenizer 与子信道分配,DDPG 输出连续的波束成形向量。
- 将奖励定义为归一化的效用,结合语义质量与功耗,并对违反约束给予惩罚。
- 状态表示包含所选 tokenizer/去标记器对 ηm_i,以在每一轮条件化决策。
- 使用经验回放和目标网络进行训练,DQN 采用 TD 损失,DDPG 采用 Bellman/actor-critic 更新。
- 提供算法(Algorithm 1)详细描述基于 episode 的 tokenizer 选择与逐时隙资源分配。
实验结果
研究问题
- RQ1如何在多用户 TokenCom 系统中联合优化 tokenizer 一致性、子信道分配与波束成形?
- RQ2一个混合 DQN–DDPG RL 框架能否根据信道条件与语义需求自适应 tokenizer 选择以最大化系统效用?
- RQ3自适应 TA 对视频质量指标和资源效率的影响与基线相比如何?
- RQ4该框架在更多用户和更大天线阵列下的扩展性如何?
- RQ5所提出方法在语义质量、速率与功率之间有哪些权衡?
主要发现
- 所提出的框架在语义质量与资源效率方面优于基线。
- 与传统基于 H.265 的方案相比,显著降低视频卡顿(摘要中报告 68% 的降低)。
- 在用户数和天线数变化时,方法能获得更高的 PSNR,且在 U=4、N=64 时较传统基线约高出 10 dB PSNR。
- 初次探索后,卡顿率降低且更稳定,表明 tokenizer-NT 自适应有效。
- 随着发射功率增加和天线增多,性能提升,显示出在不同场景下的可扩展性与鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。