[论文解读] Auto-Conditioned Recurrent Networks for Extended Complex Human Motion Synthesis
本文提出用于长时间、多样化、复杂人体动作合成的自我条件化RNN(acRNN),通过减缓误差累积来生成数百秒的动作。
We present a real-time method for synthesizing highly complex human motions using a novel training regime we call the auto-conditioned Recurrent Neural Network (acRNN). Recently, researchers have attempted to synthesize new motion by using autoregressive techniques, but existing methods tend to freeze or diverge after a couple of seconds due to an accumulation of errors that are fed back into the network. Furthermore, such methods have only been shown to be reliable for relatively simple human motions, such as walking or running. In contrast, our approach can synthesize arbitrary motions with highly complex styles, including dances or martial arts in addition to locomotion. The acRNN is able to accomplish this by explicitly accommodating for autoregressive noise accumulation during training. Our work is the first to our knowledge that demonstrates the ability to generate over 18,000 continuous frames (300 seconds) of new complex human motion w.r.t. different styles.
研究动机与目标
- 推动并实现超越走路/奔跑的高度复杂人体动作生成。
- 解决自回归动作生成中的误差累积问题。
- 展示跨多种风格的长时域合成(数百秒)。
提出的方法
- 引入 acRNN,其中网络在训练时使用其以往输出作为输入(自我条件化)。
- 使用条件长度 u 和生成长度 v,在训练时将 v 帧预测结果与真实帧一起输入。
- 将运动数据表示为相对关节位移(根部运动和关节位置),以捕捉持续的周期性。
- 用三层全连接层(记忆容量 1024)训练 acLSTM,使用 ADAM 优化在长度为 100 的序列上进行 50 万次迭代。
- 在 CMU 动作捕捉子集上与基线(LSTM、ERD、seq2seq、调度采样)进行 Euclidean 损失对比。
实验结果
研究问题
- RQ1acRNN 是否能够在不冻结的情况下生成任意长、真实且风格多样的动作(如舞蹈、武术)?
- RQ2与标准 RNN 训练相比,自我条件化如何影响长距离动作的稳定性与真实感?
- RQ3不同条件长度对短期预测误差与长期动作连续性的权衡是什么?
- RQ4与现有基线相比,acRNN 在不同动作风格上的表现如何?
主要发现
- acLSTM 能在数百秒内不冻结地产生运动(结果中显示超过 300 秒的示例)。
- acLSTM 在多种风格下的短期与中期预测误差低于若干基线,尤其在印度舞蹈和武术方面。
- Vanilla LSTM 在 ~60 帧后容易冻结,而 acLSTM 能维持持续的多样化动作。
- 相较于 ERD 与 seq2seq,acLSTM 提供更长时间的合理动作,但由于人体动作的随机性,所有方法在极长的时间尺度上误差仍在增加。
- 来自不同风格的训练数据混合可产生混合动作,借鉴两种风格的特征。
- 动作序列可在约 60fps 生成,示例展示 50 秒以上的合成输出。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。