QUICK REVIEW

[论文解读] Efficient collective swimming by harnessing vortices through deep reinforcement learning

Siddhartha Verma, Guido Novati|arXiv (Cornell University)|Feb 7, 2018

Biomimetic flight and propulsion mechanisms参考文献 38被引用 444

一句话总结

本研究采用深度强化学习（DRL）训练自主游动体，使其通过与领头鱼产生的涡流尾迹同步，优化集体推进效率。智能跟随者通过在精确的锁相位置拦截涡流，实现游泳效率最高达100%的提升，表明鱼类可从流体的水动力流中获取能量，从而降低能耗，且不牺牲速度或稳定性。

ABSTRACT

Fish in schooling formations navigate complex flow-fields replete with mechanical energy in the vortex wakes of their companions. Their schooling behaviour has been associated with evolutionary advantages including collective energy savings. How fish harvest energy from their complex fluid environment and the underlying physical mechanisms governing energy-extraction during collective swimming, is still unknown. Here we show that fish can improve their sustained propulsive efficiency by actively following, and judiciously intercepting, vortices in the wake of other swimmers. This swimming strategy leads to collective energy-savings and is revealed through the first ever combination of deep reinforcement learning with high-fidelity flow simulations. We find that a `smart-swimmer' can adapt its position and body deformation to synchronise with the momentum of the oncoming vortices, improving its average swimming-efficiency at no cost to the leader. The results show that fish may harvest energy deposited in vortices produced by their peers, and support the conjecture that swimming in formation is energetically advantageous. Moreover, this study demonstrates that deep reinforcement learning can produce navigation algorithms for complex flow-fields, with promising implications for energy savings in autonomous robotic swarms.

研究动机与目标

探究鱼类是否可通过利用同种个体尾迹中的水动力涡流来减少能量消耗。
开发基于强化学习的自主导航策略，使游动体能够适应非定常流场。
通过高保真流体动力学模拟量化协调游动的能耗优势。
揭示在集体运动中从涡流尾迹中提取能量的物理机制。
展示DRL在复杂流体环境中发现最优、生物上合理的游泳策略的可行性。

提出的方法

采用带有长短期记忆（LSTM）网络的深度强化学习（DRL）训练自推进游动体，使其从视觉流场线索中学习最优游泳策略。
通过不可压缩纳维-斯托克斯方程的高保真直接数值模拟（DNS），建模两个串联游动体（领头者与跟随者）周围二维流场，包含真实的鱼类形变。
训练两个不同的DRL智能体：IS η（聚焦效率）和IS d（聚焦位置稳定性），各自基于游泳效率或侧向偏差的自定义奖励函数。
DRL智能体通过在模拟环境中试错学习策略，利用局部流速和涡度的状态观测实时决策。
采用基线控制案例（孤独游动者SS η和SS d）以隔离由尾迹相互作用带来的能耗优势。
计算并比较不同配置下的能量指标，包括游泳效率（η）、推力功率（PThrust）、形变功率（PDef）和运输成本（CoT）。

实验结果

研究问题

RQ1自主游动体能否通过主动与领头鱼产生的涡流尾迹相互作用来提升游泳效率？
RQ2在集体游动中观察到的能量节省背后的物理机制是什么，特别是与涡流同步的关系？
RQ3强化学习中奖励函数的选择如何影响高效游泳姿态与轨迹的出现？
RQ4在缺乏对领头者运动先验知识的情况下，跟随者在非定常、复杂流场中能在多大程度上自适应调整行为？
RQ5通过LSTM实现的时间记忆在动态涡流环境中如何促进稳定、高效的导航？

主要发现

经DRL训练的跟随者（IS η）通过将其头部运动与涡流尾迹中的横向流速同步，实现了游泳效率η ≈ 1.0，较领头者效率提升100%。
IS η自然稳定在位于领头者后方∆x ≈ 2.2L处，该位置与涡环周期性脱落相一致；同时也在∆x ≈ 1.5L处稳定，对应于涡流间距（相距0.7L）。
在最优涡流拦截期间，跟随者的身体形变极小，表明能量节省源于流场利用而非肌肉努力增加。
尽管未对位置施加直接奖励，IS η仍通过利用时间记忆（LSTM）保持稳定侧向位置（∆y ≈ 0），证明其对动态流场的鲁棒适应能力。
由于有利的涡流相互作用，跟随者中段区域（0.2 < s/L < 0.4）的推力功率显著增强，而形变功率保持较低，证实了高效的能量获取。
即使领头者的运动变得不规则，经训练的跟随者（IS η）仍能自主适应，保持在尾迹中并最大化长期效率，证明其具备良好的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。