多GPU和多节点训练

Isaac Lab支持多GPU和多节点的强化学习。目前，此功能仅适用于RL-Games, RSL-RL和skrl库工作流程。我们正在努力将此功能扩展到其他工作流程中。

多GPU训练#

Isaac Lab 支持以下多GPU训练框架:

Torchrun 通过 PyTorch distributed
JAX distributed

Pytorch Torchrun 实现#

我们正在使用 PyTorch Torchrun 来管理多GPU训练。Torchrun 通过以下方式管理分布式训练:

进程管理: 为每个GPU启动一个进程，其中每个进程分配给特定的GPU。
脚本执行: 在每个进程上运行相同的训练脚本（例如，RL Games 训练器）。
环境实例: 每个进程都会创建自己的 Isaac Lab 环境实例。
梯度同步: 在每个训练步骤后聚合所有进程的梯度，并将同步的梯度广播回每个进程。

小技巧

请查看这个 PyTorch 的 3 分钟 YouTube 视频，了解 Torchrun 的工作原理。

这个设置中的关键组件是:

Torchrun: 处理进程生成、通信和梯度同步。
RL 库: 运行实际训练算法的强化学习库。
Isaac Lab: 提供每个过程独立实例化的仿真环境。

在幕后，Torchrun 使用 DistributedDataParallel 模块来管理分布式训练。使用 Torchrun 在多个 GPU 上训练时，会出现以下情况:

每个 GPU 运行独立的进程。
每个进程执行完整训练脚本
每个进程都保持自己的:
- Isaac Lab 环境实例（具有 n 个并行环境）
- 策略网络复制
- 用于rollout收集的经验缓冲区
所有进程仅在梯度更新时进行同步

要深入了解 Torchrun 的工作原理，请查看 PyTorch Docs: DistributedDataParallel - Internal Design 。

Jax 实现#

小技巧

JAX 仅支持 skrl 库。

使用 JAX，我们正在使用 skrl.utils.distributed.jax 。由于机器学习框架不会自动从单个程序调用启动多个进程，所以 skrl 库提供了一个模块来启动它们。

运行多GPU训练#

要使用多个GPU进行训练，请使用以下命令，其中 --nproc_per_node 表示可用的GPU数量:

rl_games

python -m torch.distributed.run --nnodes=1 --nproc_per_node=2 scripts/reinforcement_learning/rl_games/train.py --task=Isaac-Cartpole-v0 --headless --distributed

rsl_rl

python -m torch.distributed.run --nnodes=1 --nproc_per_node=2 scripts/reinforcement_learning/rsl_rl/train.py --task=Isaac-Cartpole-v0 --headless --distributed

skrl

PyTorch

python -m torch.distributed.run --nnodes=1 --nproc_per_node=2 scripts/reinforcement_learning/skrl/train.py --task=Isaac-Cartpole-v0 --headless --distributed

JAX

python -m skrl.utils.distributed.jax --nnodes=1 --nproc_per_node=2 scripts/reinforcement_learning/skrl/train.py --task=Isaac-Cartpole-v0 --headless --distributed --ml_framework jax

目录

多GPU和多节点训练#

多GPU训练#

Pytorch Torchrun 实现#

Jax 实现#

运行多GPU训练#

多节点训练#