verl-project
diff --git a/‎.github/workflows/npu_unit_tests.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/npu_unit_tests.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/checkpoint_engine/test_nccl_checkpoint_engine.py‎
Lines changed: 110 additions & 0 deletions b/‎tests/checkpoint_engine/test_nccl_checkpoint_engine.py‎
Lines changed: 110 additions & 0 deletions
diff --git a/‎tests/checkpoint_engine/test_nixl_checkpoint_engine.py‎
Lines changed: 123 additions & 0 deletions b/‎tests/checkpoint_engine/test_nixl_checkpoint_engine.py‎
Lines changed: 123 additions & 0 deletions
diff --git a/‎tests/checkpoint_engine/test_utils.py‎
Lines changed: 124 additions & 0 deletions b/‎tests/checkpoint_engine/test_utils.py‎
Lines changed: 124 additions & 0 deletions
diff --git a/‎…cial_npu/run_qwen3_30b_dapo_mindspeed.sh‎ ‎…cial_npu/run_qwen3_30b_grpo_mindspeed.sh‎tests/special_npu/run_qwen3_30b_dapo_mindspeed.sh renamed to tests/special_npu/run_qwen3_30b_grpo_mindspeed.sh b/‎…cial_npu/run_qwen3_30b_dapo_mindspeed.sh‎ ‎…cial_npu/run_qwen3_30b_grpo_mindspeed.sh‎tests/special_npu/run_qwen3_30b_dapo_mindspeed.sh renamed to tests/special_npu/run_qwen3_30b_grpo_mindspeed.sh
diff --git a/‎tests/special_sanity/check_device_api_usage.py‎
Lines changed: 1 addition & 0 deletions b/‎tests/special_sanity/check_device_api_usage.py‎
Lines changed: 1 addition & 0 deletions
@@ -109,7 +109,7 @@ jobs:
       - name: Run all NPU unit tests
         run: |
           export PYTHONPATH=$PYTHONPATH:/Megatron-LM
-          pytest -s -x --ignore-glob="*test_special_*.py" --ignore-glob="*on_cpu.py" --ignore-glob="*test_vllm*" --ignore-glob="*_sglang*" --ignore-glob="*_hf_rollout*" --ignore-glob="tests/models/" --ignore-glob="tests/special*" --ignore-glob="tests/experimental" --ignore-glob="tests/workers/reward_model" --ignore-glob="*test_rvdz*" --ignore-glob="*test_ray_collectives*" --ignore-glob="*test_nvtx_profile*" tests/
+          pytest -s -x --ignore-glob="*test_special_*.py" --ignore-glob="*on_cpu.py" --ignore-glob="*test_vllm*" --ignore-glob="*_sglang*" --ignore-glob="*_hf_rollout*" --ignore-glob="tests/models/" --ignore-glob="tests/special*" --ignore-glob="tests/experimental" --ignore-glob="tests/workers/reward_model" --ignore-glob="*test_rvdz*" --ignore-glob="*test_ray_collectives*" --ignore-glob="*test_nvtx_profile*" --ignore-glob="*test_nccl*" --ignore-glob="*test_nixl*" tests/
       - name: Testing FSDP2 actor functionality
         run: |
           torchrun --standalone --nnodes=1 --nproc-per-node=2 tests/workers/actor/test_special_dp_actor.py
 
@@ -0,0 +1,110 @@
+# Copyright 2024 Bytedance Ltd. and/or its affiliates
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import os
+
+import pytest
+import ray
+
+from tests.checkpoint_engine.test_utils import create_rollout_worker_group, create_trainer_worker_group
+from verl.single_controller.ray.base import (
+    RayResourcePool,
+    split_resource_pool,
+)
+
+
+@pytest.mark.parametrize("rebuild_group", [False, True])
+@pytest.mark.parametrize("num_trainer, num_rollout", [(2, 6)])
+def test_nccl_checkpoint_engine(
+    rebuild_group,
+    num_trainer,
+    num_rollout,
+    num_nodes=1,
+    num_gpus_per_node=8,
+    check_allclose=True,
+    model_path="~/models/Qwen/Qwen3-8B-Base",
+):
+    model_path = os.path.expanduser(model_path)
+    ray.init(
+        runtime_env={
+            "env_vars": {
+                "UCX_TLS": "rc,tcp,cuda",
+                "UCX_MAX_RNDV_RAILS": "4",
+                "UCX_LOG_LEVEL": "INFO",
+                "VERL_LOGGING_LEVEL": "DEBUG",
+            }
+        }
+    )
+
+    resource_pool = RayResourcePool(process_on_nodes=[num_gpus_per_node] * num_nodes, max_colocate_count=3)
+    trainer_pool, rollout_pool = split_resource_pool(resource_pool, [num_trainer, num_rollout])
+    checkpoint_kwargs = {
+        "bucket_size": 2 * 1024 * 1024 * 1024,  # 2GB
+        "rebuild_group": rebuild_group,
+    }
+
+    trainer = create_trainer_worker_group(model_path, trainer_pool, "nccl", checkpoint_kwargs)
+    trainer.reset()
+    rollout = create_rollout_worker_group(
+        model_path, rollout_pool, "nccl", checkpoint_kwargs, check_allclose=check_allclose
+    )
+
+    for _ in range(3):
+        # 1. prepare all workers
+        metadata = ray.get(
+            trainer.execute_checkpoint_engine(["prepare"] * trainer.world_size)
+            + rollout.execute_checkpoint_engine(["prepare"] * rollout.world_size)
+        )
+        trainer_kwargs = {
+            "method": ["init_process_group"] * trainer.world_size,
+            "rank": [0] + [-1] * (trainer.world_size - 1),
+            "world_size": [rollout.world_size + 1] * trainer.world_size,
+            "master_metadata": [metadata[0]] * trainer.world_size,
+        }
+        rollout_kwargs = {
+            "method": ["init_process_group"] * rollout.world_size,
+            "rank": list(range(1, rollout.world_size + 1)),
+            "world_size": [rollout.world_size + 1] * rollout.world_size,
+            "master_metadata": [metadata[0]] * rollout.world_size,
+        }
+
+        # 2. init process group between all workers
+        ray.get(
+            trainer.execute_checkpoint_engine(**trainer_kwargs) + rollout.execute_checkpoint_engine(**rollout_kwargs)
+        )
+
+        # 3. update weights of all workers
+        ray.get(trainer.update_weights() + rollout.update_weights())
+
+        # 4. finish all workers
+        ray.get(
+            trainer.execute_checkpoint_engine(["finish"] * trainer.world_size)
+            + rollout.execute_checkpoint_engine(["finish"] * rollout.world_size)
+        )
+
+        # 5. check weights of rollout workers
+        rollout.check_weights()
+
+    ray.shutdown()
+
+
+if __name__ == "__main__":
+    test_nccl_checkpoint_engine(
+        rebuild_group=False,
+        num_trainer=2,
+        num_rollout=30,
+        num_nodes=4,
+        num_gpus_per_node=8,
+        check_allclose=False,
+        model_path=os.environ["HDFS_ROOT"] + "/model/Qwen3-30B-A3B-Base",
+    )
@@ -0,0 +1,123 @@
+# Copyright 2024 Bytedance Ltd. and/or its affiliates
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import os
+
+import pytest
+import ray
+
+from tests.checkpoint_engine.test_utils import create_rollout_worker_group, create_trainer_worker_group
+from verl.single_controller.ray.base import (
+    RayResourcePool,
+    split_resource_pool,
+)
+
+
+@pytest.mark.skip(reason="temporary skip since our ci environment is not ready")
+@pytest.mark.parametrize("device", ["cuda", "cpu"])
+@pytest.mark.parametrize("num_trainer, num_rollout", [(2, 6)])
+def test_nixl_checkpoint_engine(
+    num_trainer,
+    num_rollout,
+    device,
+    num_nodes=1,
+    num_gpus_per_node=8,
+    check_allclose=True,
+    model_path="~/models/Qwen/Qwen3-8B-Base",
+):
+    model_path = os.path.expanduser(model_path)
+    ray.init(
+        runtime_env={
+            "env_vars": {
+                # TODO: it's pretty hard to set these environment variables right, please consult
+                # with your network admin. Maybe auto adjust UCX_* according to NCCL_IB_*?
+                "UCX_TLS": "rc,ud,cuda",
+                # "UCX_IB_GID_INDEX": "3", # NCCL_IB_GID_INDEX
+                # "UCX_IB_DEVICES": "mlx5_1:1,mlx5_2:1,mlx5_3:1", # NCCL_IB_HCA
+                "UCX_RC_TIMEOUT": "30s",  # NCCL_IB_TIMEOUT
+                "UCX_RC_RETRY_COUNT": "7",  # NCCL_IB_RETRY_COUNT
+                "UCX_KEEPALIVE_INTERVAL": "1s",
+                "UCX_KEEPALIVE_NUM_EPS": "10",
+                "UCX_MAX_RNDV_RAILS": "4",
+                "UCX_LOG_LEVEL": "INFO",
+                "VERL_LOGGING_LEVEL": "DEBUG",
+            }
+        }
+    )
+
+    resource_pool = RayResourcePool(process_on_nodes=[num_gpus_per_node] * num_nodes, max_colocate_count=3)
+    trainer_pool, rollout_pool = split_resource_pool(resource_pool, [num_trainer, num_rollout])
+    checkpoint_kwargs = {
+        "bucket_size": 2 * 1024 * 1024 * 1024,  # 2GB
+        "device": device,
+    }
+
+    trainer = create_trainer_worker_group(model_path, trainer_pool, "nixl", checkpoint_kwargs)
+    trainer.reset()
+    rollout = create_rollout_worker_group(
+        model_path, rollout_pool, "nixl", checkpoint_kwargs, device=device, check_allclose=check_allclose
+    )
+
+    for _ in range(3):
+        # 1. prepare all workers
+        metadata = ray.get(
+            trainer.execute_checkpoint_engine(["prepare"] * trainer.world_size)
+            + rollout.execute_checkpoint_engine(["prepare"] * rollout.world_size)
+        )
+
+        trainer_kwargs = {
+            "method": ["init_process_group"] * trainer.world_size,
+            "rank": [0] + [-1] * (trainer.world_size - 1),
+            "world_size": [rollout.world_size + 1] * trainer.world_size,
+            "prev_agent_metadata": [None] * trainer.world_size,
+            "next_agent_metadata": [metadata[-rollout.world_size]] + [None] * (trainer.world_size - 1),
+        }
+
+        rollout_kwargs = {
+            "method": ["init_process_group"] * rollout.world_size,
+            "rank": list(range(1, rollout.world_size + 1)),
+            "world_size": [rollout.world_size + 1] * rollout.world_size,
+            "prev_agent_metadata": [metadata[0]] + metadata[-rollout.world_size : -1],
+            "next_agent_metadata": metadata[-rollout.world_size + 1 :] + [None],
+        }
+
+        # 2. init process group between all workers
+        ray.get(
+            trainer.execute_checkpoint_engine(**trainer_kwargs) + rollout.execute_checkpoint_engine(**rollout_kwargs)
+        )
+
+        # 3. update weights of all workers
+        ray.get(trainer.update_weights() + rollout.update_weights())
+
+        # 4. finish all workers
+        ray.get(
+            trainer.execute_checkpoint_engine(["finish"] * trainer.world_size)
+            + rollout.execute_checkpoint_engine(["finish"] * rollout.world_size)
+        )
+
+        # 5. check weights of rollout workers
+        rollout.check_weights()
+
+    ray.shutdown()
+
+
+if __name__ == "__main__":
+    test_nixl_checkpoint_engine(
+        num_trainer=2,
+        num_rollout=30,
+        device="cuda",
+        num_nodes=4,
+        num_gpus_per_node=8,
+        check_allclose=False,
+        model_path=os.environ["HDFS_ROOT"] + "/model/Qwen3-30B-A3B-Base",
+    )
@@ -0,0 +1,124 @@
+# Copyright 2024 Bytedance Ltd. and/or its affiliates
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import ray
+import torch
+from transformers import AutoModelForCausalLM
+
+from verl.checkpoint_engine import CheckpointEngineRegistry
+from verl.single_controller.base.decorator import Dispatch, register
+from verl.single_controller.ray import RayClassWithInitArgs, RayResourcePool, RayWorkerGroup
+from verl.utils.fs import copy_to_local
+from verl.workers.config import FSDPEngineConfig, HFModelConfig
+from verl.workers.engine_workers import TrainingWorker, TrainingWorkerConfig
+
+
+class TrainingWorkerTest(TrainingWorker):
+    def __init__(self, config: TrainingWorkerConfig, checkpoint_backend: str, checkpoint_kwargs: dict) -> None:
+        copy_to_local(config.model_config.path)
+        super().__init__(config)
+        if torch.distributed.get_rank() == 0 and checkpoint_backend == "nccl":
+            checkpoint_kwargs["is_master"] = True
+        self.checkpoint_engine = CheckpointEngineRegistry.new(checkpoint_backend, **checkpoint_kwargs)
+
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL, blocking=False)
+    async def update_weights(self):
+        per_tensor_param, _ = self.engine.get_per_tensor_param()
+        await self.checkpoint_engine.send_weights(per_tensor_param)
+
+    @register(dispatch_mode=Dispatch.DP_COMPUTE, blocking=False)
+    def execute_checkpoint_engine(self, method: str, *args, **kwargs):
+        return getattr(self.checkpoint_engine, method)(*args, **kwargs)
+
+
+class RolloutWorkerTest:
+    def __init__(
+        self,
+        model_path,
+        checkpoint_backend: str,
+        checkpoint_kwargs: dict,
+        device: str = "cuda",
+        check_allclose: bool = True,
+    ) -> None:
+        self.checkpoint_engine = CheckpointEngineRegistry.new(checkpoint_backend, **checkpoint_kwargs)
+        local_path = copy_to_local(model_path)
+        self.model = AutoModelForCausalLM.from_pretrained(local_path, torch_dtype=torch.bfloat16)
+        self.model.to(device)
+        self.check_allclose = check_allclose
+        self.received_weights: dict[str, torch.Tensor] = {}
+
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL, blocking=False)
+    async def update_weights(self):
+        async for name, weight in self.checkpoint_engine.receive_weights():
+            weight = weight.clone()
+            if self.check_allclose:
+                self.received_weights[name] = weight.clone().to(torch.bfloat16)
+
+    @register(dispatch_mode=Dispatch.DP_COMPUTE, blocking=False)
+    def execute_checkpoint_engine(self, method: str, *args, **kwargs):
+        return getattr(self.checkpoint_engine, method)(*args, **kwargs)
+
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    def check_weights(self):
+        if not self.check_allclose:
+            return
+        for name, weight in self.model.state_dict().items():
+            assert name in self.received_weights, f"weight {name} not received"
+            assert torch.allclose(weight, self.received_weights[name]), f"weight {name} not equal"
+        self.received_weights.clear()
+
+
+def create_trainer_worker_group(
+    model_path: str, resource_pool: RayResourcePool, checkpoint_backend: str, checkpoint_kwargs: dict
+) -> RayWorkerGroup:
+    local_path = copy_to_local(model_path)
+    model_config = HFModelConfig(path=local_path, use_remove_padding=True)
+    engine_config = FSDPEngineConfig(forward_only=True, fsdp_size=resource_pool.world_size, strategy="fsdp")
+
+    trainer_config = TrainingWorkerConfig(
+        model_type="language_model",
+        model_config=model_config,
+        engine_config=engine_config,
+    )
+    ray_cls_with_init = RayClassWithInitArgs(
+        cls=ray.remote(TrainingWorkerTest),
+        config=trainer_config,
+        checkpoint_backend=checkpoint_backend,
+        checkpoint_kwargs=checkpoint_kwargs,
+    )
+    ray_cls_with_init.update_options(
+        {
+            "runtime_env": {
+                "env_vars": {
+                    "PYTORCH_CUDA_ALLOC_CONF": "expandable_segments:True",
+                }
+            }
+        }
+    )
+    wg = RayWorkerGroup(resource_pool=resource_pool, ray_cls_with_init=ray_cls_with_init)
+    return wg
+
+
+def create_rollout_worker_group(
+    model_path: str, resource_pool: RayResourcePool, checkpoint_backend: str, checkpoint_kwargs: dict, **kwargs
+) -> RayWorkerGroup:
+    ray_cls_with_init = RayClassWithInitArgs(
+        cls=ray.remote(RolloutWorkerTest),
+        model_path=model_path,
+        checkpoint_backend=checkpoint_backend,
+        checkpoint_kwargs=checkpoint_kwargs,
+        **kwargs,
+    )
+    wg = RayWorkerGroup(resource_pool=resource_pool, ray_cls_with_init=ray_cls_with_init)
+    return wg
@@ -42,6 +42,7 @@
     "verl/workers/engine/veomni/transformer_impl.py",  # appear in default device_name
     "verl/workers/rollout/vllm_rollout/vllm_async_server.py",  # appear in config.cudagraph_capture_sizes
     "verl/workers/rollout/sglang_rollout/async_sglang_server.py",  # manually set CUDA_VISIBLE_DEVICES
+    "verl/checkpoint_engine",  # checkpoint engine backend are device specific
 ]
 
 # directory or file path must contain keyword "nccl"
Original file line number	Diff line number	Diff line change
`@@ -42,6 +42,7 @@`
`42`	`42`	`"verl/workers/engine/veomni/transformer_impl.py", # appear in default device_name`
`43`	`43`	`"verl/workers/rollout/vllm_rollout/vllm_async_server.py", # appear in config.cudagraph_capture_sizes`
`44`	`44`	`"verl/workers/rollout/sglang_rollout/async_sglang_server.py", # manually set CUDA_VISIBLE_DEVICES`
	`45`	`+ "verl/checkpoint_engine", # checkpoint engine backend are device specific`
`45`	`46`	`]`
`46`	`47`
`47`	`48`	`# directory or file path must contain keyword "nccl"`