NeMo-Gym Integration #4848

cmunley1 · 2026-01-17T04:36:50Z

This integration supports training language models in NeMo-Gym environments using TRL GRPO. Both single step and multi step tasks are supported, including multi-environment training. NeMo-Gym orchestrates rollouts, returning token ids and logprobs to TRL through the rollout function for training. Currently this integration is only supported through TRL's vllm server mode.

see docs/source/nemo_gym_integration.md for a guide

Signed-off-by: Christian Munley <cmunley@nvidia.com>

Signed-off-by: cmunley1 <cmunley@nvidia.com>

sergiopaniego

Super cool!
Some initial ideas:

We could add the training script to the list of examples in here (file).
Maybe we could rename the training script to be more explanatory train_multi_agent.py or something similar.
It would be super cool if we could add a guide to the docs covering this integration (similar to this but specific for NeMo-Gym)

🚀 🚀 🚀 🚀

Signed-off-by: cmunley1 <cmunley@nvidia.com>

… into cmunley1/nemo_gym_on_policy

Signed-off-by: cmunley1 <cmunley@nvidia.com>

cmunley1 · 2026-01-22T22:36:25Z

thanks for reviewing @sergiopaniego

what do you think about changes in grpo_trainer and vllm_serve?

sergiopaniego

Thanks @cmunley1, I'll review the changes.

There's a conflict on tests/test_vllm_client_server.py, could you take a look at it?

Adding @kashif @qgallouedec here for review.

kashif · 2026-01-23T16:40:42Z

trl/scripts/vllm_serve.py

+
+    uvicorn.run(


Suggested change

uvicorn.run(

# Start the server

uvicorn.run(

trl/trainer/grpo_trainer.py

sergiopaniego

Could be rename the integration file to nemo_gym.md?
We need to add this new file to _toctree.yml to display it on the documentation.

Co-authored-by: Kashif Rasul <kashif.rasul@gmail.com>

sergiopaniego · 2026-01-23T16:48:49Z

Also tagging @lewtun (multi-env)

cmunley1 added 27 commits December 17, 2025 23:18

nemo gym integration

16640e8

Signed-off-by: Christian Munley <cmunley@nvidia.com>

couple updates

6261758

Signed-off-by: Christian Munley <cmunley@nvidia.com>

baseline without on policy correction

4105340

Signed-off-by: Christian Munley <cmunley@nvidia.com>

readme

be5c156

Signed-off-by: Christian Munley <cmunley@nvidia.com>

wip

64b9ed4

Signed-off-by: Christian Munley <cmunley@nvidia.com>

fixes

948869f

Signed-off-by: cmunley1 <cmunley@nvidia.com>

readme

52a3140

Signed-off-by: cmunley1 <cmunley@nvidia.com>

cfg

0e71cbb

Signed-off-by: cmunley1 <cmunley@nvidia.com>

small fix

3548099

Signed-off-by: cmunley1 <cmunley@nvidia.com>

docs

8373899

Signed-off-by: cmunley1 <cmunley@nvidia.com>

fixes

fe4bce6

Signed-off-by: cmunley1 <cmunley@nvidia.com>

remove flag

facfb5a

Signed-off-by: cmunley1 <cmunley@nvidia.com>

multi env

ac94e1b

Signed-off-by: cmunley1 <cmunley@nvidia.com>

small fix

32c5a6b

Signed-off-by: cmunley1 <cmunley@nvidia.com>

dataset index

5619096

Signed-off-by: cmunley1 <cmunley@nvidia.com>

multinode example

04821b5

Signed-off-by: cmunley1 <cmunley@nvidia.com>

client and tests

52b2f5c

Signed-off-by: cmunley1 <cmunley@nvidia.com>

remove native tool parsing, use fastapi state

0793c05

Signed-off-by: cmunley1 <cmunley@nvidia.com>

remove old code

5f8ccc9

Signed-off-by: cmunley1 <cmunley@nvidia.com>

enable IS

743d5ea

Signed-off-by: cmunley1 <cmunley@nvidia.com>

remove logp diff tracking without is

d98dd8a

Signed-off-by: cmunley1 <cmunley@nvidia.com>

restore

a5f9166

Signed-off-by: cmunley1 <cmunley@nvidia.com>

readme

17b72c8

Signed-off-by: cmunley1 <cmunley@nvidia.com>

restore pyproject

18ffaa8

Signed-off-by: cmunley1 <cmunley@nvidia.com>

readme

cc503cb

Signed-off-by: cmunley1 <cmunley@nvidia.com>

move submit

843938f

Signed-off-by: cmunley1 <cmunley@nvidia.com>

config

209b12e

Signed-off-by: cmunley1 <cmunley@nvidia.com>

sergiopaniego reviewed Jan 20, 2026

View reviewed changes

sergiopaniego and others added 2 commits January 20, 2026 17:32

Merge branch 'main' into cmunley1/nemo_gym_on_policy

2ec1a0f

draft docs

a8f7b36

Signed-off-by: cmunley1 <cmunley@nvidia.com>

cmunley1 added 2 commits January 20, 2026 18:15

Merge branch 'cmunley1/nemo_gym_on_policy' of github.com:cmunley1/trl…

6893625

… into cmunley1/nemo_gym_on_policy

draft docs

e883dcd

Signed-off-by: cmunley1 <cmunley@nvidia.com>

cmunley1 mentioned this pull request Jan 21, 2026

feat: TRL Integration NVIDIA-NeMo/Gym#371

Open

1 task

docs update

2c7de07

Signed-off-by: cmunley1 <cmunley@nvidia.com>

cmunley1 marked this pull request as ready for review January 21, 2026 18:41

cmunley1 added 4 commits January 22, 2026 14:28

ds cfg, submit update

aad21ee

Signed-off-by: cmunley1 <cmunley@nvidia.com>

readme

06ab2a2

Signed-off-by: cmunley1 <cmunley@nvidia.com>

rename train, update docs

cf9f177

Signed-off-by: cmunley1 <cmunley@nvidia.com>

comment

7669c00

Signed-off-by: cmunley1 <cmunley@nvidia.com>

sergiopaniego reviewed Jan 23, 2026

View reviewed changes

Merge branch 'main' into cmunley1/nemo_gym_on_policy

df2f350

kashif reviewed Jan 23, 2026

View reviewed changes

trl/trainer/grpo_trainer.py Outdated Show resolved Hide resolved

sergiopaniego reviewed Jan 23, 2026

View reviewed changes

Update trl/trainer/grpo_trainer.py

3a455a9

Co-authored-by: Kashif Rasul <kashif.rasul@gmail.com>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

NeMo-Gym Integration #4848

NeMo-Gym Integration #4848

Uh oh!

cmunley1 commented Jan 17, 2026 •

edited

Loading

Uh oh!

sergiopaniego left a comment

Uh oh!

cmunley1 commented Jan 22, 2026

Uh oh!

sergiopaniego left a comment

Uh oh!

kashif Jan 23, 2026 •

edited

Loading

Uh oh!

Uh oh!

sergiopaniego left a comment

Uh oh!

sergiopaniego commented Jan 23, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

NeMo-Gym Integration #4848

Are you sure you want to change the base?

NeMo-Gym Integration #4848

Uh oh!

Conversation

cmunley1 commented Jan 17, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

sergiopaniego left a comment

Choose a reason for hiding this comment

Uh oh!

cmunley1 commented Jan 22, 2026

Uh oh!

sergiopaniego left a comment

Choose a reason for hiding this comment

Uh oh!

kashif Jan 23, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

sergiopaniego left a comment

Choose a reason for hiding this comment

Uh oh!

sergiopaniego commented Jan 23, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

cmunley1 commented Jan 17, 2026 •

edited

Loading

kashif Jan 23, 2026 •

edited

Loading