add trajectory_id to TrajectoryStep (#675)

snimu · willccbb · web-flow · commit 77ccb1615be9 · 2026-01-02T21:06:55.000-08:00
* add trajectory_id to TrajectoryStep

* rename key

* update test

---------

Co-authored-by: William Brown &lt;williambrown97@gmail.com&gt;
diff --git a/docs/release/TRAJECTORIES.md b/docs/release/TRAJECTORIES.md
@@ -359,6 +359,8 @@ async def add_model_response(
         tokens=tokens,
         reward=None,
         advantage=None,
+        is_truncated=False,
+        trajectory_id=state["current_trajectory_id"],
         extras={},
     )
     state["trajectory"].append(trajectory_step)
diff --git a/tests/test_environment.py b/tests/test_environment.py
@@ -56,6 +56,8 @@ async def rollout(
             tokens=tokens,
             reward=None,
             advantage=None,
+            is_truncated=False,
+            trajectory_id=state["trajectory_id"],
             extras={},
         )
         state["trajectory"].append(trajectory_step)
diff --git a/tests/test_environment_extra.py b/tests/test_environment_extra.py
@@ -67,6 +67,8 @@ async def rollout(
             tokens=tokens,
             reward=None,
             advantage=None,
+            is_truncated=False,
+            trajectory_id=state["trajectory_id"],
             extras={},
         )
         state["trajectory"].append(trajectory_step)
diff --git a/tests/test_rlm_env.py b/tests/test_rlm_env.py
@@ -1189,6 +1189,8 @@ async def test_prepends_trajectory_steps_during_cleanup(self, rlm_env):
             tokens=None,
             reward=None,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="sub_batch1_req1",
             extras={"is_sub_llm_call": True, "timestamp": 1.0},
         )
         sub_step2 = TrajectoryStep(
@@ -1198,6 +1200,8 @@ async def test_prepends_trajectory_steps_during_cleanup(self, rlm_env):
             tokens=None,
             reward=None,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="sub_batch1_req2",
             extras={"is_sub_llm_call": True, "timestamp": 2.0},
         )
         rlm_env.active_rollouts[rollout_id] = {
@@ -1213,6 +1217,8 @@ async def test_prepends_trajectory_steps_during_cleanup(self, rlm_env):
             tokens=None,
             reward=None,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="main_trajectory",
             extras={},
         )
         state = {"rollout_id": rollout_id, "trajectory": [main_step]}
@@ -1251,6 +1257,8 @@ async def test_no_prepend_when_disabled(self, mock_sandbox_client, mock_dataset)
                 tokens=None,
                 reward=None,
                 advantage=None,
+                is_truncated=False,
+                trajectory_id="sub_batch1_req1",
                 extras={"is_sub_llm_call": True, "timestamp": 1.0},
             )
             env.active_rollouts[rollout_id] = {
@@ -1265,6 +1273,8 @@ async def test_no_prepend_when_disabled(self, mock_sandbox_client, mock_dataset)
                 tokens=None,
                 reward=None,
                 advantage=None,
+                is_truncated=False,
+                trajectory_id="main_trajectory",
                 extras={},
             )
             state = {"rollout_id": rollout_id, "trajectory": [main_step]}
diff --git a/tests/test_singleturn_env.py b/tests/test_singleturn_env.py
@@ -77,6 +77,8 @@ async def test_is_completed_method(self, mock_singleturn_env):
                     tokens=None,
                     reward=None,
                     advantage=None,
+                    is_truncated=False,
+                    trajectory_id="test_trajectory",
                     extras={},
                 )
             ],
@@ -487,6 +489,8 @@ async def test_singleturn_stops_after_one_response(
                 tokens=None,
                 reward=None,
                 advantage=None,
+                is_truncated=False,
+                trajectory_id="test_trajectory",
                 extras={},
             )
         ]
@@ -514,6 +518,8 @@ async def test_singleturn_stops_after_one_response(
                 tokens=None,
                 reward=None,
                 advantage=None,
+                is_truncated=False,
+                trajectory_id="test_trajectory",
                 extras={},
             ),
             TrajectoryStep(
@@ -523,6 +529,8 @@ async def test_singleturn_stops_after_one_response(
                 tokens=None,
                 reward=None,
                 advantage=None,
+                is_truncated=False,
+                trajectory_id="test_trajectory",
                 extras={},
             ),
         ]
diff --git a/tests/test_trajectory_processing.py b/tests/test_trajectory_processing.py
@@ -110,9 +110,13 @@ def test_process_trajectory_steps_for_training():
                 completion_ids=[3, 4],
                 completion_mask=[1, 1],
                 completion_logprobs=[-0.1, -0.2],
+                overlong_prompt=False,
+                is_truncated=False,
             ),
             reward=1.0,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="test_trajectory",
             extras={},
         )
     ]
@@ -135,9 +139,13 @@ def test_process_trajectory_steps_for_training():
                 completion_ids=[6, 7, 8],
                 completion_mask=[1, 1, 1],
                 completion_logprobs=[-0.3, -0.4, -0.5],
+                overlong_prompt=False,
+                is_truncated=False,
             ),
             reward=0.5,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="test_trajectory",
             extras={},
         )
     ]
@@ -192,6 +200,8 @@ def test_process_trajectory_steps_skip_missing_tokens():
             tokens=None,
             reward=1.0,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="test_trajectory",
             extras={},
         ),
         TrajectoryStep(
@@ -204,9 +214,13 @@ def test_process_trajectory_steps_skip_missing_tokens():
                 completion_ids=[2, 3],
                 completion_mask=[1, 1],
                 completion_logprobs=[-0.1, -0.2],
+                overlong_prompt=False,
+                is_truncated=False,
             ),
             reward=0.5,
             advantage=None,
+            is_truncated=False,
+            trajectory_id="test_trajectory",
             extras={},
         ),
     ]
diff --git a/verifiers/envs/environment.py b/verifiers/envs/environment.py
@@ -6,6 +6,7 @@
 import logging
 import signal
 import time
+import uuid
 from abc import ABC, abstractmethod
 from concurrent.futures import ThreadPoolExecutor
 from copy import deepcopy
@@ -597,6 +598,7 @@ async def init_state(
         else:
             state["oai_tools"] = []
         state["trajectory"] = []
+        state["trajectory_id"] = uuid.uuid4().hex
         state["reward"] = None
         state["metrics"] = None
         state["error"] = None
diff --git a/verifiers/envs/experimental/rlm_env.py b/verifiers/envs/experimental/rlm_env.py
@@ -939,6 +939,7 @@ async def _handle_sub_llm_request(self, request: Any) -> Any:
                         reward=None,
                         advantage=None,
                         is_truncated=is_truncated,
+                        trajectory_id=f"{batch_id}_{request_id}",
                         extras={
                             "is_sub_llm_call": True,
                             "parent_turn": parent_turn,
diff --git a/verifiers/envs/multiturn_env.py b/verifiers/envs/multiturn_env.py
@@ -85,6 +85,7 @@ async def add_model_response(
             reward=None,
             advantage=None,
             is_truncated=is_truncated,
+            trajectory_id=state["trajectory_id"],
             extras={},
         )
         trajectory_step["completion"] = completion_messages
diff --git a/verifiers/types.py b/verifiers/types.py
@@ -68,6 +68,7 @@ class TrajectoryStep(TypedDict):
     reward: float | None
     advantage: float | None
     is_truncated: bool
+    trajectory_id: str
     extras: dict[str, Any]
 
 

Original file line number	Diff line number	Diff line change
`@@ -359,6 +359,8 @@ async def add_model_response(`
`359`	`359`	`tokens=tokens,`
`360`	`360`	`reward=None,`
`361`	`361`	`advantage=None,`
	`362`	`+ is_truncated=False,`
	`363`	`+ trajectory_id=state["current_trajectory_id"],`
`362`	`364`	`extras={},`
`363`	`365`	`)`
`364`	`366`	`state["trajectory"].append(trajectory_step)`
Original file line number	Diff line number	Diff line change
`@@ -56,6 +56,8 @@ async def rollout(`
`56`	`56`	`tokens=tokens,`
`57`	`57`	`reward=None,`
`58`	`58`	`advantage=None,`
	`59`	`+ is_truncated=False,`
	`60`	`+ trajectory_id=state["trajectory_id"],`
`59`	`61`	`extras={},`
`60`	`62`	`)`
`61`	`63`	`state["trajectory"].append(trajectory_step)`
Original file line number	Diff line number	Diff line change
`@@ -67,6 +67,8 @@ async def rollout(`
`67`	`67`	`tokens=tokens,`
`68`	`68`	`reward=None,`
`69`	`69`	`advantage=None,`
	`70`	`+ is_truncated=False,`
	`71`	`+ trajectory_id=state["trajectory_id"],`
`70`	`72`	`extras={},`
`71`	`73`	`)`
`72`	`74`	`state["trajectory"].append(trajectory_step)`
Original file line number	Diff line number	Diff line change
`@@ -85,6 +85,7 @@ async def add_model_response(`
`85`	`85`	`reward=None,`
`86`	`86`	`advantage=None,`
`87`	`87`	`is_truncated=is_truncated,`
	`88`	`+ trajectory_id=state["trajectory_id"],`
`88`	`89`	`extras={},`
`89`	`90`	`)`
`90`	`91`	`trajectory_step["completion"] = completion_messages`