thinking-machines-lab · ruiqi-zhong · Nov 23, 2025 · Nov 20, 2025 · Nov 20, 2025 · Nov 20, 2025
diff --git a/tinker_cookbook/supervised/nll_evaluator.py b/tinker_cookbook/supervised/nll_evaluator.py
@@ -7,7 +7,8 @@
 
 
 class NLLEvaluator(TrainingClientEvaluator):
-    def __init__(self, data: list[tinker.Datum]):
+    def __init__(self, data: list[tinker.Datum], name: str | None = None):
+        self.name = name
         self.data = data
 
     async def __call__(self, training_client: tinker.TrainingClient) -> dict[str, float]:
@@ -16,9 +17,10 @@ async def __call__(self, training_client: tinker.TrainingClient) -> dict[str, fl
         logprobs = [x["logprobs"] for x in result.loss_fn_outputs]
         weights = [datum.loss_fn_inputs["weights"] for datum in self.data]
         nll = compute_mean_nll(logprobs, weights)
-        return {"nll": nll}
+        key = "nll" if self.name is None else f"{self.name}/nll"
+        return {key: nll}
 
     @classmethod
-    def from_dataset(cls, dataset: SupervisedDataset) -> "NLLEvaluator":
+    def from_dataset(cls, dataset: SupervisedDataset, name: str | None = None) -> "NLLEvaluator":
         all_data = list(itertools.chain(*[dataset.get_batch(i) for i in range(len(dataset))]))
-        return cls(all_data)
+        return cls(all_data, name=name)