Add default Optim to DPO example (#759)

* add optim * make configurable
huggingface · Sep 19, 2023 · d603e7c · d603e7c · puyuanOT · Sep 19, 2023
1 parent 5d30cd4
commit d603e7c
Showing 1 changed file with 23 additions and 0 deletions.
diff --git a/examples/dpo.py b/examples/dpo.py
@@ -67,6 +67,13 @@ class ScriptArguments:
         },
     )
 
+    # optimizer settings
+    warmup_steps: Optional[int] = field(default=150, metadata={"help": "Number of warmup steps for optimizer"})
+    optim: Optional[str] = field(
+        default="RMSprop",
+        metadata={"help": "Optimizer to use. Default is RMSprop, if none" "passed defaults to Transformers trainer."},
+    )
+
 
 def extract_anthropic_prompt(prompt_and_response):
     """Extract the anthropic prompt from a prompt and response pair."""
@@ -131,6 +138,19 @@ def split_prompt_and_responses(sample) -> Dict[str, str]:
     eval_dataset = get_hh("test", sanity_check=script_args.sanity_check)
 
     # 4. initialize training arguments:
+
+    warmup_steps = script_args.warmup_steps
+    if script_args.optim == "RMSprop":  # Trainer to match original paper
+        optimizer = torch.optim.RMSprop(model.parameters(), lr=script_args.learning_rate)
+        scheduler = torch.optim.lr_scheduler.LambdaLR(
+            optimizer, lr_lambda=lambda step: min(1.0, (step + 1) / (warmup_steps + 1))
+        )
+        optim = None
+    else:
+        optimizer = None
+        scheduler = None
+        optim = script_args.optim
+
     training_args = TrainingArguments(
         per_device_train_batch_size=script_args.per_device_train_batch_size,
         max_steps=script_args.max_steps,
@@ -143,6 +163,8 @@ def split_prompt_and_responses(sample) -> Dict[str, str]:
         eval_steps=500,
         output_dir="./test",
         report_to=script_args.report_to,
+        optim=optim,
+        warmup_steps=warmup_steps,
     )
 
     # 5. initialize the DPO trainer
@@ -157,6 +179,7 @@ def split_prompt_and_responses(sample) -> Dict[str, str]:
         max_length=script_args.max_length,
         max_target_length=script_args.max_target_length,
         max_prompt_length=script_args.max_prompt_length,
+        optimizers=(optimizer, scheduler),
     )
 
     # 6. train