Remove VP_SIZE argument in tests when not intending to use interleaved PP schedule

deepakn94 · deepakn94 · commit e8913619a37f · 2023-10-16T23:14:04.000-07:00
Also, label interleaved PP tests explicitly
diff --git a/.gitlab-ci.yml b/.gitlab-ci.yml
@@ -143,6 +143,20 @@ train.gpt3_core.345m_tp1_pp2_1node_50steps:
     TEST_LEVEL: L0
 
 train.gpt3_core.345m_tp1_pp4_1node_50steps:
+  <<: *selene-test-launcher
+  variables:
+    <<: [*VARS]
+    RUN_MODEL: gpt3
+    USE_TE: 0
+    TP_SIZE: 1
+    PP_SIZE: 4
+    NUM_NODES: 1
+    MAX_STEPS: 50
+    USE_CORE: 1
+    TIME_LIMIT: "20:00"
+    TEST_LEVEL: L0
+
+train.gpt3_core.345m_tp1_pp4_interleaved_1node_50steps:
   <<: *selene-test-launcher
   variables:
     <<: [*VARS]
@@ -181,7 +195,6 @@ train.gpt3_core.345m_tp1_pp4_1node_50steps_swiglu:
     USE_TE: 0
     TP_SIZE: 1
     PP_SIZE: 4
-    VP_SIZE: 1
     NUM_NODES: 1
     MAX_STEPS: 50
     USE_CORE: 1
@@ -198,7 +211,6 @@ train.gpt3_core.345m_tp1_pp4_1node_50steps_disable_bias_linear:
     USE_TE: 0
     TP_SIZE: 1
     PP_SIZE: 4
-    VP_SIZE: 1
     NUM_NODES: 1
     MAX_STEPS: 50
     USE_CORE: 1
@@ -215,7 +227,6 @@ train.gpt3_core.345m_tp1_pp4_1node_50steps_untie_embeddings_and_outputs:
     USE_TE: 0
     TP_SIZE: 1
     PP_SIZE: 4
-    VP_SIZE: 1
     NUM_NODES: 1
     MAX_STEPS: 50
     USE_CORE: 1
@@ -232,7 +243,6 @@ train.gpt3_core.345m_tp1_pp4_1node_50steps_sequence_parallel:
     USE_TE: 0
     TP_SIZE: 1
     PP_SIZE: 4
-    VP_SIZE: 1
     NUM_NODES: 1
     MAX_STEPS: 50
     USE_CORE: 1
@@ -284,6 +294,20 @@ train.gpt3.345m_tp1_pp2_1node_50steps:
     TEST_LEVEL: L0
 
 train.gpt3.345m_tp1_pp4_1node_50steps:
+  <<: *selene-test-launcher
+  variables:
+    <<: [*VARS]
+    RUN_MODEL: gpt3
+    USE_TE: 0
+    TP_SIZE: 1
+    PP_SIZE: 4
+    NUM_NODES: 1
+    MAX_STEPS: 50
+    USE_CORE: 0
+    TIME_LIMIT: "20:00"
+    TEST_LEVEL: L0
+
+train.gpt3.345m_tp1_pp4_interleaved_1node_50steps:
   <<: *selene-test-launcher
   variables:
     <<: [*VARS]
@@ -382,7 +406,6 @@ train.te_core_moe_gpt3.345m_tp2_pp2_2experts_1node_50steps:
     USE_TE: 0
     TP_SIZE: 2
     PP_SIZE: 2
-    VP_SIZE: 1
     NUM_NODES: 1
     MAX_STEPS: 50
     USE_CORE: 1
@@ -399,7 +422,6 @@ train.te_core_moe_gpt3.345m_tp2_pp2_4experts2parallel_1node_50steps:
     USE_TE: 0
     TP_SIZE: 2
     PP_SIZE: 2
-    VP_SIZE: 1
     NUM_NODES: 1
     MAX_STEPS: 50
     USE_CORE: 1
@@ -416,7 +438,6 @@ train.te_core_moe_gpt3.345m_tp2_pp1_4experts2parallel_1node_50steps:
     USE_TE: 0
     TP_SIZE: 2
     PP_SIZE: 1
-    VP_SIZE: 1
     NUM_NODES: 1
     MAX_STEPS: 50
     USE_CORE: 1
@@ -433,7 +454,6 @@ train.moe_gpt3.345m_tp2_pp2_4experts_1node_50steps:
     USE_TE: 0
     TP_SIZE: 2
     PP_SIZE: 2
-    VP_SIZE: 1
     NUM_NODES: 1
     MAX_STEPS: 50
     USE_CORE: 0
@@ -479,6 +499,18 @@ train.bert.345m_tp1_pp2_1node_50steps:
     TEST_LEVEL: L0
 
 train.bert.345m_tp1_pp4_1node_50steps:
+  <<: *selene-test-launcher
+  variables:
+    <<: [*VARS]
+    RUN_MODEL: bert
+    TP_SIZE: 1
+    PP_SIZE: 4
+    NUM_NODES: 1
+    MAX_STEPS: 50
+    TIME_LIMIT: "20:00"
+    TEST_LEVEL: L0
+
+train.bert.345m_tp1_pp4_interleaved_1node_50steps:
   <<: *selene-test-launcher
   variables:
     <<: [*VARS]
diff --git a/tests/functional_tests/shell_test_utils/run_selene_test_launcher_script.sh b/tests/functional_tests/shell_test_utils/run_selene_test_launcher_script.sh
@@ -21,7 +21,8 @@ if [[ $USE_CORE -eq 1 && $USE_TE -eq 1 ]]; then
 fi
 
 # step 2 : SETTING RUN NAME
-RUN_NAME=${RUN_MODEL}_tp${TP_SIZE}_pp${PP_SIZE}_${NUM_NODES}nodes_${MAX_STEPS}steps
+if [[ -n $VP_SIZE ]]; then INTERLEAVED_STR="_interleaved"; else INTERLEAVED_STR=""; fi
+RUN_NAME=${RUN_MODEL}_tp${TP_SIZE}_pp${PP_SIZE}${INTERLEAVED_STR}_${NUM_NODES}nodes_${MAX_STEPS}steps
 if [[ $USE_TE == 1 ]]; then RUN_NAME=${RUN_NAME}_te_enabled; fi
 if [[ $USE_CORE == 1 ]]; then RUN_NAME=${RUN_NAME}_core_enabled; fi
 if [[ -n $METADATA ]]; then RUN_NAME=${RUN_NAME}_${METADATA}; fi
diff --git a/tests/functional_tests/test_results/bert/bert_tp1_pp4_1nodes_50steps.json b/tests/functional_tests/test_results/bert/bert_tp1_pp4_1nodes_50steps.json
@@ -1 +1 @@
-{"lm loss": {"start_step": 0, "end_step": 50, "step_interval": 5, "values": [10.54837, 10.54636, 10.55694, 10.54151, 10.53088, 10.48503, 10.46275, 10.31499, 10.17122, 9.97326]}, "num-zeros": {"start_step": 0, "end_step": 34, "step_interval": 5, "values": [22606.0, 20619.0, 26292.0, 23607.0, 21666.0, 21672.0, 23313.0]}, "iteration_timing_avg": 0.9262994117647059}
+{"lm loss": {"start_step": 0, "end_step": 50, "step_interval": 5, "values": [10.5414, 10.53988, 10.55513, 10.52847, 10.54297, 10.51657, 10.47015, 10.36882, 10.23301, 10.05128]}, "num-zeros": {"start_step": 0, "end_step": 34, "step_interval": 5, "values": [26510.0, 16034.0, 24829.0, 21005.0, 20977.0, 19155.0, 18836.0]}, "iteration_timing_avg": 0.6206926470588235}
diff --git a/tests/functional_tests/test_results/bert/bert_tp1_pp4_interleaved_1nodes_50steps.json b/tests/functional_tests/test_results/bert/bert_tp1_pp4_interleaved_1nodes_50steps.json
@@ -0,0 +1 @@
+{"lm loss": {"start_step": 0, "end_step": 50, "step_interval": 5, "values": [10.54837, 10.54636, 10.55694, 10.54151, 10.53088, 10.48503, 10.46275, 10.31499, 10.17122, 9.97326]}, "num-zeros": {"start_step": 0, "end_step": 34, "step_interval": 5, "values": [22606.0, 20619.0, 26292.0, 23607.0, 21666.0, 21672.0, 23313.0]}, "iteration_timing_avg": 0.999115588235294}
diff --git a/tests/functional_tests/test_results/gpt3/gpt3_tp1_pp4_interleaved_1nodes_50steps.json b/tests/functional_tests/test_results/gpt3/gpt3_tp1_pp4_interleaved_1nodes_50steps.json
@@ -0,0 +1 @@
+{"lm loss": {"start_step": 0, "end_step": 45, "step_interval": 5, "values": [10.7951, 10.84939, 10.87411, 10.83459, 10.82865, 10.78676, 10.56492, 10.57063, 10.48545]}, "num-zeros": {"start_step": 0, "end_step": 29, "step_interval": 5, "values": [2561.0, 2771.0, 2141.0, 2656.0, 2737.0, 2472.0]}, "iteration_timing_avg": 0.1285973333333333}
diff --git a/tests/functional_tests/test_results/gpt3/gpt3_tp1_pp4_interleaved_1nodes_50steps_core_enabled.json b/tests/functional_tests/test_results/gpt3/gpt3_tp1_pp4_interleaved_1nodes_50steps_core_enabled.json
@@ -0,0 +1 @@
+{"lm loss": {"start_step": 0, "end_step": 50, "step_interval": 5, "values": [10.82096, 10.87358, 10.8827, 10.79796, 10.68762, 10.59849, 10.09941, 10.21477, 10.14024, 9.80787]}, "num-zeros": {"start_step": 0, "end_step": 50, "step_interval": 5, "values": [1500.0, 1792.0, 1899.0, 1853.0, 1884.0, 1847.0, 1596.0, 1783.0, 2314.0, 2349.0]}, "iteration_timing_avg": 0.12620382352941178}

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-{"lm loss": {"start_step": 0, "end_step": 50, "step_interval": 5, "values": [10.54837, 10.54636, 10.55694, 10.54151, 10.53088, 10.48503, 10.46275, 10.31499, 10.17122, 9.97326]}, "num-zeros": {"start_step": 0, "end_step": 34, "step_interval": 5, "values": [22606.0, 20619.0, 26292.0, 23607.0, 21666.0, 21672.0, 23313.0]}, "iteration_timing_avg": 0.9262994117647059}`
	`1`	`+{"lm loss": {"start_step": 0, "end_step": 50, "step_interval": 5, "values": [10.5414, 10.53988, 10.55513, 10.52847, 10.54297, 10.51657, 10.47015, 10.36882, 10.23301, 10.05128]}, "num-zeros": {"start_step": 0, "end_step": 34, "step_interval": 5, "values": [26510.0, 16034.0, 24829.0, 21005.0, 20977.0, 19155.0, 18836.0]}, "iteration_timing_avg": 0.6206926470588235}`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+{"lm loss": {"start_step": 0, "end_step": 50, "step_interval": 5, "values": [10.54837, 10.54636, 10.55694, 10.54151, 10.53088, 10.48503, 10.46275, 10.31499, 10.17122, 9.97326]}, "num-zeros": {"start_step": 0, "end_step": 34, "step_interval": 5, "values": [22606.0, 20619.0, 26292.0, 23607.0, 21666.0, 21672.0, 23313.0]}, "iteration_timing_avg": 0.999115588235294}`