update benchmark tests (#113)

Signed-off-by: Dmitry Shmulevich <[email protected]>
NVIDIA · Dec 11, 2024 · 88b3b5d · 88b3b5d
1 parent 3609dfe
commit 88b3b5d
Show file tree

Hide file tree

Showing 2 changed files with 24 additions and 24 deletions.
diff --git a/resources/benchmarks/nwtopo/workflows/config-nodes-acc.yaml b/resources/benchmarks/nwtopo/workflows/config-nodes-acc.yaml
@@ -16,12 +16,12 @@ name: config-nw-topo-nodes
 description: |
   Create a 12-nodes cluster with a tree-like network topology
   and mark 5 nodes as busy:
-            __________ sw31 __________
-           /            |             \
-       sw21            sw22            sw23
-       /  \            /  \            /  \
-   sw11    sw12    sw13    sw14    sw15    sw16
-    /\      /\      /\      /\      /\      /\
+                  _____ sw31 ______
+                 /                 \
+             sw21                   sw22
+           /     \                /      \
+      sw11        sw12        sw13        sw14
+    /  |  \     /  |  \     /  |  \     /  |  \
   n1  n2  n3  n4  n5  n6  n7  n8  n9 n10 n11 n12
   |___|___|___|___|___|   |___|___|___|___|___|
             |                       |
@@ -57,7 +57,7 @@ tasks:
       labels:
         node-id: n3
         network.topology.kubernetes.io/accelerator: nvl1
-        network.topology.kubernetes.io/block: sw12
+        network.topology.kubernetes.io/block: sw11
         network.topology.kubernetes.io/spine: sw21
         network.topology.kubernetes.io/datacenter: sw31
         nvidia.com/gpu.count: "8"
@@ -75,25 +75,25 @@ tasks:
       labels:
         node-id: n5
         network.topology.kubernetes.io/accelerator: nvl1
-        network.topology.kubernetes.io/block: sw13
-        network.topology.kubernetes.io/spine: sw22
+        network.topology.kubernetes.io/block: sw12
+        network.topology.kubernetes.io/spine: sw21
         network.topology.kubernetes.io/datacenter: sw31
         nvidia.com/gpu.count: "8"
     - type: dgxa100.80g
       count: 1
       labels:
         node-id: n6
         network.topology.kubernetes.io/accelerator: nvl1
-        network.topology.kubernetes.io/block: sw13
-        network.topology.kubernetes.io/spine: sw22
+        network.topology.kubernetes.io/block: sw12
+        network.topology.kubernetes.io/spine: sw21
         network.topology.kubernetes.io/datacenter: sw31
         nvidia.com/gpu.count: "8"
     - type: dgxa100.80g
       count: 1
       labels:
         node-id: n7
         network.topology.kubernetes.io/accelerator: nvl2
-        network.topology.kubernetes.io/block: sw14
+        network.topology.kubernetes.io/block: sw13
         network.topology.kubernetes.io/spine: sw22
         network.topology.kubernetes.io/datacenter: sw31
         nvidia.com/gpu.count: "8"
@@ -102,7 +102,7 @@ tasks:
       labels:
         node-id: n8
         network.topology.kubernetes.io/accelerator: nvl2
-        network.topology.kubernetes.io/block: sw14
+        network.topology.kubernetes.io/block: sw13
         network.topology.kubernetes.io/spine: sw22
         network.topology.kubernetes.io/datacenter: sw31
         nvidia.com/gpu.count: "8"
@@ -111,35 +111,35 @@ tasks:
       labels:
         node-id: n9
         network.topology.kubernetes.io/accelerator: nvl2
-        network.topology.kubernetes.io/block: sw15
-        network.topology.kubernetes.io/spine: sw23
+        network.topology.kubernetes.io/block: sw13
+        network.topology.kubernetes.io/spine: sw22
         network.topology.kubernetes.io/datacenter: sw31
         nvidia.com/gpu.count: "8"
     - type: dgxa100.80g
       count: 1
       labels:
         node-id: n10
         network.topology.kubernetes.io/accelerator: nvl2
-        network.topology.kubernetes.io/block: sw15
-        network.topology.kubernetes.io/spine: sw23
+        network.topology.kubernetes.io/block: sw14
+        network.topology.kubernetes.io/spine: sw22
         network.topology.kubernetes.io/datacenter: sw31
         nvidia.com/gpu.count: "8"
     - type: dgxa100.80g
       count: 1
       labels:
         node-id: n11
         network.topology.kubernetes.io/accelerator: nvl2
-        network.topology.kubernetes.io/block: sw16
-        network.topology.kubernetes.io/spine: sw23
+        network.topology.kubernetes.io/block: sw14
+        network.topology.kubernetes.io/spine: sw22
         network.topology.kubernetes.io/datacenter: sw31
         nvidia.com/gpu.count: "8"
     - type: dgxa100.80g
       count: 1
       labels:
         node-id: n12
         network.topology.kubernetes.io/accelerator: nvl2
-        network.topology.kubernetes.io/block: sw16
-        network.topology.kubernetes.io/spine: sw23
+        network.topology.kubernetes.io/block: sw14
+        network.topology.kubernetes.io/spine: sw22
         network.topology.kubernetes.io/datacenter: sw31
         nvidia.com/gpu.count: "8"
     timeout: 5m
diff --git a/resources/benchmarks/scaling/workflows/config-kueue.yaml b/resources/benchmarks/scaling/workflows/config-kueue.yaml
@@ -51,10 +51,10 @@ tasks:
     params:
       name: team
       flavor: gpu-node
-      cpu: 50
+      cpu: 70
       memory: 360Gi
-      pods: 500
-      gpu: 4000
+      pods: 700
+      gpu: 5600
 - id: create-local-queue
   type: SubmitObj
   params: