[Bench] Add TorchSlmSize benchmark

lukaszstolarczuk · lukaszstolarczuk · commit 6c5490543331 · 2025-12-18T14:14:19.000+01:00
diff --git a/devops/scripts/benchmarks/benches/compute.py b/devops/scripts/benchmarks/benches/compute.py
@@ -182,7 +182,7 @@ def benchmarks(self) -> list[Benchmark]:
                 GraphApiSinKernelGraph(self, runtime, with_graphs, num_kernels)
             )
 
-            # Add ULLS benchmarks
+        # Add ULLS benchmarks
         for runtime in list(RUNTIMES):
             if runtime == RUNTIMES.SYCL:
                 benches.append(
@@ -355,6 +355,39 @@ def createTorchMultiQueueBench(variant_name: str, **kwargs):
                 ),
             ]
 
+        # Add TorchSlmSize benchmarks
+        for runtime in filter(lambda x: x != RUNTIMES.UR, RUNTIMES):
+
+            def createTorchSlmSizeBench(variant_name: str, **kwargs):
+                return TorchSlmSize(
+                    self,
+                    runtime,
+                    variant_name,
+                    PROFILERS.TIMER,
+                    **kwargs,
+                )
+
+            benches += [
+                createTorchSlmSizeBench(
+                    "small",
+                    batchSize=512,
+                    slmNum=1,
+                    warmupIterations=1,
+                ),
+                createTorchSlmSizeBench(
+                    "medium",
+                    batchSize=512,
+                    slmNum=1024,
+                    warmupIterations=1,
+                ),
+                createTorchSlmSizeBench(
+                    "max",
+                    batchSize=512,
+                    slmNum=-1,
+                    warmupIterations=1,
+                ),
+            ]
+
         # Add UR-specific benchmarks
         benches += [
             # TODO: multithread_benchmark_ur fails with segfault
@@ -810,25 +843,31 @@ def _bin_args(self, run_trace: TracingType = TracingType.NONE) -> list[str]:
         return [f"--{k}={v}" for k, v in self._rr_params.items()]
 
 
-class TorchMultiQueue(ComputeBenchmark):
+class TorchBenchmark(ComputeBenchmark):
     def __init__(
-        self, suite, runtime: RUNTIMES, variant_name: str, profiler_type, **kwargs
+        self,
+        suite,
+        runtime: RUNTIMES,
+        bench_name: str,
+        variant_name: str,
+        profiler_type,
+        **kwargs,
     ):
         self._variant_name = variant_name
-        self._smq_params = kwargs
+        self._torch_params = kwargs
         self._iterations_regular = 1000
         self._iterations_trace = 10
         super().__init__(
             suite,
             f"torch_benchmark_{runtime.value}",
-            "KernelSubmitMultiQueue",
+            bench_name,
             runtime,
             profiler_type,
         )
 
     def name(self):
         ret = []
-        for k, v in self._smq_params.items():
+        for k, v in self._torch_params.items():
             ret.append(f"{k} {v}")
         ret.sort()
         return self._bench_name + " " + ", ".join(ret)
@@ -848,10 +887,38 @@ def _supported_runtimes(self) -> list[RUNTIMES]:
     def _bin_args(self, run_trace: TracingType = TracingType.NONE) -> list[str]:
         iters = self._get_iters(run_trace)
         return [f"--iterations={iters}"] + [
-            f"--{k}={v}" for k, v in self._smq_params.items()
+            f"--{k}={v}" for k, v in self._torch_params.items()
         ]
 
 
+class TorchMultiQueue(TorchBenchmark):
+    def __init__(
+        self, suite, runtime: RUNTIMES, variant_name: str, profiler_type, **kwargs
+    ):
+        super().__init__(
+            suite,
+            runtime,
+            "KernelSubmitMultiQueue",
+            variant_name,
+            profiler_type,
+            **kwargs,
+        )
+
+
+class TorchSlmSize(TorchBenchmark):
+    def __init__(
+        self, suite, runtime: RUNTIMES, variant_name: str, profiler_type, **kwargs
+    ):
+        super().__init__(
+            suite,
+            runtime,
+            "KernelSubmitSlmSize",
+            variant_name,
+            profiler_type,
+            **kwargs,
+        )
+
+
 class QueueInOrderMemcpy(ComputeBenchmark):
     def __init__(self, bench, isCopyOnly, source, destination, size, profiler_type):
         self._is_copy_only = isCopyOnly
diff --git a/devops/scripts/benchmarks/tests/test_integration.py b/devops/scripts/benchmarks/tests/test_integration.py
@@ -194,20 +194,36 @@ def test_torch_l0(self):
             "KernelSubmitMultiQueue large",
             {"pytorch", "L0"},
         )
+        self._checkCase(
+            "torch_benchmark_l0 batchSize 512, slmNum 1, warmupIterations 1",
+            "KernelSubmitSlmSize small",
+            {"pytorch", "L0"},
+        )
 
     def test_torch_sycl(self):
         self._checkCase(
             "torch_benchmark_sycl kernelsPerQueue 10, workgroupCount 512, workgroupSize 256",
             "KernelSubmitMultiQueue medium",
             {"pytorch", "SYCL"},
         )
+        self._checkCase(
+            "torch_benchmark_sycl batchSize 512, slmNum -1, warmupIterations 1",
+            "KernelSubmitSlmSize max",
+            {"pytorch", "SYCL"},
+        )
 
     def test_torch_syclpreview(self):
         self._checkCase(
             "torch_benchmark_syclpreview kernelsPerQueue 4, workgroupCount 256, workgroupSize 124",
             "KernelSubmitMultiQueue small",
             {"pytorch", "SYCL"},
         )
+        self._checkCase(
+            "torch_benchmark_syclpreview batchSize 512, slmNum 1024, warmupIterations 1",
+            "KernelSubmitSlmSize medium",
+            {"pytorch", "SYCL"},
+        )
+
 
 if __name__ == "__main__":
     unittest.main()