diff --git a/TraceLens/Trace2Tree/trace_to_tree.py b/TraceLens/Trace2Tree/trace_to_tree.py
index f8ae5499..d4315c32 100644
--- a/TraceLens/Trace2Tree/trace_to_tree.py
+++ b/TraceLens/Trace2Tree/trace_to_tree.py
@@ -695,16 +695,40 @@ def _preprocess_and_index_events(self) -> None:
             #     if python_id is not None:
             #         self.dict_pythonID2UID[python_id] = event[UID]
 
+        # Build CPU pid → GPU pid mapping from ac2g flow event pairs.
+        # In merged multi-rank traces each rank produces overlapping correlation
+        # IDs, so _get_graph_gpu_events must filter GPU events to the correct
+        # rank.  ac2g "start" events carry the CPU pid; their matching "end"
+        # events carry the GPU pid — giving us the per-rank CPU↔GPU pid link.
+        self.cpu_pid_to_gpu_pids = defaultdict(set)
+        for link_id, start_evt in self.ac2g_event_map["start"].items():
+            end_evt = self.ac2g_event_map["end"].get(link_id)
+            if end_evt is not None:
+                cpu_pid = start_evt.get(PID)
+                gpu_pid = end_evt.get(PID)
+                if cpu_pid is not None and gpu_pid is not None:
+                    self.cpu_pid_to_gpu_pids[cpu_pid].add(gpu_pid)
+
     def _nn_module_stack_name_for_event(self, event: Dict[str, Any]) -> str:
         name = event.get(TraceLens.util.TraceEventUtils.TraceKeys.Name, "")
         return re.sub(r"_\d+$", "", name)
 
     def add_gpu_ops_to_tree(self):
+        import gc
+        from collections import deque
+
         UID = TraceLens.util.TraceEventUtils.TraceKeys.UID
         Name = TraceLens.util.TraceEventUtils.TraceKeys.Name
         events_by_uid = self.events_by_uid
         name2event_uids = self.name2event_uids
         graph_launch_names = {"cudaGraphLaunch", "hipGraphLaunch"}
+
+        # ── Phase B: link each GPU kernel to its immediate runtime parent ──────
+        # Iterates only runtime_event_uids (pre-filtered in _preprocess_and_index_events)
+        # rather than all self.events.  _get_graph_gpu_events now uses the
+        # pre-built linking_id_to_gpu_events index (O(1) per graph launch) and
+        # filters by rank via cpu_pid_to_gpu_pids to avoid cross-rank attribution
+        # in merged multi-rank traces.
         for runtime_uid in self.runtime_event_uids:
             runtime_event = events_by_uid[runtime_uid]
             if runtime_event["name"] in graph_launch_names:
@@ -720,12 +744,58 @@ def add_gpu_ops_to_tree(self):
                 name2event_uids[gpu_evt[Name]].append(gpu_evt_uid)
                 runtime_event.setdefault("gpu_events", []).append(gpu_evt_uid)
 
-                # Walk parent chain to propagate gpu_events
-                parent_uid = runtime_event.get("parent")
-                while parent_uid is not None:
-                    parent = events_by_uid[parent_uid]
-                    parent.setdefault("gpu_events", []).append(gpu_evt_uid)
-                    parent_uid = parent.get("parent")
+        # ── Phase C: single bottom-up propagation of gpu_events ───────────────
+        # Replace the per-kernel O(depth) ancestor walk with a single BFS
+        # topological sort followed by a reverse-order list.extend() pass.
+        # C-level list.extend() is 10-50× faster than individual append() calls
+        # and avoids the GC pressure of millions of per-kernel allocations.
+        #
+        # BFS seeds: self.cpu_root_nodes is already populated by
+        # build_host_call_stack_tree — no O(N_all) scan needed.
+        #
+        # Visited set: in merged multi-rank traces, Phase B can (for any
+        # remaining cross-rank duplicates) add a GPU event as a child of
+        # multiple runtime parents.  Without a visited set the BFS enqueues
+        # each such event K times, making traversal O(K² × N_gpu) — a definite
+        # hang for large merged traces.  The visited set reduces this to O(N).
+        topo_order: list = []
+        visited: set = set()
+        q: deque = deque(
+            events_by_uid[uid] for uid in self.cpu_root_nodes if uid in events_by_uid
+        )
+        while q:
+            ev = q.popleft()
+            ev_uid = ev[UID]
+            if ev_uid in visited:
+                continue
+            visited.add(ev_uid)
+            topo_order.append(ev)
+            for child_uid in ev.get("children", ()):
+                if child_uid not in visited:
+                    child = events_by_uid.get(child_uid)
+                    if child is not None:
+                        q.append(child)
+
+        gc.disable()
+        try:
+            for event in reversed(topo_order):
+                my_gpu = event.get("gpu_events")
+                if not my_gpu:
+                    continue
+                parent_uid = event.get("parent")
+                if parent_uid is None:
+                    continue
+                parent = events_by_uid.get(parent_uid)
+                if parent is None:
+                    continue
+                parent_gpu = parent.get("gpu_events")
+                if parent_gpu is None:
+                    parent["gpu_events"] = list(my_gpu)
+                else:
+                    parent_gpu.extend(my_gpu)
+        finally:
+            gc.enable()
+            gc.collect()
 
     def build_tree(self, add_python_func=False, link_fwd_bwd=True) -> None:
         print(f"Building tree with add_python_func={add_python_func}")
@@ -1136,7 +1206,22 @@ def _get_graph_gpu_events(self, graph_launch_evt):
         ).get(self.linking_key)
         if corr is None:
             return []
-        return self.linking_id_to_gpu_events.get(corr, [])
+        all_gpu_events = self.linking_id_to_gpu_events.get(corr, [])
+        # In merged multi-rank traces, correlation IDs restart from the same
+        # range for every rank, so linking_id_to_gpu_events[corr] can contain
+        # GPU kernels from all K ranks.  Use the CPU↔GPU pid mapping derived
+        # from ac2g flow events to restrict results to the rank that issued
+        # this graph launch.  Fall back to returning all matches when no
+        # mapping is available (e.g. traces with no regular kernel launches).
+        cpu_pid = graph_launch_evt.get(TraceLens.util.TraceEventUtils.TraceKeys.PID)
+        gpu_pids = self.cpu_pid_to_gpu_pids.get(cpu_pid)
+        if not gpu_pids:
+            return all_gpu_events
+        return [
+            evt
+            for evt in all_gpu_events
+            if evt.get(TraceLens.util.TraceEventUtils.TraceKeys.PID) in gpu_pids
+        ]
 
     def _find_corresponding_output_event(self, input_event):
         # 1. Get the linking id from the input event
diff --git a/TraceLens/TreePerf/tree_perf.py b/TraceLens/TreePerf/tree_perf.py
index 5ef06428..ce2bc83f 100644
--- a/TraceLens/TreePerf/tree_perf.py
+++ b/TraceLens/TreePerf/tree_perf.py
@@ -327,7 +327,7 @@ def compute_perf_metrics(
                 "dur": kernel["dur"],
                 "stream": kernel.get("args", {}).get("stream", None),
             }
-            for kernel in list_kernels
+            for kernel in sorted(list_kernels, key=lambda k: k.get("ts", 0))
         ]
 
         # Select the appropriate dictionary for FLOPS and memory functions
@@ -864,6 +864,7 @@ def get_kernel_launchers(self, include_nccl=False):
             key=lambda uid: self.tree.get_UID2event(uid).get("ts", 0),
         )
 
+        events_by_uid = self.tree.events_by_uid
         for launcher_uid in sorted_launcher_uids:
             kernels = launcher_to_kernels[launcher_uid]
             event = self.tree.get_UID2event(launcher_uid)
@@ -871,8 +872,15 @@ def get_kernel_launchers(self, include_nccl=False):
             event["total_direct_kernel_time"] = self.GPUEventAnalyser(
                 kernels
             ).compute_metrics()["busy_time"]
-            event["total_subtree_kernel_time"] = self._compute_subtree_kernel_time_us(
-                event
+            # add_gpu_ops_to_tree() propagates every GPU kernel UID up to all
+            # CPU/runtime ancestors via event["gpu_events"], making subtree
+            # kernel lookup O(1) instead of a recursive traversal.
+            subtree_kernel_uids = event.get("gpu_events", [])
+            subtree_kernels = [events_by_uid[uid] for uid in subtree_kernel_uids]
+            event["total_subtree_kernel_time"] = (
+                self.GPUEventAnalyser(subtree_kernels).compute_metrics()["busy_time"]
+                if subtree_kernels
+                else 0
             )
             event["direct_kernel_count"] = len(kernels)
             event["kernel_details"] = [
@@ -881,7 +889,7 @@ def get_kernel_launchers(self, include_nccl=False):
                     "dur": kernel["dur"],
                     "stream": kernel.get("args", {}).get("stream", None),
                 }
-                for kernel in kernels
+                for kernel in sorted(kernels, key=lambda k: k.get("ts", 0))
             ]
             event["op category"] = self.op_categorizer(event)
             self._compute_overlap_info(event, kernels)
@@ -1307,6 +1315,9 @@ def _summarize_kernel_stats(series_of_kernel_lists, agg_metrics=["mean"]):
                     # --- CHANGE: Use the consistent metric name directly ---
                     kernel_summary[metric_name] = agg_func(dur_arr)
 
+        summary_list.sort(
+            key=lambda k: (k.get("total_duration_us", 0), k.get("name", ""))
+        )
         return summary_list
 
     @staticmethod
diff --git a/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/CONV_fwd.csv b/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/CONV_fwd.csv
index 76374ab6..c7958b09 100644
--- a/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/CONV_fwd.csv
+++ b/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/CONV_fwd.csv
@@ -1,2 +1,2 @@
 name,param: convNd,param: input_shape,param: filter_shape,param: dtype_input_weight,param: input_stride,param: weight_stride,param: bias,param: stride,param: padding,param: dilation,param: transposed_conv,param: output_padding,param: groups,GFLOPS_first,Data Moved (MB)_first,FLOPS/Byte_first,TB/s_mean,TB/s_median,TB/s_std,TB/s_min,TB/s_max,TFLOPS/s_mean,TFLOPS/s_median,TFLOPS/s_std,TFLOPS/s_min,TFLOPS/s_max,process_name_first,process_label_first,thread_name_first,Compute Spec,kernel_details__summarize_kernel_stats,trunc_kernel_details,Input Dims_first,Input type_first,Input Strides_first,Concrete Inputs_first,Kernel Time (µs)_mean,Kernel Time (µs)_median,Kernel Time (µs)_std,Kernel Time (µs)_min,Kernel Time (µs)_max,Kernel Time (µs)_sum,name_count,UID_first
-aten::convolution,conv2d,"(4, 3, 224, 224)","(768, 3, 16, 16)","('c10::BFloat16', 'c10::BFloat16')","(150528, 50176, 224, 1)","(768, 256, 16, 1)",False,"(16, 16)","(0, 0)","(1, 1)",False,"(0, 0)",1,0.924844032,3.421875,257.75342465753425,0.02768590506403035,0.02768590506403035,,0.02768590506403035,0.02768590506403035,7.136136844997193,7.136136844997193,,7.136136844997193,7.136136844997193,python3,CPU,thread 5617 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.272), 'mean_duration_us': np.float64(2.272), 'median_duration_us': np.float64(2.272), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.272)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.464), 'mean_duration_us': np.float64(10.464), 'median_duration_us': np.float64(10.464), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.464), 'max_duration_us': np.float64(10.464)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.112), 'mean_duration_us': np.float64(2.112), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.112), 'max_duration_us': np.float64(2.112)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.4), 'mean_duration_us': np.float64(10.4), 'median_duration_us': np.float64(10.4), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.4), 'max_duration_us': np.float64(10.4)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(98.176), 'mean_duration_us': np.float64(98.176), 'median_duration_us': np.float64(98.176), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(98.176), 'max_duration_us': np.float64(98.176)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.208), 'mean_duration_us': np.float64(2.208), 'median_duration_us': np.float64(2.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.208), 'max_duration_us': np.float64(2.208)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.968), 'mean_duration_us': np.float64(3.968), 'median_duration_us': np.float64(3.968), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(3.968)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.27)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.46)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.11)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.4)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(98.18)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.21)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.97)}]","[[4, 3, 224, 224], [768, 3, 16, 16], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[150528, 50176, 224, 1], [768, 256, 16, 1], [1], [], [], [], [], [], []]","['', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",129.60009765625,129.60009765625,,129.60009765625,129.60009765625,129.60009765625,1,2
+aten::convolution,conv2d,"(4, 3, 224, 224)","(768, 3, 16, 16)","('c10::BFloat16', 'c10::BFloat16')","(150528, 50176, 224, 1)","(768, 256, 16, 1)",False,"(16, 16)","(0, 0)","(1, 1)",False,"(0, 0)",1,0.924844032,3.421875,257.75342465753425,0.02768590506403035,0.02768590506403035,,0.02768590506403035,0.02768590506403035,7.136136844997193,7.136136844997193,,7.136136844997193,7.136136844997193,python3,CPU,thread 5617 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.112), 'mean_duration_us': np.float64(2.112), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.112), 'max_duration_us': np.float64(2.112)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.208), 'mean_duration_us': np.float64(2.208), 'median_duration_us': np.float64(2.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.208), 'max_duration_us': np.float64(2.208)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.272), 'mean_duration_us': np.float64(2.272), 'median_duration_us': np.float64(2.272), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.272)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.968), 'mean_duration_us': np.float64(3.968), 'median_duration_us': np.float64(3.968), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(3.968)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.4), 'mean_duration_us': np.float64(10.4), 'median_duration_us': np.float64(10.4), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.4), 'max_duration_us': np.float64(10.4)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.464), 'mean_duration_us': np.float64(10.464), 'median_duration_us': np.float64(10.464), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.464), 'max_duration_us': np.float64(10.464)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(98.176), 'mean_duration_us': np.float64(98.176), 'median_duration_us': np.float64(98.176), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(98.176), 'max_duration_us': np.float64(98.176)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.11)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.21)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.27)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.97)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.4)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.46)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(98.18)}]","[[4, 3, 224, 224], [768, 3, 16, 16], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[150528, 50176, 224, 1], [768, 256, 16, 1], [1], [], [], [], [], [], []]","['', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",129.60009765625,129.60009765625,,129.60009765625,129.60009765625,129.60009765625,1,2
diff --git a/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/ops_unique_args.csv b/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/ops_unique_args.csv
index 0b95f656..cc695523 100644
--- a/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/ops_unique_args.csv
+++ b/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/ops_unique_args.csv
@@ -2,7 +2,7 @@ name,op category,process_name,process_label,thread_name,Input Dims,Input type,In
 aten::addmm,GEMM,python3,CPU,thread 5617 (python3),"((768,), (788, 768), (768, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (768, 1), (1, 768), (), ())","('', '', '', '1', '1')",48,8.315348307291666,8.315348307291666,8.256103515625,8.256103515625,0.1344482499064346,0.1344482499064346,8.1279296875,8.1279296875,8.639892578125,8.639892578125,399.13671875,399.13671875,30,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(399.136), 'mean_duration_us': np.float64(8.315333333333333), 'median_duration_us': np.float64(8.256), 'std_dev_duration_us': np.float64(0.13305517861231703), 'min_duration_us': np.float64(8.128), 'max_duration_us': np.float64(8.64)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(8.32)}]",32.57437687604667,32.57437687604667
 aten::addmm,GEMM,python3,CPU,thread 5617 (python3),"((3072,), (788, 768), (768, 3072), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (768, 1), (1, 768), (), ())","('', '', '', '1', '1')",12,13.882466634114584,13.882466634114584,13.887451171875,13.887451171875,0.1063651301764554,0.1063651301764554,13.760009765625,13.760009765625,14.176025390625,14.176025390625,166.589599609375,166.589599609375,104,"[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(166.59), 'mean_duration_us': np.float64(13.8825), 'median_duration_us': np.float64(13.8875), 'std_dev_duration_us': np.float64(0.10183278777813505), 'min_duration_us': np.float64(13.76), 'max_duration_us': np.float64(14.176)}]","[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(13.88)}]",13.595723335853824,46.1701002119005
 aten::addmm,GEMM,python3,CPU,thread 5617 (python3),"((768,), (788, 3072), (3072, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (3072, 1), (1, 3072), (), ())","('', '', '', '1', '1')",12,13.53594970703125,13.53594970703125,13.4879150390625,13.4879150390625,0.17737765723261711,0.17737765723261711,13.343994140625,13.343994140625,13.951904296875,13.951904296875,162.431396484375,162.431396484375,114,"[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x64x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(162.43200000000002), 'mean_duration_us': np.float64(13.536000000000001), 'median_duration_us': np.float64(13.488), 'std_dev_duration_us': np.float64(0.16983128883296716), 'min_duration_us': np.float64(13.344), 'max_duration_us': np.float64(13.952)}]","[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x64x64_warpg...', 'stream': 7, 'mean_duration_us': np.float64(13.54)}]",13.25636373961045,59.42646395151095
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 5617 (python3),"((4, 3, 224, 224), (768, 3, 16, 16), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (), (), (), (), (), (), ())","('', '', '[0, 0]', '[16, 16]', '[1, 1]', '1', 'False', 'False', 'True')",1,125.632080078125,125.632080078125,125.632080078125,125.632080078125,,,125.632080078125,125.632080078125,125.632080078125,125.632080078125,125.632080078125,125.632080078125,4,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.272), 'mean_duration_us': np.float64(2.272), 'median_duration_us': np.float64(2.272), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.272)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.464), 'mean_duration_us': np.float64(10.464), 'median_duration_us': np.float64(10.464), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.464), 'max_duration_us': np.float64(10.464)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.112), 'mean_duration_us': np.float64(2.112), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.112), 'max_duration_us': np.float64(2.112)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.4), 'mean_duration_us': np.float64(10.4), 'median_duration_us': np.float64(10.4), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.4), 'max_duration_us': np.float64(10.4)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(98.176), 'mean_duration_us': np.float64(98.176), 'median_duration_us': np.float64(98.176), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(98.176), 'max_duration_us': np.float64(98.176)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.208), 'mean_duration_us': np.float64(2.208), 'median_duration_us': np.float64(2.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.208), 'max_duration_us': np.float64(2.208)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.27)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.46)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.11)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.4)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(98.18)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.21)}]",10.253095072292242,69.6795590238032
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 5617 (python3),"((4, 3, 224, 224), (768, 3, 16, 16), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (), (), (), (), (), (), ())","('', '', '[0, 0]', '[16, 16]', '[1, 1]', '1', 'False', 'False', 'True')",1,125.632080078125,125.632080078125,125.632080078125,125.632080078125,,,125.632080078125,125.632080078125,125.632080078125,125.632080078125,125.632080078125,125.632080078125,4,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.112), 'mean_duration_us': np.float64(2.112), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.112), 'max_duration_us': np.float64(2.112)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.208), 'mean_duration_us': np.float64(2.208), 'median_duration_us': np.float64(2.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.208), 'max_duration_us': np.float64(2.208)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.272), 'mean_duration_us': np.float64(2.272), 'median_duration_us': np.float64(2.272), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.272)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.4), 'mean_duration_us': np.float64(10.4), 'median_duration_us': np.float64(10.4), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.4), 'max_duration_us': np.float64(10.4)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.464), 'mean_duration_us': np.float64(10.464), 'median_duration_us': np.float64(10.464), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.464), 'max_duration_us': np.float64(10.464)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(98.176), 'mean_duration_us': np.float64(98.176), 'median_duration_us': np.float64(98.176), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(98.176), 'max_duration_us': np.float64(98.176)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.11)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.21)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.27)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.4)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.46)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(98.18)}]",10.253095072292242,69.6795590238032
 aten::_flash_attention_forward,other,python3,CPU,thread 5617 (python3),"((4, 197, 12, 64), (4, 197, 12, 64), (4, 197, 12, 64), (), (), (), (), (), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'Scalar', '', '', '', '')","((151296, 768, 64, 1), (151296, 768, 64, 1), (151296, 768, 64, 1), (), (), (), (), (), (), (), (), (), (), (), ())","('', '', '', '', '', '197', '197', '0.', 'False', 'False', '0.125', '', '', '', '')",12,10.237345377604166,10.237345377604166,10.2239990234375,10.2239990234375,0.22844252841239704,0.22844252841239704,10.01611328125,10.01611328125,10.847900390625,10.847900390625,122.84814453125,122.84814453125,68,"[{'name': 'void pytorch_flash::flash_fwd_kernel<pytorch_flash::Flash_fwd_kernel_traits<64, 128, 128, 4, false, false, cutlass::bfloat16_t, pytorch_flash::Flash_kernel_traits<64, 128, 128, 4, cutlass::bfloat16_t> >, false, false, false, false, false, true, false>(pytorch_flash::Flash_fwd_params)', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(122.848), 'mean_duration_us': np.float64(10.237333333333334), 'median_duration_us': np.float64(10.224), 'std_dev_duration_us': np.float64(0.21878045819699932), 'min_duration_us': np.float64(10.016), 'max_duration_us': np.float64(10.848)}]","[{'name': 'void pytorch_flash::flash_fwd_kernel<pytorch_flash::Flash_fwd_ke...', 'stream': 7, 'mean_duration_us': np.float64(10.24)}]",10.025892308320707,79.7054513321239
 aten::native_layer_norm,NORM_fwd,python3,CPU,thread 5617 (python3),"((4, 197, 768), (), (768,), (768,), ())","('c10::BFloat16', 'ScalarList', 'c10::BFloat16', 'c10::BFloat16', 'Scalar')","((151296, 768, 1), (), (1,), (1,), ())","('', '[768]', '', '', '9.9999999999999998e-13')",25,4.448037109375,4.448037109375,4.447998046875,4.447998046875,0.11153427757229074,0.11153427757229074,4.256103515625,4.256103515625,4.639892578125,4.639892578125,111.200927734375,111.200927734375,18,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<c10::BFloat16, float>(int, float, c10::BFloat16 const*, c10::BFloat16 const*, c10::BFloat16 const*, float*, float*, c10::BFloat16*)', 'stream': 7, 'count': 25, 'total_duration_us': np.float64(111.20100000000001), 'mean_duration_us': np.float64(4.448040000000001), 'median_duration_us': np.float64(4.448), 'std_dev_duration_us': np.float64(0.10934037863479323), 'min_duration_us': np.float64(4.256), 'max_duration_us': np.float64(4.64)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(4.45)}]",9.075338746907917,88.78079007903182
 aten::gelu,elementwise,python3,CPU,thread 5617 (python3),"((4, 197, 3072), ())","('c10::BFloat16', '')","((605184, 3072, 1), ())","('', '')",12,5.04510498046875,5.04510498046875,5.055419921875,5.055419921875,0.039437883181483786,0.039437883181483786,4.990966796875,4.990966796875,5.1201171875,5.1201171875,60.541259765625,60.541259765625,107,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(60.541999999999994), 'mean_duration_us': np.float64(5.045166666666666), 'median_duration_us': np.float64(5.0555), 'std_dev_duration_us': np.float64(0.037739972914080884), 'min_duration_us': np.float64(4.991), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Ge...', 'stream': 7, 'mean_duration_us': np.float64(5.05)}]",4.940897991876649,93.72168807090847
diff --git a/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/unified_perf_summary.csv b/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/unified_perf_summary.csv
index 3cd9fdf5..b99b05b1 100644
--- a/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/unified_perf_summary.csv
+++ b/tests/traces/h100/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/unified_perf_summary.csv
@@ -2,7 +2,7 @@ name,op category,process_name,process_label,thread_name,Input Dims,Input type,In
 aten::addmm,GEMM,python3,CPU,thread 5617 (python3),"((768,), (788, 768), (768, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (768, 1), (1, 768), (), ())","('', '', '', '1', '1')",30,48,1154.879,24.059979166666665,3.5577465345091763,0.930167808,3.43505859375,258.2422174840085,matrix_bf16,0.43327482905502873,0.006921872667601486,111.88985263517533,1.7875197468233597,8.315348307291666,0.1344482499064346,399.13671875,25.2705,19.16,34.53,0.43627359966880563,0.4168940721693182,0.4431534398654331,112.66426180820298,107.65964965294302,114.44092699651567,8.256103515625,8.1279296875,8.639892578125,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(399.136), 'mean_duration_us': np.float64(8.315333333333333), 'median_duration_us': np.float64(8.256), 'std_dev_duration_us': np.float64(0.13305517861231703), 'min_duration_us': np.float64(8.128), 'max_duration_us': np.float64(8.64)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(8.32)}]","{'M': 788, 'N': 768, 'K': 768, 'bias': True, 'stride_A': (768, 1), 'stride_B': (1, 768), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,32.57437687604667,32.57437687604667
 aten::addmm,GEMM,python3,CPU,thread 5617 (python3),"((3072,), (788, 768), (768, 3072), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (768, 1), (1, 768), (), ())","('', '', '', '1', '1')",104,12,469.666,39.13883333333333,1.6353539974481668,3.720671232,10.27734375,345.2554161915621,matrix_bf16,0.7763136653796865,0.00587259665798289,268.0264976358607,2.0275458032770435,13.882466634114584,0.1063651301764554,166.589599609375,38.6155,37.56,43.91,0.775993800442447,0.7601972840093,0.783180839516687,267.91606253382906,262.462229678326,270.3974267005908,13.887451171875,13.760009765625,14.176025390625,"[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(166.59), 'mean_duration_us': np.float64(13.8825), 'median_duration_us': np.float64(13.8875), 'std_dev_duration_us': np.float64(0.10183278777813505), 'min_duration_us': np.float64(13.76), 'max_duration_us': np.float64(14.176)}]","[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(13.88)}]","{'M': 788, 'N': 3072, 'K': 768, 'bias': True, 'stride_A': (768, 1), 'stride_B': (1, 768), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,13.595723335853824,46.1701002119005
 aten::addmm,GEMM,python3,CPU,thread 5617 (python3),"((768,), (788, 3072), (3072, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (3072, 1), (1, 3072), (), ())","('', '', '', '1', '1')",114,12,430.237,35.85308333333334,3.536968564857183,3.71885568,10.27294921875,345.2345643804363,matrix_bf16,0.7959277904370671,0.010275168923168024,274.78178400982404,3.547343467125292,13.53594970703125,0.17737765723261711,162.431396484375,34.531,33.86,45.29,0.7986396051796765,0.7720786905349362,0.8072521530270598,275.7179961911693,266.5482503942464,278.69134539546627,13.4879150390625,13.343994140625,13.951904296875,"[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x64x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(162.43200000000002), 'mean_duration_us': np.float64(13.536000000000001), 'median_duration_us': np.float64(13.488), 'std_dev_duration_us': np.float64(0.16983128883296716), 'min_duration_us': np.float64(13.344), 'max_duration_us': np.float64(13.952)}]","[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x64x64_warpg...', 'stream': 7, 'mean_duration_us': np.float64(13.54)}]","{'M': 788, 'N': 768, 'K': 3072, 'bias': True, 'stride_A': (3072, 1), 'stride_B': (1, 3072), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,13.25636373961045,59.42646395151095
-aten::convolution,CONV_fwd,python3,CPU,thread 5617 (python3),"((4, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",2,1,101.661,101.661,,0.924844032,3.421875,257.75342465753425,matrix_bf16,0.02768590506403035,,7.136136844997193,,129.60009765625,,129.60009765625,101.661,101.661,101.661,0.02768590506403035,0.02768590506403035,0.02768590506403035,7.136136844997193,7.136136844997193,7.136136844997193,129.60009765625,129.60009765625,129.60009765625,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.272), 'mean_duration_us': np.float64(2.272), 'median_duration_us': np.float64(2.272), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.272)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.464), 'mean_duration_us': np.float64(10.464), 'median_duration_us': np.float64(10.464), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.464), 'max_duration_us': np.float64(10.464)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.112), 'mean_duration_us': np.float64(2.112), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.112), 'max_duration_us': np.float64(2.112)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.4), 'mean_duration_us': np.float64(10.4), 'median_duration_us': np.float64(10.4), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.4), 'max_duration_us': np.float64(10.4)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(98.176), 'mean_duration_us': np.float64(98.176), 'median_duration_us': np.float64(98.176), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(98.176), 'max_duration_us': np.float64(98.176)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.208), 'mean_duration_us': np.float64(2.208), 'median_duration_us': np.float64(2.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.208), 'max_duration_us': np.float64(2.208)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.968), 'mean_duration_us': np.float64(3.968), 'median_duration_us': np.float64(3.968), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(3.968)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.27)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.46)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.11)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.4)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(98.18)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.21)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.97)}]","{'convNd': 'conv2d', 'input_shape': (4, 3, 224, 224), 'filter_shape': (768, 3, 16, 16), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (150528, 50176, 224, 1), 'weight_stride': (768, 256, 16, 1), 'bias': False, 'stride': (16, 16), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,10.57693323091974,70.00339718243069
+aten::convolution,CONV_fwd,python3,CPU,thread 5617 (python3),"((4, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",2,1,101.661,101.661,,0.924844032,3.421875,257.75342465753425,matrix_bf16,0.02768590506403035,,7.136136844997193,,129.60009765625,,129.60009765625,101.661,101.661,101.661,0.02768590506403035,0.02768590506403035,0.02768590506403035,7.136136844997193,7.136136844997193,7.136136844997193,129.60009765625,129.60009765625,129.60009765625,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.112), 'mean_duration_us': np.float64(2.112), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.112), 'max_duration_us': np.float64(2.112)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.208), 'mean_duration_us': np.float64(2.208), 'median_duration_us': np.float64(2.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.208), 'max_duration_us': np.float64(2.208)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.272), 'mean_duration_us': np.float64(2.272), 'median_duration_us': np.float64(2.272), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.272)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.968), 'mean_duration_us': np.float64(3.968), 'median_duration_us': np.float64(3.968), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(3.968)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.4), 'mean_duration_us': np.float64(10.4), 'median_duration_us': np.float64(10.4), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.4), 'max_duration_us': np.float64(10.4)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.464), 'mean_duration_us': np.float64(10.464), 'median_duration_us': np.float64(10.464), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.464), 'max_duration_us': np.float64(10.464)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(98.176), 'mean_duration_us': np.float64(98.176), 'median_duration_us': np.float64(98.176), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(98.176), 'max_duration_us': np.float64(98.176)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.11)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.21)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.27)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.97)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.4)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.46)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(98.18)}]","{'convNd': 'conv2d', 'input_shape': (4, 3, 224, 224), 'filter_shape': (768, 3, 16, 16), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (150528, 50176, 224, 1), 'weight_stride': (768, 256, 16, 1), 'bias': False, 'stride': (16, 16), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,10.57693323091974,70.00339718243069
 aten::_scaled_dot_product_flash_attention,SDPA_fwd,python3,CPU,thread 5617 (python3),"((4, 12, 197, 64), (4, 12, 197, 64), (4, 12, 197, 64), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((151296, 64, 768, 1), (151296, 64, 768, 1), (151296, 64, 768, 1), (), (), (), ())","('', '', '', '0.', 'False', 'False', '0.125')",61,12,491.448,40.954,2.0899024770635504,0.476884992,4.6171875,98.5,,0.4731315968327939,0.01022134818763448,46.603462288030194,1.0068027964819959,10.237345377604166,0.22844252841239704,122.84814453125,40.6005,39.25,47.251,0.4735411097882475,0.4463049830531362,0.4833683350070687,46.64379931414237,43.961040830733914,47.61178099819627,10.2239990234375,10.01611328125,10.847900390625,"[{'name': 'void pytorch_flash::flash_fwd_kernel<pytorch_flash::Flash_fwd_kernel_traits<64, 128, 128, 4, false, false, cutlass::bfloat16_t, pytorch_flash::Flash_kernel_traits<64, 128, 128, 4, cutlass::bfloat16_t> >, false, false, false, false, false, true, false>(pytorch_flash::Flash_fwd_params)', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(122.848), 'mean_duration_us': np.float64(10.237333333333334), 'median_duration_us': np.float64(10.224), 'std_dev_duration_us': np.float64(0.21878045819699932), 'min_duration_us': np.float64(10.016), 'max_duration_us': np.float64(10.848)}]","[{'name': 'void pytorch_flash::flash_fwd_kernel<pytorch_flash::Flash_fwd_ke...', 'stream': 7, 'mean_duration_us': np.float64(10.24)}]","{'B': 4, 'N_Q': 197, 'H_Q': 12, 'N_KV': 197, 'H_KV': 12, 'd_h_qk': 64, 'd_h_v': 64, 'dropout': 0.0, 'causal': False, 'flash_impl': True}",True,10.025892308320707,80.0292894907514
 aten::layer_norm,NORM_fwd,python3,CPU,thread 5617 (python3),"((4, 197, 768), (), (768,), (768,), (), ())","('c10::BFloat16', 'ScalarList', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((151296, 768, 1), (), (1,), (1,), (), ())","('', '[768]', '', '', '9.9999999999999998e-13', 'True')",17,25,616.799,24.67196,2.70387186086915,0.003030528,2.3173828125,1.2471554993678888,vector_bf16,0.5466261436434106,0.013652475008396602,0.6817278011431411,0.017026759286704458,4.448037109375,0.11153427757229074,111.200927734375,23.71,22.44,33.221,0.5463023981557714,0.5237086762430939,0.5709334820168646,0.6813240401778364,0.6531461556432518,0.7120428318705904,4.447998046875,4.256103515625,4.639892578125,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<c10::BFloat16, float>(int, float, c10::BFloat16 const*, c10::BFloat16 const*, c10::BFloat16 const*, float*, float*, c10::BFloat16*)', 'stream': 7, 'count': 25, 'total_duration_us': np.float64(111.20100000000001), 'mean_duration_us': np.float64(4.448040000000001), 'median_duration_us': np.float64(4.448), 'std_dev_duration_us': np.float64(0.10934037863479323), 'min_duration_us': np.float64(4.256), 'max_duration_us': np.float64(4.64)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(4.45)}]","{'op_shape': (4, 197, 768), 'dtype_in_out': ('c10::BFloat16', None), 'stride_input': (151296, 768, 1), 'stride_output': None, 'num_channels': 768, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,9.075338746907917,89.10462823765931
 aten::gelu,elementwise,python3,CPU,thread 5617 (python3),"((4, 197, 3072), ())","('c10::BFloat16', '')","((605184, 3072, 1), ())","('', '')",107,12,153.19299999999998,12.766083333333333,2.9325678929855483,,,,,,,,,5.04510498046875,0.039437883181483786,60.541259765625,11.9605,11.42,22.04,,,,,,,5.055419921875,4.990966796875,5.1201171875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(60.541999999999994), 'mean_duration_us': np.float64(5.045166666666666), 'median_duration_us': np.float64(5.0555), 'std_dev_duration_us': np.float64(0.037739972914080884), 'min_duration_us': np.float64(4.991), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Ge...', 'stream': 7, 'mean_duration_us': np.float64(5.05)}]",,False,4.940897991876649,94.04552622953597
diff --git a/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/CONV_fwd.csv b/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/CONV_fwd.csv
index a23acd65..3d05abaf 100644
--- a/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/CONV_fwd.csv
+++ b/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/CONV_fwd.csv
@@ -1,27 +1,27 @@
 name,param: convNd,param: input_shape,param: filter_shape,param: dtype_input_weight,param: input_stride,param: weight_stride,param: bias,param: stride,param: padding,param: dilation,param: transposed_conv,param: output_padding,param: groups,GFLOPS_first,Data Moved (MB)_first,FLOPS/Byte_first,TB/s_mean,TB/s_median,TB/s_std,TB/s_min,TB/s_max,TFLOPS/s_mean,TFLOPS/s_median,TFLOPS/s_std,TFLOPS/s_min,TFLOPS/s_max,process_name_first,process_label_first,thread_name_first,Compute Spec,kernel_details__summarize_kernel_stats,trunc_kernel_details,Input Dims_first,Input type_first,Input Strides_first,Concrete Inputs_first,Kernel Time (µs)_mean,Kernel Time (µs)_median,Kernel Time (µs)_std,Kernel Time (µs)_min,Kernel Time (µs)_max,Kernel Time (µs)_sum,name_count,UID_first
-aten::convolution,conv3d,"(1, 96, 6, 258, 258)","(96, 96, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(38340864, 399384, 66564, 258, 1)","(2592, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,130.459631616,121.60400390625,1023.1242064687104,0.2825786840015168,0.2825665209737053,0.0006022781490769081,0.2811115063277445,0.2844425817856833,289.11309183402443,289.1006475458465,0.6162053533477364,287.61198684079744,291.02009077538855,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(62149.172999999995), 'mean_duration_us': np.float64(82.86556399999999), 'median_duration_us': np.float64(82.88), 'std_dev_duration_us': np.float64(0.46354650026076166), 'min_duration_us': np.float64(81.344), 'max_duration_us': np.float64(83.808)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(2586.933), 'mean_duration_us': np.float64(3.449244), 'median_duration_us': np.float64(3.424), 'std_dev_duration_us': np.float64(0.1322517112579897), 'min_duration_us': np.float64(3.231), 'max_duration_us': np.float64(4.16)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(721.184), 'mean_duration_us': np.float64(0.9615786666666666), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.20368544657115023), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.535)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(177480.581), 'mean_duration_us': np.float64(236.6407746666667), 'median_duration_us': np.float64(236.638), 'std_dev_duration_us': np.float64(0.7877751717494584), 'min_duration_us': np.float64(233.822), 'max_duration_us': np.float64(239.39)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(37789.115000000005), 'mean_duration_us': np.float64(50.38548666666667), 'median_duration_us': np.float64(50.336), 'std_dev_duration_us': np.float64(0.3434009888680517), 'min_duration_us': np.float64(49.664), 'max_duration_us': np.float64(51.456)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(57705.129), 'mean_duration_us': np.float64(76.940172), 'median_duration_us': np.float64(76.991), 'std_dev_duration_us': np.float64(0.33444091219426697), 'min_duration_us': np.float64(75.935), 'max_duration_us': np.float64(77.919)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.87)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.45)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(236.64)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.39)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(76.94)}]","[[1, 96, 6, 258, 258], [96, 96, 3, 3, 3], [96], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[38340864, 399384, 66564, 258, 1], [2592, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",451.242876953125,451.26025390625,0.9615305761214227,448.283935546875,453.595947265625,338432.15771484375,750,137093
-aten::convolution,conv3d,"(1, 192, 6, 130, 130)","(192, 192, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(19468800, 101400, 16900, 130, 1)","(5184, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,130.459631616,63.0322265625,1973.8474552637695,0.19276502569912513,0.19281666887221474,0.0011759237299539993,0.18812910161714333,0.19590743628264023,380.48875544007325,380.5906911858579,2.3210940619539846,371.33814848805747,386.6913945737385,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(29195.826999999997), 'mean_duration_us': np.float64(38.92776933333333), 'median_duration_us': np.float64(38.815), 'std_dev_duration_us': np.float64(0.3583380993692351), 'min_duration_us': np.float64(38.304), 'max_duration_us': np.float64(39.84)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(3685.314), 'mean_duration_us': np.float64(4.913752), 'median_duration_us': np.float64(4.896), 'std_dev_duration_us': np.float64(0.14547149032026865), 'min_duration_us': np.float64(4.64), 'max_duration_us': np.float64(5.664)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(726.1790000000001), 'mean_duration_us': np.float64(0.9682386666666668), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.2008908701382143), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.568)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(178017.588), 'mean_duration_us': np.float64(237.35678399999998), 'median_duration_us': np.float64(237.19799999999998), 'std_dev_duration_us': np.float64(2.040857747454241), 'min_duration_us': np.float64(231.614), 'max_duration_us': np.float64(245.054)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(18797.244), 'mean_duration_us': np.float64(25.062991999999998), 'median_duration_us': np.float64(25.024), 'std_dev_duration_us': np.float64(0.21605943611886072), 'min_duration_us': np.float64(24.639), 'max_duration_us': np.float64(25.951)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(26742.756), 'mean_duration_us': np.float64(35.657008000000005), 'median_duration_us': np.float64(35.647), 'std_dev_duration_us': np.float64(0.2934462902633686), 'min_duration_us': np.float64(34.848), 'max_duration_us': np.float64(36.512)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(38.93)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.91)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.97)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(237.36)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(35.66)}]","[[1, 192, 6, 130, 130], [192, 192, 3, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[19468800, 101400, 16900, 130, 1], [5184, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",342.886572265625,342.781982421875,2.093920309276013,337.3740234375,351.322998046875,257164.92919921875,750,136704
-aten::convolution,conv3d,"(1, 384, 4, 66, 66)","(384, 384, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(6690816, 17424, 4356, 66, 1)","(10368, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,65.229815808,26.35546875,2360.345042240996,0.11103784071337952,0.11103404352457648,0.002815932980572456,0.10291095546302527,0.11994773431668626,262.08761682897074,262.07865415320504,6.646573449977111,242.9053635194356,283.1180400224306,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6494.4400000000005), 'mean_duration_us': np.float64(10.391104), 'median_duration_us': np.float64(10.368), 'std_dev_duration_us': np.float64(0.1370308592398078), 'min_duration_us': np.float64(10.08), 'max_duration_us': np.float64(10.944)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6743.719000000001), 'mean_duration_us': np.float64(10.789950400000002), 'median_duration_us': np.float64(10.783), 'std_dev_duration_us': np.float64(0.157450667638597), 'min_duration_us': np.float64(10.399), 'max_duration_us': np.float64(11.551)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(600.2610000000001), 'mean_duration_us': np.float64(0.9604176000000001), 'median_duration_us': np.float64(0.991), 'std_dev_duration_us': np.float64(0.19863821991308722), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.664)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(132142.75799999997), 'mean_duration_us': np.float64(211.42841279999996), 'median_duration_us': np.float64(211.326), 'std_dev_duration_us': np.float64(6.328508274846147), 'min_duration_us': np.float64(192.127), 'max_duration_us': np.float64(230.813)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(3890.9410000000003), 'mean_duration_us': np.float64(6.2255056), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.16895054059883918), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(6.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(5780.9929999999995), 'mean_duration_us': np.float64(9.2495888), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.08963018528687762), 'min_duration_us': np.float64(9.024), 'max_duration_us': np.float64(9.6)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.39)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.79)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(211.43)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.23)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.25)}]","[[1, 384, 4, 66, 66], [384, 384, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[6690816, 17424, 4356, 66, 1], [10368, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",249.045025,248.89404296875,6.303024694762048,230.39794921875,268.5400390625,155653.140625,625,136314
-aten::convolution,conv2d,"(4, 192, 256, 256)","(96, 192, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(12582912, 65536, 256, 1)","(1728, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,86.973087744,144.31640625,574.737149817296,0.27423332863539235,0.2741614035509857,0.0005406726881108903,0.2725963633485016,0.27612999449819775,157.61208168481525,157.57074366680303,0.3107446797489213,156.67125692147783,158.7021660169598,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(11688.209), 'mean_duration_us': np.float64(93.505672), 'median_duration_us': np.float64(93.535), 'std_dev_duration_us': np.float64(0.44195545071420866), 'min_duration_us': np.float64(91.999), 'max_duration_us': np.float64(94.335)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.846), 'mean_duration_us': np.float64(3.342768), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.09118966046652441), 'min_duration_us': np.float64(3.168), 'max_duration_us': np.float64(3.776)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(40031.989), 'mean_duration_us': np.float64(320.255912), 'median_duration_us': np.float64(320.349), 'std_dev_duration_us': np.float64(0.8807170262098912), 'min_duration_us': np.float64(317.213), 'max_duration_us': np.float64(321.981)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6291.21), 'mean_duration_us': np.float64(50.32968), 'median_duration_us': np.float64(50.271), 'std_dev_duration_us': np.float64(0.3359084303794716), 'min_duration_us': np.float64(49.728), 'max_duration_us': np.float64(51.04)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10548.186), 'mean_duration_us': np.float64(84.385488), 'median_duration_us': np.float64(84.415), 'std_dev_duration_us': np.float64(0.3284471492584459), 'min_duration_us': np.float64(83.551), 'max_duration_us': np.float64(85.12)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(93.51)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(320.26)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.33)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(84.39)}]","[[4, 192, 256, 256], [96, 192, 3, 3], [96], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[12582912, 65536, 256, 1], [1728, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",551.819515625,551.962158203125,1.0861989041732607,548.027099609375,555.131103515625,68977.439453125,125,137032
-aten::convolution,conv3d,"(1, 384, 3, 34, 34)","(384, 384, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(1331712, 3468, 1156, 34, 1)","(10368, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,8.153726976,10.8837890625,714.457065948856,0.20897574737052427,0.20893158937318984,0.002099692608335388,0.20275828929333586,0.2248721260751602,149.30419932081412,149.2726503276004,1.5001402203457994,144.86209246532607,160.66147940934016,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4533.608), 'mean_duration_us': np.float64(3.5981015873015876), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.036745856011098886), 'min_duration_us': np.float64(3.519), 'max_duration_us': np.float64(3.713)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(12770.155), 'mean_duration_us': np.float64(10.135043650793651), 'median_duration_us': np.float64(10.08), 'std_dev_duration_us': np.float64(0.21867246761905867), 'min_duration_us': np.float64(9.664), 'max_duration_us': np.float64(11.199)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(43835.218), 'mean_duration_us': np.float64(34.789855555555555), 'median_duration_us': np.float64(34.816), 'std_dev_duration_us': np.float64(0.5068618262227237), 'min_duration_us': np.float64(31.199), 'max_duration_us': np.float64(36.352)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(3194.8049999999994), 'mean_duration_us': np.float64(2.5355595238095234), 'median_duration_us': np.float64(2.528), 'std_dev_duration_us': np.float64(0.07527902876101565), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.817)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4483.563), 'mean_duration_us': np.float64(3.5583833333333335), 'median_duration_us': np.float64(3.552), 'std_dev_duration_us': np.float64(0.05549016679656959), 'min_duration_us': np.float64(3.455), 'max_duration_us': np.float64(3.872)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.6)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.14)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(34.79)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.56)}]","[[1, 384, 3, 34, 34], [384, 384, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[1331712, 3468, 1156, 34, 1], [10368, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",54.61697222997272,54.623046875,0.5447566160218644,50.7509765625,56.2861328125,68817.38500976562,1260,133532
-aten::convolution,conv2d,"(4, 384, 128, 128)","(192, 384, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(6291456, 16384, 128, 1)","(3456, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,86.973087744,73.265625,1132.0998080614204,0.15062348963971134,0.15053870481592255,0.0016824667772654216,0.14577664379505234,0.1542526050623827,170.52082371065856,170.42483882792072,1.9047203156118981,165.0337104602168,174.62934458409754,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(5993.478000000001), 'mean_duration_us': np.float64(47.94782400000001), 'median_duration_us': np.float64(47.808), 'std_dev_duration_us': np.float64(0.5438342551035189), 'min_duration_us': np.float64(47.039), 'max_duration_us': np.float64(49.248)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(791.1539999999999), 'mean_duration_us': np.float64(6.329231999999999), 'median_duration_us': np.float64(6.272), 'std_dev_duration_us': np.float64(0.23541857653124995), 'min_duration_us': np.float64(6.08), 'max_duration_us': np.float64(7.424)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.383), 'mean_duration_us': np.float64(0.9630639999999999), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.19605047284819285), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.44)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(48729.125), 'mean_duration_us': np.float64(389.833), 'median_duration_us': np.float64(390.141), 'std_dev_duration_us': np.float64(5.700758677930507), 'min_duration_us': np.float64(376.861), 'max_duration_us': np.float64(405.852)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(3248.1550000000007), 'mean_duration_us': np.float64(25.985240000000005), 'median_duration_us': np.float64(25.951), 'std_dev_duration_us': np.float64(0.25695183673209965), 'min_duration_us': np.float64(25.375), 'max_duration_us': np.float64(26.719)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4881.072999999999), 'mean_duration_us': np.float64(39.048584), 'median_duration_us': np.float64(39.007), 'std_dev_duration_us': np.float64(0.3160215229126018), 'min_duration_us': np.float64(38.4), 'max_duration_us': np.float64(39.871)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(47.95)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.33)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(389.83)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.99)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(39.05)}]","[[4, 384, 128, 128], [192, 384, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[6291456, 16384, 128, 1], [3456, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",510.106994140625,510.3310546875,5.704400389555255,498.0439453125,527.001953125,63763.374267578125,125,136643
-aten::convolution,conv3d,"(1, 96, 6, 258, 258)","(3, 96, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(38340864, 399384, 66564, 258, 1)","(2592, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,4.076863488,74.64422607421875,52.08708301341569,0.2475071006172878,0.2475673426549774,0.001217595388469356,0.24391422062822304,0.2506375573630539,12.891922896262498,12.895060728280534,0.06342099207595558,12.704780258014843,13.054979256649123,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10334.655999999999), 'mean_duration_us': np.float64(82.67724799999999), 'median_duration_us': np.float64(82.752), 'std_dev_duration_us': np.float64(0.500920475221367), 'min_duration_us': np.float64(81.279), 'max_duration_us': np.float64(83.615)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(218.17300000000006), 'mean_duration_us': np.float64(1.7453840000000005), 'median_duration_us': np.float64(1.761), 'std_dev_duration_us': np.float64(0.13080561357984605), 'min_duration_us': np.float64(1.599), 'max_duration_us': np.float64(2.368)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1335.496), 'mean_duration_us': np.float64(10.683968), 'median_duration_us': np.float64(10.655), 'std_dev_duration_us': np.float64(0.23739347711342013), 'min_duration_us': np.float64(10.24), 'max_duration_us': np.float64(11.648)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(25336.348999999995), 'mean_duration_us': np.float64(202.69079199999996), 'median_duration_us': np.float64(202.558), 'std_dev_duration_us': np.float64(1.5094199431357738), 'min_duration_us': np.float64(199.582), 'max_duration_us': np.float64(207.198)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1775.31), 'mean_duration_us': np.float64(14.20248), 'median_duration_us': np.float64(14.176), 'std_dev_duration_us': np.float64(0.14339755088564102), 'min_duration_us': np.float64(13.952), 'max_duration_us': np.float64(14.689)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(530.1970000000001), 'mean_duration_us': np.float64(4.241576000000001), 'median_duration_us': np.float64(4.224), 'std_dev_duration_us': np.float64(0.06692518378009889), 'min_duration_us': np.float64(4.095), 'max_duration_us': np.float64(4.448)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.68)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.75)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.68)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(202.69)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(14.2)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.24)}]","[[1, 96, 6, 258, 258], [3, 96, 3, 3, 3], [3], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[38340864, 399384, 66564, 258, 1], [2592, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",316.24153125,316.156982421875,1.5569215941361938,312.2841796875,320.89208984375,39530.19140625,125,137453
-aten::convolution,conv3d,"(1, 192, 4, 66, 66)","(384, 192, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(3345408, 17424, 4356, 66, 1)","(5184, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,32.614907904,16.177734375,1922.6425208257879,0.1252841779437451,0.12535150398337375,0.0028561089303392683,0.11827671682157084,0.13386876092455838,240.87668770134866,241.00613160789746,5.491276473580529,227.4038449848228,257.3817719638176,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(724.149), 'mean_duration_us': np.float64(5.793192), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.04352244404901916), 'min_duration_us': np.float64(5.696), 'max_duration_us': np.float64(5.952)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(830.36), 'mean_duration_us': np.float64(6.64288), 'median_duration_us': np.float64(6.624), 'std_dev_duration_us': np.float64(0.12525868273297458), 'min_duration_us': np.float64(6.432), 'max_duration_us': np.float64(7.168)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.00300000000003), 'mean_duration_us': np.float64(0.9600240000000002), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.20049907586819443), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.377)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(13353.03), 'mean_duration_us': np.float64(106.82424), 'median_duration_us': np.float64(106.559), 'std_dev_duration_us': np.float64(3.1057160215319106), 'min_duration_us': np.float64(98.015), 'max_duration_us': np.float64(114.783)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(747.1940000000001), 'mean_duration_us': np.float64(5.977552), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.11338362887119116), 'min_duration_us': np.float64(5.728), 'max_duration_us': np.float64(6.272)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1159.095), 'mean_duration_us': np.float64(9.27276), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.0993545087049401), 'min_duration_us': np.float64(9.088), 'max_duration_us': np.float64(9.536)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.79)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.64)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(106.82)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.27)}]","[[1, 192, 4, 66, 66], [384, 192, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[3345408, 17424, 4356, 66, 1], [5184, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",135.47070703125,135.328125,3.0907594754963634,126.718017578125,143.4228515625,16933.83837890625,125,136255
-aten::convolution,conv3d,"(1, 384, 4, 64, 64)","(768, 384, 3, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(6291456, 16384, 4096, 64, 1)","(1152, 3, 1, 1, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,14.495514624,25.6875,538.1605839416059,0.31667515481207814,0.31680030212431154,0.001552105045884047,0.31314599996593984,0.32029243828983006,170.4220862334664,170.48943558409667,0.8352817578316736,168.52283420064828,172.3687656221357,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1159.1540000000002), 'mean_duration_us': np.float64(9.273232000000002), 'median_duration_us': np.float64(9.216), 'std_dev_duration_us': np.float64(0.16966169330759392), 'min_duration_us': np.float64(9.056), 'max_duration_us': np.float64(9.728)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1985.772), 'mean_duration_us': np.float64(15.886175999999999), 'median_duration_us': np.float64(15.872), 'std_dev_duration_us': np.float64(0.11880539139281523), 'min_duration_us': np.float64(15.68), 'max_duration_us': np.float64(16.256)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4227.709), 'mean_duration_us': np.float64(33.821672), 'median_duration_us': np.float64(33.76), 'std_dev_duration_us': np.float64(0.3127105441394648), 'min_duration_us': np.float64(33.184), 'max_duration_us': np.float64(34.623)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1304.312), 'mean_duration_us': np.float64(10.434496), 'median_duration_us': np.float64(10.432), 'std_dev_duration_us': np.float64(0.16263139298425758), 'min_duration_us': np.float64(10.079), 'max_duration_us': np.float64(10.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1955.373), 'mean_duration_us': np.float64(15.642984), 'median_duration_us': np.float64(15.616), 'std_dev_duration_us': np.float64(0.09303487380547155), 'min_duration_us': np.float64(15.456), 'max_duration_us': np.float64(15.904)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.27)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.89)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(33.82)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.64)}]","[[1, 384, 4, 64, 64], [768, 384, 3, 1, 1], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[6291456, 16384, 4096, 64, 1], [1152, 3, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",85.058578125,85.02294921875,0.4172317483537168,84.095947265625,86.01513671875,10632.322265625,125,136579
-aten::convolution,conv2d,"(2, 384, 64, 64)","(192, 384, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(1572864, 4096, 64, 1)","(3456, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,10.871635968,10.265625,1009.972602739726,0.15316259910177193,0.153322079118678,0.0022933030552192567,0.1461291437775708,0.15696834200108226,154.6900288571978,154.85109930495742,2.3161732555507557,147.58643167716082,158.5337249185725,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(714.037), 'mean_duration_us': np.float64(5.712296), 'median_duration_us': np.float64(5.696), 'std_dev_duration_us': np.float64(0.061330713219397696), 'min_duration_us': np.float64(5.599), 'max_duration_us': np.float64(5.887)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(734.327), 'mean_duration_us': np.float64(5.874616), 'median_duration_us': np.float64(5.856), 'std_dev_duration_us': np.float64(0.12301159516078154), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(6.24)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6021.096), 'mean_duration_us': np.float64(48.16876799999999), 'median_duration_us': np.float64(48.031), 'std_dev_duration_us': np.float64(1.01678098436979), 'min_duration_us': np.float64(46.624), 'max_duration_us': np.float64(51.296)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(493.9740000000001), 'mean_duration_us': np.float64(3.9517920000000006), 'median_duration_us': np.float64(3.936), 'std_dev_duration_us': np.float64(0.09127902681339241), 'min_duration_us': np.float64(3.712), 'max_duration_us': np.float64(4.224)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(823.546), 'mean_duration_us': np.float64(6.588368), 'median_duration_us': np.float64(6.561), 'std_dev_duration_us': np.float64(0.08364960595244895), 'min_duration_us': np.float64(6.4), 'max_duration_us': np.float64(6.848)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.71)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.87)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(48.17)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.95)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.59)}]","[[2, 384, 64, 64], [192, 384, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[1572864, 4096, 64, 1], [3456, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",70.295919921875,70.20703125,1.062975123078855,68.576171875,73.662841796875,8786.989990234375,125,136177
-aten::convolution,conv3d,"(1, 384, 3, 32, 32)","(768, 384, 3, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(1179648, 3072, 1024, 32, 1)","(1152, 3, 1, 1, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,1.811939328,5.4375,317.7931034482759,0.13147732023217665,0.13150228146379642,0.0005511163491296946,0.129866455385642,0.1326706660379824,41.782585629646206,41.79051813690855,0.1751409749510105,41.27066389083023,42.1618226967602,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.598), 'mean_duration_us': np.float64(3.340784), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.03836719098396442), 'min_duration_us': np.float64(3.232), 'max_duration_us': np.float64(3.425)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1974.3799999999999), 'mean_duration_us': np.float64(15.795039999999998), 'median_duration_us': np.float64(15.776), 'std_dev_duration_us': np.float64(0.09840547952222992), 'min_duration_us': np.float64(15.584), 'max_duration_us': np.float64(16.127)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(2155.7850000000008), 'mean_duration_us': np.float64(17.246280000000006), 'median_duration_us': np.float64(17.248), 'std_dev_duration_us': np.float64(0.07720762656629208), 'min_duration_us': np.float64(17.088), 'max_duration_us': np.float64(17.696)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(355.5439999999999), 'mean_duration_us': np.float64(2.8443519999999993), 'median_duration_us': np.float64(2.848), 'std_dev_duration_us': np.float64(0.0836824718564169), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(3.104)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(517.5329999999999), 'mean_duration_us': np.float64(4.140263999999999), 'median_duration_us': np.float64(4.159), 'std_dev_duration_us': np.float64(0.05790352583392486), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(4.288)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(17.25)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.84)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.14)}]","[[1, 384, 3, 32, 32], [768, 384, 3, 1, 1], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[1179648, 3072, 1024, 32, 1], [1152, 3, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",43.366654296875,43.357666015625,0.1819913322180833,42.975830078125,43.90380859375,5420.831787109375,125,136113
-aten::convolution,conv3d,"(1, 16, 126, 32, 32)","(1536, 16, 1, 2, 2)","('c10::BFloat16', 'c10::BFloat16')","(2064384, 129024, 1024, 32, 1)","(64, 4, 4, 2, 1)",False,"(1, 2, 2)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,6.341787648,98.625,61.32319391634981,0.29432080846053194,0.29419852117792245,0.002429381320169562,0.28942935553340227,0.29873995509497675,18.04869201084205,18.041192964097085,0.1489774217935162,17.74873249445898,18.319688196850894,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(84.416), 'mean_duration_us': np.float64(8.4416), 'median_duration_us': np.float64(8.416), 'std_dev_duration_us': np.float64(0.16860083036568962), 'min_duration_us': np.float64(8.16), 'max_duration_us': np.float64(8.704)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(43.648), 'mean_duration_us': np.float64(4.364800000000001), 'median_duration_us': np.float64(4.368), 'std_dev_duration_us': np.float64(0.07039999999999988), 'min_duration_us': np.float64(4.256), 'max_duration_us': np.float64(4.512)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(7.296999999999999), 'mean_duration_us': np.float64(0.7296999999999999), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.012853404218338436), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.737)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(762.554), 'mean_duration_us': np.float64(76.2554), 'median_duration_us': np.float64(76.1115), 'std_dev_duration_us': np.float64(1.3488461142769423), 'min_duration_us': np.float64(73.663), 'max_duration_us': np.float64(78.912)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1104.886), 'mean_duration_us': np.float64(110.48859999999999), 'median_duration_us': np.float64(110.431), 'std_dev_duration_us': np.float64(0.2850695353768956), 'min_duration_us': np.float64(110.111), 'max_duration_us': np.float64(110.975)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1511.123), 'mean_duration_us': np.float64(151.1123), 'median_duration_us': np.float64(151.135), 'std_dev_duration_us': np.float64(1.1013839521256856), 'min_duration_us': np.float64(148.959), 'max_duration_us': np.float64(153.534)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(8.44)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.36)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(76.26)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(110.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(151.11)}]","[[1, 16, 126, 32, 32], [1536, 16, 1, 2, 2], [1536], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[2064384, 129024, 1024, 32, 1], [64, 4, 4, 2, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 2, 2]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",351.3926025390625,351.51708984375,2.9030591533399024,346.17333984375,357.309326171875,3513.926025390625,10,11770
-aten::convolution,conv3d,"(1, 16, 3, 34, 34)","(384, 16, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(55488, 3468, 1156, 34, 1)","(432, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,0.339738624,1.1722412109375,276.39362699156516,0.05112145511943368,0.051183996262822454,0.0011534954534109603,0.04887003546780816,0.05342406875988158,14.129644397546787,14.14693037100421,0.31881879208653585,13.507366354153925,14.766072133190434,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(267.73800000000006), 'mean_duration_us': np.float64(2.1249047619047623), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.020600673656510377), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.176)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(338.046), 'mean_duration_us': np.float64(2.6829047619047617), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.07396314274867424), 'min_duration_us': np.float64(2.464), 'max_duration_us': np.float64(2.912)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(1659.4389999999999), 'mean_duration_us': np.float64(13.170150793650793), 'median_duration_us': np.float64(13.1675), 'std_dev_duration_us': np.float64(0.5961994987759045), 'min_duration_us': np.float64(12.032), 'max_duration_us': np.float64(14.368)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(333.2749999999999), 'mean_duration_us': np.float64(2.645039682539682), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.07982435090074093), 'min_duration_us': np.float64(2.431), 'max_duration_us': np.float64(2.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(432.60799999999995), 'mean_duration_us': np.float64(3.433396825396825), 'median_duration_us': np.float64(3.424), 'std_dev_duration_us': np.float64(0.02585892108046477), 'min_duration_us': np.float64(3.391), 'max_duration_us': np.float64(3.52)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.12)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.68)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(13.17)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.65)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.43)}]","[[1, 16, 3, 34, 34], [384, 16, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[55488, 3468, 1156, 34, 1], [432, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",24.056532118055557,24.0150146484375,0.5427397457118388,23.008056640625,25.152099609375,3031.123046875,126,133482
+aten::convolution,conv3d,"(1, 96, 6, 258, 258)","(96, 96, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(38340864, 399384, 66564, 258, 1)","(2592, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,130.459631616,121.60400390625,1023.1242064687104,0.2825786840015168,0.2825665209737053,0.0006022781490769081,0.2811115063277445,0.2844425817856833,289.11309183402443,289.1006475458465,0.6162053533477364,287.61198684079744,291.02009077538855,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(721.184), 'mean_duration_us': np.float64(0.9615786666666666), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.20368544657115023), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.535)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(2586.933), 'mean_duration_us': np.float64(3.449244), 'median_duration_us': np.float64(3.424), 'std_dev_duration_us': np.float64(0.1322517112579897), 'min_duration_us': np.float64(3.231), 'max_duration_us': np.float64(4.16)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(37789.115000000005), 'mean_duration_us': np.float64(50.38548666666667), 'median_duration_us': np.float64(50.336), 'std_dev_duration_us': np.float64(0.3434009888680517), 'min_duration_us': np.float64(49.664), 'max_duration_us': np.float64(51.456)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(57705.129), 'mean_duration_us': np.float64(76.940172), 'median_duration_us': np.float64(76.991), 'std_dev_duration_us': np.float64(0.33444091219426697), 'min_duration_us': np.float64(75.935), 'max_duration_us': np.float64(77.919)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(62149.172999999995), 'mean_duration_us': np.float64(82.86556399999999), 'median_duration_us': np.float64(82.88), 'std_dev_duration_us': np.float64(0.46354650026076166), 'min_duration_us': np.float64(81.344), 'max_duration_us': np.float64(83.808)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(177480.581), 'mean_duration_us': np.float64(236.6407746666667), 'median_duration_us': np.float64(236.638), 'std_dev_duration_us': np.float64(0.7877751717494584), 'min_duration_us': np.float64(233.822), 'max_duration_us': np.float64(239.39)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.45)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.39)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(76.94)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.87)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(236.64)}]","[[1, 96, 6, 258, 258], [96, 96, 3, 3, 3], [96], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[38340864, 399384, 66564, 258, 1], [2592, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",451.242876953125,451.26025390625,0.9615305761214227,448.283935546875,453.595947265625,338432.15771484375,750,137093
+aten::convolution,conv3d,"(1, 192, 6, 130, 130)","(192, 192, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(19468800, 101400, 16900, 130, 1)","(5184, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,130.459631616,63.0322265625,1973.8474552637695,0.19276502569912513,0.19281666887221474,0.0011759237299539993,0.18812910161714333,0.19590743628264023,380.48875544007325,380.5906911858579,2.3210940619539846,371.33814848805747,386.6913945737385,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(726.1790000000001), 'mean_duration_us': np.float64(0.9682386666666668), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.2008908701382143), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.568)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(3685.314), 'mean_duration_us': np.float64(4.913752), 'median_duration_us': np.float64(4.896), 'std_dev_duration_us': np.float64(0.14547149032026865), 'min_duration_us': np.float64(4.64), 'max_duration_us': np.float64(5.664)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(18797.244), 'mean_duration_us': np.float64(25.062991999999998), 'median_duration_us': np.float64(25.024), 'std_dev_duration_us': np.float64(0.21605943611886072), 'min_duration_us': np.float64(24.639), 'max_duration_us': np.float64(25.951)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(26742.756), 'mean_duration_us': np.float64(35.657008000000005), 'median_duration_us': np.float64(35.647), 'std_dev_duration_us': np.float64(0.2934462902633686), 'min_duration_us': np.float64(34.848), 'max_duration_us': np.float64(36.512)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(29195.826999999997), 'mean_duration_us': np.float64(38.92776933333333), 'median_duration_us': np.float64(38.815), 'std_dev_duration_us': np.float64(0.3583380993692351), 'min_duration_us': np.float64(38.304), 'max_duration_us': np.float64(39.84)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(178017.588), 'mean_duration_us': np.float64(237.35678399999998), 'median_duration_us': np.float64(237.19799999999998), 'std_dev_duration_us': np.float64(2.040857747454241), 'min_duration_us': np.float64(231.614), 'max_duration_us': np.float64(245.054)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.97)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.91)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(35.66)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(38.93)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(237.36)}]","[[1, 192, 6, 130, 130], [192, 192, 3, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[19468800, 101400, 16900, 130, 1], [5184, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",342.886572265625,342.781982421875,2.093920309276013,337.3740234375,351.322998046875,257164.92919921875,750,136704
+aten::convolution,conv3d,"(1, 384, 4, 66, 66)","(384, 384, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(6690816, 17424, 4356, 66, 1)","(10368, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,65.229815808,26.35546875,2360.345042240996,0.11103784071337952,0.11103404352457648,0.002815932980572456,0.10291095546302527,0.11994773431668626,262.08761682897074,262.07865415320504,6.646573449977111,242.9053635194356,283.1180400224306,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(600.2610000000001), 'mean_duration_us': np.float64(0.9604176000000001), 'median_duration_us': np.float64(0.991), 'std_dev_duration_us': np.float64(0.19863821991308722), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.664)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(3890.9410000000003), 'mean_duration_us': np.float64(6.2255056), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.16895054059883918), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(6.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(5780.9929999999995), 'mean_duration_us': np.float64(9.2495888), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.08963018528687762), 'min_duration_us': np.float64(9.024), 'max_duration_us': np.float64(9.6)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6494.4400000000005), 'mean_duration_us': np.float64(10.391104), 'median_duration_us': np.float64(10.368), 'std_dev_duration_us': np.float64(0.1370308592398078), 'min_duration_us': np.float64(10.08), 'max_duration_us': np.float64(10.944)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6743.719000000001), 'mean_duration_us': np.float64(10.789950400000002), 'median_duration_us': np.float64(10.783), 'std_dev_duration_us': np.float64(0.157450667638597), 'min_duration_us': np.float64(10.399), 'max_duration_us': np.float64(11.551)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(132142.75799999997), 'mean_duration_us': np.float64(211.42841279999996), 'median_duration_us': np.float64(211.326), 'std_dev_duration_us': np.float64(6.328508274846147), 'min_duration_us': np.float64(192.127), 'max_duration_us': np.float64(230.813)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.23)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.25)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.39)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.79)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(211.43)}]","[[1, 384, 4, 66, 66], [384, 384, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[6690816, 17424, 4356, 66, 1], [10368, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",249.045025,248.89404296875,6.303024694762048,230.39794921875,268.5400390625,155653.140625,625,136314
+aten::convolution,conv2d,"(4, 192, 256, 256)","(96, 192, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(12582912, 65536, 256, 1)","(1728, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,86.973087744,144.31640625,574.737149817296,0.27423332863539235,0.2741614035509857,0.0005406726881108903,0.2725963633485016,0.27612999449819775,157.61208168481525,157.57074366680303,0.3107446797489213,156.67125692147783,158.7021660169598,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.846), 'mean_duration_us': np.float64(3.342768), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.09118966046652441), 'min_duration_us': np.float64(3.168), 'max_duration_us': np.float64(3.776)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6291.21), 'mean_duration_us': np.float64(50.32968), 'median_duration_us': np.float64(50.271), 'std_dev_duration_us': np.float64(0.3359084303794716), 'min_duration_us': np.float64(49.728), 'max_duration_us': np.float64(51.04)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10548.186), 'mean_duration_us': np.float64(84.385488), 'median_duration_us': np.float64(84.415), 'std_dev_duration_us': np.float64(0.3284471492584459), 'min_duration_us': np.float64(83.551), 'max_duration_us': np.float64(85.12)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(11688.209), 'mean_duration_us': np.float64(93.505672), 'median_duration_us': np.float64(93.535), 'std_dev_duration_us': np.float64(0.44195545071420866), 'min_duration_us': np.float64(91.999), 'max_duration_us': np.float64(94.335)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(40031.989), 'mean_duration_us': np.float64(320.255912), 'median_duration_us': np.float64(320.349), 'std_dev_duration_us': np.float64(0.8807170262098912), 'min_duration_us': np.float64(317.213), 'max_duration_us': np.float64(321.981)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.33)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(84.39)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(93.51)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(320.26)}]","[[4, 192, 256, 256], [96, 192, 3, 3], [96], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[12582912, 65536, 256, 1], [1728, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",551.819515625,551.962158203125,1.0861989041732607,548.027099609375,555.131103515625,68977.439453125,125,137032
+aten::convolution,conv3d,"(1, 384, 3, 34, 34)","(384, 384, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(1331712, 3468, 1156, 34, 1)","(10368, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,8.153726976,10.8837890625,714.457065948856,0.20897574737052427,0.20893158937318984,0.002099692608335388,0.20275828929333586,0.2248721260751602,149.30419932081412,149.2726503276004,1.5001402203457994,144.86209246532607,160.66147940934016,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(3194.8049999999994), 'mean_duration_us': np.float64(2.5355595238095234), 'median_duration_us': np.float64(2.528), 'std_dev_duration_us': np.float64(0.07527902876101565), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.817)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4483.563), 'mean_duration_us': np.float64(3.5583833333333335), 'median_duration_us': np.float64(3.552), 'std_dev_duration_us': np.float64(0.05549016679656959), 'min_duration_us': np.float64(3.455), 'max_duration_us': np.float64(3.872)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4533.608), 'mean_duration_us': np.float64(3.5981015873015876), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.036745856011098886), 'min_duration_us': np.float64(3.519), 'max_duration_us': np.float64(3.713)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(12770.155), 'mean_duration_us': np.float64(10.135043650793651), 'median_duration_us': np.float64(10.08), 'std_dev_duration_us': np.float64(0.21867246761905867), 'min_duration_us': np.float64(9.664), 'max_duration_us': np.float64(11.199)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(43835.218), 'mean_duration_us': np.float64(34.789855555555555), 'median_duration_us': np.float64(34.816), 'std_dev_duration_us': np.float64(0.5068618262227237), 'min_duration_us': np.float64(31.199), 'max_duration_us': np.float64(36.352)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.56)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.6)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.14)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(34.79)}]","[[1, 384, 3, 34, 34], [384, 384, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[1331712, 3468, 1156, 34, 1], [10368, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",54.61697222997272,54.623046875,0.5447566160218644,50.7509765625,56.2861328125,68817.38500976562,1260,133532
+aten::convolution,conv2d,"(4, 384, 128, 128)","(192, 384, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(6291456, 16384, 128, 1)","(3456, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,86.973087744,73.265625,1132.0998080614204,0.15062348963971134,0.15053870481592255,0.0016824667772654216,0.14577664379505234,0.1542526050623827,170.52082371065856,170.42483882792072,1.9047203156118981,165.0337104602168,174.62934458409754,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.383), 'mean_duration_us': np.float64(0.9630639999999999), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.19605047284819285), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.44)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(791.1539999999999), 'mean_duration_us': np.float64(6.329231999999999), 'median_duration_us': np.float64(6.272), 'std_dev_duration_us': np.float64(0.23541857653124995), 'min_duration_us': np.float64(6.08), 'max_duration_us': np.float64(7.424)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(3248.1550000000007), 'mean_duration_us': np.float64(25.985240000000005), 'median_duration_us': np.float64(25.951), 'std_dev_duration_us': np.float64(0.25695183673209965), 'min_duration_us': np.float64(25.375), 'max_duration_us': np.float64(26.719)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4881.072999999999), 'mean_duration_us': np.float64(39.048584), 'median_duration_us': np.float64(39.007), 'std_dev_duration_us': np.float64(0.3160215229126018), 'min_duration_us': np.float64(38.4), 'max_duration_us': np.float64(39.871)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(5993.478000000001), 'mean_duration_us': np.float64(47.94782400000001), 'median_duration_us': np.float64(47.808), 'std_dev_duration_us': np.float64(0.5438342551035189), 'min_duration_us': np.float64(47.039), 'max_duration_us': np.float64(49.248)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(48729.125), 'mean_duration_us': np.float64(389.833), 'median_duration_us': np.float64(390.141), 'std_dev_duration_us': np.float64(5.700758677930507), 'min_duration_us': np.float64(376.861), 'max_duration_us': np.float64(405.852)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.33)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.99)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(39.05)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(47.95)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(389.83)}]","[[4, 384, 128, 128], [192, 384, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[6291456, 16384, 128, 1], [3456, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",510.106994140625,510.3310546875,5.704400389555255,498.0439453125,527.001953125,63763.374267578125,125,136643
+aten::convolution,conv3d,"(1, 96, 6, 258, 258)","(3, 96, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(38340864, 399384, 66564, 258, 1)","(2592, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,4.076863488,74.64422607421875,52.08708301341569,0.2475071006172878,0.2475673426549774,0.001217595388469356,0.24391422062822304,0.2506375573630539,12.891922896262498,12.895060728280534,0.06342099207595558,12.704780258014843,13.054979256649123,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(218.17300000000006), 'mean_duration_us': np.float64(1.7453840000000005), 'median_duration_us': np.float64(1.761), 'std_dev_duration_us': np.float64(0.13080561357984605), 'min_duration_us': np.float64(1.599), 'max_duration_us': np.float64(2.368)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(530.1970000000001), 'mean_duration_us': np.float64(4.241576000000001), 'median_duration_us': np.float64(4.224), 'std_dev_duration_us': np.float64(0.06692518378009889), 'min_duration_us': np.float64(4.095), 'max_duration_us': np.float64(4.448)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1335.496), 'mean_duration_us': np.float64(10.683968), 'median_duration_us': np.float64(10.655), 'std_dev_duration_us': np.float64(0.23739347711342013), 'min_duration_us': np.float64(10.24), 'max_duration_us': np.float64(11.648)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1775.31), 'mean_duration_us': np.float64(14.20248), 'median_duration_us': np.float64(14.176), 'std_dev_duration_us': np.float64(0.14339755088564102), 'min_duration_us': np.float64(13.952), 'max_duration_us': np.float64(14.689)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10334.655999999999), 'mean_duration_us': np.float64(82.67724799999999), 'median_duration_us': np.float64(82.752), 'std_dev_duration_us': np.float64(0.500920475221367), 'min_duration_us': np.float64(81.279), 'max_duration_us': np.float64(83.615)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(25336.348999999995), 'mean_duration_us': np.float64(202.69079199999996), 'median_duration_us': np.float64(202.558), 'std_dev_duration_us': np.float64(1.5094199431357738), 'min_duration_us': np.float64(199.582), 'max_duration_us': np.float64(207.198)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.75)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.24)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.68)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(14.2)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.68)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(202.69)}]","[[1, 96, 6, 258, 258], [3, 96, 3, 3, 3], [3], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[38340864, 399384, 66564, 258, 1], [2592, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",316.24153125,316.156982421875,1.5569215941361938,312.2841796875,320.89208984375,39530.19140625,125,137453
+aten::convolution,conv3d,"(1, 192, 4, 66, 66)","(384, 192, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(3345408, 17424, 4356, 66, 1)","(5184, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,32.614907904,16.177734375,1922.6425208257879,0.1252841779437451,0.12535150398337375,0.0028561089303392683,0.11827671682157084,0.13386876092455838,240.87668770134866,241.00613160789746,5.491276473580529,227.4038449848228,257.3817719638176,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.00300000000003), 'mean_duration_us': np.float64(0.9600240000000002), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.20049907586819443), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.377)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(724.149), 'mean_duration_us': np.float64(5.793192), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.04352244404901916), 'min_duration_us': np.float64(5.696), 'max_duration_us': np.float64(5.952)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(747.1940000000001), 'mean_duration_us': np.float64(5.977552), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.11338362887119116), 'min_duration_us': np.float64(5.728), 'max_duration_us': np.float64(6.272)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(830.36), 'mean_duration_us': np.float64(6.64288), 'median_duration_us': np.float64(6.624), 'std_dev_duration_us': np.float64(0.12525868273297458), 'min_duration_us': np.float64(6.432), 'max_duration_us': np.float64(7.168)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1159.095), 'mean_duration_us': np.float64(9.27276), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.0993545087049401), 'min_duration_us': np.float64(9.088), 'max_duration_us': np.float64(9.536)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(13353.03), 'mean_duration_us': np.float64(106.82424), 'median_duration_us': np.float64(106.559), 'std_dev_duration_us': np.float64(3.1057160215319106), 'min_duration_us': np.float64(98.015), 'max_duration_us': np.float64(114.783)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.79)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.27)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(106.82)}]","[[1, 192, 4, 66, 66], [384, 192, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[3345408, 17424, 4356, 66, 1], [5184, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",135.47070703125,135.328125,3.0907594754963634,126.718017578125,143.4228515625,16933.83837890625,125,136255
+aten::convolution,conv3d,"(1, 384, 4, 64, 64)","(768, 384, 3, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(6291456, 16384, 4096, 64, 1)","(1152, 3, 1, 1, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,14.495514624,25.6875,538.1605839416059,0.31667515481207814,0.31680030212431154,0.001552105045884047,0.31314599996593984,0.32029243828983006,170.4220862334664,170.48943558409667,0.8352817578316736,168.52283420064828,172.3687656221357,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1159.1540000000002), 'mean_duration_us': np.float64(9.273232000000002), 'median_duration_us': np.float64(9.216), 'std_dev_duration_us': np.float64(0.16966169330759392), 'min_duration_us': np.float64(9.056), 'max_duration_us': np.float64(9.728)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1304.312), 'mean_duration_us': np.float64(10.434496), 'median_duration_us': np.float64(10.432), 'std_dev_duration_us': np.float64(0.16263139298425758), 'min_duration_us': np.float64(10.079), 'max_duration_us': np.float64(10.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1955.373), 'mean_duration_us': np.float64(15.642984), 'median_duration_us': np.float64(15.616), 'std_dev_duration_us': np.float64(0.09303487380547155), 'min_duration_us': np.float64(15.456), 'max_duration_us': np.float64(15.904)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1985.772), 'mean_duration_us': np.float64(15.886175999999999), 'median_duration_us': np.float64(15.872), 'std_dev_duration_us': np.float64(0.11880539139281523), 'min_duration_us': np.float64(15.68), 'max_duration_us': np.float64(16.256)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4227.709), 'mean_duration_us': np.float64(33.821672), 'median_duration_us': np.float64(33.76), 'std_dev_duration_us': np.float64(0.3127105441394648), 'min_duration_us': np.float64(33.184), 'max_duration_us': np.float64(34.623)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.27)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.64)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.89)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(33.82)}]","[[1, 384, 4, 64, 64], [768, 384, 3, 1, 1], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[6291456, 16384, 4096, 64, 1], [1152, 3, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",85.058578125,85.02294921875,0.4172317483537168,84.095947265625,86.01513671875,10632.322265625,125,136579
+aten::convolution,conv2d,"(2, 384, 64, 64)","(192, 384, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(1572864, 4096, 64, 1)","(3456, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,10.871635968,10.265625,1009.972602739726,0.15316259910177193,0.153322079118678,0.0022933030552192567,0.1461291437775708,0.15696834200108226,154.6900288571978,154.85109930495742,2.3161732555507557,147.58643167716082,158.5337249185725,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(493.9740000000001), 'mean_duration_us': np.float64(3.9517920000000006), 'median_duration_us': np.float64(3.936), 'std_dev_duration_us': np.float64(0.09127902681339241), 'min_duration_us': np.float64(3.712), 'max_duration_us': np.float64(4.224)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(714.037), 'mean_duration_us': np.float64(5.712296), 'median_duration_us': np.float64(5.696), 'std_dev_duration_us': np.float64(0.061330713219397696), 'min_duration_us': np.float64(5.599), 'max_duration_us': np.float64(5.887)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(734.327), 'mean_duration_us': np.float64(5.874616), 'median_duration_us': np.float64(5.856), 'std_dev_duration_us': np.float64(0.12301159516078154), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(6.24)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(823.546), 'mean_duration_us': np.float64(6.588368), 'median_duration_us': np.float64(6.561), 'std_dev_duration_us': np.float64(0.08364960595244895), 'min_duration_us': np.float64(6.4), 'max_duration_us': np.float64(6.848)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6021.096), 'mean_duration_us': np.float64(48.16876799999999), 'median_duration_us': np.float64(48.031), 'std_dev_duration_us': np.float64(1.01678098436979), 'min_duration_us': np.float64(46.624), 'max_duration_us': np.float64(51.296)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.95)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.71)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.87)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.59)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(48.17)}]","[[2, 384, 64, 64], [192, 384, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[1572864, 4096, 64, 1], [3456, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",70.295919921875,70.20703125,1.062975123078855,68.576171875,73.662841796875,8786.989990234375,125,136177
+aten::convolution,conv3d,"(1, 384, 3, 32, 32)","(768, 384, 3, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(1179648, 3072, 1024, 32, 1)","(1152, 3, 1, 1, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,1.811939328,5.4375,317.7931034482759,0.13147732023217665,0.13150228146379642,0.0005511163491296946,0.129866455385642,0.1326706660379824,41.782585629646206,41.79051813690855,0.1751409749510105,41.27066389083023,42.1618226967602,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(355.5439999999999), 'mean_duration_us': np.float64(2.8443519999999993), 'median_duration_us': np.float64(2.848), 'std_dev_duration_us': np.float64(0.0836824718564169), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(3.104)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.598), 'mean_duration_us': np.float64(3.340784), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.03836719098396442), 'min_duration_us': np.float64(3.232), 'max_duration_us': np.float64(3.425)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(517.5329999999999), 'mean_duration_us': np.float64(4.140263999999999), 'median_duration_us': np.float64(4.159), 'std_dev_duration_us': np.float64(0.05790352583392486), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(4.288)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1974.3799999999999), 'mean_duration_us': np.float64(15.795039999999998), 'median_duration_us': np.float64(15.776), 'std_dev_duration_us': np.float64(0.09840547952222992), 'min_duration_us': np.float64(15.584), 'max_duration_us': np.float64(16.127)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(2155.7850000000008), 'mean_duration_us': np.float64(17.246280000000006), 'median_duration_us': np.float64(17.248), 'std_dev_duration_us': np.float64(0.07720762656629208), 'min_duration_us': np.float64(17.088), 'max_duration_us': np.float64(17.696)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.84)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.14)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(17.25)}]","[[1, 384, 3, 32, 32], [768, 384, 3, 1, 1], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[1179648, 3072, 1024, 32, 1], [1152, 3, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",43.366654296875,43.357666015625,0.1819913322180833,42.975830078125,43.90380859375,5420.831787109375,125,136113
+aten::convolution,conv3d,"(1, 16, 126, 32, 32)","(1536, 16, 1, 2, 2)","('c10::BFloat16', 'c10::BFloat16')","(2064384, 129024, 1024, 32, 1)","(64, 4, 4, 2, 1)",False,"(1, 2, 2)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,6.341787648,98.625,61.32319391634981,0.29432080846053194,0.29419852117792245,0.002429381320169562,0.28942935553340227,0.29873995509497675,18.04869201084205,18.041192964097085,0.1489774217935162,17.74873249445898,18.319688196850894,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(7.296999999999999), 'mean_duration_us': np.float64(0.7296999999999999), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.012853404218338436), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.737)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(43.648), 'mean_duration_us': np.float64(4.364800000000001), 'median_duration_us': np.float64(4.368), 'std_dev_duration_us': np.float64(0.07039999999999988), 'min_duration_us': np.float64(4.256), 'max_duration_us': np.float64(4.512)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(84.416), 'mean_duration_us': np.float64(8.4416), 'median_duration_us': np.float64(8.416), 'std_dev_duration_us': np.float64(0.16860083036568962), 'min_duration_us': np.float64(8.16), 'max_duration_us': np.float64(8.704)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(762.554), 'mean_duration_us': np.float64(76.2554), 'median_duration_us': np.float64(76.1115), 'std_dev_duration_us': np.float64(1.3488461142769423), 'min_duration_us': np.float64(73.663), 'max_duration_us': np.float64(78.912)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1104.886), 'mean_duration_us': np.float64(110.48859999999999), 'median_duration_us': np.float64(110.431), 'std_dev_duration_us': np.float64(0.2850695353768956), 'min_duration_us': np.float64(110.111), 'max_duration_us': np.float64(110.975)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1511.123), 'mean_duration_us': np.float64(151.1123), 'median_duration_us': np.float64(151.135), 'std_dev_duration_us': np.float64(1.1013839521256856), 'min_duration_us': np.float64(148.959), 'max_duration_us': np.float64(153.534)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.36)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(8.44)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(76.26)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(110.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(151.11)}]","[[1, 16, 126, 32, 32], [1536, 16, 1, 2, 2], [1536], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[2064384, 129024, 1024, 32, 1], [64, 4, 4, 2, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 2, 2]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",351.3926025390625,351.51708984375,2.9030591533399024,346.17333984375,357.309326171875,3513.926025390625,10,11770
+aten::convolution,conv3d,"(1, 16, 3, 34, 34)","(384, 16, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(55488, 3468, 1156, 34, 1)","(432, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,0.339738624,1.1722412109375,276.39362699156516,0.05112145511943368,0.051183996262822454,0.0011534954534109603,0.04887003546780816,0.05342406875988158,14.129644397546787,14.14693037100421,0.31881879208653585,13.507366354153925,14.766072133190434,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(267.73800000000006), 'mean_duration_us': np.float64(2.1249047619047623), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.020600673656510377), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.176)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(333.2749999999999), 'mean_duration_us': np.float64(2.645039682539682), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.07982435090074093), 'min_duration_us': np.float64(2.431), 'max_duration_us': np.float64(2.88)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(338.046), 'mean_duration_us': np.float64(2.6829047619047617), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.07396314274867424), 'min_duration_us': np.float64(2.464), 'max_duration_us': np.float64(2.912)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(432.60799999999995), 'mean_duration_us': np.float64(3.433396825396825), 'median_duration_us': np.float64(3.424), 'std_dev_duration_us': np.float64(0.02585892108046477), 'min_duration_us': np.float64(3.391), 'max_duration_us': np.float64(3.52)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(1659.4389999999999), 'mean_duration_us': np.float64(13.170150793650793), 'median_duration_us': np.float64(13.1675), 'std_dev_duration_us': np.float64(0.5961994987759045), 'min_duration_us': np.float64(12.032), 'max_duration_us': np.float64(14.368)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.12)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.65)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.68)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.43)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(13.17)}]","[[1, 16, 3, 34, 34], [384, 16, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[55488, 3468, 1156, 34, 1], [432, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",24.056532118055557,24.0150146484375,0.5427397457118388,23.008056640625,25.152099609375,3031.123046875,126,133482
 aten::convolution,conv3d,"(1, 192, 2, 64, 64)","(384, 192, 1, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(1572864, 4096, 786432, 64, 1)","(192, 1, 1, 1, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,1.207959552,9.140625,126.03076923076924,0.4132859913527641,0.41314929480231105,0.0027230878494342,0.40695648799096085,0.4201036430176565,52.0867514024899,52.0695234310851,0.34319285634715435,51.28903922495309,52.94598528616372,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(724.82), 'mean_duration_us': np.float64(5.79856), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.10529458865487823), 'min_duration_us': np.float64(5.599), 'max_duration_us': np.float64(6.08)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1037.9370000000001), 'mean_duration_us': np.float64(8.303496), 'median_duration_us': np.float64(8.288), 'std_dev_duration_us': np.float64(0.08734690597840312), 'min_duration_us': np.float64(8.128), 'max_duration_us': np.float64(8.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1136.2769999999996), 'mean_duration_us': np.float64(9.090215999999996), 'median_duration_us': np.float64(9.088), 'std_dev_duration_us': np.float64(0.0806049709633343), 'min_duration_us': np.float64(8.928), 'max_duration_us': np.float64(9.343)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.8)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(8.3)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.09)}]","[[1, 192, 2, 64, 64], [384, 192, 1, 1, 1], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[1572864, 4096, 786432, 64, 1], [192, 1, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",23.19230078125,23.198974609375,0.1529023346001054,22.81494140625,23.552001953125,2899.03759765625,125,136192
-aten::convolution,conv2d,"(1, 384, 32, 32)","(1152, 384, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(393216, 1024, 32, 1)","(384, 1, 1, 1)",False,"(1, 1)","(0, 0)","(1, 1)",False,"(0, 0)",1,0.905969664,3.84375,224.78048780487805,0.2991607946876656,0.299172377433658,0.002813506853756701,0.2902336552451609,0.3064559224800445,67.24550936198844,67.24811293728274,0.6324214430297996,65.23886260340008,68.8853117457583,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(1051.736), 'mean_duration_us': np.float64(8.347111111111111), 'median_duration_us': np.float64(8.352), 'std_dev_duration_us': np.float64(0.06400089560660828), 'min_duration_us': np.float64(8.128), 'max_duration_us': np.float64(8.512)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(645.95), 'mean_duration_us': np.float64(5.126587301587302), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.10554614351163616), 'min_duration_us': np.float64(4.928), 'max_duration_us': np.float64(5.505)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(8.35)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.13)}]","[[1, 384, 32, 32], [1152, 384, 1, 1], [1152], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[393216, 1024, 32, 1], [384, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",13.473752945188492,13.4720458984375,0.12707220881994244,13.15185546875,13.886962890625,1697.69287109375,126,133604
-aten::convolution,conv2d,"(1, 384, 32, 32)","(384, 384, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(384, 1, 12288, 384)","(384, 1, 1, 1)",False,"(1, 1)","(0, 0)","(1, 1)",False,"(0, 0)",1,0.301989888,1.78125,161.68421052631578,0.13873810414118423,0.138645883011869,0.001304266716311059,0.13479949423829157,0.14166902144365023,22.431760837985156,22.41685013749798,0.2108793343425032,21.794949805264828,22.90564388815229,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(615.1959999999999), 'mean_duration_us': np.float64(4.882507936507936), 'median_duration_us': np.float64(4.8955), 'std_dev_duration_us': np.float64(0.08823073520845527), 'min_duration_us': np.float64(4.703), 'max_duration_us': np.float64(5.025)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_nn_align8::Params)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(646.9029999999999), 'mean_duration_us': np.float64(5.134150793650793), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.09580147026909003), 'min_duration_us': np.float64(4.96), 'max_duration_us': np.float64(5.408)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(434.3310000000001), 'mean_duration_us': np.float64(3.4470714285714292), 'median_duration_us': np.float64(3.456), 'std_dev_duration_us': np.float64(0.03336264867378809), 'min_duration_us': np.float64(3.36), 'max_duration_us': np.float64(3.583)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.88)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(5.13)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.45)}]","[[1, 384, 32, 32], [384, 384, 1, 1], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[384, 1, 12288, 384], [384, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",13.463785807291666,13.4715576171875,0.1268494393293826,13.18408203125,13.85595703125,1696.43701171875,126,133653
-aten::convolution,conv3d,"(1, 96, 3, 258, 258)","(96, 96, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(19170432, 199692, 66564, 258, 1)","(2592, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,32.614907904,49.039306640625,634.266716451348,0.3335532656843505,0.3339769356289489,0.0011684041287883275,0.3315308597171109,0.3348466374037974,211.56173458723705,211.83045433185663,0.741079850254763,210.27898979506438,212.38207722088165,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(253.95), 'mean_duration_us': np.float64(42.324999999999996), 'median_duration_us': np.float64(42.352000000000004), 'std_dev_duration_us': np.float64(0.20668010708983695), 'min_duration_us': np.float64(42.015), 'max_duration_us': np.float64(42.656)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(20.96), 'mean_duration_us': np.float64(3.4933333333333336), 'median_duration_us': np.float64(3.536), 'std_dev_duration_us': np.float64(0.11599233691163502), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.648)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.608), 'mean_duration_us': np.float64(0.7679999999999999), 'median_duration_us': np.float64(0.768), 'std_dev_duration_us': np.float64(0.03200000000000003), 'min_duration_us': np.float64(0.736), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(480.379), 'mean_duration_us': np.float64(80.06316666666667), 'median_duration_us': np.float64(79.983), 'std_dev_duration_us': np.float64(0.3969082247685089), 'min_duration_us': np.float64(79.584), 'max_duration_us': np.float64(80.799)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(69.888), 'mean_duration_us': np.float64(11.648000000000001), 'median_duration_us': np.float64(11.6), 'std_dev_duration_us': np.float64(0.15567487487281534), 'min_duration_us': np.float64(11.52), 'max_duration_us': np.float64(11.968)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(95.2), 'mean_duration_us': np.float64(15.866666666666667), 'median_duration_us': np.float64(15.888), 'std_dev_duration_us': np.float64(0.062425066190504724), 'min_duration_us': np.float64(15.744), 'max_duration_us': np.float64(15.936)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.32)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.49)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.77)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.06)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.65)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.87)}]","[[1, 96, 3, 258, 258], [96, 96, 3, 3, 3], [96], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[19170432, 199692, 66564, 258, 1], [2592, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",154.1641845703125,153.967041015625,0.5414742684401492,153.567138671875,155.10302734375,924.985107421875,6,134819
-aten::convolution,conv3d,"(1, 192, 3, 130, 130)","(192, 192, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(9734400, 50700, 16900, 130, 1)","(5184, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,32.614907904,26.46533203125,1175.273371340012,0.2310409277208885,0.2311992897748968,0.0014189809493289278,0.22845719593604596,0.23268823117392495,271.5362500400527,271.7223687451593,1.6676905241850577,268.4996588746425,273.4722819229229,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(106.75), 'mean_duration_us': np.float64(17.791666666666668), 'median_duration_us': np.float64(17.7755), 'std_dev_duration_us': np.float64(0.23426528172612768), 'min_duration_us': np.float64(17.408), 'max_duration_us': np.float64(18.111)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(29.279), 'mean_duration_us': np.float64(4.879833333333333), 'median_duration_us': np.float64(4.848), 'std_dev_duration_us': np.float64(0.1699729553651274), 'min_duration_us': np.float64(4.704), 'max_duration_us': np.float64(5.184)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.383), 'mean_duration_us': np.float64(0.7305), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.011856784274554952), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.736)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(485.596), 'mean_duration_us': np.float64(80.93266666666666), 'median_duration_us': np.float64(80.67099999999999), 'std_dev_duration_us': np.float64(0.7840205496173069), 'min_duration_us': np.float64(80.351), 'max_duration_us': np.float64(82.623)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(38.208), 'mean_duration_us': np.float64(6.367999999999999), 'median_duration_us': np.float64(6.4), 'std_dev_duration_us': np.float64(0.1621192976380869), 'min_duration_us': np.float64(6.112), 'max_duration_us': np.float64(6.56)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(56.481), 'mean_duration_us': np.float64(9.4135), 'median_duration_us': np.float64(9.44), 'std_dev_duration_us': np.float64(0.06258261206863584), 'min_duration_us': np.float64(9.28), 'max_duration_us': np.float64(9.473)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(17.79)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.88)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.93)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.37)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.41)}]","[[1, 192, 3, 130, 130], [192, 192, 3, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[9734400, 50700, 16900, 130, 1], [5184, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",120.1163330078125,120.0302734375,0.741683624284454,119.26220703125,121.470947265625,720.697998046875,6,134488
-aten::convolution,conv3d,"(1, 384, 3, 66, 66)","(384, 384, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(5018112, 13068, 4356, 66, 1)","(10368, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,32.614907904,20.1650390625,1542.471596687491,0.1526732630783961,0.15267487782933054,0.0015885447644565902,0.15044762328417322,0.15475114988537703,235.49417187202297,235.4966625794751,2.4502851792409204,232.0611857049768,238.69925325292274,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(39.297), 'mean_duration_us': np.float64(7.859399999999999), 'median_duration_us': np.float64(7.872), 'std_dev_duration_us': np.float64(0.03232089107682514), 'min_duration_us': np.float64(7.809), 'max_duration_us': np.float64(7.904)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(53.086000000000006), 'mean_duration_us': np.float64(10.6172), 'median_duration_us': np.float64(10.624), 'std_dev_duration_us': np.float64(0.08153870246698759), 'min_duration_us': np.float64(10.496), 'max_duration_us': np.float64(10.719)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(3.9669999999999996), 'mean_duration_us': np.float64(0.7933999999999999), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.012705904139414883), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(545.052), 'mean_duration_us': np.float64(109.0104), 'median_duration_us': np.float64(108.735), 'std_dev_duration_us': np.float64(1.290723146147151), 'min_duration_us': np.float64(107.167), 'max_duration_us': np.float64(111.007)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(20.416), 'mean_duration_us': np.float64(4.0832), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.1241022159350913), 'min_duration_us': np.float64(3.935), 'max_duration_us': np.float64(4.224)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(30.719), 'mean_duration_us': np.float64(6.143800000000001), 'median_duration_us': np.float64(6.176), 'std_dev_duration_us': np.float64(0.08134961585649948), 'min_duration_us': np.float64(5.983), 'max_duration_us': np.float64(6.208)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(7.86)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.62)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.79)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(109.01)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.08)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.14)}]","[[1, 384, 3, 66, 66], [384, 384, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[5018112, 13068, 4356, 66, 1], [10368, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",138.5076171875,138.494140625,1.4431180574160112,136.635986328125,140.54443359375,692.5380859375,5,134208
-aten::convolution,conv2d,"(1, 192, 256, 256)","(96, 192, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(12582912, 65536, 256, 1)","(1728, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,21.743271936,36.31640625,570.9816069699904,0.2686890878635141,0.2686890878635141,,0.2686890878635141,0.2686890878635141,153.41652716361017,153.41652716361017,,153.41652716361017,153.41652716361017,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(25.568), 'mean_duration_us': np.float64(25.568), 'median_duration_us': np.float64(25.568), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(25.568), 'max_duration_us': np.float64(25.568)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.296), 'mean_duration_us': np.float64(3.296), 'median_duration_us': np.float64(3.296), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.296)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(86.047), 'mean_duration_us': np.float64(86.047), 'median_duration_us': np.float64(86.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(86.047), 'max_duration_us': np.float64(86.047)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.816), 'mean_duration_us': np.float64(10.816), 'median_duration_us': np.float64(10.816), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.816), 'max_duration_us': np.float64(10.816)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(16.0), 'mean_duration_us': np.float64(16.0), 'median_duration_us': np.float64(16.0), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.0), 'max_duration_us': np.float64(16.0)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.57)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.3)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(86.05)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.82)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(16.0)}]","[[1, 192, 256, 256], [96, 192, 3, 3], [96], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[12582912, 65536, 256, 1], [1728, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",141.72705078125,141.72705078125,,141.72705078125,141.72705078125,141.72705078125,1,134766
-aten::convolution,conv2d,"(1, 384, 128, 128)","(192, 384, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(6291456, 16384, 128, 1)","(3456, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,21.743271936,19.265625,1076.3211678832117,0.16141662582151656,0.16141662582151656,,0.16141662582151656,0.16141662582151656,173.73613121998207,173.73613121998207,,173.73613121998207,173.73613121998207,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(9.472), 'mean_duration_us': np.float64(9.472), 'median_duration_us': np.float64(9.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.472), 'max_duration_us': np.float64(9.472)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(93.407), 'mean_duration_us': np.float64(93.407), 'median_duration_us': np.float64(93.407), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(93.407), 'max_duration_us': np.float64(93.407)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.208), 'mean_duration_us': np.float64(6.208), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.208)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(9.248), 'mean_duration_us': np.float64(9.248), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.248), 'max_duration_us': np.float64(9.248)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.47)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(93.41)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.21)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.25)}]","[[1, 384, 128, 128], [192, 384, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[6291456, 16384, 128, 1], [3456, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",125.151123046875,125.151123046875,,125.151123046875,125.151123046875,125.151123046875,1,134435
-aten::convolution,conv3d,"(1, 96, 3, 258, 258)","(3, 96, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(19170432, 199692, 66564, 258, 1)","(2592, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,1.019215872,36.95452880859375,26.302594873675186,0.32456309260524063,0.32456309260524063,,0.32456309260524063,0.32456309260524063,8.536851535742768,8.536851535742768,,8.536851535742768,8.536851535742768,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(42.847), 'mean_duration_us': np.float64(42.847), 'median_duration_us': np.float64(42.847), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(42.847), 'max_duration_us': np.float64(42.847)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(1.824), 'mean_duration_us': np.float64(1.824), 'median_duration_us': np.float64(1.824), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(1.824)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.528), 'mean_duration_us': np.float64(10.528), 'median_duration_us': np.float64(10.528), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.528), 'max_duration_us': np.float64(10.528)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(55.871), 'mean_duration_us': np.float64(55.871), 'median_duration_us': np.float64(55.871), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(55.871), 'max_duration_us': np.float64(55.871)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.863), 'mean_duration_us': np.float64(4.863), 'median_duration_us': np.float64(4.863), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.863), 'max_duration_us': np.float64(4.863)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.457), 'mean_duration_us': np.float64(3.457), 'median_duration_us': np.float64(3.457), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.457), 'max_duration_us': np.float64(3.457)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.85)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.82)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.53)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(55.87)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.86)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.46)}]","[[1, 96, 3, 258, 258], [3, 96, 3, 3, 3], [3], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[19170432, 199692, 66564, 258, 1], [2592, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",119.39013671875,119.39013671875,,119.39013671875,119.39013671875,119.39013671875,1,135125
-aten::convolution,conv3d,"(1, 192, 3, 66, 66)","(384, 192, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(2509056, 13068, 4356, 66, 1)","(5184, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,16.307453952,11.58251953125,1342.7130390792968,0.15043392268822178,0.15043392268822178,,0.15043392268822178,0.15043392268822178,201.98958951332224,201.98958951332224,,201.98958951332224,201.98958951332224,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.928), 'mean_duration_us': np.float64(4.928), 'median_duration_us': np.float64(4.928), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.928), 'max_duration_us': np.float64(4.928)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.623), 'mean_duration_us': np.float64(6.623), 'median_duration_us': np.float64(6.623), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.623), 'max_duration_us': np.float64(6.623)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(58.047), 'mean_duration_us': np.float64(58.047), 'median_duration_us': np.float64(58.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(58.047), 'max_duration_us': np.float64(58.047)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.128), 'mean_duration_us': np.float64(4.128), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.128), 'max_duration_us': np.float64(4.128)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.208), 'mean_duration_us': np.float64(6.208), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.208)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.93)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.62)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(58.05)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.13)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.21)}]","[[1, 192, 3, 66, 66], [384, 192, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[2509056, 13068, 4356, 66, 1], [5184, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",80.734130859375,80.734130859375,,80.734130859375,80.734130859375,80.734130859375,1,134157
-aten::convolution,conv2d,"(1, 384, 64, 64)","(192, 384, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(1572864, 4096, 64, 1)","(3456, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,5.435817984,5.765625,899.1219512195122,0.14109506068703814,0.14109506068703814,,0.14109506068703814,0.14109506068703814,126.8616662723652,126.8616662723652,,126.8616662723652,126.8616662723652,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.872), 'mean_duration_us': np.float64(3.872), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.872), 'max_duration_us': np.float64(3.872)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(26.08), 'mean_duration_us': np.float64(26.08), 'median_duration_us': np.float64(26.08), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(26.08), 'max_duration_us': np.float64(26.08)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.656), 'mean_duration_us': np.float64(2.656), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(2.656)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.224), 'mean_duration_us': np.float64(4.224), 'median_duration_us': np.float64(4.224), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.224), 'max_duration_us': np.float64(4.224)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.87)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(26.08)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.66)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.22)}]","[[1, 384, 64, 64], [192, 384, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[1572864, 4096, 64, 1], [3456, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",42.848388671875,42.848388671875,,42.848388671875,42.848388671875,42.848388671875,1,134092
-aten::convolution,conv3d,"(1, 16, 126, 32, 32)","(16, 16, 1, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(2064384, 129024, 1024, 32, 1)","(16, 1, 1, 1, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,0.066060288,7.87548828125,7.999503999007997,0.526655320399838,0.526655320399838,,0.526655320399838,0.526655320399838,4.2129813416373425,4.2129813416373425,,4.2129813416373425,4.2129813416373425,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8>(cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.768), 'mean_duration_us': np.float64(8.768), 'median_duration_us': np.float64(8.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.768), 'max_duration_us': np.float64(8.768)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.912), 'mean_duration_us': np.float64(6.912), 'median_duration_us': np.float64(6.912), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.912), 'max_duration_us': np.float64(6.912)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_...', 'stream': 7, 'mean_duration_us': np.float64(8.77)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.91)}]","[[1, 16, 126, 32, 32], [16, 16, 1, 1, 1], [16], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[2064384, 129024, 1024, 32, 1], [16, 1, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",15.68017578125,15.68017578125,,15.68017578125,15.68017578125,15.68017578125,1,133431
-aten::convolution,conv3d,"(1, 192, 1, 64, 64)","(384, 192, 1, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(786432, 4096, 786432, 64, 1)","(192, 1, 1, 1, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,0.603979776,4.640625,124.12121212121212,0.3830370444508504,0.3830370444508504,,0.3830370444508504,0.3830370444508504,47.54302224456616,47.54302224456616,,47.54302224456616,47.54302224456616,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.72), 'mean_duration_us': np.float64(6.72), 'median_duration_us': np.float64(6.72), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.72), 'max_duration_us': np.float64(6.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.984), 'mean_duration_us': np.float64(5.984), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.984), 'max_duration_us': np.float64(5.984)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}]","[[1, 192, 1, 64, 64], [384, 192, 1, 1, 1], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[786432, 4096, 786432, 64, 1], [192, 1, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",12.703857421875,12.703857421875,,12.703857421875,12.703857421875,12.703857421875,1,134107
+aten::convolution,conv2d,"(1, 384, 32, 32)","(1152, 384, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(393216, 1024, 32, 1)","(384, 1, 1, 1)",False,"(1, 1)","(0, 0)","(1, 1)",False,"(0, 0)",1,0.905969664,3.84375,224.78048780487805,0.2991607946876656,0.299172377433658,0.002813506853756701,0.2902336552451609,0.3064559224800445,67.24550936198844,67.24811293728274,0.6324214430297996,65.23886260340008,68.8853117457583,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(645.95), 'mean_duration_us': np.float64(5.126587301587302), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.10554614351163616), 'min_duration_us': np.float64(4.928), 'max_duration_us': np.float64(5.505)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(1051.736), 'mean_duration_us': np.float64(8.347111111111111), 'median_duration_us': np.float64(8.352), 'std_dev_duration_us': np.float64(0.06400089560660828), 'min_duration_us': np.float64(8.128), 'max_duration_us': np.float64(8.512)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.13)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(8.35)}]","[[1, 384, 32, 32], [1152, 384, 1, 1], [1152], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[393216, 1024, 32, 1], [384, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",13.473752945188492,13.4720458984375,0.12707220881994244,13.15185546875,13.886962890625,1697.69287109375,126,133604
+aten::convolution,conv2d,"(1, 384, 32, 32)","(384, 384, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(384, 1, 12288, 384)","(384, 1, 1, 1)",False,"(1, 1)","(0, 0)","(1, 1)",False,"(0, 0)",1,0.301989888,1.78125,161.68421052631578,0.13873810414118423,0.138645883011869,0.001304266716311059,0.13479949423829157,0.14166902144365023,22.431760837985156,22.41685013749798,0.2108793343425032,21.794949805264828,22.90564388815229,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(434.3310000000001), 'mean_duration_us': np.float64(3.4470714285714292), 'median_duration_us': np.float64(3.456), 'std_dev_duration_us': np.float64(0.03336264867378809), 'min_duration_us': np.float64(3.36), 'max_duration_us': np.float64(3.583)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(615.1959999999999), 'mean_duration_us': np.float64(4.882507936507936), 'median_duration_us': np.float64(4.8955), 'std_dev_duration_us': np.float64(0.08823073520845527), 'min_duration_us': np.float64(4.703), 'max_duration_us': np.float64(5.025)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_nn_align8::Params)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(646.9029999999999), 'mean_duration_us': np.float64(5.134150793650793), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.09580147026909003), 'min_duration_us': np.float64(4.96), 'max_duration_us': np.float64(5.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.45)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.88)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(5.13)}]","[[1, 384, 32, 32], [384, 384, 1, 1], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[384, 1, 12288, 384], [384, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",13.463785807291666,13.4715576171875,0.1268494393293826,13.18408203125,13.85595703125,1696.43701171875,126,133653
+aten::convolution,conv3d,"(1, 96, 3, 258, 258)","(96, 96, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(19170432, 199692, 66564, 258, 1)","(2592, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,32.614907904,49.039306640625,634.266716451348,0.3335532656843505,0.3339769356289489,0.0011684041287883275,0.3315308597171109,0.3348466374037974,211.56173458723705,211.83045433185663,0.741079850254763,210.27898979506438,212.38207722088165,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.608), 'mean_duration_us': np.float64(0.7679999999999999), 'median_duration_us': np.float64(0.768), 'std_dev_duration_us': np.float64(0.03200000000000003), 'min_duration_us': np.float64(0.736), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(20.96), 'mean_duration_us': np.float64(3.4933333333333336), 'median_duration_us': np.float64(3.536), 'std_dev_duration_us': np.float64(0.11599233691163502), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.648)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(69.888), 'mean_duration_us': np.float64(11.648000000000001), 'median_duration_us': np.float64(11.6), 'std_dev_duration_us': np.float64(0.15567487487281534), 'min_duration_us': np.float64(11.52), 'max_duration_us': np.float64(11.968)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(95.2), 'mean_duration_us': np.float64(15.866666666666667), 'median_duration_us': np.float64(15.888), 'std_dev_duration_us': np.float64(0.062425066190504724), 'min_duration_us': np.float64(15.744), 'max_duration_us': np.float64(15.936)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(253.95), 'mean_duration_us': np.float64(42.324999999999996), 'median_duration_us': np.float64(42.352000000000004), 'std_dev_duration_us': np.float64(0.20668010708983695), 'min_duration_us': np.float64(42.015), 'max_duration_us': np.float64(42.656)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(480.379), 'mean_duration_us': np.float64(80.06316666666667), 'median_duration_us': np.float64(79.983), 'std_dev_duration_us': np.float64(0.3969082247685089), 'min_duration_us': np.float64(79.584), 'max_duration_us': np.float64(80.799)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.77)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.49)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.65)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.87)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.32)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.06)}]","[[1, 96, 3, 258, 258], [96, 96, 3, 3, 3], [96], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[19170432, 199692, 66564, 258, 1], [2592, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",154.1641845703125,153.967041015625,0.5414742684401492,153.567138671875,155.10302734375,924.985107421875,6,134819
+aten::convolution,conv3d,"(1, 192, 3, 130, 130)","(192, 192, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(9734400, 50700, 16900, 130, 1)","(5184, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,32.614907904,26.46533203125,1175.273371340012,0.2310409277208885,0.2311992897748968,0.0014189809493289278,0.22845719593604596,0.23268823117392495,271.5362500400527,271.7223687451593,1.6676905241850577,268.4996588746425,273.4722819229229,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.383), 'mean_duration_us': np.float64(0.7305), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.011856784274554952), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.736)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(29.279), 'mean_duration_us': np.float64(4.879833333333333), 'median_duration_us': np.float64(4.848), 'std_dev_duration_us': np.float64(0.1699729553651274), 'min_duration_us': np.float64(4.704), 'max_duration_us': np.float64(5.184)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(38.208), 'mean_duration_us': np.float64(6.367999999999999), 'median_duration_us': np.float64(6.4), 'std_dev_duration_us': np.float64(0.1621192976380869), 'min_duration_us': np.float64(6.112), 'max_duration_us': np.float64(6.56)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(56.481), 'mean_duration_us': np.float64(9.4135), 'median_duration_us': np.float64(9.44), 'std_dev_duration_us': np.float64(0.06258261206863584), 'min_duration_us': np.float64(9.28), 'max_duration_us': np.float64(9.473)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(106.75), 'mean_duration_us': np.float64(17.791666666666668), 'median_duration_us': np.float64(17.7755), 'std_dev_duration_us': np.float64(0.23426528172612768), 'min_duration_us': np.float64(17.408), 'max_duration_us': np.float64(18.111)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(485.596), 'mean_duration_us': np.float64(80.93266666666666), 'median_duration_us': np.float64(80.67099999999999), 'std_dev_duration_us': np.float64(0.7840205496173069), 'min_duration_us': np.float64(80.351), 'max_duration_us': np.float64(82.623)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.88)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.37)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.41)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(17.79)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.93)}]","[[1, 192, 3, 130, 130], [192, 192, 3, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[9734400, 50700, 16900, 130, 1], [5184, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",120.1163330078125,120.0302734375,0.741683624284454,119.26220703125,121.470947265625,720.697998046875,6,134488
+aten::convolution,conv3d,"(1, 384, 3, 66, 66)","(384, 384, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(5018112, 13068, 4356, 66, 1)","(10368, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,32.614907904,20.1650390625,1542.471596687491,0.1526732630783961,0.15267487782933054,0.0015885447644565902,0.15044762328417322,0.15475114988537703,235.49417187202297,235.4966625794751,2.4502851792409204,232.0611857049768,238.69925325292274,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(3.9669999999999996), 'mean_duration_us': np.float64(0.7933999999999999), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.012705904139414883), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(20.416), 'mean_duration_us': np.float64(4.0832), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.1241022159350913), 'min_duration_us': np.float64(3.935), 'max_duration_us': np.float64(4.224)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(30.719), 'mean_duration_us': np.float64(6.143800000000001), 'median_duration_us': np.float64(6.176), 'std_dev_duration_us': np.float64(0.08134961585649948), 'min_duration_us': np.float64(5.983), 'max_duration_us': np.float64(6.208)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(39.297), 'mean_duration_us': np.float64(7.859399999999999), 'median_duration_us': np.float64(7.872), 'std_dev_duration_us': np.float64(0.03232089107682514), 'min_duration_us': np.float64(7.809), 'max_duration_us': np.float64(7.904)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(53.086000000000006), 'mean_duration_us': np.float64(10.6172), 'median_duration_us': np.float64(10.624), 'std_dev_duration_us': np.float64(0.08153870246698759), 'min_duration_us': np.float64(10.496), 'max_duration_us': np.float64(10.719)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(545.052), 'mean_duration_us': np.float64(109.0104), 'median_duration_us': np.float64(108.735), 'std_dev_duration_us': np.float64(1.290723146147151), 'min_duration_us': np.float64(107.167), 'max_duration_us': np.float64(111.007)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.79)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.08)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.14)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(7.86)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.62)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(109.01)}]","[[1, 384, 3, 66, 66], [384, 384, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[5018112, 13068, 4356, 66, 1], [10368, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",138.5076171875,138.494140625,1.4431180574160112,136.635986328125,140.54443359375,692.5380859375,5,134208
+aten::convolution,conv2d,"(1, 192, 256, 256)","(96, 192, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(12582912, 65536, 256, 1)","(1728, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,21.743271936,36.31640625,570.9816069699904,0.2686890878635141,0.2686890878635141,,0.2686890878635141,0.2686890878635141,153.41652716361017,153.41652716361017,,153.41652716361017,153.41652716361017,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.296), 'mean_duration_us': np.float64(3.296), 'median_duration_us': np.float64(3.296), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.296)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.816), 'mean_duration_us': np.float64(10.816), 'median_duration_us': np.float64(10.816), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.816), 'max_duration_us': np.float64(10.816)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(16.0), 'mean_duration_us': np.float64(16.0), 'median_duration_us': np.float64(16.0), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.0), 'max_duration_us': np.float64(16.0)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(25.568), 'mean_duration_us': np.float64(25.568), 'median_duration_us': np.float64(25.568), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(25.568), 'max_duration_us': np.float64(25.568)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(86.047), 'mean_duration_us': np.float64(86.047), 'median_duration_us': np.float64(86.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(86.047), 'max_duration_us': np.float64(86.047)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.3)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.82)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(16.0)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.57)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(86.05)}]","[[1, 192, 256, 256], [96, 192, 3, 3], [96], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[12582912, 65536, 256, 1], [1728, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",141.72705078125,141.72705078125,,141.72705078125,141.72705078125,141.72705078125,1,134766
+aten::convolution,conv2d,"(1, 384, 128, 128)","(192, 384, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(6291456, 16384, 128, 1)","(3456, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,21.743271936,19.265625,1076.3211678832117,0.16141662582151656,0.16141662582151656,,0.16141662582151656,0.16141662582151656,173.73613121998207,173.73613121998207,,173.73613121998207,173.73613121998207,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.208), 'mean_duration_us': np.float64(6.208), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.208)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(9.248), 'mean_duration_us': np.float64(9.248), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.248), 'max_duration_us': np.float64(9.248)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(9.472), 'mean_duration_us': np.float64(9.472), 'median_duration_us': np.float64(9.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.472), 'max_duration_us': np.float64(9.472)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(93.407), 'mean_duration_us': np.float64(93.407), 'median_duration_us': np.float64(93.407), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(93.407), 'max_duration_us': np.float64(93.407)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.21)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.25)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.47)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(93.41)}]","[[1, 384, 128, 128], [192, 384, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[6291456, 16384, 128, 1], [3456, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",125.151123046875,125.151123046875,,125.151123046875,125.151123046875,125.151123046875,1,134435
+aten::convolution,conv3d,"(1, 96, 3, 258, 258)","(3, 96, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(19170432, 199692, 66564, 258, 1)","(2592, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,1.019215872,36.95452880859375,26.302594873675186,0.32456309260524063,0.32456309260524063,,0.32456309260524063,0.32456309260524063,8.536851535742768,8.536851535742768,,8.536851535742768,8.536851535742768,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(1.824), 'mean_duration_us': np.float64(1.824), 'median_duration_us': np.float64(1.824), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(1.824)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.457), 'mean_duration_us': np.float64(3.457), 'median_duration_us': np.float64(3.457), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.457), 'max_duration_us': np.float64(3.457)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.863), 'mean_duration_us': np.float64(4.863), 'median_duration_us': np.float64(4.863), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.863), 'max_duration_us': np.float64(4.863)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.528), 'mean_duration_us': np.float64(10.528), 'median_duration_us': np.float64(10.528), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.528), 'max_duration_us': np.float64(10.528)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(42.847), 'mean_duration_us': np.float64(42.847), 'median_duration_us': np.float64(42.847), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(42.847), 'max_duration_us': np.float64(42.847)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(55.871), 'mean_duration_us': np.float64(55.871), 'median_duration_us': np.float64(55.871), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(55.871), 'max_duration_us': np.float64(55.871)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.82)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.46)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.86)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.53)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.85)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(55.87)}]","[[1, 96, 3, 258, 258], [3, 96, 3, 3, 3], [3], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[19170432, 199692, 66564, 258, 1], [2592, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",119.39013671875,119.39013671875,,119.39013671875,119.39013671875,119.39013671875,1,135125
+aten::convolution,conv3d,"(1, 192, 3, 66, 66)","(384, 192, 3, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(2509056, 13068, 4356, 66, 1)","(5184, 27, 9, 3, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,16.307453952,11.58251953125,1342.7130390792968,0.15043392268822178,0.15043392268822178,,0.15043392268822178,0.15043392268822178,201.98958951332224,201.98958951332224,,201.98958951332224,201.98958951332224,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.128), 'mean_duration_us': np.float64(4.128), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.128), 'max_duration_us': np.float64(4.128)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.928), 'mean_duration_us': np.float64(4.928), 'median_duration_us': np.float64(4.928), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.928), 'max_duration_us': np.float64(4.928)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.208), 'mean_duration_us': np.float64(6.208), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.208)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.623), 'mean_duration_us': np.float64(6.623), 'median_duration_us': np.float64(6.623), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.623), 'max_duration_us': np.float64(6.623)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(58.047), 'mean_duration_us': np.float64(58.047), 'median_duration_us': np.float64(58.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(58.047), 'max_duration_us': np.float64(58.047)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.13)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.93)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.21)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.62)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(58.05)}]","[[1, 192, 3, 66, 66], [384, 192, 3, 3, 3], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[2509056, 13068, 4356, 66, 1], [5184, 27, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",80.734130859375,80.734130859375,,80.734130859375,80.734130859375,80.734130859375,1,134157
+aten::convolution,conv2d,"(1, 384, 64, 64)","(192, 384, 3, 3)","('c10::BFloat16', 'c10::BFloat16')","(1572864, 4096, 64, 1)","(3456, 9, 3, 1)",False,"(1, 1)","(1, 1)","(1, 1)",False,"(0, 0)",1,5.435817984,5.765625,899.1219512195122,0.14109506068703814,0.14109506068703814,,0.14109506068703814,0.14109506068703814,126.8616662723652,126.8616662723652,,126.8616662723652,126.8616662723652,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.656), 'mean_duration_us': np.float64(2.656), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(2.656)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.872), 'mean_duration_us': np.float64(3.872), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.872), 'max_duration_us': np.float64(3.872)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.224), 'mean_duration_us': np.float64(4.224), 'median_duration_us': np.float64(4.224), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.224), 'max_duration_us': np.float64(4.224)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(26.08), 'mean_duration_us': np.float64(26.08), 'median_duration_us': np.float64(26.08), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(26.08), 'max_duration_us': np.float64(26.08)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.66)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.87)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.22)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(26.08)}]","[[1, 384, 64, 64], [192, 384, 3, 3], [192], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[1572864, 4096, 64, 1], [3456, 9, 3, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1']",42.848388671875,42.848388671875,,42.848388671875,42.848388671875,42.848388671875,1,134092
+aten::convolution,conv3d,"(1, 16, 126, 32, 32)","(16, 16, 1, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(2064384, 129024, 1024, 32, 1)","(16, 1, 1, 1, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,0.066060288,7.87548828125,7.999503999007997,0.526655320399838,0.526655320399838,,0.526655320399838,0.526655320399838,4.2129813416373425,4.2129813416373425,,4.2129813416373425,4.2129813416373425,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.912), 'mean_duration_us': np.float64(6.912), 'median_duration_us': np.float64(6.912), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.912), 'max_duration_us': np.float64(6.912)}, {'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8>(cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.768), 'mean_duration_us': np.float64(8.768), 'median_duration_us': np.float64(8.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.768), 'max_duration_us': np.float64(8.768)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.91)}, {'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_...', 'stream': 7, 'mean_duration_us': np.float64(8.77)}]","[[1, 16, 126, 32, 32], [16, 16, 1, 1, 1], [16], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[2064384, 129024, 1024, 32, 1], [16, 1, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",15.68017578125,15.68017578125,,15.68017578125,15.68017578125,15.68017578125,1,133431
+aten::convolution,conv3d,"(1, 192, 1, 64, 64)","(384, 192, 1, 1, 1)","('c10::BFloat16', 'c10::BFloat16')","(786432, 4096, 786432, 64, 1)","(192, 1, 1, 1, 1)",False,"(1, 1, 1)","(0, 0, 0)","(1, 1, 1)",False,"(0, 0, 0)",1,0.603979776,4.640625,124.12121212121212,0.3830370444508504,0.3830370444508504,,0.3830370444508504,0.3830370444508504,47.54302224456616,47.54302224456616,,47.54302224456616,47.54302224456616,python3,CPU,thread 10586 (python3),matrix_bf16,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.984), 'mean_duration_us': np.float64(5.984), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.984), 'max_duration_us': np.float64(5.984)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.72), 'mean_duration_us': np.float64(6.72), 'median_duration_us': np.float64(6.72), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.72), 'max_duration_us': np.float64(6.72)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.72)}]","[[1, 192, 1, 64, 64], [384, 192, 1, 1, 1], [384], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[786432, 4096, 786432, 64, 1], [192, 1, 1, 1, 1], [1], [], [], [], [], [], []]","['', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1']",12.703857421875,12.703857421875,,12.703857421875,12.703857421875,12.703857421875,1,134107
diff --git a/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/Normalization.csv b/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/Normalization.csv
index c5b92942..f8249122 100644
--- a/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/Normalization.csv
+++ b/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/Normalization.csv
@@ -1,3 +1,3 @@
 name,param: op_shape,param: dtype_in_out,param: stride_input,param: stride_output,param: num_channels,param: has_bias,param: is_affine,param: is_training,GFLOPS_first,Data Moved (MB)_first,FLOPS/Byte_first,TB/s_mean,TB/s_median,TB/s_std,TB/s_min,TB/s_max,TFLOPS/s_mean,TFLOPS/s_median,TFLOPS/s_std,TFLOPS/s_min,TFLOPS/s_max,process_name_first,process_label_first,thread_name_first,Compute Spec,kernel_details__summarize_kernel_stats,trunc_kernel_details,Input Dims_first,Input type_first,Input Strides_first,Concrete Inputs_first,Kernel Time (µs)_mean,Kernel Time (µs)_median,Kernel Time (µs)_std,Kernel Time (µs)_min,Kernel Time (µs)_max,Kernel Time (µs)_sum,name_count,UID_first
-aten::layer_norm,"(1, 32256, 1536)","('float', None)","(49545216, 1, 32256)",None,1536,True,True,True,0.247735296,378.03515625,0.6249651260113457,0.710413868062553,0.7109485391452234,0.0022861530197824938,0.7038404159591337,0.7151764444743967,0.4439838925739209,0.4443180433544766,0.0014287659100895838,0.4398757142517779,0.44696033674128743,python3,CPU,thread 10586 (python3),vector_fp32,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 910, 'total_duration_us': np.float64(365534.161), 'mean_duration_us': np.float64(401.68589120879125), 'median_duration_us': np.float64(401.66), 'std_dev_duration_us': np.float64(0.6290816210688958), 'min_duration_us': np.float64(400.22), 'max_duration_us': np.float64(403.228)}, {'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 7, 'count': 910, 'total_duration_us': np.float64(142235.282), 'mean_duration_us': np.float64(156.3025076923077), 'median_duration_us': np.float64(155.615), 'std_dev_duration_us': np.float64(2.067058532121322), 'min_duration_us': np.float64(152.286), 'max_duration_us': np.float64(161.566)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(401.69)}, {'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(156.3)}]","[[1, 32256, 1536], [], [], [], [], []]","['float', 'ScalarList', '', '', 'Scalar', 'Scalar']","[[49545216, 1, 32256], [], [], [], [], []]","['', '[1536]', '', '', '9.9999999999999995e-07', 'True']",557.9884001008757,557.56298828125,1.7978634646886646,554.266845703125,563.19384765625,507769.4440917969,910,11890
-aten::native_layer_norm,"(1, 32256, 1536)","('float', None)","(49545216, 1, 32256)",None,1536,True,True,True,0.247735296,378.03515625,0.6249651260113457,0.710413868062553,0.7109485391452234,0.0022861530197824938,0.7038404159591337,0.7151764444743967,0.4439838925739209,0.4443180433544766,0.0014287659100895838,0.4398757142517779,0.44696033674128743,python3,CPU,thread 10586 (python3),vector_fp32,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 910, 'total_duration_us': np.float64(365534.161), 'mean_duration_us': np.float64(401.68589120879125), 'median_duration_us': np.float64(401.66), 'std_dev_duration_us': np.float64(0.6290816210688958), 'min_duration_us': np.float64(400.22), 'max_duration_us': np.float64(403.228)}, {'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 7, 'count': 910, 'total_duration_us': np.float64(142235.282), 'mean_duration_us': np.float64(156.3025076923077), 'median_duration_us': np.float64(155.615), 'std_dev_duration_us': np.float64(2.067058532121322), 'min_duration_us': np.float64(152.286), 'max_duration_us': np.float64(161.566)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(401.69)}, {'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(156.3)}]","[[1, 32256, 1536], [], [], [], []]","['float', 'ScalarList', '', '', 'Scalar']","[[49545216, 1, 32256], [], [], [], []]","['', '[1536]', '', '', '9.9999999999999995e-07']",557.9884001008757,557.56298828125,1.7978634646886646,554.266845703125,563.19384765625,507769.4440917969,910,11891
+aten::layer_norm,"(1, 32256, 1536)","('float', None)","(49545216, 1, 32256)",,1536,True,True,True,0.247735296,378.03515625,0.6249651260113457,0.710413868062553,0.7109485391452234,0.0022861530197824938,0.7038404159591337,0.7151764444743967,0.4439838925739209,0.4443180433544766,0.0014287659100895838,0.4398757142517779,0.44696033674128743,python3,CPU,thread 10586 (python3),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 7, 'count': 910, 'total_duration_us': np.float64(142235.282), 'mean_duration_us': np.float64(156.3025076923077), 'median_duration_us': np.float64(155.615), 'std_dev_duration_us': np.float64(2.067058532121322), 'min_duration_us': np.float64(152.286), 'max_duration_us': np.float64(161.566)}, {'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 910, 'total_duration_us': np.float64(365534.161), 'mean_duration_us': np.float64(401.68589120879125), 'median_duration_us': np.float64(401.66), 'std_dev_duration_us': np.float64(0.6290816210688958), 'min_duration_us': np.float64(400.22), 'max_duration_us': np.float64(403.228)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(156.3)}, {'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(401.69)}]","[[1, 32256, 1536], [], [], [], [], []]","['float', 'ScalarList', '', '', 'Scalar', 'Scalar']","[[49545216, 1, 32256], [], [], [], [], []]","['', '[1536]', '', '', '9.9999999999999995e-07', 'True']",557.9884001008757,557.56298828125,1.7978634646886646,554.266845703125,563.19384765625,507769.4440917969,910,11890
+aten::native_layer_norm,"(1, 32256, 1536)","('float', None)","(49545216, 1, 32256)",,1536,True,True,True,0.247735296,378.03515625,0.6249651260113457,0.710413868062553,0.7109485391452234,0.0022861530197824938,0.7038404159591337,0.7151764444743967,0.4439838925739209,0.4443180433544766,0.0014287659100895838,0.4398757142517779,0.44696033674128743,python3,CPU,thread 10586 (python3),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 7, 'count': 910, 'total_duration_us': np.float64(142235.282), 'mean_duration_us': np.float64(156.3025076923077), 'median_duration_us': np.float64(155.615), 'std_dev_duration_us': np.float64(2.067058532121322), 'min_duration_us': np.float64(152.286), 'max_duration_us': np.float64(161.566)}, {'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 910, 'total_duration_us': np.float64(365534.161), 'mean_duration_us': np.float64(401.68589120879125), 'median_duration_us': np.float64(401.66), 'std_dev_duration_us': np.float64(0.6290816210688958), 'min_duration_us': np.float64(400.22), 'max_duration_us': np.float64(403.228)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(156.3)}, {'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(401.69)}]","[[1, 32256, 1536], [], [], [], []]","['float', 'ScalarList', '', '', 'Scalar']","[[49545216, 1, 32256], [], [], [], []]","['', '[1536]', '', '', '9.9999999999999995e-07']",557.9884001008757,557.56298828125,1.7978634646886646,554.266845703125,563.19384765625,507769.4440917969,910,11891
diff --git a/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/ops_unique_args.csv b/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/ops_unique_args.csv
index b48e134b..4fe83c39 100644
--- a/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/ops_unique_args.csv
+++ b/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/ops_unique_args.csv
@@ -4,15 +4,15 @@ aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((1536,), (32256, 1536), (1
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('float', 'float', 'Scalar')","((49545216, 1536, 1), (49545216, 1, 32256), ())","('', '', 'False')",910,401.6858924278846,401.6858924278846,401.659912109375,401.659912109375,0.6294250354039431,0.6294250354039431,400.219970703125,400.219970703125,403.22802734375,403.22802734375,365534.162109375,365534.162109375,11896,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 910, 'total_duration_us': np.float64(365534.161), 'mean_duration_us': np.float64(401.68589120879125), 'median_duration_us': np.float64(401.66), 'std_dev_duration_us': np.float64(0.6290816210688958), 'min_duration_us': np.float64(400.22), 'max_duration_us': np.float64(403.228)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(401.69)}]",3.156194249804388,52.33249721389973
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((8960,), (32256, 1536), (1536, 8960), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (1536, 1), (1, 1536), (), ())","('', '', '', '1', '1')",300,1149.8357413736978,1149.8357413736978,1148.3740234375,1148.3740234375,23.43479543431236,23.43479543431236,1143.60595703125,1143.60595703125,1553.264892578125,1553.264892578125,344950.7224121094,344950.7224121094,12226,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(284.666), 'mean_duration_us': np.float64(0.9488866666666667), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.21814426531286327), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.536)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(344666.045), 'mean_duration_us': np.float64(1148.8868166666666), 'median_duration_us': np.float64(1147.4615), 'std_dev_duration_us': np.float64(23.393421280844223), 'min_duration_us': np.float64(1142.646), 'max_duration_us': np.float64(1552.273)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.95)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(1148.89)}]",2.9784671294750265,55.310964343374756
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((1536,), (32256, 8960), (8960, 1536), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (8960, 1), (1, 8960), (), ())","('', '', '', '1', '1')",300,1122.0115462239582,1122.0115462239582,1121.8140869140625,1121.8140869140625,1.9930724283064778,1.9930724283064778,1115.926025390625,1115.926025390625,1129.302001953125,1129.302001953125,336603.4638671875,336603.4638671875,12237,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(283.045), 'mean_duration_us': np.float64(0.9434833333333333), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.20174815089335738), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.6)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize256x128x64_warpgroupsize2x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(336320.40800000005), 'mean_duration_us': np.float64(1121.0680266666668), 'median_duration_us': np.float64(1120.854), 'std_dev_duration_us': np.float64(1.9656534280714149), 'min_duration_us': np.float64(1115.222), 'max_duration_us': np.float64(1128.246)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.94)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize256x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(1121.07)}]",2.9063929647264253,58.217357308101185
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 6, 258, 258), (96, 96, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((38340864, 399384, 66564, 258, 1), (2592, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",750,374.30270768229167,374.30270768229167,374.3494873046875,374.3494873046875,0.9597801902552193,0.9597801902552193,370.972900390625,370.972900390625,377.0849609375,377.0849609375,280727.03076171875,280727.03076171875,137095,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(62149.172999999995), 'mean_duration_us': np.float64(82.86556399999999), 'median_duration_us': np.float64(82.88), 'std_dev_duration_us': np.float64(0.46354650026076166), 'min_duration_us': np.float64(81.344), 'max_duration_us': np.float64(83.808)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(2586.933), 'mean_duration_us': np.float64(3.449244), 'median_duration_us': np.float64(3.424), 'std_dev_duration_us': np.float64(0.1322517112579897), 'min_duration_us': np.float64(3.231), 'max_duration_us': np.float64(4.16)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(721.184), 'mean_duration_us': np.float64(0.9615786666666666), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.20368544657115023), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.535)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(177480.581), 'mean_duration_us': np.float64(236.6407746666667), 'median_duration_us': np.float64(236.638), 'std_dev_duration_us': np.float64(0.7877751717494584), 'min_duration_us': np.float64(233.822), 'max_duration_us': np.float64(239.39)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(37789.115000000005), 'mean_duration_us': np.float64(50.38548666666667), 'median_duration_us': np.float64(50.336), 'std_dev_duration_us': np.float64(0.3434009888680517), 'min_duration_us': np.float64(49.664), 'max_duration_us': np.float64(51.456)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.87)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.45)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(236.64)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.39)}]",2.423929503994428,60.641286812095615
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 6, 258, 258), (96, 96, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((38340864, 399384, 66564, 258, 1), (2592, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",750,374.30270768229167,374.30270768229167,374.3494873046875,374.3494873046875,0.9597801902552193,0.9597801902552193,370.972900390625,370.972900390625,377.0849609375,377.0849609375,280727.03076171875,280727.03076171875,137095,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(721.184), 'mean_duration_us': np.float64(0.9615786666666666), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.20368544657115023), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.535)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(2586.933), 'mean_duration_us': np.float64(3.449244), 'median_duration_us': np.float64(3.424), 'std_dev_duration_us': np.float64(0.1322517112579897), 'min_duration_us': np.float64(3.231), 'max_duration_us': np.float64(4.16)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(37789.115000000005), 'mean_duration_us': np.float64(50.38548666666667), 'median_duration_us': np.float64(50.336), 'std_dev_duration_us': np.float64(0.3434009888680517), 'min_duration_us': np.float64(49.664), 'max_duration_us': np.float64(51.456)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(62149.172999999995), 'mean_duration_us': np.float64(82.86556399999999), 'median_duration_us': np.float64(82.88), 'std_dev_duration_us': np.float64(0.46354650026076166), 'min_duration_us': np.float64(81.344), 'max_duration_us': np.float64(83.808)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(177480.581), 'mean_duration_us': np.float64(236.6407746666667), 'median_duration_us': np.float64(236.638), 'std_dev_duration_us': np.float64(0.7877751717494584), 'min_duration_us': np.float64(233.822), 'max_duration_us': np.float64(239.39)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.45)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.39)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.87)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(236.64)}]",2.423929503994428,60.641286812095615
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('float', 'float', 'Scalar')","((49545216, 1, 32256), (49545216, 1536, 1), ())","('', '', '1')",600,434.1080045572917,434.1080045572917,434.011962890625,434.011962890625,0.8663701575617777,0.8663701575617777,431.804931640625,431.804931640625,436.444091796875,436.444091796875,260464.802734375,260464.802734375,12052,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<float> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<float> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float> const&)::{lambda(int)#1})', 'stream': 7, 'count': 600, 'total_duration_us': np.float64(260464.80200000003), 'mean_duration_us': np.float64(434.1080033333334), 'median_duration_us': np.float64(434.012), 'std_dev_duration_us': np.float64(0.8656460304240348), 'min_duration_us': np.float64(431.805), 'max_duration_us': np.float64(436.444)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(434.11)}]",2.248975876625963,62.89026268872158
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('float', 'c10::BFloat16', 'Scalar')","((49545216, 1, 32256), (49545216, 1, 32256), ())","('', '', 'False')",1510,153.72073303626863,153.72073303626863,153.6785888671875,153.6785888671875,1.0259995853644428,1.0259995853644428,150.590087890625,150.590087890625,156.669921875,156.669921875,232118.30688476562,232118.30688476562,11888,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 1510, 'total_duration_us': np.float64(232118.304), 'mean_duration_us': np.float64(153.72073112582783), 'median_duration_us': np.float64(153.67849999999999), 'std_dev_duration_us': np.float64(1.0256629543464066), 'min_duration_us': np.float64(150.59), 'max_duration_us': np.float64(156.67)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(153.72)}]",2.0042188703687183,64.8944815590903
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 6, 130, 130), (192, 192, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((19468800, 101400, 16900, 130, 1), (5184, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",750,307.22956477864585,307.22956477864585,307.1488037109375,307.1488037109375,2.069333097438116,2.069333097438116,301.8212890625,301.8212890625,315.676025390625,315.676025390625,230422.17358398438,230422.17358398438,136706,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(29195.826999999997), 'mean_duration_us': np.float64(38.92776933333333), 'median_duration_us': np.float64(38.815), 'std_dev_duration_us': np.float64(0.3583380993692351), 'min_duration_us': np.float64(38.304), 'max_duration_us': np.float64(39.84)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(3685.314), 'mean_duration_us': np.float64(4.913752), 'median_duration_us': np.float64(4.896), 'std_dev_duration_us': np.float64(0.14547149032026865), 'min_duration_us': np.float64(4.64), 'max_duration_us': np.float64(5.664)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(726.1790000000001), 'mean_duration_us': np.float64(0.9682386666666668), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.2008908701382143), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.568)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(178017.588), 'mean_duration_us': np.float64(237.35678399999998), 'median_duration_us': np.float64(237.19799999999998), 'std_dev_duration_us': np.float64(2.040857747454241), 'min_duration_us': np.float64(231.614), 'max_duration_us': np.float64(245.054)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(18797.244), 'mean_duration_us': np.float64(25.062991999999998), 'median_duration_us': np.float64(25.024), 'std_dev_duration_us': np.float64(0.21605943611886072), 'min_duration_us': np.float64(24.639), 'max_duration_us': np.float64(25.951)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(38.93)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.91)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.97)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(237.36)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.06)}]",1.9895736559790829,66.88405521506938
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 6, 130, 130), (192, 192, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((19468800, 101400, 16900, 130, 1), (5184, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",750,307.22956477864585,307.22956477864585,307.1488037109375,307.1488037109375,2.069333097438116,2.069333097438116,301.8212890625,301.8212890625,315.676025390625,315.676025390625,230422.17358398438,230422.17358398438,136706,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(726.1790000000001), 'mean_duration_us': np.float64(0.9682386666666668), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.2008908701382143), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.568)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(3685.314), 'mean_duration_us': np.float64(4.913752), 'median_duration_us': np.float64(4.896), 'std_dev_duration_us': np.float64(0.14547149032026865), 'min_duration_us': np.float64(4.64), 'max_duration_us': np.float64(5.664)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(18797.244), 'mean_duration_us': np.float64(25.062991999999998), 'median_duration_us': np.float64(25.024), 'std_dev_duration_us': np.float64(0.21605943611886072), 'min_duration_us': np.float64(24.639), 'max_duration_us': np.float64(25.951)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(29195.826999999997), 'mean_duration_us': np.float64(38.92776933333333), 'median_duration_us': np.float64(38.815), 'std_dev_duration_us': np.float64(0.3583380993692351), 'min_duration_us': np.float64(38.304), 'max_duration_us': np.float64(39.84)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(178017.588), 'mean_duration_us': np.float64(237.35678399999998), 'median_duration_us': np.float64(237.19799999999998), 'std_dev_duration_us': np.float64(2.040857747454241), 'min_duration_us': np.float64(231.614), 'max_duration_us': np.float64(245.054)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.97)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.91)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.06)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(38.93)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(237.36)}]",1.9895736559790829,66.88405521506938
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1))","('c10::BFloat16', 'float')","((49545216, 1536, 1), (32256, 1, 1))","('', '')",900,211.56048800998263,211.56048800998263,211.22998046875,211.22998046875,1.41708557964542,1.41708557964542,207.58203125,207.58203125,218.27001953125,218.27001953125,190404.43920898438,190404.43920898438,11948,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 900, 'total_duration_us': np.float64(190404.43699999998), 'mean_duration_us': np.float64(211.56048555555552), 'median_duration_us': np.float64(211.23), 'std_dev_duration_us': np.float64(1.416302213046441), 'min_duration_us': np.float64(207.582), 'max_duration_us': np.float64(218.27)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(211.56)}]",1.6440416750673186,68.5280968901367
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('float', 'c10::BFloat16', 'Scalar')","((49545216, 1536, 1), (49545216, 1536, 1), ())","('', '', 'False')",1200,154.09189880371093,154.09189880371093,154.111083984375,154.111083984375,0.8825984384059727,0.8825984384059727,151.389892578125,151.389892578125,158.077880859375,158.077880859375,184910.27856445312,184910.27856445312,11941,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 1200, 'total_duration_us': np.float64(184910.277), 'mean_duration_us': np.float64(154.0918975), 'median_duration_us': np.float64(154.111), 'std_dev_duration_us': np.float64(0.882229499805511), 'min_duration_us': np.float64(151.39), 'max_duration_us': np.float64(158.078)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(154.09)}]",1.5966025023954562,70.12469939253215
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('c10::BFloat16', 'float', 'Scalar')","((49545216, 1536, 1), (49545216, 1536, 1), ())","('', '', 'False')",1810,98.09064577218578,98.09064577218578,98.111083984375,98.111083984375,0.7850619200928944,0.7850619200928944,95.678955078125,95.678955078125,99.87109375,99.87109375,177544.06884765625,177544.06884765625,11910,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1810, 'total_duration_us': np.float64(177544.068), 'mean_duration_us': np.float64(98.0906453038674), 'median_duration_us': np.float64(98.111), 'std_dev_duration_us': np.float64(0.7848435584288297), 'min_duration_us': np.float64(95.679), 'max_duration_us': np.float64(99.871)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(98.09)}]",1.5329991756452443,71.6576985681774
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 12, 32256, 64), (1, 1, 32256, 64))","('c10::complex<double>', 'c10::complex<double>')","((768, 64, 768, 1), (2064384, 2064384, 64, 1))","('', '')",600,275.05537068684896,275.05537068684896,275.22998046875,275.22998046875,0.5974514721109113,0.5974514721109113,273.694091796875,273.694091796875,276.318115234375,276.318115234375,165033.22241210938,165033.22241210938,11989,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::complex<double>, c10::complex<double>, c10::complex<double>, at::native::binary_internal::MulFunctor<c10::complex<double> > > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::complex<double>, c10::complex<double>, c10::complex<double>, at::native::binary_internal::MulFunctor<c10::complex<double> > > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::complex<double>, c10::complex<double>, c10::complex<double>, at::native::binary_internal::MulFunctor<c10::complex<double> > > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::complex<double>, c10::complex<double>, c10::complex<double>, at::native::binary_internal::MulFunctor<c10::complex<double> > > const&)::{lambda(int)#1})', 'stream': 7, 'count': 600, 'total_duration_us': np.float64(165033.221), 'mean_duration_us': np.float64(275.0553683333333), 'median_duration_us': np.float64(275.23), 'std_dev_duration_us': np.float64(0.5969574071885038), 'min_duration_us': np.float64(273.694), 'max_duration_us': np.float64(276.318)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(275.06)}]",1.4249746305461093,73.0826731987235
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 4, 66, 66), (384, 384, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((6690816, 17424, 4356, 66, 1), (10368, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",625,239.79539765625,239.79539765625,239.677978515625,239.677978515625,6.316126831568792,6.316126831568792,220.9580078125,220.9580078125,259.323974609375,259.323974609375,149872.12353515625,149872.12353515625,136316,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6494.4400000000005), 'mean_duration_us': np.float64(10.391104), 'median_duration_us': np.float64(10.368), 'std_dev_duration_us': np.float64(0.1370308592398078), 'min_duration_us': np.float64(10.08), 'max_duration_us': np.float64(10.944)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6743.719000000001), 'mean_duration_us': np.float64(10.789950400000002), 'median_duration_us': np.float64(10.783), 'std_dev_duration_us': np.float64(0.157450667638597), 'min_duration_us': np.float64(10.399), 'max_duration_us': np.float64(11.551)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(600.2610000000001), 'mean_duration_us': np.float64(0.9604176000000001), 'median_duration_us': np.float64(0.991), 'std_dev_duration_us': np.float64(0.19863821991308722), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.664)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(132142.75799999997), 'mean_duration_us': np.float64(211.42841279999996), 'median_duration_us': np.float64(211.326), 'std_dev_duration_us': np.float64(6.328508274846147), 'min_duration_us': np.float64(192.127), 'max_duration_us': np.float64(230.813)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(3890.9410000000003), 'mean_duration_us': np.float64(6.2255056), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.16895054059883918), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(6.72)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.39)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.79)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(211.43)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.23)}]",1.294066556674105,74.37673975539761
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 4, 66, 66), (384, 384, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((6690816, 17424, 4356, 66, 1), (10368, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",625,239.79539765625,239.79539765625,239.677978515625,239.677978515625,6.316126831568792,6.316126831568792,220.9580078125,220.9580078125,259.323974609375,259.323974609375,149872.12353515625,149872.12353515625,136316,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(600.2610000000001), 'mean_duration_us': np.float64(0.9604176000000001), 'median_duration_us': np.float64(0.991), 'std_dev_duration_us': np.float64(0.19863821991308722), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.664)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(3890.9410000000003), 'mean_duration_us': np.float64(6.2255056), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.16895054059883918), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(6.72)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6494.4400000000005), 'mean_duration_us': np.float64(10.391104), 'median_duration_us': np.float64(10.368), 'std_dev_duration_us': np.float64(0.1370308592398078), 'min_duration_us': np.float64(10.08), 'max_duration_us': np.float64(10.944)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6743.719000000001), 'mean_duration_us': np.float64(10.789950400000002), 'median_duration_us': np.float64(10.783), 'std_dev_duration_us': np.float64(0.157450667638597), 'min_duration_us': np.float64(10.399), 'max_duration_us': np.float64(11.551)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(132142.75799999997), 'mean_duration_us': np.float64(211.42841279999996), 'median_duration_us': np.float64(211.326), 'std_dev_duration_us': np.float64(6.328508274846147), 'min_duration_us': np.float64(192.127), 'max_duration_us': np.float64(230.813)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.23)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.39)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.79)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(211.43)}]",1.294066556674105,74.37673975539761
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 12, 32256, 128), (1, 12, 32256, 128), ())","('double', 'c10::BFloat16', 'Scalar')","((49545216, 128, 1536, 1), (49545216, 128, 1536, 1), ())","('', '', 'False')",600,245.51206787109376,245.51206787109376,245.43798828125,245.43798828125,0.924904015835969,0.924904015835969,242.845947265625,242.845947265625,249.597900390625,249.597900390625,147307.24072265625,147307.24072265625,11985,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#6}::operator()() const::{lambda(double)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#6}::operator()() const::{lambda(double)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 600, 'total_duration_us': np.float64(147307.239), 'mean_duration_us': np.float64(245.512065), 'median_duration_us': np.float64(245.438), 'std_dev_duration_us': np.float64(0.9241347362668503), 'min_duration_us': np.float64(242.846), 'max_duration_us': np.float64(249.598)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(245.51)}]",1.2719201495160994,75.64865990491371
 aten::gelu,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 8960), ())","('c10::BFloat16', '')","((289013760, 8960, 1), ())","('', '')",300,456.7545027669271,456.7545027669271,457.29150390625,457.29150390625,4.18224362913537,4.18224362913537,441.051025390625,441.051025390625,467.35595703125,467.35595703125,137026.35083007812,137026.35083007812,12229,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(137026.34999999998), 'mean_duration_us': np.float64(456.75449999999995), 'median_duration_us': np.float64(457.2915), 'std_dev_duration_us': np.float64(4.175269277144491), 'min_duration_us': np.float64(441.051), 'max_duration_us': np.float64(467.356)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Ge...', 'stream': 7, 'mean_duration_us': np.float64(456.75)}]",1.1831501002966838,76.8318100052104
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((49545216, 1, 32256), (49545216, 1536, 1), ())","('', '', '1')",300,404.2761181640625,404.2761181640625,403.9486083984375,403.9486083984375,1.199405667017406,1.199405667017406,401.468994140625,401.468994140625,406.4609375,406.4609375,121282.83544921875,121282.83544921875,12193,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(121282.83500000002), 'mean_duration_us': np.float64(404.2761166666667), 'median_duration_us': np.float64(403.94849999999997), 'std_dev_duration_us': np.float64(1.1974009394192997), 'min_duration_us': np.float64(401.469), 'max_duration_us': np.float64(406.461)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(404.28)}]",1.0472131678085317,77.87902317301894
@@ -27,10 +27,10 @@ aten::native_layer_norm,NORM_fwd,python3,CPU,thread 10586 (python3),"((1, 32256,
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 6, 256, 256), (1, 96, 6, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((38340864, 399384, 66564, 258, 1), (37748736, 393216, 65536, 256, 1), ())","('', '', 'False')",868,106.201416859429,106.201416859429,106.175048828125,106.175048828125,0.24370126975100181,0.24370126975100181,105.597900390625,105.597900390625,107.39111328125,107.39111328125,92182.82983398438,92182.82983398438,139371,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 868, 'total_duration_us': np.float64(92182.826), 'mean_duration_us': np.float64(106.20141244239632), 'median_duration_us': np.float64(106.175), 'std_dev_duration_us': np.float64(0.2435553248252166), 'min_duration_us': np.float64(105.598), 'max_duration_us': np.float64(107.391)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(106.2)}]",0.7959500030688262,85.93391665344836
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 96, 2, 256, 256), (1, 96, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((12582912, 131072, 65536, 256, 1), (25165824, 262144, 65536, 256, 1)), ())","('', '2')",744,101.31975858954974,101.31975858954974,101.31103515625,101.31103515625,0.3151894966770076,0.3151894966770076,100.1591796875,100.1591796875,102.55908203125,102.55908203125,75381.900390625,75381.900390625,139405,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(26078.028000000002), 'mean_duration_us': np.float64(35.05111290322581), 'median_duration_us': np.float64(34.848), 'std_dev_duration_us': np.float64(0.41360644785166834), 'min_duration_us': np.float64(34.367), 'max_duration_us': np.float64(36.031)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(49303.873999999996), 'mean_duration_us': np.float64(66.26864784946235), 'median_duration_us': np.float64(66.368), 'std_dev_duration_us': np.float64(0.3622605655986425), 'min_duration_us': np.float64(65.343), 'max_duration_us': np.float64(67.167)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(35.05)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(66.27)}]",0.6508828591540166,86.58479951260239
 aten::mean,reduce,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (), (), ())","('float', 'ScalarList', 'Scalar', '')","((49545216, 1536, 1), (), (), ())","('', '[-1]', 'True', '')",900,78.20252522786458,78.20252522786458,78.39892578125,78.39892578125,0.6377835819094839,0.6377835819094839,76.47998046875,76.47998046875,79.77587890625,79.77587890625,70382.27270507812,70382.27270507812,11945,"[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4> >(at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4>)', 'stream': 7, 'count': 900, 'total_duration_us': np.float64(70382.272), 'mean_duration_us': np.float64(78.20252444444444), 'median_duration_us': np.float64(78.399), 'std_dev_duration_us': np.float64(0.6374313683860161), 'min_duration_us': np.float64(76.48), 'max_duration_us': np.float64(79.776)}]","[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<floa...', 'stream': 7, 'mean_duration_us': np.float64(78.2)}]",0.6077137171476279,87.19251322975002
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 34, 34), (384, 384, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((1331712, 3468, 1156, 34, 1), (10368, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",1260,51.05858774336558,51.05858774336558,51.071044921875,51.071044921875,0.5411801204843069,0.5411801204843069,47.262939453125,47.262939453125,52.734130859375,52.734130859375,64333.820556640625,64333.820556640625,133534,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4533.608), 'mean_duration_us': np.float64(3.5981015873015876), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.036745856011098886), 'min_duration_us': np.float64(3.519), 'max_duration_us': np.float64(3.713)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(12770.155), 'mean_duration_us': np.float64(10.135043650793651), 'median_duration_us': np.float64(10.08), 'std_dev_duration_us': np.float64(0.21867246761905867), 'min_duration_us': np.float64(9.664), 'max_duration_us': np.float64(11.199)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(43835.218), 'mean_duration_us': np.float64(34.789855555555555), 'median_duration_us': np.float64(34.816), 'std_dev_duration_us': np.float64(0.5068618262227237), 'min_duration_us': np.float64(31.199), 'max_duration_us': np.float64(36.352)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(3194.8049999999994), 'mean_duration_us': np.float64(2.5355595238095234), 'median_duration_us': np.float64(2.528), 'std_dev_duration_us': np.float64(0.07527902876101565), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.817)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.6)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.14)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(34.79)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.54)}]",0.5554885303663079,87.74800176011632
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 34, 34), (384, 384, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((1331712, 3468, 1156, 34, 1), (10368, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",1260,51.05858774336558,51.05858774336558,51.071044921875,51.071044921875,0.5411801204843069,0.5411801204843069,47.262939453125,47.262939453125,52.734130859375,52.734130859375,64333.820556640625,64333.820556640625,133534,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(3194.8049999999994), 'mean_duration_us': np.float64(2.5355595238095234), 'median_duration_us': np.float64(2.528), 'std_dev_duration_us': np.float64(0.07527902876101565), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.817)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4533.608), 'mean_duration_us': np.float64(3.5981015873015876), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.036745856011098886), 'min_duration_us': np.float64(3.519), 'max_duration_us': np.float64(3.713)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(12770.155), 'mean_duration_us': np.float64(10.135043650793651), 'median_duration_us': np.float64(10.08), 'std_dev_duration_us': np.float64(0.21867246761905867), 'min_duration_us': np.float64(9.664), 'max_duration_us': np.float64(11.199)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(43835.218), 'mean_duration_us': np.float64(34.789855555555555), 'median_duration_us': np.float64(34.816), 'std_dev_duration_us': np.float64(0.5068618262227237), 'min_duration_us': np.float64(31.199), 'max_duration_us': np.float64(36.352)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.54)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.6)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.14)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(34.79)}]",0.5554885303663079,87.74800176011632
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 1, 1536))","('c10::BFloat16', 'float')","((49545216, 1536, 1), (9216, 1536, 1))","('', '')",300,213.8973543294271,213.8973543294271,213.694091796875,213.694091796875,1.312406445133598,1.312406445133598,209.98193359375,209.98193359375,218.68603515625,218.68603515625,64169.206298828125,64169.206298828125,12051,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(64169.207), 'mean_duration_us': np.float64(213.89735666666667), 'median_duration_us': np.float64(213.694), 'std_dev_duration_us': np.float64(1.3102123731627975), 'min_duration_us': np.float64(209.982), 'max_duration_us': np.float64(218.686)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(213.9)}]",0.5540671732735933,88.30206893338992
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((4, 384, 128, 128), (192, 384, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((6291456, 16384, 128, 1), (3456, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",125,471.0584140625,471.0584140625,471.421142578125,471.421142578125,5.754394726478969,5.754394726478969,458.8759765625,458.8759765625,487.738037109375,487.738037109375,58882.3017578125,58882.3017578125,136645,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(5993.478000000001), 'mean_duration_us': np.float64(47.94782400000001), 'median_duration_us': np.float64(47.808), 'std_dev_duration_us': np.float64(0.5438342551035189), 'min_duration_us': np.float64(47.039), 'max_duration_us': np.float64(49.248)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(791.1539999999999), 'mean_duration_us': np.float64(6.329231999999999), 'median_duration_us': np.float64(6.272), 'std_dev_duration_us': np.float64(0.23541857653124995), 'min_duration_us': np.float64(6.08), 'max_duration_us': np.float64(7.424)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.383), 'mean_duration_us': np.float64(0.9630639999999999), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.19605047284819285), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.44)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(48729.125), 'mean_duration_us': np.float64(389.833), 'median_duration_us': np.float64(390.141), 'std_dev_duration_us': np.float64(5.700758677930507), 'min_duration_us': np.float64(376.861), 'max_duration_us': np.float64(405.852)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(3248.1550000000007), 'mean_duration_us': np.float64(25.985240000000005), 'median_duration_us': np.float64(25.951), 'std_dev_duration_us': np.float64(0.25695183673209965), 'min_duration_us': np.float64(25.375), 'max_duration_us': np.float64(26.719)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(47.95)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.33)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(389.83)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.99)}]",0.5084175474894367,88.81048648087936
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((4, 192, 256, 256), (96, 192, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((12582912, 65536, 256, 1), (1728, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",125,467.434029296875,467.434029296875,467.5478515625,467.5478515625,1.0307705001159841,1.0307705001159841,463.80419921875,463.80419921875,470.33203125,470.33203125,58429.253662109375,58429.253662109375,137034,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(11688.209), 'mean_duration_us': np.float64(93.505672), 'median_duration_us': np.float64(93.535), 'std_dev_duration_us': np.float64(0.44195545071420866), 'min_duration_us': np.float64(91.999), 'max_duration_us': np.float64(94.335)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.846), 'mean_duration_us': np.float64(3.342768), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.09118966046652441), 'min_duration_us': np.float64(3.168), 'max_duration_us': np.float64(3.776)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(40031.989), 'mean_duration_us': np.float64(320.255912), 'median_duration_us': np.float64(320.349), 'std_dev_duration_us': np.float64(0.8807170262098912), 'min_duration_us': np.float64(317.213), 'max_duration_us': np.float64(321.981)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6291.21), 'mean_duration_us': np.float64(50.32968), 'median_duration_us': np.float64(50.271), 'std_dev_duration_us': np.float64(0.3359084303794716), 'min_duration_us': np.float64(49.728), 'max_duration_us': np.float64(51.04)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(93.51)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(320.26)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.33)}]",0.5045057166873811,89.31499219756674
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((4, 384, 128, 128), (192, 384, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((6291456, 16384, 128, 1), (3456, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",125,471.0584140625,471.0584140625,471.421142578125,471.421142578125,5.754394726478969,5.754394726478969,458.8759765625,458.8759765625,487.738037109375,487.738037109375,58882.3017578125,58882.3017578125,136645,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.383), 'mean_duration_us': np.float64(0.9630639999999999), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.19605047284819285), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.44)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(791.1539999999999), 'mean_duration_us': np.float64(6.329231999999999), 'median_duration_us': np.float64(6.272), 'std_dev_duration_us': np.float64(0.23541857653124995), 'min_duration_us': np.float64(6.08), 'max_duration_us': np.float64(7.424)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(3248.1550000000007), 'mean_duration_us': np.float64(25.985240000000005), 'median_duration_us': np.float64(25.951), 'std_dev_duration_us': np.float64(0.25695183673209965), 'min_duration_us': np.float64(25.375), 'max_duration_us': np.float64(26.719)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(5993.478000000001), 'mean_duration_us': np.float64(47.94782400000001), 'median_duration_us': np.float64(47.808), 'std_dev_duration_us': np.float64(0.5438342551035189), 'min_duration_us': np.float64(47.039), 'max_duration_us': np.float64(49.248)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(48729.125), 'mean_duration_us': np.float64(389.833), 'median_duration_us': np.float64(390.141), 'std_dev_duration_us': np.float64(5.700758677930507), 'min_duration_us': np.float64(376.861), 'max_duration_us': np.float64(405.852)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.33)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.99)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(47.95)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(389.83)}]",0.5084175474894367,88.81048648087936
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((4, 192, 256, 256), (96, 192, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((12582912, 65536, 256, 1), (1728, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",125,467.434029296875,467.434029296875,467.5478515625,467.5478515625,1.0307705001159841,1.0307705001159841,463.80419921875,463.80419921875,470.33203125,470.33203125,58429.253662109375,58429.253662109375,137034,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.846), 'mean_duration_us': np.float64(3.342768), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.09118966046652441), 'min_duration_us': np.float64(3.168), 'max_duration_us': np.float64(3.776)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6291.21), 'mean_duration_us': np.float64(50.32968), 'median_duration_us': np.float64(50.271), 'std_dev_duration_us': np.float64(0.3359084303794716), 'min_duration_us': np.float64(49.728), 'max_duration_us': np.float64(51.04)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(11688.209), 'mean_duration_us': np.float64(93.505672), 'median_duration_us': np.float64(93.535), 'std_dev_duration_us': np.float64(0.44195545071420866), 'min_duration_us': np.float64(91.999), 'max_duration_us': np.float64(94.335)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(40031.989), 'mean_duration_us': np.float64(320.255912), 'median_duration_us': np.float64(320.349), 'std_dev_duration_us': np.float64(0.8807170262098912), 'min_duration_us': np.float64(317.213), 'max_duration_us': np.float64(321.981)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.33)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(93.51)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(320.26)}]",0.5045057166873811,89.31499219756674
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (1, 96, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((25165824, 262144, 65536, 256, 1), (96, 1, 1, 1, 1), ())","('', '', '1')",750,76.94016927083334,76.94016927083334,76.990966796875,76.990966796875,0.33466170892345654,0.33466170892345654,75.93505859375,75.93505859375,77.9189453125,77.9189453125,57705.126953125,57705.126953125,137098,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(57705.129), 'mean_duration_us': np.float64(76.940172), 'median_duration_us': np.float64(76.991), 'std_dev_duration_us': np.float64(0.33444091219426697), 'min_duration_us': np.float64(75.935), 'max_duration_us': np.float64(77.919)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(76.94)}]",0.4982532653656291,89.81324546293237
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('c10::BFloat16', 'float', 'Scalar')","((49545216, 1, 32256), (49545216, 1, 32256), ())","('', '', 'False')",600,94.08154256184896,94.08154256184896,94.111083984375,94.111083984375,0.4750764834872682,0.4750764834872682,92.510986328125,92.510986328125,95.262939453125,95.262939453125,56448.925537109375,56448.925537109375,12057,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 600, 'total_duration_us': np.float64(56448.924), 'mean_duration_us': np.float64(94.08154), 'median_duration_us': np.float64(94.111), 'std_dev_duration_us': np.float64(0.4746818882858989), 'min_duration_us': np.float64(92.511), 'max_duration_us': np.float64(95.263)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(94.08)}]",0.48740663023050246,90.30065209316288
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (1, 96, 4, 256, 256))","('c10::BFloat16', 'c10::BFloat16')","((25165824, 262144, 65536, 256, 1), (262144, 0, 65536, 256, 1))","('', '')",750,70.83856315104167,70.83856315104167,70.81494140625,70.81494140625,0.4332707878208309,0.4332707878208309,69.887939453125,69.887939453125,71.8720703125,71.8720703125,53128.92236328125,53128.92236328125,137104,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(53128.925), 'mean_duration_us': np.float64(70.83856666666667), 'median_duration_us': np.float64(70.815), 'std_dev_duration_us': np.float64(0.43298778145449923), 'min_duration_us': np.float64(69.888), 'max_duration_us': np.float64(71.872)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(70.84)}]",0.4587401579475828,90.75939225111047
@@ -38,7 +38,7 @@ aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256),
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 1, 1536))","('float', 'float')","((49545216, 1536, 1), (9216, 1536, 1))","('', '')",300,167.49185302734375,167.49185302734375,167.550537109375,167.550537109375,0.6091109088561037,0.6091109088561037,165.98193359375,165.98193359375,169.3740234375,169.3740234375,50247.555908203125,50247.555908203125,12248,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(50247.55500000001), 'mean_duration_us': np.float64(167.49185000000003), 'median_duration_us': np.float64(167.5505), 'std_dev_duration_us': np.float64(0.6080943793250078), 'min_duration_us': np.float64(165.982), 'max_duration_us': np.float64(169.374)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(167.49)}]",0.43386108184531774,91.64213874698854
 aten::native_layer_norm,NORM_fwd,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (), (1536,), (1536,), ())","('float', 'ScalarList', 'float', 'float', 'Scalar')","((49545216, 1, 32256), (), (1,), (1,), ())","('', '[1536]', '', '', '9.9999999999999995e-07')",300,158.97321940104166,560.1080590820312,158.910888671875,560.057861328125,0.7493262640139577,0.9549584374165081,157.0859375,557.850830078125,161.56591796875,563.19384765625,47691.9658203125,168032.41772460938,12072,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(47691.966), 'mean_duration_us': np.float64(158.97322), 'median_duration_us': np.float64(158.911), 'std_dev_duration_us': np.float64(0.7480740771697236), 'min_duration_us': np.float64(157.086), 'max_duration_us': np.float64(161.566)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(158.97)}]",0.4117949124517058,92.05393365944025
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 6, 128, 128), (1, 192, 6, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19468800, 101400, 16900, 130, 1), (18874368, 98304, 16384, 128, 1), ())","('', '', 'False')",744,57.27377417779738,57.27377417779738,57.31201171875,57.31201171875,0.3927322057546129,0.3927322057546129,56.2548828125,56.2548828125,58.175048828125,58.175048828125,42611.68798828125,42611.68798828125,139000,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(42611.688), 'mean_duration_us': np.float64(57.27377419354839), 'median_duration_us': np.float64(57.312), 'std_dev_duration_us': np.float64(0.39246634343835934), 'min_duration_us': np.float64(56.255), 'max_duration_us': np.float64(58.175)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(57.27)}]",0.3679293990662074,92.42186305850646
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 6, 258, 258), (3, 96, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((38340864, 399384, 66564, 258, 1), (2592, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",125,311.999939453125,311.999939453125,311.870849609375,311.870849609375,1.5623363152739715,1.5623363152739715,308.06005859375,308.06005859375,316.701171875,316.701171875,38999.992431640625,38999.992431640625,137455,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10334.655999999999), 'mean_duration_us': np.float64(82.67724799999999), 'median_duration_us': np.float64(82.752), 'std_dev_duration_us': np.float64(0.500920475221367), 'min_duration_us': np.float64(81.279), 'max_duration_us': np.float64(83.615)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(218.17300000000006), 'mean_duration_us': np.float64(1.7453840000000005), 'median_duration_us': np.float64(1.761), 'std_dev_duration_us': np.float64(0.13080561357984605), 'min_duration_us': np.float64(1.599), 'max_duration_us': np.float64(2.368)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1335.496), 'mean_duration_us': np.float64(10.683968), 'median_duration_us': np.float64(10.655), 'std_dev_duration_us': np.float64(0.23739347711342013), 'min_duration_us': np.float64(10.24), 'max_duration_us': np.float64(11.648)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(25336.348999999995), 'mean_duration_us': np.float64(202.69079199999996), 'median_duration_us': np.float64(202.558), 'std_dev_duration_us': np.float64(1.5094199431357738), 'min_duration_us': np.float64(199.582), 'max_duration_us': np.float64(207.198)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1775.31), 'mean_duration_us': np.float64(14.20248), 'median_duration_us': np.float64(14.176), 'std_dev_duration_us': np.float64(0.14339755088564102), 'min_duration_us': np.float64(13.952), 'max_duration_us': np.float64(14.689)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.68)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.75)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.68)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(202.69)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(14.2)}]",0.3367443172611795,92.75860737576764
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 6, 258, 258), (3, 96, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((38340864, 399384, 66564, 258, 1), (2592, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",125,311.999939453125,311.999939453125,311.870849609375,311.870849609375,1.5623363152739715,1.5623363152739715,308.06005859375,308.06005859375,316.701171875,316.701171875,38999.992431640625,38999.992431640625,137455,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(218.17300000000006), 'mean_duration_us': np.float64(1.7453840000000005), 'median_duration_us': np.float64(1.761), 'std_dev_duration_us': np.float64(0.13080561357984605), 'min_duration_us': np.float64(1.599), 'max_duration_us': np.float64(2.368)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1335.496), 'mean_duration_us': np.float64(10.683968), 'median_duration_us': np.float64(10.655), 'std_dev_duration_us': np.float64(0.23739347711342013), 'min_duration_us': np.float64(10.24), 'max_duration_us': np.float64(11.648)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1775.31), 'mean_duration_us': np.float64(14.20248), 'median_duration_us': np.float64(14.176), 'std_dev_duration_us': np.float64(0.14339755088564102), 'min_duration_us': np.float64(13.952), 'max_duration_us': np.float64(14.689)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10334.655999999999), 'mean_duration_us': np.float64(82.67724799999999), 'median_duration_us': np.float64(82.752), 'std_dev_duration_us': np.float64(0.500920475221367), 'min_duration_us': np.float64(81.279), 'max_duration_us': np.float64(83.615)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(25336.348999999995), 'mean_duration_us': np.float64(202.69079199999996), 'median_duration_us': np.float64(202.558), 'std_dev_duration_us': np.float64(1.5094199431357738), 'min_duration_us': np.float64(199.582), 'max_duration_us': np.float64(207.198)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.75)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.68)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(14.2)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.68)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(202.69)}]",0.3367443172611795,92.75860737576764
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 2, 128, 128), (1, 192, 4, 128, 128)), ())","('TensorList', 'Scalar')","(((6291456, 32768, 16384, 128, 1), (12582912, 65536, 16384, 128, 1)), ())","('', '2')",620,53.94473876953125,53.94473876953125,54.01611328125,54.01611328125,0.37683968798089407,0.37683968798089407,53.1201171875,53.1201171875,54.84814453125,54.84814453125,33445.738037109375,33445.738037109375,139034,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 620, 'total_duration_us': np.float64(11761.634), 'mean_duration_us': np.float64(18.97037741935484), 'median_duration_us': np.float64(18.848), 'std_dev_duration_us': np.float64(0.29345280349182434), 'min_duration_us': np.float64(18.592), 'max_duration_us': np.float64(20.032)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 620, 'total_duration_us': np.float64(21684.119000000002), 'mean_duration_us': np.float64(34.974385483870975), 'median_duration_us': np.float64(34.815), 'std_dev_duration_us': np.float64(0.35279103032759324), 'min_duration_us': np.float64(34.464), 'max_duration_us': np.float64(36.031)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(18.97)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(34.97)}]",0.28878626682668995,93.04739364259433
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256),)","('c10::BFloat16',)","((25165824, 262144, 65536, 256, 1),)","('',)",750,38.7168974609375,38.7168974609375,38.4635009765625,38.4635009765625,0.5573501419090436,0.5573501419090436,37.85595703125,37.85595703125,39.968017578125,39.968017578125,29037.673095703125,29037.673095703125,137108,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(29037.674), 'mean_duration_us': np.float64(38.716898666666665), 'median_duration_us': np.float64(38.463499999999996), 'std_dev_duration_us': np.float64(0.5569805936758983), 'min_duration_us': np.float64(37.856), 'max_duration_us': np.float64(39.968)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(38.72)}]",0.25072495638570363,93.29811859898004
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (1, 192, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((12582912, 65536, 16384, 128, 1), (192, 1, 1, 1, 1), ())","('', '', '1')",750,35.65700748697917,35.65700748697917,35.64697265625,35.64697265625,0.2936364413299498,0.2936364413299498,34.847900390625,34.847900390625,36.511962890625,36.511962890625,26742.755615234375,26742.755615234375,136709,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(26742.756), 'mean_duration_us': np.float64(35.657008000000005), 'median_duration_us': np.float64(35.647), 'std_dev_duration_us': np.float64(0.2934462902633686), 'min_duration_us': np.float64(34.848), 'max_duration_us': np.float64(36.512)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(35.66)}]",0.23090955715233807,93.52902815613238
@@ -50,9 +50,9 @@ aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128)
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 6, 258, 258), ())","('c10::BFloat16', 'Scalar')","((38340864, 399384, 66564, 258, 1), ())","('', '0.')",875,24.239363839285716,24.239363839285716,24.19189453125,24.19189453125,0.13724639994841434,0.13724639994841434,24.094970703125,24.094970703125,25.02392578125,25.02392578125,21209.443359375,21209.443359375,137075,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 875, 'total_duration_us': np.float64(21209.476000000002), 'mean_duration_us': np.float64(24.239401142857144), 'median_duration_us': np.float64(24.192), 'std_dev_duration_us': np.float64(0.13713148726202126), 'min_duration_us': np.float64(24.095), 'max_duration_us': np.float64(25.024)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(24.24)}]",0.18313233101419707,94.77997106830867
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((25165824, 262144, 65536, 256, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",750,24.948663736979167,24.948663736979167,24.9759521484375,24.9759521484375,1.2396991635897927,1.2396991635897927,22.944091796875,22.944091796875,27.77490234375,27.77490234375,18711.497802734375,18711.497802734375,137099,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(18711.502), 'mean_duration_us': np.float64(24.948669333333335), 'median_duration_us': np.float64(24.976), 'std_dev_duration_us': np.float64(1.2388720019946462), 'min_duration_us': np.float64(22.944), 'max_duration_us': np.float64(27.775)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(24.95)}]",0.16156389167408824,94.94153495998276
 aten::_upsample_nearest_exact2d,other,python3,CPU,thread 10586 (python3),"((4, 192, 128, 128), (), (), ())","('float', 'ScalarList', 'Scalar', 'Scalar')","((16384, 65536, 128, 1), (), (), ())","('', '[256, 256]', '2.', '2.')",125,143.9242578125,188.55256640625,143.93505859375,188.54296875,0.35460533154153545,0.3534477662554239,143.1669921875,187.389892578125,144.638916015625,189.43896484375,17990.5322265625,23569.07080078125,137020,"[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_frame<float, &at::native::nearest_neighbor_exact_compute_source_index>(float const*, float*, unsigned long, unsigned long, unsigned long, unsigned long, unsigned long, float, float)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(17990.533), 'mean_duration_us': np.float64(143.924264), 'median_duration_us': np.float64(143.935), 'std_dev_duration_us': np.float64(0.353182267822155), 'min_duration_us': np.float64(143.167), 'max_duration_us': np.float64(144.639)}]","[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_f...', 'stream': 7, 'mean_duration_us': np.float64(143.92)}]",0.15533873506303608,95.0968736950458
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 4, 66, 66), (384, 192, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((3345408, 17424, 4356, 66, 1), (5184, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",125,126.197919921875,126.197919921875,125.984130859375,125.984130859375,3.1163370156051533,3.1163370156051533,117.406005859375,117.406005859375,134.1748046875,134.1748046875,15774.739990234375,15774.739990234375,136257,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(724.149), 'mean_duration_us': np.float64(5.793192), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.04352244404901916), 'min_duration_us': np.float64(5.696), 'max_duration_us': np.float64(5.952)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(830.36), 'mean_duration_us': np.float64(6.64288), 'median_duration_us': np.float64(6.624), 'std_dev_duration_us': np.float64(0.12525868273297458), 'min_duration_us': np.float64(6.432), 'max_duration_us': np.float64(7.168)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.00300000000003), 'mean_duration_us': np.float64(0.9600240000000002), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.20049907586819443), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.377)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(13353.03), 'mean_duration_us': np.float64(106.82424), 'median_duration_us': np.float64(106.559), 'std_dev_duration_us': np.float64(3.1057160215319106), 'min_duration_us': np.float64(98.015), 'max_duration_us': np.float64(114.783)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(747.1940000000001), 'mean_duration_us': np.float64(5.977552), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.11338362887119116), 'min_duration_us': np.float64(5.728), 'max_duration_us': np.float64(6.272)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.79)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.64)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(106.82)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}]",0.13620654048318329,95.23308023552899
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 4, 66, 66), (384, 192, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((3345408, 17424, 4356, 66, 1), (5184, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",125,126.197919921875,126.197919921875,125.984130859375,125.984130859375,3.1163370156051533,3.1163370156051533,117.406005859375,117.406005859375,134.1748046875,134.1748046875,15774.739990234375,15774.739990234375,136257,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.00300000000003), 'mean_duration_us': np.float64(0.9600240000000002), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.20049907586819443), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.377)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(724.149), 'mean_duration_us': np.float64(5.793192), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.04352244404901916), 'min_duration_us': np.float64(5.696), 'max_duration_us': np.float64(5.952)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(747.1940000000001), 'mean_duration_us': np.float64(5.977552), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.11338362887119116), 'min_duration_us': np.float64(5.728), 'max_duration_us': np.float64(6.272)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(830.36), 'mean_duration_us': np.float64(6.64288), 'median_duration_us': np.float64(6.624), 'std_dev_duration_us': np.float64(0.12525868273297458), 'min_duration_us': np.float64(6.432), 'max_duration_us': np.float64(7.168)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(13353.03), 'mean_duration_us': np.float64(106.82424), 'median_duration_us': np.float64(106.559), 'std_dev_duration_us': np.float64(3.1057160215319106), 'min_duration_us': np.float64(98.015), 'max_duration_us': np.float64(114.783)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.79)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.64)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(106.82)}]",0.13620654048318329,95.23308023552899
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((393216, 1024, 1024, 32, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",1260,11.3769775390625,11.3769775390625,11.552001953125,11.552001953125,0.5715271891366651,0.5715271891366651,9.6630859375,9.6630859375,12.256103515625,12.256103515625,14334.99169921875,14334.99169921875,133488,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(14335.005000000001), 'mean_duration_us': np.float64(11.376988095238096), 'median_duration_us': np.float64(11.552), 'std_dev_duration_us': np.float64(0.5712999329164498), 'min_duration_us': np.float64(9.663), 'max_duration_us': np.float64(12.256)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(11.38)}]",0.12377507511467548,95.35685531064367
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 64, 64), (1, 384, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((3145728, 8192, 4096, 64, 1), (3145728, 8192, 4096, 64, 1)), ())","('', '2')",744,19.073629399781588,19.073629399781588,19.072021484375,19.072021484375,0.41710258242543374,0.41710258242543374,17.952880859375,17.952880859375,20.671875,20.671875,14190.7802734375,14190.7802734375,138597,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(8001.236999999999), 'mean_duration_us': np.float64(10.754350806451612), 'median_duration_us': np.float64(10.752), 'std_dev_duration_us': np.float64(0.2538392711751816), 'min_duration_us': np.float64(10.176), 'max_duration_us': np.float64(11.711)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(6189.5509999999995), 'mean_duration_us': np.float64(8.319288978494622), 'median_duration_us': np.float64(8.32), 'std_dev_duration_us': np.float64(0.3178681695481003), 'min_duration_us': np.float64(7.616), 'max_duration_us': np.float64(9.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.75)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.32)}]",0.12252988569057266,95.47938519633423
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 64, 64), (1, 384, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((3145728, 8192, 4096, 64, 1), (3145728, 8192, 4096, 64, 1)), ())","('', '2')",744,19.073629399781588,19.073629399781588,19.072021484375,19.072021484375,0.41710258242543374,0.41710258242543374,17.952880859375,17.952880859375,20.671875,20.671875,14190.7802734375,14190.7802734375,138597,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(6189.5509999999995), 'mean_duration_us': np.float64(8.319288978494622), 'median_duration_us': np.float64(8.32), 'std_dev_duration_us': np.float64(0.3178681695481003), 'min_duration_us': np.float64(7.616), 'max_duration_us': np.float64(9.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(8001.236999999999), 'mean_duration_us': np.float64(10.754350806451612), 'median_duration_us': np.float64(10.752), 'std_dev_duration_us': np.float64(0.2538392711751816), 'min_duration_us': np.float64(10.176), 'max_duration_us': np.float64(11.711)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.75)}]",0.12252988569057266,95.47938519633423
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 96, 2, 256, 256), (1, 96, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((25165824, 65536, 6291456, 256, 1), (25165824, 65536, 6291456, 256, 1)), ())","('', '2')",124,106.87098743069556,106.87098743069556,106.815185546875,106.815185546875,0.42004603444373795,0.42004603444373795,105.69482421875,105.69482421875,108.031005859375,108.031005859375,13252.00244140625,13252.00244140625,139348,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(4627.055999999999), 'mean_duration_us': np.float64(37.314967741935476), 'median_duration_us': np.float64(37.072), 'std_dev_duration_us': np.float64(0.5594973253054326), 'min_duration_us': np.float64(36.415), 'max_duration_us': np.float64(38.431)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(8624.944999999998), 'mean_duration_us': np.float64(69.5560080645161), 'median_duration_us': np.float64(69.6), 'std_dev_duration_us': np.float64(0.33994125431694233), 'min_duration_us': np.float64(68.767), 'max_duration_us': np.float64(70.335)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(37.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(69.56)}]",0.11442403539684749,95.59380923173109
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (1, 96, 4, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((25165824, 262144, 65536, 256, 1), (25165824, 262144, 65536, 256, 1), ())","('', '', '1')",250,52.3609619140625,52.3609619140625,52.384033203125,52.384033203125,0.5566739769206366,0.5566739769206366,51.10400390625,51.10400390625,53.535888671875,53.535888671875,13090.240478515625,13090.240478515625,137279,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 250, 'total_duration_us': np.float64(13090.241), 'mean_duration_us': np.float64(52.360964), 'median_duration_us': np.float64(52.384), 'std_dev_duration_us': np.float64(0.5555667040995166), 'min_duration_us': np.float64(51.104), 'max_duration_us': np.float64(53.536)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(52.36)}]",0.1130273063629147,95.706836538094
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((4, 192, 256, 256), (4, 192, 256, 256), ())","('c10::BFloat16', 'float', 'Scalar')","((12582912, 65536, 256, 1), (12582912, 65536, 256, 1), ())","('', '', 'False')",125,100.852087890625,100.852087890625,100.83203125,100.83203125,0.34809279409233,0.34809279409233,99.7109375,99.7109375,101.886962890625,101.886962890625,12606.510986328125,12606.510986328125,137030,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(12606.512), 'mean_duration_us': np.float64(100.852096), 'median_duration_us': np.float64(100.832), 'std_dev_duration_us': np.float64(0.34670645621908985), 'min_duration_us': np.float64(99.711), 'max_duration_us': np.float64(101.887)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(100.85)}]",0.1088505579219683,95.81568709601596
@@ -61,8 +61,8 @@ aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128)
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (), ())","('c10::BFloat16', 'double', 'Scalar')","((12582912, 65536, 16384, 128, 1), (), ())","('', '', '1')",625,17.86745234375,17.86745234375,17.760009765625,17.760009765625,0.33622489686365903,0.33622489686365903,17.18408203125,17.18408203125,19.072021484375,19.072021484375,11167.15771484375,11167.15771484375,136718,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(11167.151000000002), 'mean_duration_us': np.float64(17.867441600000003), 'median_duration_us': np.float64(17.76), 'std_dev_duration_us': np.float64(0.33596789874843624), 'min_duration_us': np.float64(17.184), 'max_duration_us': np.float64(19.072)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(17.87)}]",0.09642250333828535,96.11499397290348
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((4, 96, 256, 256), (1, 96, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 65536, 256, 1), (96, 1, 1, 1), ())","('', '', '1')",125,84.385486328125,84.385486328125,84.4150390625,84.4150390625,0.32976951794305853,0.32976951794305853,83.551025390625,83.551025390625,85.1201171875,85.1201171875,10548.185791015625,10548.185791015625,137037,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10548.186), 'mean_duration_us': np.float64(84.385488), 'median_duration_us': np.float64(84.415), 'std_dev_duration_us': np.float64(0.3284471492584459), 'min_duration_us': np.float64(83.551), 'max_duration_us': np.float64(85.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(84.39)}]",0.09107800799617248,96.20607198089965
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (1, 96, 4, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((25165824, 262144, 65536, 256, 1), (25165824, 65536, 6291456, 256, 1), ())","('', '', '1')",125,82.902521484375,82.902521484375,82.910888671875,82.910888671875,0.29210381160061255,0.29210381160061255,82.014892578125,82.014892578125,83.551025390625,83.551025390625,10362.815185546875,10362.815185546875,137159,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10362.815999999999), 'mean_duration_us': np.float64(82.90252799999999), 'median_duration_us': np.float64(82.911), 'std_dev_duration_us': np.float64(0.2909223284933629), 'min_duration_us': np.float64(82.015), 'max_duration_us': np.float64(83.551)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(82.9)}]",0.08947743081431071,96.29554941171396
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((786432, 2048, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",1364,7.580523448955279,7.580523448955279,7.583984375,7.583984375,0.11454798207399505,0.11454798207399505,7.168212890625,7.168212890625,8.094970703125,8.094970703125,10339.833984375,10339.833984375,137586,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(6239.612), 'mean_duration_us': np.float64(4.5744956011730205), 'median_duration_us': np.float64(4.576), 'std_dev_duration_us': np.float64(0.1068676895035594), 'min_duration_us': np.float64(4.224), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(4100.179), 'mean_duration_us': np.float64(3.0059963343108507), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.04217361287495253), 'min_duration_us': np.float64(2.912), 'max_duration_us': np.float64(3.328)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.57)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.01)}]",0.08927900029122716,96.38482841200519
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((786432, 2048, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",1364,7.477196657063325,7.477196657063325,7.487060546875,7.487060546875,0.11605631160938776,0.11605631160938776,7.072021484375,7.072021484375,7.968994140625,7.968994140625,10198.896240234375,10198.896240234375,137578,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(6098.029), 'mean_duration_us': np.float64(4.470695747800587), 'median_duration_us': np.float64(4.479), 'std_dev_duration_us': np.float64(0.10711114193577995), 'min_duration_us': np.float64(4.096), 'max_duration_us': np.float64(4.896)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(4100.797), 'mean_duration_us': np.float64(3.0064494134897357), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.04071097892020462), 'min_duration_us': np.float64(2.912), 'max_duration_us': np.float64(3.296)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.47)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.01)}]",0.088062077377456,96.47289048938265
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((786432, 2048, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",1364,7.580523448955279,7.580523448955279,7.583984375,7.583984375,0.11454798207399505,0.11454798207399505,7.168212890625,7.168212890625,8.094970703125,8.094970703125,10339.833984375,10339.833984375,137586,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(4100.179), 'mean_duration_us': np.float64(3.0059963343108507), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.04217361287495253), 'min_duration_us': np.float64(2.912), 'max_duration_us': np.float64(3.328)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(6239.612), 'mean_duration_us': np.float64(4.5744956011730205), 'median_duration_us': np.float64(4.576), 'std_dev_duration_us': np.float64(0.1068676895035594), 'min_duration_us': np.float64(4.224), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.01)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.57)}]",0.08927900029122716,96.38482841200519
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((786432, 2048, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",1364,7.477196657063325,7.477196657063325,7.487060546875,7.487060546875,0.11605631160938776,0.11605631160938776,7.072021484375,7.072021484375,7.968994140625,7.968994140625,10198.896240234375,10198.896240234375,137578,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(4100.797), 'mean_duration_us': np.float64(3.0064494134897357), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.04071097892020462), 'min_duration_us': np.float64(2.912), 'max_duration_us': np.float64(3.296)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(6098.029), 'mean_duration_us': np.float64(4.470695747800587), 'median_duration_us': np.float64(4.479), 'std_dev_duration_us': np.float64(0.10711114193577995), 'min_duration_us': np.float64(4.096), 'max_duration_us': np.float64(4.896)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.01)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.47)}]",0.088062077377456,96.47289048938265
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 4, 64, 64), (1, 384, 4, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6690816, 17424, 4356, 66, 1), (6291456, 16384, 4096, 64, 1), ())","('', '', 'False')",620,15.915161920362904,15.915161920362904,15.93603515625,15.93603515625,0.21283878186289495,0.21283878186289495,15.360107421875,15.360107421875,16.60791015625,16.60791015625,9867.400390625,9867.400390625,138620,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 620, 'total_duration_us': np.float64(9867.403000000002), 'mean_duration_us': np.float64(15.915166129032261), 'median_duration_us': np.float64(15.936), 'std_dev_duration_us': np.float64(0.21267278322278413), 'min_duration_us': np.float64(15.36), 'max_duration_us': np.float64(16.608)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.92)}]",0.08519978596170026,96.55809027534436
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 6, 130, 130), ())","('c10::BFloat16', 'Scalar')","((19468800, 101400, 16900, 130, 1), ())","('', '0.')",750,13.109687825520833,13.109687825520833,13.087890625,13.087890625,0.0850294343573056,0.0850294343573056,12.799072265625,12.799072265625,13.7919921875,13.7919921875,9832.265869140625,9832.265869140625,136686,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(9832.29), 'mean_duration_us': np.float64(13.109720000000001), 'median_duration_us': np.float64(13.088), 'std_dev_duration_us': np.float64(0.08493556145690684), 'min_duration_us': np.float64(12.799), 'max_duration_us': np.float64(13.792)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(13.11)}]",0.08489641794258353,96.64298669328694
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (1, 96, 4, 256, 256))","('c10::BFloat16', 'c10::BFloat16')","((25165824, 65536, 6291456, 256, 1), (262144, 0, 65536, 256, 1))","('', '')",125,78.64301953125,78.64301953125,78.68701171875,78.68701171875,0.27718200836862,0.27718200836862,77.98388671875,77.98388671875,79.23095703125,79.23095703125,9830.37744140625,9830.37744140625,137046,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(9830.376), 'mean_duration_us': np.float64(78.643008), 'median_duration_us': np.float64(78.687), 'std_dev_duration_us': np.float64(0.276085769166033), 'min_duration_us': np.float64(77.984), 'max_duration_us': np.float64(79.231)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(78.64)}]",0.08488011236741647,96.72786680565436
@@ -71,9 +71,9 @@ aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 64, 512, 512), (
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (96, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((25165824, 65536, 6291456, 256, 1), (1, 1, 1, 1))","('', '')",125,74.841388671875,74.841388671875,74.912109375,74.912109375,0.36938522209163926,0.36938522209163926,73.98291015625,73.98291015625,75.423095703125,75.423095703125,9355.173583984375,9355.173583984375,137048,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(9355.173999999997), 'mean_duration_us': np.float64(74.84139199999998), 'median_duration_us': np.float64(74.912), 'std_dev_duration_us': np.float64(0.36790824717040527), 'min_duration_us': np.float64(73.983), 'max_duration_us': np.float64(75.423)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(74.84)}]",0.08077697827558566,96.97416860652977
 aten::_upsample_nearest_exact2d,other,python3,CPU,thread 10586 (python3),"((4, 384, 64, 64), (), (), ())","('float', 'ScalarList', 'Scalar', 'Scalar')","((4096, 16384, 64, 1), (), (), ())","('', '[128, 128]', '2.', '2.')",125,71.705439453125,93.117369140625,71.7109375,93.087890625,0.4615364100692247,0.4902879924684799,70.527099609375,91.934814453125,72.6708984375,94.3349609375,8963.179931640625,11639.671142578125,136631,"[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_frame<float, &at::native::nearest_neighbor_exact_compute_source_index>(float const*, float*, unsigned long, unsigned long, unsigned long, unsigned long, unsigned long, float, float)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(8963.181000000002), 'mean_duration_us': np.float64(71.70544800000002), 'median_duration_us': np.float64(71.711), 'std_dev_duration_us': np.float64(0.4596889114346783), 'min_duration_us': np.float64(70.527), 'max_duration_us': np.float64(72.671)}]","[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_f...', 'stream': 7, 'mean_duration_us': np.float64(71.71)}]",0.07739232031544412,97.05156092684521
 aten::_efficient_attention_forward,other,python3,CPU,thread 10586 (python3),"((1, 1024, 1, 384), (1, 1024, 1, 384), (1, 1024, 1, 384), (), (), (), (), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', '', '', '', '', '', 'Scalar', 'Scalar', 'Scalar', '', '', '')","((1179648, 1152, 1179648, 1), (1179648, 1152, 1179648, 1), (1179648, 1152, 1179648, 1), (), (), (), (), (), (), (), (), (), (), ())","('', '', '', '', '', '', '', '', '0.', '0', 'False', '', '', '')",126,70.64143492683532,70.64143492683532,70.6390380859375,70.6390380859375,0.4140213207002293,0.4140213207002293,69.59912109375,69.59912109375,71.80810546875,71.80810546875,8900.82080078125,8900.82080078125,133638,"[{'name': 'fmha_cutlassF_bf16_aligned_32x128_gmem_sm80(PyTorchMemEffAttention::AttentionKernel<cutlass::bfloat16_t, cutlass::arch::Sm80, true, 32, 128, 65536, true, true>::Params)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(8900.819), 'mean_duration_us': np.float64(70.64142063492064), 'median_duration_us': np.float64(70.63900000000001), 'std_dev_duration_us': np.float64(0.41238584477528567), 'min_duration_us': np.float64(69.599), 'max_duration_us': np.float64(71.808)}]","[{'name': 'fmha_cutlassF_bf16_aligned_32x128_gmem_sm80(PyTorchMemEffAttenti...', 'stream': 7, 'mean_duration_us': np.float64(70.64)}]",0.07685388218669197,97.12841480903191
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 4, 64, 64), (768, 384, 3, 1, 1), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((6291456, 16384, 4096, 64, 1), (1152, 3, 1, 1, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",125,69.4156171875,69.4156171875,69.375244140625,69.375244140625,0.39589308888154695,0.39589308888154695,68.5439453125,68.5439453125,70.400146484375,70.400146484375,8676.9521484375,8676.9521484375,136581,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1159.1540000000002), 'mean_duration_us': np.float64(9.273232000000002), 'median_duration_us': np.float64(9.216), 'std_dev_duration_us': np.float64(0.16966169330759392), 'min_duration_us': np.float64(9.056), 'max_duration_us': np.float64(9.728)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1985.772), 'mean_duration_us': np.float64(15.886175999999999), 'median_duration_us': np.float64(15.872), 'std_dev_duration_us': np.float64(0.11880539139281523), 'min_duration_us': np.float64(15.68), 'max_duration_us': np.float64(16.256)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4227.709), 'mean_duration_us': np.float64(33.821672), 'median_duration_us': np.float64(33.76), 'std_dev_duration_us': np.float64(0.3127105441394648), 'min_duration_us': np.float64(33.184), 'max_duration_us': np.float64(34.623)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1304.312), 'mean_duration_us': np.float64(10.434496), 'median_duration_us': np.float64(10.432), 'std_dev_duration_us': np.float64(0.16263139298425758), 'min_duration_us': np.float64(10.079), 'max_duration_us': np.float64(10.88)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.27)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.89)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(33.82)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.43)}]",0.07492089472209658,97.20333570375401
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 4, 64, 64), (768, 384, 3, 1, 1), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((6291456, 16384, 4096, 64, 1), (1152, 3, 1, 1, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",125,69.4156171875,69.4156171875,69.375244140625,69.375244140625,0.39589308888154695,0.39589308888154695,68.5439453125,68.5439453125,70.400146484375,70.400146484375,8676.9521484375,8676.9521484375,136581,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1159.1540000000002), 'mean_duration_us': np.float64(9.273232000000002), 'median_duration_us': np.float64(9.216), 'std_dev_duration_us': np.float64(0.16966169330759392), 'min_duration_us': np.float64(9.056), 'max_duration_us': np.float64(9.728)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1304.312), 'mean_duration_us': np.float64(10.434496), 'median_duration_us': np.float64(10.432), 'std_dev_duration_us': np.float64(0.16263139298425758), 'min_duration_us': np.float64(10.079), 'max_duration_us': np.float64(10.88)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1985.772), 'mean_duration_us': np.float64(15.886175999999999), 'median_duration_us': np.float64(15.872), 'std_dev_duration_us': np.float64(0.11880539139281523), 'min_duration_us': np.float64(15.68), 'max_duration_us': np.float64(16.256)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4227.709), 'mean_duration_us': np.float64(33.821672), 'median_duration_us': np.float64(33.76), 'std_dev_duration_us': np.float64(0.3127105441394648), 'min_duration_us': np.float64(33.184), 'max_duration_us': np.float64(34.623)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.27)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.43)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.89)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(33.82)}]",0.07492089472209658,97.20333570375401
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64), (1, 384, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3145728, 8192, 4096, 64, 1), (384, 1, 1, 1, 1), ())","('', '', '1')",875,9.230160435267857,9.230160435267857,9.216064453125,9.216064453125,0.10684330600756907,0.10684330600756907,8.927978515625,8.927978515625,9.60009765625,9.60009765625,8076.390380859375,8076.390380859375,136202,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 875, 'total_duration_us': np.float64(8076.365), 'mean_duration_us': np.float64(9.230131428571429), 'median_duration_us': np.float64(9.216), 'std_dev_duration_us': np.float64(0.10678603378834192), 'min_duration_us': np.float64(8.928), 'max_duration_us': np.float64(9.6)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.23)}]",0.06973536134665445,97.27307106510067
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((2, 384, 64, 64), (192, 384, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((1572864, 4096, 64, 1), (3456, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",125,63.707517578125,63.707517578125,63.551025390625,63.551025390625,1.046814767786228,1.046814767786228,62.048095703125,62.048095703125,66.94287109375,66.94287109375,7963.439697265625,7963.439697265625,136179,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(714.037), 'mean_duration_us': np.float64(5.712296), 'median_duration_us': np.float64(5.696), 'std_dev_duration_us': np.float64(0.061330713219397696), 'min_duration_us': np.float64(5.599), 'max_duration_us': np.float64(5.887)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(734.327), 'mean_duration_us': np.float64(5.874616), 'median_duration_us': np.float64(5.856), 'std_dev_duration_us': np.float64(0.12301159516078154), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(6.24)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6021.096), 'mean_duration_us': np.float64(48.16876799999999), 'median_duration_us': np.float64(48.031), 'std_dev_duration_us': np.float64(1.01678098436979), 'min_duration_us': np.float64(46.624), 'max_duration_us': np.float64(51.296)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(493.9740000000001), 'mean_duration_us': np.float64(3.9517920000000006), 'median_duration_us': np.float64(3.936), 'std_dev_duration_us': np.float64(0.09127902681339241), 'min_duration_us': np.float64(3.712), 'max_duration_us': np.float64(4.224)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.71)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.87)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(48.17)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.95)}]",0.06876009190531726,97.34183115700598
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((2, 384, 64, 64), (192, 384, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((1572864, 4096, 64, 1), (3456, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",125,63.707517578125,63.707517578125,63.551025390625,63.551025390625,1.046814767786228,1.046814767786228,62.048095703125,62.048095703125,66.94287109375,66.94287109375,7963.439697265625,7963.439697265625,136179,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(493.9740000000001), 'mean_duration_us': np.float64(3.9517920000000006), 'median_duration_us': np.float64(3.936), 'std_dev_duration_us': np.float64(0.09127902681339241), 'min_duration_us': np.float64(3.712), 'max_duration_us': np.float64(4.224)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(714.037), 'mean_duration_us': np.float64(5.712296), 'median_duration_us': np.float64(5.696), 'std_dev_duration_us': np.float64(0.061330713219397696), 'min_duration_us': np.float64(5.599), 'max_duration_us': np.float64(5.887)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(734.327), 'mean_duration_us': np.float64(5.874616), 'median_duration_us': np.float64(5.856), 'std_dev_duration_us': np.float64(0.12301159516078154), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(6.24)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6021.096), 'mean_duration_us': np.float64(48.16876799999999), 'median_duration_us': np.float64(48.031), 'std_dev_duration_us': np.float64(1.01678098436979), 'min_duration_us': np.float64(46.624), 'max_duration_us': np.float64(51.296)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.95)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.71)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.87)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(48.17)}]",0.06876009190531726,97.34183115700598
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((12582912, 65536, 16384, 128, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",625,12.046916796875,12.046916796875,10.39990234375,10.39990234375,2.244274140384505,2.244274140384505,9.887939453125,9.887939453125,16.447998046875,16.447998046875,7529.322998046875,7529.322998046875,136710,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(7529.325000000001), 'mean_duration_us': np.float64(12.046920000000002), 'median_duration_us': np.float64(10.4), 'std_dev_duration_us': np.float64(2.242482709141812), 'min_duration_us': np.float64(9.888), 'max_duration_us': np.float64(16.448)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(12.05)}]",0.06501172370380207,97.40684288070979
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((3145728, 8192, 4096, 64, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",625,11.755144140625,11.755144140625,11.743896484375,11.743896484375,0.16558117324212981,0.16558117324212981,11.360107421875,11.360107421875,12.22412109375,12.22412109375,7346.965087890625,7346.965087890625,136261,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(7346.969999999999), 'mean_duration_us': np.float64(11.755151999999999), 'median_duration_us': np.float64(11.744), 'std_dev_duration_us': np.float64(0.16544031218539224), 'min_duration_us': np.float64(11.36), 'max_duration_us': np.float64(12.224)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(11.76)}]",0.06343715955329926,97.47028004026309
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 2, 128, 128), (1, 192, 4, 128, 128)), ())","('TensorList', 'Scalar')","(((12582912, 16384, 3145728, 128, 1), (12582912, 16384, 3145728, 128, 1)), ())","('', '2')",124,57.03428797568044,57.03428797568044,57.0880126953125,57.0880126953125,0.3816765707982526,0.3816765707982526,56.35205078125,56.35205078125,57.951904296875,57.951904296875,7072.251708984375,7072.251708984375,138977,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(2522.916), 'mean_duration_us': np.float64(20.34609677419355), 'median_duration_us': np.float64(20.255), 'std_dev_duration_us': np.float64(0.27235459036487725), 'min_duration_us': np.float64(19.936), 'max_duration_us': np.float64(21.024)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(4549.335999999999), 'mean_duration_us': np.float64(36.68819354838709), 'median_duration_us': np.float64(36.544), 'std_dev_duration_us': np.float64(0.35302091863037643), 'min_duration_us': np.float64(36.159), 'max_duration_us': np.float64(37.535)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(20.35)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(36.69)}]",0.06106515475395358,97.53134519501704
@@ -90,7 +90,7 @@ aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128)
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((4, 192, 128, 128), (4, 192, 128, 128), ())","('float', 'c10::BFloat16', 'Scalar')","((16384, 65536, 128, 1), (16384, 65536, 128, 1), ())","('', '', 'False')",125,40.60941796875,40.60941796875,40.47900390625,40.47900390625,0.3605953246313821,0.3605953246313821,40.06298828125,40.06298828125,41.471923828125,41.471923828125,5076.17724609375,5076.17724609375,137018,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(5076.174999999999), 'mean_duration_us': np.float64(40.609399999999994), 'median_duration_us': np.float64(40.479), 'std_dev_duration_us': np.float64(0.3591505979390822), 'min_duration_us': np.float64(40.063), 'max_duration_us': np.float64(41.472)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(40.61)}]",0.04383010699370706,98.09951886629221
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (1, 192, 4, 128, 128))","('c10::BFloat16', 'c10::BFloat16')","((12582912, 16384, 3145728, 128, 1), (65536, 0, 16384, 128, 1))","('', '')",125,39.504615234375,39.504615234375,39.487060546875,39.487060546875,0.19049170059148235,0.19049170059148235,39.199951171875,39.199951171875,40.319091796875,40.319091796875,4938.076904296875,4938.076904296875,136657,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4938.076000000001), 'mean_duration_us': np.float64(39.504608000000005), 'median_duration_us': np.float64(39.487), 'std_dev_duration_us': np.float64(0.1897263248365917), 'min_duration_us': np.float64(39.2), 'max_duration_us': np.float64(40.319)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(39.5)}]",0.04263768354917851,98.14215654984139
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (1, 384, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((393216, 1024, 1024, 32, 1), (384, 1, 1, 1, 1), ())","('', '', '1')",1386,3.547028072296627,3.547028072296627,3.552001953125,3.552001953125,0.06442172846676476,0.06442172846676476,3.39111328125,3.39111328125,3.8720703125,3.8720703125,4916.180908203125,4916.180908203125,133487,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1386, 'total_duration_us': np.float64(4916.171), 'mean_duration_us': np.float64(3.5470209235209236), 'median_duration_us': np.float64(3.552), 'std_dev_duration_us': np.float64(0.06442878320110368), 'min_duration_us': np.float64(3.391), 'max_duration_us': np.float64(3.872)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.55)}]",0.042448623198249796,98.18460517303964
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 32, 32), (768, 384, 3, 1, 1), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((1179648, 3072, 1024, 32, 1), (1152, 3, 1, 1, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",125,39.2264453125,39.2264453125,39.23193359375,39.23193359375,0.16286773438175817,0.16286773438175817,38.90771484375,38.90771484375,39.743896484375,39.743896484375,4903.3056640625,4903.3056640625,136115,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.598), 'mean_duration_us': np.float64(3.340784), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.03836719098396442), 'min_duration_us': np.float64(3.232), 'max_duration_us': np.float64(3.425)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1974.3799999999999), 'mean_duration_us': np.float64(15.795039999999998), 'median_duration_us': np.float64(15.776), 'std_dev_duration_us': np.float64(0.09840547952222992), 'min_duration_us': np.float64(15.584), 'max_duration_us': np.float64(16.127)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(2155.7850000000008), 'mean_duration_us': np.float64(17.246280000000006), 'median_duration_us': np.float64(17.248), 'std_dev_duration_us': np.float64(0.07720762656629208), 'min_duration_us': np.float64(17.088), 'max_duration_us': np.float64(17.696)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(355.5439999999999), 'mean_duration_us': np.float64(2.8443519999999993), 'median_duration_us': np.float64(2.848), 'std_dev_duration_us': np.float64(0.0836824718564169), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(3.104)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(17.25)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.84)}]",0.04233745227160653,98.22694262531125
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 32, 32), (768, 384, 3, 1, 1), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((1179648, 3072, 1024, 32, 1), (1152, 3, 1, 1, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",125,39.2264453125,39.2264453125,39.23193359375,39.23193359375,0.16286773438175817,0.16286773438175817,38.90771484375,38.90771484375,39.743896484375,39.743896484375,4903.3056640625,4903.3056640625,136115,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(355.5439999999999), 'mean_duration_us': np.float64(2.8443519999999993), 'median_duration_us': np.float64(2.848), 'std_dev_duration_us': np.float64(0.0836824718564169), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(3.104)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.598), 'mean_duration_us': np.float64(3.340784), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.03836719098396442), 'min_duration_us': np.float64(3.232), 'max_duration_us': np.float64(3.425)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1974.3799999999999), 'mean_duration_us': np.float64(15.795039999999998), 'median_duration_us': np.float64(15.776), 'std_dev_duration_us': np.float64(0.09840547952222992), 'min_duration_us': np.float64(15.584), 'max_duration_us': np.float64(16.127)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(2155.7850000000008), 'mean_duration_us': np.float64(17.246280000000006), 'median_duration_us': np.float64(17.248), 'std_dev_duration_us': np.float64(0.07720762656629208), 'min_duration_us': np.float64(17.088), 'max_duration_us': np.float64(17.696)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.84)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(17.25)}]",0.04233745227160653,98.22694262531125
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (192, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((12582912, 16384, 3145728, 128, 1), (1, 1, 1, 1))","('', '')",125,39.09649609375,39.09649609375,39.008056640625,39.008056640625,0.3664765825205932,0.3664765825205932,38.366943359375,38.366943359375,39.904052734375,39.904052734375,4887.06201171875,4887.06201171875,136659,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4887.062), 'mean_duration_us': np.float64(39.096496), 'median_duration_us': np.float64(39.008), 'std_dev_duration_us': np.float64(0.3650039259843655), 'min_duration_us': np.float64(38.367), 'max_duration_us': np.float64(39.904)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(39.1)}]",0.042197196920841736,98.26913982223209
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((4, 192, 128, 128), (1, 192, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3145728, 16384, 128, 1), (192, 1, 1, 1), ())","('', '', '1')",125,39.048580078125,39.048580078125,39.007080078125,39.007080078125,0.31729146317164125,0.31729146317164125,38.39990234375,38.39990234375,39.87109375,39.87109375,4881.072509765625,4881.072509765625,136648,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4881.072999999999), 'mean_duration_us': np.float64(39.048584), 'median_duration_us': np.float64(39.007), 'std_dev_duration_us': np.float64(0.3160215229126018), 'min_duration_us': np.float64(38.4), 'max_duration_us': np.float64(39.871)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(39.05)}]",0.042145480737832856,98.31128530296992
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256),)","('c10::BFloat16',)","((25165824, 65536, 6291456, 256, 1),)","('',)",125,38.54765234375,38.54765234375,38.239990234375,38.239990234375,0.5404743285713429,0.5404743285713429,37.886962890625,37.886962890625,39.678955078125,39.678955078125,4818.45654296875,4818.45654296875,137050,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4818.455), 'mean_duration_us': np.float64(38.54764), 'median_duration_us': np.float64(38.24), 'std_dev_duration_us': np.float64(0.5383324831365839), 'min_duration_us': np.float64(37.887), 'max_duration_us': np.float64(39.679)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(38.55)}]",0.041604824966536974,98.35289012793646
@@ -109,7 +109,7 @@ aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64), (1,
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32),)","('c10::BFloat16',)","((393216, 1024, 1024, 32, 1),)","('',)",1260,2.2670419844370038,2.2670419844370038,2.239990234375,2.239990234375,0.09927549340521838,0.09927549340521838,2.111083984375,2.111083984375,2.528076171875,2.528076171875,2856.472900390625,2856.472900390625,133497,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(2856.4880000000003), 'mean_duration_us': np.float64(2.2670539682539683), 'median_duration_us': np.float64(2.24), 'std_dev_duration_us': np.float64(0.09926518247858568), 'min_duration_us': np.float64(2.111), 'max_duration_us': np.float64(2.528)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(2.27)}]",0.024664133417541735,98.76879163796545
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((4, 384, 64, 64), (4, 384, 64, 64), ())","('float', 'float', 'Scalar')","((1572864, 4096, 64, 1), (4096, 16384, 64, 1), ())","('', '', 'False')",125,21.4119296875,21.4119296875,21.407958984375,21.407958984375,0.2762020276229408,0.2762020276229408,20.89501953125,20.89501953125,22.39990234375,22.39990234375,2676.4912109375,2676.4912109375,136636,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(2676.493000000001), 'mean_duration_us': np.float64(21.411944000000005), 'median_duration_us': np.float64(21.408), 'std_dev_duration_us': np.float64(0.27509772238969915), 'min_duration_us': np.float64(20.895), 'max_duration_us': np.float64(22.4)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(21.41)}]",0.023110086676618898,98.79190172464207
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 3, 34, 34), ())","('c10::BFloat16', 'Scalar')","((1331712, 3468, 1156, 34, 1), ())","('', '0.')",1260,2.0744888547867064,2.0744888547867064,2.080078125,2.080078125,0.025217106997534666,0.025217106997534666,2.014892578125,2.014892578125,2.2080078125,2.2080078125,2613.85595703125,2613.85595703125,133514,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(2613.7529999999997), 'mean_duration_us': np.float64(2.0744071428571424), 'median_duration_us': np.float64(2.08), 'std_dev_duration_us': np.float64(0.02522042721643693), 'min_duration_us': np.float64(2.015), 'max_duration_us': np.float64(2.208)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(2.07)}]",0.022569264371329712,98.8144709890134
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 3, 34, 34), (384, 16, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((55488, 3468, 1156, 34, 1), (432, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",126,20.62306818886409,20.62306818886409,20.6064453125,20.6064453125,0.5442558146012745,0.5442558146012745,19.5830078125,19.5830078125,21.760009765625,21.760009765625,2598.506591796875,2598.506591796875,133484,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(267.73800000000006), 'mean_duration_us': np.float64(2.1249047619047623), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.020600673656510377), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.176)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(338.046), 'mean_duration_us': np.float64(2.6829047619047617), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.07396314274867424), 'min_duration_us': np.float64(2.464), 'max_duration_us': np.float64(2.912)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(1659.4389999999999), 'mean_duration_us': np.float64(13.170150793650793), 'median_duration_us': np.float64(13.1675), 'std_dev_duration_us': np.float64(0.5961994987759045), 'min_duration_us': np.float64(12.032), 'max_duration_us': np.float64(14.368)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(333.2749999999999), 'mean_duration_us': np.float64(2.645039682539682), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.07982435090074093), 'min_duration_us': np.float64(2.431), 'max_duration_us': np.float64(2.88)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.12)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.68)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(13.17)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.65)}]",0.02243673071698857,98.83690771973039
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 3, 34, 34), (384, 16, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((55488, 3468, 1156, 34, 1), (432, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",126,20.62306818886409,20.62306818886409,20.6064453125,20.6064453125,0.5442558146012745,0.5442558146012745,19.5830078125,19.5830078125,21.760009765625,21.760009765625,2598.506591796875,2598.506591796875,133484,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(267.73800000000006), 'mean_duration_us': np.float64(2.1249047619047623), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.020600673656510377), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.176)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(333.2749999999999), 'mean_duration_us': np.float64(2.645039682539682), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.07982435090074093), 'min_duration_us': np.float64(2.431), 'max_duration_us': np.float64(2.88)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(338.046), 'mean_duration_us': np.float64(2.6829047619047617), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.07396314274867424), 'min_duration_us': np.float64(2.464), 'max_duration_us': np.float64(2.912)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(1659.4389999999999), 'mean_duration_us': np.float64(13.170150793650793), 'median_duration_us': np.float64(13.1675), 'std_dev_duration_us': np.float64(0.5961994987759045), 'min_duration_us': np.float64(12.032), 'max_duration_us': np.float64(14.368)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.12)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.65)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.68)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(13.17)}]",0.02243673071698857,98.83690771973039
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (1, 384, 1, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((393216, 1024, 1024, 32, 1), (393216, 1024, 1024, 32, 1), ())","('', '', 'False')",1385,1.83515625,1.83515625,1.823974609375,1.823974609375,0.02845980540660365,0.02845980540660365,1.760009765625,1.760009765625,2.112060546875,2.112060546875,2541.69140625,2541.69140625,133510,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 1385, 'total_duration_us': np.float64(2541.7340000000004), 'mean_duration_us': np.float64(1.8351870036101086), 'median_duration_us': np.float64(1.824), 'std_dev_duration_us': np.float64(0.028462560956811378), 'min_duration_us': np.float64(1.76), 'max_duration_us': np.float64(2.112)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(1.84)}]",0.021946161625197476,98.85885388135559
 aten::_softmax,other,python3,CPU,thread 10586 (python3),"((1, 64, 512, 512), (), ())","('float', 'Scalar', 'Scalar')","((16777216, 262144, 512, 1), (), ())","('', '-1', 'False')",48,52.388824462890625,52.388824462890625,52.319091796875,52.319091796875,0.7187664277566342,0.7187664277566342,51.199951171875,51.199951171875,55.007080078125,55.007080078125,2514.66357421875,2514.66357421875,199,"[{'name': 'void (anonymous namespace)::softmax_warp_forward<float, float, float, 9, false, false>(float*, float const*, int, int, int, bool const*, int, bool)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(2514.663), 'mean_duration_us': np.float64(52.3888125), 'median_duration_us': np.float64(52.319), 'std_dev_duration_us': np.float64(0.711223378419478), 'min_duration_us': np.float64(51.2), 'max_duration_us': np.float64(55.007)}]","[{'name': 'void (anonymous namespace)::softmax_warp_forward<float, float, f...', 'stream': 7, 'mean_duration_us': np.float64(52.39)}]",0.021712790583898783,98.88056667193949
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 64, 512, 512), (1, 64, 512, 512), ())","('float', 'c10::BFloat16', 'Scalar')","((16777216, 262144, 512, 1), (16777216, 262144, 512, 1), ())","('', '', 'False')",48,51.28360493977865,51.28360493977865,51.2314453125,51.2314453125,0.29322830493884905,0.29322830493884905,50.751953125,50.751953125,51.839111328125,51.839111328125,2461.613037109375,2461.613037109375,197,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(2461.6130000000003), 'mean_duration_us': np.float64(51.28360416666667), 'median_duration_us': np.float64(51.2315), 'std_dev_duration_us': np.float64(0.29016099981901794), 'min_duration_us': np.float64(50.752), 'max_duration_us': np.float64(51.839)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(51.28)}]",0.021254727241180233,98.90182139918068
@@ -122,19 +122,19 @@ aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128)
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1536,), (1536,), ())","('float', 'c10::BFloat16', 'Scalar')","((1,), (1,), ())","('', '', 'False')",600,3.7284346516927083,3.7284346516927083,3.7119140625,3.7119140625,0.260184792513861,0.260184792513861,3.135986328125,3.135986328125,4.511962890625,4.511962890625,2237.060791015625,2237.060791015625,12066,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 600, 'total_duration_us': np.float64(2237.065), 'mean_duration_us': np.float64(3.728441666666667), 'median_duration_us': np.float64(3.712), 'std_dev_duration_us': np.float64(0.2599618496316121), 'min_duration_us': np.float64(3.136), 'max_duration_us': np.float64(4.512)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(3.73)}]",0.019315837305936133,99.04315127364681
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (), ())","('c10::BFloat16', 'double', 'Scalar')","((12582912, 16384, 3145728, 128, 1), (), ())","('', '', '1')",125,17.869177734375,17.869177734375,17.760009765625,17.760009765625,0.3387131121189544,0.3387131121189544,17.31201171875,17.31201171875,18.944091796875,18.944091796875,2233.647216796875,2233.647216796875,136660,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(2233.646), 'mean_duration_us': np.float64(17.869168000000002), 'median_duration_us': np.float64(17.76), 'std_dev_duration_us': np.float64(0.33736763889857535), 'min_duration_us': np.float64(17.312), 'max_duration_us': np.float64(18.944)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(17.87)}]",0.01928636289714674,99.06243763654396
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((4, 384, 64, 64), (4, 384, 64, 64), ())","('float', 'c10::BFloat16', 'Scalar')","((4096, 16384, 64, 1), (4096, 16384, 64, 1), ())","('', '', 'False')",125,16.62422265625,16.62422265625,16.60791015625,16.60791015625,0.2117208939207523,0.2117208939207523,16.06396484375,16.06396484375,17.50390625,17.50390625,2078.02783203125,2078.02783203125,136629,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(2078.029), 'mean_duration_us': np.float64(16.624232), 'median_duration_us': np.float64(16.608), 'std_dev_duration_us': np.float64(0.21087099889743027), 'min_duration_us': np.float64(16.064), 'max_duration_us': np.float64(17.504)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(16.62)}]",0.01794267177804309,99.080380308322
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1536, 16, 1, 2, 2), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((2064384, 129024, 1024, 32, 1), (64, 4, 4, 2, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 2, 2]', '[1, 1, 1]', '1', 'False', 'False', 'True')",10,200.2802978515625,200.2802978515625,200.254638671875,200.254638671875,1.8100645629758794,1.8100645629758794,197.21435546875,197.21435546875,203.775390625,203.775390625,2002.802978515625,2002.802978515625,11772,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(84.416), 'mean_duration_us': np.float64(8.4416), 'median_duration_us': np.float64(8.416), 'std_dev_duration_us': np.float64(0.16860083036568962), 'min_duration_us': np.float64(8.16), 'max_duration_us': np.float64(8.704)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(43.648), 'mean_duration_us': np.float64(4.364800000000001), 'median_duration_us': np.float64(4.368), 'std_dev_duration_us': np.float64(0.07039999999999988), 'min_duration_us': np.float64(4.256), 'max_duration_us': np.float64(4.512)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(7.296999999999999), 'mean_duration_us': np.float64(0.7296999999999999), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.012853404218338436), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.737)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(762.554), 'mean_duration_us': np.float64(76.2554), 'median_duration_us': np.float64(76.1115), 'std_dev_duration_us': np.float64(1.3488461142769423), 'min_duration_us': np.float64(73.663), 'max_duration_us': np.float64(78.912)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1104.886), 'mean_duration_us': np.float64(110.48859999999999), 'median_duration_us': np.float64(110.431), 'std_dev_duration_us': np.float64(0.2850695353768956), 'min_duration_us': np.float64(110.111), 'max_duration_us': np.float64(110.975)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(8.44)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.36)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(76.26)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(110.49)}]",0.017293144935631704,99.09767345325764
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1536, 16, 1, 2, 2), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((2064384, 129024, 1024, 32, 1), (64, 4, 4, 2, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 2, 2]', '[1, 1, 1]', '1', 'False', 'False', 'True')",10,200.2802978515625,200.2802978515625,200.254638671875,200.254638671875,1.8100645629758794,1.8100645629758794,197.21435546875,197.21435546875,203.775390625,203.775390625,2002.802978515625,2002.802978515625,11772,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(7.296999999999999), 'mean_duration_us': np.float64(0.7296999999999999), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.012853404218338436), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.737)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(43.648), 'mean_duration_us': np.float64(4.364800000000001), 'median_duration_us': np.float64(4.368), 'std_dev_duration_us': np.float64(0.07039999999999988), 'min_duration_us': np.float64(4.256), 'max_duration_us': np.float64(4.512)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(84.416), 'mean_duration_us': np.float64(8.4416), 'median_duration_us': np.float64(8.416), 'std_dev_duration_us': np.float64(0.16860083036568962), 'min_duration_us': np.float64(8.16), 'max_duration_us': np.float64(8.704)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(762.554), 'mean_duration_us': np.float64(76.2554), 'median_duration_us': np.float64(76.1115), 'std_dev_duration_us': np.float64(1.3488461142769423), 'min_duration_us': np.float64(73.663), 'max_duration_us': np.float64(78.912)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1104.886), 'mean_duration_us': np.float64(110.48859999999999), 'median_duration_us': np.float64(110.431), 'std_dev_duration_us': np.float64(0.2850695353768956), 'min_duration_us': np.float64(110.111), 'max_duration_us': np.float64(110.975)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.36)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(8.44)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(76.26)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(110.49)}]",0.017293144935631704,99.09767345325764
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1), (), ())","('float', 'double', 'Scalar')","((32256, 1, 1), (), ())","('', '', '1')",900,2.183308376736111,2.183308376736111,2.14501953125,2.14501953125,0.14258203301392905,0.14258203301392905,1.951904296875,1.951904296875,3.263916015625,3.263916015625,1964.9775390625,1964.9775390625,11946,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<float>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<float>, std::array<char*, 2ul>)', 'stream': 7, 'count': 900, 'total_duration_us': np.float64(1964.958), 'mean_duration_us': np.float64(2.1832866666666666), 'median_duration_us': np.float64(2.145), 'std_dev_duration_us': np.float64(0.14252511685079694), 'min_duration_us': np.float64(1.952), 'max_duration_us': np.float64(3.264)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(2.18)}]",0.016966542262411368,99.11463999552005
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 768, 2, 64, 64), (1, 768, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 8192, 4096, 64, 1), (768, 1, 1, 1, 1), ())","('', '', '1')",125,15.6429609375,15.6429609375,15.615966796875,15.615966796875,0.09340511141360497,0.09340511141360497,15.4560546875,15.4560546875,15.904052734375,15.904052734375,1955.3701171875,1955.3701171875,136584,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1955.373), 'mean_duration_us': np.float64(15.642984), 'median_duration_us': np.float64(15.616), 'std_dev_duration_us': np.float64(0.09303487380547155), 'min_duration_us': np.float64(15.456), 'max_duration_us': np.float64(15.904)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.64)}]",0.01688358725349418,99.13152358277354
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 1, 1536))","('float', 'c10::BFloat16')","((49545216, 1536, 1), (1536, 1536, 1))","('', '')",10,195.143896484375,195.143896484375,194.6865234375,194.6865234375,1.524953027255422,1.524953027255422,193.43896484375,193.43896484375,199.134033203125,199.134033203125,1951.43896484375,1951.43896484375,23742,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1951.439), 'mean_duration_us': np.float64(195.1439), 'median_duration_us': np.float64(194.6865), 'std_dev_duration_us': np.float64(1.4466861062441967), 'min_duration_us': np.float64(193.439), 'max_duration_us': np.float64(199.134)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(195.14)}]",0.016849643831213623,99.14837322660475
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 1, 1536), ())","('float', 'c10::BFloat16', 'Scalar')","((49545216, 1536, 1), (3072, 1536, 1), ())","('', '', '1')",10,194.8428955078125,194.8428955078125,194.4305419921875,194.4305419921875,1.4836207129753647,1.4836207129753647,193.406005859375,193.406005859375,198.75,198.75,1948.428955078125,1948.428955078125,23743,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::CUDAFunctor_add<float> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::CUDAFunctor_add<float> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float> const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1948.429), 'mean_duration_us': np.float64(194.84290000000001), 'median_duration_us': np.float64(194.4305), 'std_dev_duration_us': np.float64(1.407482891547887), 'min_duration_us': np.float64(193.406), 'max_duration_us': np.float64(198.75)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(194.84)}]",0.016823653988132205,99.16519688059287
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 64, 64), (1, 384, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((6291456, 8192, 4096, 64, 1), (6291456, 8192, 4096, 64, 1)), ())","('', '3')",125,15.543044921875,15.543044921875,15.51806640625,15.51806640625,0.15482708209067517,0.15482708209067517,15.2958984375,15.2958984375,16.2880859375,16.2880859375,1942.880615234375,1942.880615234375,136612,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(974.4499999999999), 'mean_duration_us': np.float64(7.795599999999999), 'median_duration_us': np.float64(7.776), 'std_dev_duration_us': np.float64(0.06987840868251084), 'min_duration_us': np.float64(7.648), 'max_duration_us': np.float64(8.064)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(968.44), 'mean_duration_us': np.float64(7.747520000000001), 'median_duration_us': np.float64(7.712), 'std_dev_duration_us': np.float64(0.13303909801257682), 'min_duration_us': np.float64(7.584), 'max_duration_us': np.float64(8.48)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.8)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.75)}]",0.016775747006716978,99.18197262759959
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 64, 64), (1, 384, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((6291456, 8192, 4096, 64, 1), (6291456, 8192, 4096, 64, 1)), ())","('', '3')",125,15.543044921875,15.543044921875,15.51806640625,15.51806640625,0.15482708209067517,0.15482708209067517,15.2958984375,15.2958984375,16.2880859375,16.2880859375,1942.880615234375,1942.880615234375,136612,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(968.44), 'mean_duration_us': np.float64(7.747520000000001), 'median_duration_us': np.float64(7.712), 'std_dev_duration_us': np.float64(0.13303909801257682), 'min_duration_us': np.float64(7.584), 'max_duration_us': np.float64(8.48)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(974.4499999999999), 'mean_duration_us': np.float64(7.795599999999999), 'median_duration_us': np.float64(7.776), 'std_dev_duration_us': np.float64(0.06987840868251084), 'min_duration_us': np.float64(7.648), 'max_duration_us': np.float64(8.064)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.75)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.8)}]",0.016775747006716978,99.18197262759959
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 96, 2, 256, 256), (1, 96, 2, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((25165824, 65536, 6291456, 256, 1), (25165824, 65536, 6291456, 256, 1), ())","('', '', 'False')",125,15.419470703125,15.419470703125,15.263916015625,15.263916015625,0.4278622789383105,0.4278622789383105,14.910888671875,14.910888671875,17.02392578125,17.02392578125,1927.433837890625,1927.433837890625,137063,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1927.4349999999997), 'mean_duration_us': np.float64(15.419479999999998), 'median_duration_us': np.float64(15.264), 'std_dev_duration_us': np.float64(0.4261443248478151), 'min_duration_us': np.float64(14.911), 'max_duration_us': np.float64(17.024)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(15.42)}]",0.016642372250308395,99.1986149998499
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 32, 32), ())","('c10::BFloat16', 'Scalar')","((1024, 1024, 1024, 32, 1), ())","('', '9.9999999999999998e-13')",1260,1.4727593315972223,1.4727593315972223,1.50390625,1.50390625,0.11389590559749868,0.11389590559749868,1.31103515625,1.31103515625,1.919921875,1.919921875,1855.6767578125,1855.6767578125,133489,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(1855.716), 'mean_duration_us': np.float64(1.4727904761904762), 'median_duration_us': np.float64(1.504), 'std_dev_duration_us': np.float64(0.11385165329021839), 'min_duration_us': np.float64(1.311), 'max_duration_us': np.float64(1.92)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.47)}]",0.01602278779828784,99.21463778764819
 aten::mean,reduce,python3,CPU,thread 10586 (python3),"((1, 512, 1536), (), (), ())","('float', 'ScalarList', 'Scalar', '')","((786432, 1536, 1), (), (), ())","('', '[-1]', 'True', '')",300,6.170985514322917,6.170985514322917,6.176025390625,6.176025390625,0.050900669158329886,0.050900669158329886,6.048095703125,6.048095703125,6.39990234375,6.39990234375,1851.295654296875,1851.295654296875,12139,"[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4> >(at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4>)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(1851.2870000000003), 'mean_duration_us': np.float64(6.170956666666668), 'median_duration_us': np.float64(6.176), 'std_dev_duration_us': np.float64(0.050843499639143246), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(6.4)}]","[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<floa...', 'stream': 7, 'mean_duration_us': np.float64(6.17)}]",0.015984959285505286,99.23062274693369
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 4, 256, 256), ())","('c10::BFloat16', 'Scalar')","((262144, 262144, 65536, 256, 1), ())","('', '9.9999999999999998e-13')",875,2.0565200892857143,2.0565200892857143,2.0791015625,2.0791015625,0.12299186231240895,0.12299186231240895,1.85498046875,1.85498046875,3.008056640625,3.008056640625,1799.455078125,1799.455078125,137042,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 875, 'total_duration_us': np.float64(1799.44), 'mean_duration_us': np.float64(2.056502857142857), 'median_duration_us': np.float64(2.079), 'std_dev_duration_us': np.float64(0.12289569441653543), 'min_duration_us': np.float64(1.855), 'max_duration_us': np.float64(3.008)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(2.06)}]",0.01553734331583496,99.24616009024953
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 64, 512, 512), (1, 64, 512, 512), ())","('c10::BFloat16', 'float', 'Scalar')","((16777216, 262144, 512, 1), (16777216, 262144, 512, 1), ())","('', '', 'False')",48,36.4149169921875,36.4149169921875,36.0799560546875,36.0799560546875,0.5790198531495682,0.5790198531495682,35.743896484375,35.743896484375,37.375,37.375,1747.916015625,1747.916015625,204,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(1747.9170000000001), 'mean_duration_us': np.float64(36.4149375), 'median_duration_us': np.float64(36.08), 'std_dev_duration_us': np.float64(0.5729612554618473), 'min_duration_us': np.float64(35.744), 'max_duration_us': np.float64(37.375)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(36.41)}]",0.015092330757325762,99.26125242100686
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1536), (1, 512, 1))","('c10::BFloat16', 'float')","((786432, 1536, 1), (512, 1, 1))","('', '')",300,5.4868994140625,5.4868994140625,5.471923828125,5.471923828125,0.06230153644462122,0.06230153644462122,5.31201171875,5.31201171875,5.72802734375,5.72802734375,1646.06982421875,1646.06982421875,12142,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(1646.0839999999998), 'mean_duration_us': np.float64(5.486946666666666), 'median_duration_us': np.float64(5.472), 'std_dev_duration_us': np.float64(0.06217129955927299), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.728)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.49)}]",0.014212942735626437,99.27546536374248
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 2, 64, 64), (1, 192, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((1572864, 4096, 786432, 64, 1), (1572864, 4096, 786432, 64, 1)), ())","('', '2')",124,12.921849404611896,12.921849404611896,12.927490234375,12.927490234375,0.1768638754743268,0.1768638754743268,12.510986328125,12.510986328125,13.43994140625,13.43994140625,1602.309326171875,1602.309326171875,138541,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(902.765), 'mean_duration_us': np.float64(7.280362903225806), 'median_duration_us': np.float64(7.264), 'std_dev_duration_us': np.float64(0.1251489006484147), 'min_duration_us': np.float64(7.072), 'max_duration_us': np.float64(7.711)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(699.5449999999998), 'mean_duration_us': np.float64(5.641491935483869), 'median_duration_us': np.float64(5.632), 'std_dev_duration_us': np.float64(0.09359844704802688), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.856)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.64)}]",0.01383509396902389,99.2893004577115
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 2, 64, 64), (1, 192, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((1572864, 4096, 786432, 64, 1), (1572864, 4096, 786432, 64, 1)), ())","('', '2')",124,12.921849404611896,12.921849404611896,12.927490234375,12.927490234375,0.1768638754743268,0.1768638754743268,12.510986328125,12.510986328125,13.43994140625,13.43994140625,1602.309326171875,1602.309326171875,138541,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(699.5449999999998), 'mean_duration_us': np.float64(5.641491935483869), 'median_duration_us': np.float64(5.632), 'std_dev_duration_us': np.float64(0.09359844704802688), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.856)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(902.765), 'mean_duration_us': np.float64(7.280362903225806), 'median_duration_us': np.float64(7.264), 'std_dev_duration_us': np.float64(0.1251489006484147), 'min_duration_us': np.float64(7.072), 'max_duration_us': np.float64(7.711)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.28)}]",0.01383509396902389,99.2893004577115
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1536), (1, 512, 1536), ())","('float', 'c10::BFloat16', 'Scalar')","((786432, 1536, 1), (786432, 1536, 1), ())","('', '', 'False')",300,5.282928059895833,5.282928059895833,5.248046875,5.248046875,0.19021166031641673,0.19021166031641673,5.02392578125,5.02392578125,6.112060546875,6.112060546875,1584.87841796875,1584.87841796875,12135,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(1584.872), 'mean_duration_us': np.float64(5.282906666666667), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.1899047602235277), 'min_duration_us': np.float64(5.024), 'max_duration_us': np.float64(6.112)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",0.013684587291557424,99.30298504500307
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 1536, 126, 16, 16), (1, 1536, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((49545216, 32256, 256, 16, 1), (1536, 1, 1, 1, 1), ())","('', '', '1')",10,151.1123046875,151.1123046875,151.135009765625,151.135009765625,1.1609375588719515,1.1609375588719515,148.958984375,148.958984375,153.533935546875,153.533935546875,1511.123046875,1511.123046875,11775,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1511.123), 'mean_duration_us': np.float64(151.1123), 'median_duration_us': np.float64(151.135), 'std_dev_duration_us': np.float64(1.1013839521256856), 'min_duration_us': np.float64(148.959), 'max_duration_us': np.float64(153.534)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(151.11)}]",0.01304774865301554,99.31603279365609
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (1, 384, 1, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((393216, 1024, 1024, 32, 1), (393216, 1024, 1024, 32, 1), ())","('', '', '1')",630,2.337560066344246,2.337560066344246,2.3359375,2.3359375,0.08680374524531527,0.08680374524531527,2.080078125,2.080078125,2.751953125,2.751953125,1472.662841796875,1472.662841796875,133589,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 630, 'total_duration_us': np.float64(1472.6889999999999), 'mean_duration_us': np.float64(2.337601587301587), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.08673673905700154), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.752)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(2.34)}]",0.012715665114192828,99.32874845877028
@@ -159,22 +159,22 @@ aten::mean,reduce,python3,CPU,thread 10586 (python3),"((1, 512, 4096), (), (), (
 aten::bmm,GEMM,python3,CPU,thread 10586 (python3),"((64, 512, 512), (64, 512, 64))","('c10::BFloat16', 'c10::BFloat16')","((262144, 512, 1), (64, 4096, 1))","('', '')",48,18.321060180664062,18.321060180664062,18.1600341796875,18.1600341796875,0.5155002027466918,0.5155002027466918,17.568115234375,17.568115234375,19.840087890625,19.840087890625,879.410888671875,879.410888671875,215,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_32x6_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_32x6_nn_align8::Params)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(879.4110000000001), 'mean_duration_us': np.float64(18.3210625), 'median_duration_us': np.float64(18.159999999999997), 'std_dev_duration_us': np.float64(0.5100926143950885), 'min_duration_us': np.float64(17.568), 'max_duration_us': np.float64(19.84)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(18.32)}]",0.007593248122212519,99.52614582393161
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 2, 64, 64), (1, 192, 2, 64, 64))","('c10::BFloat16', 'c10::BFloat16')","((1572864, 4096, 786432, 64, 1), (8192, 0, 4096, 64, 1))","('', '')",125,6.920154296875,6.920154296875,6.912109375,6.912109375,0.09586724908146696,0.09586724908146696,6.68798828125,6.68798828125,7.199951171875,7.199951171875,865.019287109375,865.019287109375,136208,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(865.0190000000001), 'mean_duration_us': np.float64(6.920152000000001), 'median_duration_us': np.float64(6.912), 'std_dev_duration_us': np.float64(0.09543945146531393), 'min_duration_us': np.float64(6.688), 'max_duration_us': np.float64(7.2)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.92)}]",0.007468984250855273,99.53361480818246
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 10240), (1, 512, 10240))","('c10::BFloat16', 'c10::BFloat16')","((5242880, 10240, 1), (5242880, 10240, 1))","('', '')",96,8.908638000488281,8.908638000488281,9.151611328125,9.151611328125,0.5345586607333144,0.5345586607333144,8.22412109375,8.22412109375,9.951904296875,9.951904296875,855.229248046875,855.229248046875,270,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 3ul> >(int, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 3ul>)', 'stream': 7, 'count': 96, 'total_duration_us': np.float64(855.2280000000001), 'mean_duration_us': np.float64(8.908625), 'median_duration_us': np.float64(9.151499999999999), 'std_dev_duration_us': np.float64(0.5317951761486744), 'min_duration_us': np.float64(8.224), 'max_duration_us': np.float64(9.952)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Bi...', 'stream': 7, 'mean_duration_us': np.float64(8.91)}]",0.007384452439064787,99.54099926062153
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 3, 258, 258), (96, 96, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((19170432, 199692, 66564, 258, 1), (2592, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",6,138.2974853515625,138.2974853515625,138.14306640625,138.14306640625,0.5272189239832669,0.5272189239832669,137.72705078125,137.72705078125,139.198974609375,139.198974609375,829.784912109375,829.784912109375,134821,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(253.95), 'mean_duration_us': np.float64(42.324999999999996), 'median_duration_us': np.float64(42.352000000000004), 'std_dev_duration_us': np.float64(0.20668010708983695), 'min_duration_us': np.float64(42.015), 'max_duration_us': np.float64(42.656)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(20.96), 'mean_duration_us': np.float64(3.4933333333333336), 'median_duration_us': np.float64(3.536), 'std_dev_duration_us': np.float64(0.11599233691163502), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.648)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.608), 'mean_duration_us': np.float64(0.7679999999999999), 'median_duration_us': np.float64(0.768), 'std_dev_duration_us': np.float64(0.03200000000000003), 'min_duration_us': np.float64(0.736), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(480.379), 'mean_duration_us': np.float64(80.06316666666667), 'median_duration_us': np.float64(79.983), 'std_dev_duration_us': np.float64(0.3969082247685089), 'min_duration_us': np.float64(79.584), 'max_duration_us': np.float64(80.799)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(69.888), 'mean_duration_us': np.float64(11.648000000000001), 'median_duration_us': np.float64(11.6), 'std_dev_duration_us': np.float64(0.15567487487281534), 'min_duration_us': np.float64(11.52), 'max_duration_us': np.float64(11.968)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.32)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.49)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.77)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.06)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.65)}]",0.00716475404941879,99.54816401467095
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 3, 258, 258), (96, 96, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((19170432, 199692, 66564, 258, 1), (2592, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",6,138.2974853515625,138.2974853515625,138.14306640625,138.14306640625,0.5272189239832669,0.5272189239832669,137.72705078125,137.72705078125,139.198974609375,139.198974609375,829.784912109375,829.784912109375,134821,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.608), 'mean_duration_us': np.float64(0.7679999999999999), 'median_duration_us': np.float64(0.768), 'std_dev_duration_us': np.float64(0.03200000000000003), 'min_duration_us': np.float64(0.736), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(20.96), 'mean_duration_us': np.float64(3.4933333333333336), 'median_duration_us': np.float64(3.536), 'std_dev_duration_us': np.float64(0.11599233691163502), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.648)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(69.888), 'mean_duration_us': np.float64(11.648000000000001), 'median_duration_us': np.float64(11.6), 'std_dev_duration_us': np.float64(0.15567487487281534), 'min_duration_us': np.float64(11.52), 'max_duration_us': np.float64(11.968)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(253.95), 'mean_duration_us': np.float64(42.324999999999996), 'median_duration_us': np.float64(42.352000000000004), 'std_dev_duration_us': np.float64(0.20668010708983695), 'min_duration_us': np.float64(42.015), 'max_duration_us': np.float64(42.656)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(480.379), 'mean_duration_us': np.float64(80.06316666666667), 'median_duration_us': np.float64(79.983), 'std_dev_duration_us': np.float64(0.3969082247685089), 'min_duration_us': np.float64(79.584), 'max_duration_us': np.float64(80.799)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.77)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.49)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.65)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.32)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.06)}]",0.00716475404941879,99.54816401467095
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 2, 64, 64), (192, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((1572864, 4096, 786432, 64, 1), (1, 1, 1, 1))","('', '')",125,6.635900390625,6.635900390625,6.6240234375,6.6240234375,0.09621578052530944,0.09621578052530944,6.39990234375,6.39990234375,6.944091796875,6.944091796875,829.487548828125,829.487548828125,136210,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(829.485), 'mean_duration_us': np.float64(6.63588), 'median_duration_us': np.float64(6.624), 'std_dev_duration_us': np.float64(0.09586303562896387), 'min_duration_us': np.float64(6.4), 'max_duration_us': np.float64(6.944)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.64)}]",0.007162186474686599,99.55532620114563
 aten::bmm,GEMM,python3,CPU,thread 10586 (python3),"((64, 512, 64), (64, 64, 512))","('c10::BFloat16', 'c10::BFloat16')","((64, 4096, 1), (64, 1, 4096))","('', '')",48,17.221954345703125,17.221954345703125,17.18408203125,17.18408203125,0.12420286115001129,0.12420286115001129,16.927978515625,16.927978515625,17.47216796875,17.47216796875,826.65380859375,826.65380859375,117,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(35.235), 'mean_duration_us': np.float64(0.7340625), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.012128489618112675), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(0.768)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(791.415), 'mean_duration_us': np.float64(16.4878125), 'median_duration_us': np.float64(16.448), 'std_dev_duration_us': np.float64(0.12022958181641505), 'min_duration_us': np.float64(16.191), 'max_duration_us': np.float64(16.736)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(16.49)}]",0.007137718625822456,99.56246391977146
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((2, 192, 64, 64), (1, 192, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((786432, 4096, 64, 1), (192, 1, 1, 1), ())","('', '', '1')",125,6.58840234375,6.58840234375,6.56103515625,6.56103515625,0.08395949378759103,0.08395949378759103,6.39990234375,6.39990234375,6.847900390625,6.847900390625,823.55029296875,823.55029296875,136182,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(823.546), 'mean_duration_us': np.float64(6.588368), 'median_duration_us': np.float64(6.561), 'std_dev_duration_us': np.float64(0.08364960595244895), 'min_duration_us': np.float64(6.4), 'max_duration_us': np.float64(6.848)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.59)}]",0.0071109214090773025,99.56957484118054
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 1, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((32768, 2048, 1024, 32, 1), (16384, 1024, 1024, 32, 1)), ())","('', '2')",124,6.580936554939516,6.580936554939516,6.56103515625,6.56103515625,0.11247082224149711,0.11247082224149711,6.337890625,6.337890625,7.072021484375,7.072021484375,816.0361328125,816.0361328125,137503,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(480.76599999999996), 'mean_duration_us': np.float64(3.8771451612903225), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.10933469578497643), 'min_duration_us': np.float64(3.679), 'max_duration_us': np.float64(4.384)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(335.27000000000004), 'mean_duration_us': np.float64(2.7037903225806454), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.030540632425151173), 'min_duration_us': np.float64(2.624), 'max_duration_us': np.float64(2.753)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.7)}]",0.007046040608496564,99.57662088178904
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 1, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((32768, 2048, 1024, 32, 1), (16384, 1024, 1024, 32, 1)), ())","('', '2')",124,6.580936554939516,6.580936554939516,6.56103515625,6.56103515625,0.11247082224149711,0.11247082224149711,6.337890625,6.337890625,7.072021484375,7.072021484375,816.0361328125,816.0361328125,137503,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(335.27000000000004), 'mean_duration_us': np.float64(2.7037903225806454), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.030540632425151173), 'min_duration_us': np.float64(2.624), 'max_duration_us': np.float64(2.753)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(480.76599999999996), 'mean_duration_us': np.float64(3.8771451612903225), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.10933469578497643), 'min_duration_us': np.float64(3.679), 'max_duration_us': np.float64(4.384)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.7)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.88)}]",0.007046040608496564,99.57662088178904
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((786432, 1024, 1024, 32, 1), (786432, 1024, 1024, 32, 1)), ())","('', '3')",125,6.5173359375,6.5173359375,6.52685546875,6.52685546875,0.05036303960161556,0.05036303960161556,6.39990234375,6.39990234375,6.65576171875,6.65576171875,814.6669921875,814.6669921875,136146,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(404.3470000000001), 'mean_duration_us': np.float64(3.2347760000000005), 'median_duration_us': np.float64(3.232), 'std_dev_duration_us': np.float64(0.0388331536705428), 'min_duration_us': np.float64(3.167), 'max_duration_us': np.float64(3.328)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(410.338), 'mean_duration_us': np.float64(3.2827040000000003), 'median_duration_us': np.float64(3.296), 'std_dev_duration_us': np.float64(0.03089285328356698), 'min_duration_us': np.float64(3.2), 'max_duration_us': np.float64(3.36)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.23)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.28)}]",0.007034218802997286,99.58365510059204
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 192, 2, 128, 128), (1, 192, 2, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((12582912, 16384, 3145728, 128, 1), (12582912, 16384, 3145728, 128, 1), ())","('', '', 'False')",125,6.500748046875,6.500748046875,6.464111328125,6.464111328125,0.1307143278303918,0.1307143278303918,6.2080078125,6.2080078125,6.97607421875,6.97607421875,812.593505859375,812.593505859375,136674,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(812.594), 'mean_duration_us': np.float64(6.500752), 'median_duration_us': np.float64(6.464), 'std_dev_duration_us': np.float64(0.13016805482144977), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.976)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(6.5)}]",0.007016315344704603,99.59067141593674
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 2, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((32768, 2048, 1024, 32, 1), (2064384, 129024, 1024, 32, 1)), ())","('', '2')",124,6.552543394027218,6.552543394027218,6.528076171875,6.528076171875,0.0935604254620646,0.0935604254620646,6.367919921875,6.367919921875,7.0400390625,7.0400390625,812.515380859375,812.515380859375,137511,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(478.0789999999999), 'mean_duration_us': np.float64(3.855475806451612), 'median_duration_us': np.float64(3.8715), 'std_dev_duration_us': np.float64(0.0875803284465253), 'min_duration_us': np.float64(3.68), 'max_duration_us': np.float64(4.352)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(334.434), 'mean_duration_us': np.float64(2.6970483870967743), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.03112224980431864), 'min_duration_us': np.float64(2.624), 'max_duration_us': np.float64(2.784)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.86)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.7)}]",0.007015640776630465,99.59768705671337
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 2, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((32768, 2048, 1024, 32, 1), (2064384, 129024, 1024, 32, 1)), ())","('', '2')",124,6.552543394027218,6.552543394027218,6.528076171875,6.528076171875,0.0935604254620646,0.0935604254620646,6.367919921875,6.367919921875,7.0400390625,7.0400390625,812.515380859375,812.515380859375,137511,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(334.434), 'mean_duration_us': np.float64(2.6970483870967743), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.03112224980431864), 'min_duration_us': np.float64(2.624), 'max_duration_us': np.float64(2.784)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(478.0789999999999), 'mean_duration_us': np.float64(3.855475806451612), 'median_duration_us': np.float64(3.8715), 'std_dev_duration_us': np.float64(0.0875803284465253), 'min_duration_us': np.float64(3.68), 'max_duration_us': np.float64(4.352)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.7)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.86)}]",0.007015640776630465,99.59768705671337
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 384, 4, 64, 64), (1, 384, 4, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 16384, 4096, 64, 1), (6291456, 16384, 4096, 64, 1), ())","('', '', 'False')",124,6.526379000756048,6.526379000756048,6.528076171875,6.528076171875,0.16173109096800017,0.16173109096800017,6.176025390625,6.176025390625,6.944091796875,6.944091796875,809.27099609375,809.27099609375,138878,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(809.272), 'mean_duration_us': np.float64(6.526387096774194), 'median_duration_us': np.float64(6.528), 'std_dev_duration_us': np.float64(0.1610693954669457), 'min_duration_us': np.float64(6.176), 'max_duration_us': np.float64(6.944)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(6.53)}]",0.0069876272293266295,99.60467468394269
 aten::pow,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1536), ())","('float', 'Scalar')","((786432, 1536, 1), ())","('', '2')",300,2.5700455729166665,2.5700455729166665,2.56005859375,2.56005859375,0.07212060911829779,0.07212060911829779,2.49609375,2.49609375,3.199951171875,3.199951171875,771.013671875,771.013671875,12136,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::pow_tensor_scalar_kernel_impl<float, float>(at::TensorIteratorBase&, float)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::pow_tensor_scalar_kernel_impl<float, float>(at::TensorIteratorBase&, float)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(770.997), 'mean_duration_us': np.float64(2.5699899999999998), 'median_duration_us': np.float64(2.56), 'std_dev_duration_us': np.float64(0.0720274709167736), 'min_duration_us': np.float64(2.496), 'max_duration_us': np.float64(3.2)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(2.57)}]",0.006657295459471448,99.61133197940217
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1536), (1, 512, 1536), ())","('c10::BFloat16', 'float', 'Scalar')","((786432, 1536, 1), (786432, 1536, 1), ())","('', '', 'False')",300,2.53775634765625,2.53775634765625,2.56005859375,2.56005859375,0.07184835765020138,0.07184835765020138,2.431884765625,2.431884765625,2.944091796875,2.944091796875,761.326904296875,761.326904296875,12146,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(761.307), 'mean_duration_us': np.float64(2.53769), 'median_duration_us': np.float64(2.56), 'std_dev_duration_us': np.float64(0.07175583994816499), 'min_duration_us': np.float64(2.432), 'max_duration_us': np.float64(2.944)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(2.54)}]",0.006573655342353963,99.61790563474452
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((4096,), (1, 512, 4096))","('c10::BFloat16', 'c10::BFloat16')","((1,), (2097152, 4096, 1))","('', '')",98,7.48957669005102,7.48957669005102,7.488037109375,7.488037109375,0.1688506813528271,0.1688506813528271,7.10400390625,7.10400390625,7.904052734375,7.904052734375,733.978515625,733.978515625,69,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 98, 'total_duration_us': np.float64(733.979), 'mean_duration_us': np.float64(7.489581632653062), 'median_duration_us': np.float64(7.488), 'std_dev_duration_us': np.float64(0.16799106654269064), 'min_duration_us': np.float64(7.104), 'max_duration_us': np.float64(7.904)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.49)}]",0.00633751646392607,99.62424315120845
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 2, 64, 64), (1, 192, 2, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1572864, 8192, 4096, 64, 1), (1572864, 4096, 786432, 64, 1), ())","('', '', 'False')",125,5.79855859375,5.79855859375,5.7919921875,5.7919921875,0.10567868132111756,0.10567868132111756,5.59912109375,5.59912109375,6.080078125,6.080078125,724.81982421875,724.81982421875,136198,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(724.82), 'mean_duration_us': np.float64(5.79856), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.10529458865487823), 'min_duration_us': np.float64(5.599), 'max_duration_us': np.float64(6.08)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.8)}]",0.006258436005384715,99.63050158721383
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 5, 256, 256), (1, 96, 5, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((38340864, 399384, 66564, 258, 1), (31457280, 327680, 65536, 256, 1), ())","('', '', 'False')",7,95.52828543526786,95.52828543526786,95.51904296875,95.51904296875,0.16085967546789462,0.16085967546789462,95.35888671875,95.35888671875,95.839111328125,95.839111328125,668.697998046875,668.697998046875,137091,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(668.698), 'mean_duration_us': np.float64(95.52828571428572), 'median_duration_us': np.float64(95.519), 'std_dev_duration_us': np.float64(0.1488572799560666), 'min_duration_us': np.float64(95.359), 'max_duration_us': np.float64(95.839)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(95.53)}]",0.0057738537052515965,99.63627544091908
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 3, 130, 130), (192, 192, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((9734400, 50700, 16900, 130, 1), (5184, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",6,110.702880859375,110.702880859375,110.6702880859375,110.6702880859375,0.7440003430560562,0.7440003430560562,109.822265625,109.822265625,112.031005859375,112.031005859375,664.21728515625,664.21728515625,134490,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(106.75), 'mean_duration_us': np.float64(17.791666666666668), 'median_duration_us': np.float64(17.7755), 'std_dev_duration_us': np.float64(0.23426528172612768), 'min_duration_us': np.float64(17.408), 'max_duration_us': np.float64(18.111)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(29.279), 'mean_duration_us': np.float64(4.879833333333333), 'median_duration_us': np.float64(4.848), 'std_dev_duration_us': np.float64(0.1699729553651274), 'min_duration_us': np.float64(4.704), 'max_duration_us': np.float64(5.184)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.383), 'mean_duration_us': np.float64(0.7305), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.011856784274554952), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.736)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(485.596), 'mean_duration_us': np.float64(80.93266666666666), 'median_duration_us': np.float64(80.67099999999999), 'std_dev_duration_us': np.float64(0.7840205496173069), 'min_duration_us': np.float64(80.351), 'max_duration_us': np.float64(82.623)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(38.208), 'mean_duration_us': np.float64(6.367999999999999), 'median_duration_us': np.float64(6.4), 'std_dev_duration_us': np.float64(0.1621192976380869), 'min_duration_us': np.float64(6.112), 'max_duration_us': np.float64(6.56)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(17.79)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.88)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.93)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.37)}]",0.00573516511817452,99.64201060603725
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 66, 66), (384, 384, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((5018112, 13068, 4356, 66, 1), (10368, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",5,132.363818359375,132.363818359375,132.318115234375,132.318115234375,1.3702478804625027,1.3702478804625027,130.653076171875,130.653076171875,134.33642578125,134.33642578125,661.819091796875,661.819091796875,134210,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(39.297), 'mean_duration_us': np.float64(7.859399999999999), 'median_duration_us': np.float64(7.872), 'std_dev_duration_us': np.float64(0.03232089107682514), 'min_duration_us': np.float64(7.809), 'max_duration_us': np.float64(7.904)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(53.086000000000006), 'mean_duration_us': np.float64(10.6172), 'median_duration_us': np.float64(10.624), 'std_dev_duration_us': np.float64(0.08153870246698759), 'min_duration_us': np.float64(10.496), 'max_duration_us': np.float64(10.719)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(3.9669999999999996), 'mean_duration_us': np.float64(0.7933999999999999), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.012705904139414883), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(545.052), 'mean_duration_us': np.float64(109.0104), 'median_duration_us': np.float64(108.735), 'std_dev_duration_us': np.float64(1.290723146147151), 'min_duration_us': np.float64(107.167), 'max_duration_us': np.float64(111.007)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(20.416), 'mean_duration_us': np.float64(4.0832), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.1241022159350913), 'min_duration_us': np.float64(3.935), 'max_duration_us': np.float64(4.224)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(7.86)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.62)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.79)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(109.01)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.08)}]",0.005714457986323697,99.64772506402358
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 3, 130, 130), (192, 192, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((9734400, 50700, 16900, 130, 1), (5184, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",6,110.702880859375,110.702880859375,110.6702880859375,110.6702880859375,0.7440003430560562,0.7440003430560562,109.822265625,109.822265625,112.031005859375,112.031005859375,664.21728515625,664.21728515625,134490,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.383), 'mean_duration_us': np.float64(0.7305), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.011856784274554952), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.736)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(29.279), 'mean_duration_us': np.float64(4.879833333333333), 'median_duration_us': np.float64(4.848), 'std_dev_duration_us': np.float64(0.1699729553651274), 'min_duration_us': np.float64(4.704), 'max_duration_us': np.float64(5.184)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(38.208), 'mean_duration_us': np.float64(6.367999999999999), 'median_duration_us': np.float64(6.4), 'std_dev_duration_us': np.float64(0.1621192976380869), 'min_duration_us': np.float64(6.112), 'max_duration_us': np.float64(6.56)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(106.75), 'mean_duration_us': np.float64(17.791666666666668), 'median_duration_us': np.float64(17.7755), 'std_dev_duration_us': np.float64(0.23426528172612768), 'min_duration_us': np.float64(17.408), 'max_duration_us': np.float64(18.111)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(485.596), 'mean_duration_us': np.float64(80.93266666666666), 'median_duration_us': np.float64(80.67099999999999), 'std_dev_duration_us': np.float64(0.7840205496173069), 'min_duration_us': np.float64(80.351), 'max_duration_us': np.float64(82.623)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.88)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.37)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(17.79)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.93)}]",0.00573516511817452,99.64201060603725
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 66, 66), (384, 384, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((5018112, 13068, 4356, 66, 1), (10368, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",5,132.363818359375,132.363818359375,132.318115234375,132.318115234375,1.3702478804625027,1.3702478804625027,130.653076171875,130.653076171875,134.33642578125,134.33642578125,661.819091796875,661.819091796875,134210,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(3.9669999999999996), 'mean_duration_us': np.float64(0.7933999999999999), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.012705904139414883), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(20.416), 'mean_duration_us': np.float64(4.0832), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.1241022159350913), 'min_duration_us': np.float64(3.935), 'max_duration_us': np.float64(4.224)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(39.297), 'mean_duration_us': np.float64(7.859399999999999), 'median_duration_us': np.float64(7.872), 'std_dev_duration_us': np.float64(0.03232089107682514), 'min_duration_us': np.float64(7.809), 'max_duration_us': np.float64(7.904)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(53.086000000000006), 'mean_duration_us': np.float64(10.6172), 'median_duration_us': np.float64(10.624), 'std_dev_duration_us': np.float64(0.08153870246698759), 'min_duration_us': np.float64(10.496), 'max_duration_us': np.float64(10.719)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(545.052), 'mean_duration_us': np.float64(109.0104), 'median_duration_us': np.float64(108.735), 'std_dev_duration_us': np.float64(1.290723146147151), 'min_duration_us': np.float64(107.167), 'max_duration_us': np.float64(111.007)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.79)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.08)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(7.86)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.62)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(109.01)}]",0.005714457986323697,99.64772506402358
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 4096), (1, 512, 4096), ())","('float', 'c10::BFloat16', 'Scalar')","((2097152, 4096, 1), (2097152, 4096, 1), ())","('', '', 'False')",98,6.752254563934949,6.752254563934949,6.719970703125,6.719970703125,0.15668733409141478,0.15668733409141478,6.528076171875,6.528076171875,7.16796875,7.16796875,661.720947265625,661.720947265625,57,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 98, 'total_duration_us': np.float64(661.721), 'mean_duration_us': np.float64(6.752255102040817), 'median_duration_us': np.float64(6.72), 'std_dev_duration_us': np.float64(0.15589244796048354), 'min_duration_us': np.float64(6.528), 'max_duration_us': np.float64(7.168)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(6.75)}]",0.005713610560180561,99.65343867458375
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((2, 384, 64, 64), (2, 384, 64, 64), ())","('c10::BFloat16', 'float', 'Scalar')","((1572864, 4096, 64, 1), (1572864, 4096, 64, 1), ())","('', '', 'False')",125,5.2274921875,5.2274921875,5.216064453125,5.216064453125,0.0570904976986874,0.0570904976986874,5.152099609375,5.152099609375,5.43994140625,5.43994140625,653.4365234375,653.4365234375,136175,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(653.4289999999999), 'mean_duration_us': np.float64(5.2274319999999985), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.05689349150825608), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.44)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(5.23)}]",0.005642078939993864,99.65908075352375
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1), (), ())","('float', 'double', 'Scalar')","((512, 1, 1), (), ())","('', '', '1')",398,1.6312439884971734,1.6312439884971734,1.695068359375,1.695068359375,0.11396083874683917,0.11396083874683917,1.3759765625,1.3759765625,2.27197265625,2.27197265625,649.235107421875,649.235107421875,62,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<float>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<float>, std::array<char*, 2ul>)', 'stream': 7, 'count': 398, 'total_duration_us': np.float64(649.243), 'mean_duration_us': np.float64(1.6312638190954776), 'median_duration_us': np.float64(1.695), 'std_dev_duration_us': np.float64(0.11377535941290237), 'min_duration_us': np.float64(1.376), 'max_duration_us': np.float64(2.272)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(1.63)}]",0.005605801933781832,99.66468655545754
@@ -208,216 +208,216 @@ aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 10240), (),
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 64, 64), (1, 512, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2097152, 4096, 64, 1), (2097152, 64, 32768, 1), ())","('', '', 'False')",48,6.8986867268880205,6.8986867268880205,6.8798828125,6.8798828125,0.2732068674295325,0.2732068674295325,6.592041015625,6.592041015625,8.19189453125,8.19189453125,331.136962890625,331.136962890625,223,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(331.137), 'mean_duration_us': np.float64(6.8986875), 'median_duration_us': np.float64(6.88), 'std_dev_duration_us': np.float64(0.27036057375984035), 'min_duration_us': np.float64(6.592), 'max_duration_us': np.float64(8.192)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.9)}]",0.0028591926186651616,99.77950745400861
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 5, 128, 128), (1, 192, 5, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19468800, 101400, 16900, 130, 1), (15728640, 81920, 16384, 128, 1), ())","('', '', 'False')",6,50.9219970703125,50.9219970703125,50.8314208984375,50.8314208984375,0.2632109845404184,0.2632109845404184,50.655029296875,50.655029296875,51.39208984375,51.39208984375,305.531982421875,305.531982421875,136702,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(305.532), 'mean_duration_us': np.float64(50.922), 'median_duration_us': np.float64(50.831500000000005), 'std_dev_duration_us': np.float64(0.24023738260312505), 'min_duration_us': np.float64(50.655), 'max_duration_us': np.float64(51.392)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(50.92)}]",0.0026381071484167166,99.78214556115702
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 384, 3, 32, 32), (1, 384, 3, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1179648, 3072, 1024, 32, 1), (1179648, 3072, 1024, 32, 1), ())","('', '', 'False')",124,2.353736139112903,2.353736139112903,2.367919921875,2.367919921875,0.03635136603436274,0.03635136603436274,2.27197265625,2.27197265625,2.43310546875,2.43310546875,291.86328125,291.86328125,138425,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(291.87199999999996), 'mean_duration_us': np.float64(2.3538064516129027), 'median_duration_us': np.float64(2.368), 'std_dev_duration_us': np.float64(0.036220800791666605), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.433)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(2.35)}]",0.0025200851397704834,99.78466564629679
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 497, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((97714176, 32571392, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,246.718017578125,246.718017578125,246.718017578125,246.718017578125,,,246.718017578125,246.718017578125,246.718017578125,246.718017578125,246.718017578125,246.718017578125,417947,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(241.438), 'mean_duration_us': np.float64(241.438), 'median_duration_us': np.float64(241.438), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(241.438), 'max_duration_us': np.float64(241.438)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(241.44)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",0.0021302796540538303,99.78679592595084
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 497, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((97714176, 32571392, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,246.718017578125,246.718017578125,246.718017578125,246.718017578125,,,246.718017578125,246.718017578125,246.718017578125,246.718017578125,246.718017578125,246.718017578125,417947,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(241.438), 'mean_duration_us': np.float64(241.438), 'median_duration_us': np.float64(241.438), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(241.438), 'max_duration_us': np.float64(241.438)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(241.44)}]",0.0021302796540538303,99.78679592595084
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (1, 384, 1, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((393216, 1024, 393216, 32, 1), (393216, 1024, 1024, 32, 1), ())","('', '', '1')",126,1.942991226438492,1.942991226438492,1.950927734375,1.950927734375,0.03154762062422343,0.03154762062422343,1.887939453125,1.887939453125,2.048095703125,2.048095703125,244.81689453125,244.81689453125,133667,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(244.82499999999996), 'mean_duration_us': np.float64(1.9430555555555553), 'median_duration_us': np.float64(1.951), 'std_dev_duration_us': np.float64(0.03138048770842072), 'min_duration_us': np.float64(1.888), 'max_duration_us': np.float64(2.048)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(1.94)}]",0.002113864461574715,99.78890979041242
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 493, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((96927744, 32309248, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,244.573974609375,244.573974609375,244.573974609375,244.573974609375,,,244.573974609375,244.573974609375,244.573974609375,244.573974609375,244.573974609375,244.573974609375,415685,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(239.518), 'mean_duration_us': np.float64(239.518), 'median_duration_us': np.float64(239.518), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(239.518), 'max_duration_us': np.float64(239.518)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(239.52)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",0.0021117669764691904,99.79102155738889
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 489, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((96141312, 32047104, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,243.3251953125,243.3251953125,243.3251953125,243.3251953125,,,243.3251953125,243.3251953125,243.3251953125,243.3251953125,243.3251953125,243.3251953125,413423,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(238.142), 'mean_duration_us': np.float64(238.142), 'median_duration_us': np.float64(238.142), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(238.142), 'max_duration_us': np.float64(238.142)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.183), 'mean_duration_us': np.float64(5.183), 'median_duration_us': np.float64(5.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.183), 'max_duration_us': np.float64(5.183)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(238.14)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.002100984427409132,99.7931225418163
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 485, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((95354880, 31784960, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,241.245849609375,241.245849609375,241.245849609375,241.245849609375,,,241.245849609375,241.245849609375,241.245849609375,241.245849609375,241.245849609375,241.245849609375,411161,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(235.806), 'mean_duration_us': np.float64(235.806), 'median_duration_us': np.float64(235.806), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(235.806), 'max_duration_us': np.float64(235.806)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.44), 'mean_duration_us': np.float64(5.44), 'median_duration_us': np.float64(5.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.44), 'max_duration_us': np.float64(5.44)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(235.81)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.44)}]",0.0020830303765108885,99.79520557219281
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 481, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((94568448, 31522816, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,239.036865234375,239.036865234375,239.036865234375,239.036865234375,,,239.036865234375,239.036865234375,239.036865234375,239.036865234375,239.036865234375,239.036865234375,408899,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(233.949), 'mean_duration_us': np.float64(233.949), 'median_duration_us': np.float64(233.949), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(233.949), 'max_duration_us': np.float64(233.949)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(233.95)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",0.002063956964214621,99.79726952915703
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 477, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((93782016, 31260672, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,236.990234375,236.990234375,236.990234375,236.990234375,,,236.990234375,236.990234375,236.990234375,236.990234375,236.990234375,236.990234375,406637,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(231.87), 'mean_duration_us': np.float64(231.87), 'median_duration_us': np.float64(231.87), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(231.87), 'max_duration_us': np.float64(231.87)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(231.87)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",0.002046285388697423,99.79931581454574
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 493, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((96927744, 32309248, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,244.573974609375,244.573974609375,244.573974609375,244.573974609375,,,244.573974609375,244.573974609375,244.573974609375,244.573974609375,244.573974609375,244.573974609375,415685,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(239.518), 'mean_duration_us': np.float64(239.518), 'median_duration_us': np.float64(239.518), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(239.518), 'max_duration_us': np.float64(239.518)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(239.52)}]",0.0021117669764691904,99.79102155738889
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 489, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((96141312, 32047104, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,243.3251953125,243.3251953125,243.3251953125,243.3251953125,,,243.3251953125,243.3251953125,243.3251953125,243.3251953125,243.3251953125,243.3251953125,413423,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.183), 'mean_duration_us': np.float64(5.183), 'median_duration_us': np.float64(5.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.183), 'max_duration_us': np.float64(5.183)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(238.142), 'mean_duration_us': np.float64(238.142), 'median_duration_us': np.float64(238.142), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(238.142), 'max_duration_us': np.float64(238.142)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(238.14)}]",0.002100984427409132,99.7931225418163
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 485, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((95354880, 31784960, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,241.245849609375,241.245849609375,241.245849609375,241.245849609375,,,241.245849609375,241.245849609375,241.245849609375,241.245849609375,241.245849609375,241.245849609375,411161,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.44), 'mean_duration_us': np.float64(5.44), 'median_duration_us': np.float64(5.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.44), 'max_duration_us': np.float64(5.44)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(235.806), 'mean_duration_us': np.float64(235.806), 'median_duration_us': np.float64(235.806), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(235.806), 'max_duration_us': np.float64(235.806)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.44)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(235.81)}]",0.0020830303765108885,99.79520557219281
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 481, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((94568448, 31522816, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,239.036865234375,239.036865234375,239.036865234375,239.036865234375,,,239.036865234375,239.036865234375,239.036865234375,239.036865234375,239.036865234375,239.036865234375,408899,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(233.949), 'mean_duration_us': np.float64(233.949), 'median_duration_us': np.float64(233.949), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(233.949), 'max_duration_us': np.float64(233.949)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(233.95)}]",0.002063956964214621,99.79726952915703
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 477, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((93782016, 31260672, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,236.990234375,236.990234375,236.990234375,236.990234375,,,236.990234375,236.990234375,236.990234375,236.990234375,236.990234375,236.990234375,406637,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(231.87), 'mean_duration_us': np.float64(231.87), 'median_duration_us': np.float64(231.87), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(231.87), 'max_duration_us': np.float64(231.87)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(231.87)}]",0.002046285388697423,99.79931581454574
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 32, 32), ())","('c10::BFloat16', 'double')","((393216, 1024, 32, 1), ())","('', '')",126,1.8729945591517858,1.8729945591517858,1.887939453125,1.887939453125,0.01793731878482466,0.01793731878482466,1.823974609375,1.823974609375,1.919921875,1.919921875,235.997314453125,235.997314453125,133600,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(236.00399999999996), 'mean_duration_us': np.float64(1.8730476190476189), 'median_duration_us': np.float64(1.888), 'std_dev_duration_us': np.float64(0.017875609499146693), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(1.92)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(1.87)}]",0.0020377120500801684,99.80135352659582
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 32, 32), (), ())","('c10::BFloat16', 'double', 'Scalar')","((393216, 1024, 32, 1), (), ())","('', '', '1')",126,1.8696560329861112,1.8696560329861112,1.8564453125,1.8564453125,0.0168412222930555,0.0168412222930555,1.823974609375,1.823974609375,1.888916015625,1.888916015625,235.57666015625,235.57666015625,133602,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(235.583), 'mean_duration_us': np.float64(1.8697063492063493), 'median_duration_us': np.float64(1.8565), 'std_dev_duration_us': np.float64(0.016782486837458893), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(1.889)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(1.87)}]",0.0020340799226059784,99.80338760651843
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 473, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((92995584, 30998528, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,235.5498046875,235.5498046875,235.5498046875,235.5498046875,,,235.5498046875,235.5498046875,235.5498046875,235.5498046875,235.5498046875,235.5498046875,404375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(230.462), 'mean_duration_us': np.float64(230.462), 'median_duration_us': np.float64(230.462), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(230.462), 'max_duration_us': np.float64(230.462)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(230.46)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",0.0020338480398304935,99.80542145455826
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 469, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((92209152, 30736384, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,233.086181640625,233.086181640625,233.086181640625,233.086181640625,,,233.086181640625,233.086181640625,233.086181640625,233.086181640625,233.086181640625,233.086181640625,402113,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(227.902), 'mean_duration_us': np.float64(227.902), 'median_duration_us': np.float64(227.902), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(227.902), 'max_duration_us': np.float64(227.902)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(227.9)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0020125759572175808,99.80743403051548
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 465, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((91422720, 30474240, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,231.486083984375,231.486083984375,231.486083984375,231.486083984375,,,231.486083984375,231.486083984375,231.486083984375,231.486083984375,231.486083984375,231.486083984375,399851,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(226.366), 'mean_duration_us': np.float64(226.366), 'median_duration_us': np.float64(226.366), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(226.366), 'max_duration_us': np.float64(226.366)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(226.37)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",0.001998759959849131,99.80943279047533
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 461, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((90636288, 30212096, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,229.43798828125,229.43798828125,229.43798828125,229.43798828125,,,229.43798828125,229.43798828125,229.43798828125,229.43798828125,229.43798828125,229.43798828125,397589,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(223.966), 'mean_duration_us': np.float64(223.966), 'median_duration_us': np.float64(223.966), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(223.966), 'max_duration_us': np.float64(223.966)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.472), 'mean_duration_us': np.float64(5.472), 'median_duration_us': np.float64(5.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.472), 'max_duration_us': np.float64(5.472)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(223.97)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}]",0.0019810757361805424,99.81141386621151
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 473, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((92995584, 30998528, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,235.5498046875,235.5498046875,235.5498046875,235.5498046875,,,235.5498046875,235.5498046875,235.5498046875,235.5498046875,235.5498046875,235.5498046875,404375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(230.462), 'mean_duration_us': np.float64(230.462), 'median_duration_us': np.float64(230.462), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(230.462), 'max_duration_us': np.float64(230.462)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(230.46)}]",0.0020338480398304935,99.80542145455826
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 469, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((92209152, 30736384, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,233.086181640625,233.086181640625,233.086181640625,233.086181640625,,,233.086181640625,233.086181640625,233.086181640625,233.086181640625,233.086181640625,233.086181640625,402113,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(227.902), 'mean_duration_us': np.float64(227.902), 'median_duration_us': np.float64(227.902), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(227.902), 'max_duration_us': np.float64(227.902)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(227.9)}]",0.0020125759572175808,99.80743403051548
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 465, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((91422720, 30474240, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,231.486083984375,231.486083984375,231.486083984375,231.486083984375,,,231.486083984375,231.486083984375,231.486083984375,231.486083984375,231.486083984375,231.486083984375,399851,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(226.366), 'mean_duration_us': np.float64(226.366), 'median_duration_us': np.float64(226.366), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(226.366), 'max_duration_us': np.float64(226.366)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(226.37)}]",0.001998759959849131,99.80943279047533
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 461, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((90636288, 30212096, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,229.43798828125,229.43798828125,229.43798828125,229.43798828125,,,229.43798828125,229.43798828125,229.43798828125,229.43798828125,229.43798828125,229.43798828125,397589,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.472), 'mean_duration_us': np.float64(5.472), 'median_duration_us': np.float64(5.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.472), 'max_duration_us': np.float64(5.472)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(223.966), 'mean_duration_us': np.float64(223.966), 'median_duration_us': np.float64(223.966), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(223.966), 'max_duration_us': np.float64(223.966)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(223.97)}]",0.0019810757361805424,99.81141386621151
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 1, 128, 128), (1, 192, 4, 128, 128)), ())","('TensorList', 'Scalar')","(((3145728, 16384, 16384, 128, 1), (12582912, 65536, 16384, 128, 1)), ())","('', '2')",5,45.535791015625,45.535791015625,45.760009765625,45.760009765625,0.3839215775419915,0.3839215775419915,45.055908203125,45.055908203125,45.856201171875,45.856201171875,227.678955078125,227.678955078125,136736,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(54.175000000000004), 'mean_duration_us': np.float64(10.835), 'median_duration_us': np.float64(10.848), 'std_dev_duration_us': np.float64(0.05206918474491428), 'min_duration_us': np.float64(10.752), 'max_duration_us': np.float64(10.912)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(173.504), 'mean_duration_us': np.float64(34.7008), 'median_duration_us': np.float64(34.944), 'std_dev_duration_us': np.float64(0.3532197049995957), 'min_duration_us': np.float64(34.208), 'max_duration_us': np.float64(35.008)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.84)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(34.7)}]",0.0019658874143862665,99.8133797536259
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 457, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((89849856, 29949952, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,227.51806640625,227.51806640625,227.51806640625,227.51806640625,,,227.51806640625,227.51806640625,227.51806640625,227.51806640625,227.51806640625,227.51806640625,395327,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(222.301), 'mean_duration_us': np.float64(222.301), 'median_duration_us': np.float64(222.301), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(222.301), 'max_duration_us': np.float64(222.301)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.217), 'mean_duration_us': np.float64(5.217), 'median_duration_us': np.float64(5.217), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.217), 'max_duration_us': np.float64(5.217)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(222.3)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.001964498225758588,99.81534425185166
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 453, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((89063424, 29687808, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,225.31005859375,225.31005859375,225.31005859375,225.31005859375,,,225.31005859375,225.31005859375,225.31005859375,225.31005859375,225.31005859375,225.31005859375,393065,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(220.19), 'mean_duration_us': np.float64(220.19), 'median_duration_us': np.float64(220.19), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(220.19), 'max_duration_us': np.float64(220.19)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(220.19)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",0.001945433245563247,99.81728968509722
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 449, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((88276992, 29425664, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,224.254150390625,224.254150390625,224.254150390625,224.254150390625,,,224.254150390625,224.254150390625,224.254150390625,224.254150390625,224.254150390625,224.254150390625,390803,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(219.038), 'mean_duration_us': np.float64(219.038), 'median_duration_us': np.float64(219.038), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(219.038), 'max_duration_us': np.float64(219.038)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(219.04)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0019363160364362182,99.81922600113366
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 445, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((87490560, 29163520, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,221.5341796875,221.5341796875,221.5341796875,221.5341796875,,,221.5341796875,221.5341796875,221.5341796875,221.5341796875,221.5341796875,221.5341796875,388541,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(216.318), 'mean_duration_us': np.float64(216.318), 'median_duration_us': np.float64(216.318), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(216.318), 'max_duration_us': np.float64(216.318)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(216.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0019128305273300383,99.82113883166099
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 441, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((86704128, 28901376, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,219.67822265625,219.67822265625,219.67822265625,219.67822265625,,,219.67822265625,219.67822265625,219.67822265625,219.67822265625,219.67822265625,219.67822265625,386279,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(214.558), 'mean_duration_us': np.float64(214.558), 'median_duration_us': np.float64(214.558), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(214.558), 'max_duration_us': np.float64(214.558)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(214.56)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",0.0018968053195187846,99.8230356369805
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 437, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((85917696, 28639232, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,217.950927734375,217.950927734375,217.950927734375,217.950927734375,,,217.950927734375,217.950927734375,217.950927734375,217.950927734375,217.950927734375,217.950927734375,384017,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(212.639), 'mean_duration_us': np.float64(212.639), 'median_duration_us': np.float64(212.639), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(212.639), 'max_duration_us': np.float64(212.639)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(212.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}]",0.0018818910410046275,99.82491752802152
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 433, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((85131264, 28377088, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,215.806884765625,215.806884765625,215.806884765625,215.806884765625,,,215.806884765625,215.806884765625,215.806884765625,215.806884765625,215.806884765625,215.806884765625,381755,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(210.719), 'mean_duration_us': np.float64(210.719), 'median_duration_us': np.float64(210.719), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(210.719), 'max_duration_us': np.float64(210.719)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(210.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",0.001863378363419988,99.82678090638494
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 429, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((84344832, 28114944, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,213.630126953125,213.630126953125,213.630126953125,213.630126953125,,,213.630126953125,213.630126953125,213.630126953125,213.630126953125,213.630126953125,213.630126953125,379493,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(208.446), 'mean_duration_us': np.float64(208.446), 'median_duration_us': np.float64(208.446), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(208.446), 'max_duration_us': np.float64(208.446)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(208.45)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0018445832104543028,99.8286254895954
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 425, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((83558400, 27852800, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,212.413818359375,212.413818359375,212.413818359375,212.413818359375,,,212.413818359375,212.413818359375,212.413818359375,212.413818359375,212.413818359375,212.413818359375,377231,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(206.878), 'mean_duration_us': np.float64(206.878), 'median_duration_us': np.float64(206.878), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(206.878), 'max_duration_us': np.float64(206.878)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.536), 'mean_duration_us': np.float64(5.536), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.536)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(206.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.54)}]",0.0018340810287500583,99.83045957062414
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 421, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((82771968, 27590656, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,210.27001953125,210.27001953125,210.27001953125,210.27001953125,,,210.27001953125,210.27001953125,210.27001953125,210.27001953125,210.27001953125,210.27001953125,374969,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(205.086), 'mean_duration_us': np.float64(205.086), 'median_duration_us': np.float64(205.086), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(205.086), 'max_duration_us': np.float64(205.086)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(205.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0018155704591906502,99.83227514108333
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 457, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((89849856, 29949952, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,227.51806640625,227.51806640625,227.51806640625,227.51806640625,,,227.51806640625,227.51806640625,227.51806640625,227.51806640625,227.51806640625,227.51806640625,395327,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.217), 'mean_duration_us': np.float64(5.217), 'median_duration_us': np.float64(5.217), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.217), 'max_duration_us': np.float64(5.217)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(222.301), 'mean_duration_us': np.float64(222.301), 'median_duration_us': np.float64(222.301), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(222.301), 'max_duration_us': np.float64(222.301)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(222.3)}]",0.001964498225758588,99.81534425185166
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 453, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((89063424, 29687808, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,225.31005859375,225.31005859375,225.31005859375,225.31005859375,,,225.31005859375,225.31005859375,225.31005859375,225.31005859375,225.31005859375,225.31005859375,393065,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(220.19), 'mean_duration_us': np.float64(220.19), 'median_duration_us': np.float64(220.19), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(220.19), 'max_duration_us': np.float64(220.19)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(220.19)}]",0.001945433245563247,99.81728968509722
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 449, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((88276992, 29425664, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,224.254150390625,224.254150390625,224.254150390625,224.254150390625,,,224.254150390625,224.254150390625,224.254150390625,224.254150390625,224.254150390625,224.254150390625,390803,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(219.038), 'mean_duration_us': np.float64(219.038), 'median_duration_us': np.float64(219.038), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(219.038), 'max_duration_us': np.float64(219.038)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(219.04)}]",0.0019363160364362182,99.81922600113366
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 445, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((87490560, 29163520, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,221.5341796875,221.5341796875,221.5341796875,221.5341796875,,,221.5341796875,221.5341796875,221.5341796875,221.5341796875,221.5341796875,221.5341796875,388541,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(216.318), 'mean_duration_us': np.float64(216.318), 'median_duration_us': np.float64(216.318), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(216.318), 'max_duration_us': np.float64(216.318)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(216.32)}]",0.0019128305273300383,99.82113883166099
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 441, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((86704128, 28901376, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,219.67822265625,219.67822265625,219.67822265625,219.67822265625,,,219.67822265625,219.67822265625,219.67822265625,219.67822265625,219.67822265625,219.67822265625,386279,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(214.558), 'mean_duration_us': np.float64(214.558), 'median_duration_us': np.float64(214.558), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(214.558), 'max_duration_us': np.float64(214.558)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(214.56)}]",0.0018968053195187846,99.8230356369805
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 437, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((85917696, 28639232, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,217.950927734375,217.950927734375,217.950927734375,217.950927734375,,,217.950927734375,217.950927734375,217.950927734375,217.950927734375,217.950927734375,217.950927734375,384017,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(212.639), 'mean_duration_us': np.float64(212.639), 'median_duration_us': np.float64(212.639), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(212.639), 'max_duration_us': np.float64(212.639)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(212.64)}]",0.0018818910410046275,99.82491752802152
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 433, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((85131264, 28377088, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,215.806884765625,215.806884765625,215.806884765625,215.806884765625,,,215.806884765625,215.806884765625,215.806884765625,215.806884765625,215.806884765625,215.806884765625,381755,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(210.719), 'mean_duration_us': np.float64(210.719), 'median_duration_us': np.float64(210.719), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(210.719), 'max_duration_us': np.float64(210.719)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(210.72)}]",0.001863378363419988,99.82678090638494
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 429, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((84344832, 28114944, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,213.630126953125,213.630126953125,213.630126953125,213.630126953125,,,213.630126953125,213.630126953125,213.630126953125,213.630126953125,213.630126953125,213.630126953125,379493,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(208.446), 'mean_duration_us': np.float64(208.446), 'median_duration_us': np.float64(208.446), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(208.446), 'max_duration_us': np.float64(208.446)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(208.45)}]",0.0018445832104543028,99.8286254895954
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 425, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((83558400, 27852800, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,212.413818359375,212.413818359375,212.413818359375,212.413818359375,,,212.413818359375,212.413818359375,212.413818359375,212.413818359375,212.413818359375,212.413818359375,377231,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.536), 'mean_duration_us': np.float64(5.536), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.536)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(206.878), 'mean_duration_us': np.float64(206.878), 'median_duration_us': np.float64(206.878), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(206.878), 'max_duration_us': np.float64(206.878)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(206.88)}]",0.0018340810287500583,99.83045957062414
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 421, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((82771968, 27590656, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,210.27001953125,210.27001953125,210.27001953125,210.27001953125,,,210.27001953125,210.27001953125,210.27001953125,210.27001953125,210.27001953125,210.27001953125,374969,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(205.086), 'mean_duration_us': np.float64(205.086), 'median_duration_us': np.float64(205.086), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(205.086), 'max_duration_us': np.float64(205.086)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(205.09)}]",0.0018155704591906502,99.83227514108333
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1024, 64), (1024, 64), ())","('c10::complex<double>', 'c10::complex<double>', 'Scalar')","((64, 1), (64, 1), ())","('', '', 'False')",10,20.828564453125,20.828564453125,20.8795166015625,20.8795166015625,0.19442744483508767,0.19442744483508767,20.575927734375,20.575927734375,21.0869140625,21.0869140625,208.28564453125,208.28564453125,11746,"[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(208.286), 'mean_duration_us': np.float64(20.8286), 'median_duration_us': np.float64(20.8795), 'std_dev_duration_us': np.float64(0.1844555230943221), 'min_duration_us': np.float64(20.576), 'max_duration_us': np.float64(21.087)}]","[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'mean_duration_us': np.float64(20.83)}]",0.0017984364301075312,99.83407357751344
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 417, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((81985536, 27328512, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,207.80712890625,207.80712890625,207.80712890625,207.80712890625,,,207.80712890625,207.80712890625,207.80712890625,207.80712890625,207.80712890625,207.80712890625,372707,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(202.622), 'mean_duration_us': np.float64(202.622), 'median_duration_us': np.float64(202.622), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(202.622), 'max_duration_us': np.float64(202.622)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(202.62)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0017943047006534327,99.83586788221409
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 413, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((81199104, 27066368, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,206.14208984375,206.14208984375,206.14208984375,206.14208984375,,,206.14208984375,206.14208984375,206.14208984375,206.14208984375,206.14208984375,206.14208984375,370445,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(200.894), 'mean_duration_us': np.float64(200.894), 'median_duration_us': np.float64(200.894), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(200.894), 'max_duration_us': np.float64(200.894)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(200.89)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",0.0017799279685733551,99.83764781018266
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 417, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((81985536, 27328512, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,207.80712890625,207.80712890625,207.80712890625,207.80712890625,,,207.80712890625,207.80712890625,207.80712890625,207.80712890625,207.80712890625,207.80712890625,372707,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(202.622), 'mean_duration_us': np.float64(202.622), 'median_duration_us': np.float64(202.622), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(202.622), 'max_duration_us': np.float64(202.622)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(202.62)}]",0.0017943047006534327,99.83586788221409
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 413, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((81199104, 27066368, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,206.14208984375,206.14208984375,206.14208984375,206.14208984375,,,206.14208984375,206.14208984375,206.14208984375,206.14208984375,206.14208984375,206.14208984375,370445,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(200.894), 'mean_duration_us': np.float64(200.894), 'median_duration_us': np.float64(200.894), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(200.894), 'max_duration_us': np.float64(200.894)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(200.89)}]",0.0017799279685733551,99.83764781018266
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (), ())","('long int', 'long int', 'Scalar')","((512, 1), (), ())","('', '', '1')",96,2.1390762329101562,2.1390762329101562,2.14404296875,2.14404296875,0.0360405224890834,0.0360405224890834,2.080078125,2.080078125,2.3359375,2.3359375,205.351318359375,205.351318359375,138,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<long>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<long>, std::array<char*, 2ul>)', 'stream': 7, 'count': 96, 'total_duration_us': np.float64(205.347), 'mean_duration_us': np.float64(2.13903125), 'median_duration_us': np.float64(2.144), 'std_dev_duration_us': np.float64(0.03587201007430212), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.336)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(2.14)}]",0.001773100074847934,99.8394209102575
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 409, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((80412672, 26804224, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,204.031005859375,204.031005859375,204.031005859375,204.031005859375,,,204.031005859375,204.031005859375,204.031005859375,204.031005859375,204.031005859375,204.031005859375,368183,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(198.879), 'mean_duration_us': np.float64(198.879), 'median_duration_us': np.float64(198.879), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(198.879), 'max_duration_us': np.float64(198.879)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(198.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",0.0017616998743949924,99.8411826101319
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 405, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((79626240, 26542080, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,202.110107421875,202.110107421875,202.110107421875,202.110107421875,,,202.110107421875,202.110107421875,202.110107421875,202.110107421875,202.110107421875,202.110107421875,365921,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(196.894), 'mean_duration_us': np.float64(196.894), 'median_duration_us': np.float64(196.894), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(196.894), 'max_duration_us': np.float64(196.894)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(196.89)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.001745113931872111,99.84292772406377
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 409, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((80412672, 26804224, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,204.031005859375,204.031005859375,204.031005859375,204.031005859375,,,204.031005859375,204.031005859375,204.031005859375,204.031005859375,204.031005859375,204.031005859375,368183,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(198.879), 'mean_duration_us': np.float64(198.879), 'median_duration_us': np.float64(198.879), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(198.879), 'max_duration_us': np.float64(198.879)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(198.88)}]",0.0017616998743949924,99.8411826101319
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 405, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((79626240, 26542080, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,202.110107421875,202.110107421875,202.110107421875,202.110107421875,,,202.110107421875,202.110107421875,202.110107421875,202.110107421875,202.110107421875,202.110107421875,365921,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(196.894), 'mean_duration_us': np.float64(196.894), 'median_duration_us': np.float64(196.894), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(196.894), 'max_duration_us': np.float64(196.894)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(196.89)}]",0.001745113931872111,99.84292772406377
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((1536,), (512, 4096), (4096, 1536), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (4096, 1), (1, 4096), (), ())","('', '', '', '1', '1')",10,20.2012451171875,20.2012451171875,20.3045654296875,20.3045654296875,0.330968715991367,0.330968715991367,19.51904296875,19.51904296875,20.735107421875,20.735107421875,202.012451171875,202.012451171875,11845,"[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x64x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(202.012), 'mean_duration_us': np.float64(20.2012), 'median_duration_us': np.float64(20.3045), 'std_dev_duration_us': np.float64(0.31397190957154153), 'min_duration_us': np.float64(19.519), 'max_duration_us': np.float64(20.735)}]","[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x64x64_warpg...', 'stream': 7, 'mean_duration_us': np.float64(20.2)}]",0.0017442707217794377,99.84467199478554
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 401, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((78839808, 26279936, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,200.5419921875,200.5419921875,200.5419921875,200.5419921875,,,200.5419921875,200.5419921875,200.5419921875,200.5419921875,200.5419921875,200.5419921875,363659,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(195.166), 'mean_duration_us': np.float64(195.166), 'median_duration_us': np.float64(195.166), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(195.166), 'max_duration_us': np.float64(195.166)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(195.17)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}]",0.0017315740858090112,99.84640356887135
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 401, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((78839808, 26279936, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,200.5419921875,200.5419921875,200.5419921875,200.5419921875,,,200.5419921875,200.5419921875,200.5419921875,200.5419921875,200.5419921875,200.5419921875,363659,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(195.166), 'mean_duration_us': np.float64(195.166), 'median_duration_us': np.float64(195.166), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(195.166), 'max_duration_us': np.float64(195.166)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(195.17)}]",0.0017315740858090112,99.84640356887135
 aten::sub,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 126, 32, 32), ())","('float', 'float', 'Scalar')","((2064384, 129024, 1024, 32, 1), (2064384, 129024, 1024, 32, 1), ())","('', '', '1')",26,7.646597055288462,7.646597055288462,6.719970703125,6.719970703125,1.8691362373908282,1.8691362373908282,5.43896484375,5.43896484375,10.847900390625,10.847900390625,198.8115234375,198.8115234375,35903,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>)', 'stream': 7, 'count': 26, 'total_duration_us': np.float64(198.81199999999998), 'mean_duration_us': np.float64(7.646615384615384), 'median_duration_us': np.float64(6.72), 'std_dev_duration_us': np.float64(1.83283238305599), 'min_duration_us': np.float64(5.439), 'max_duration_us': np.float64(10.848)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(7.65)}]",0.0017166324029668425,99.84812020127431
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 397, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((78053376, 26017792, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,198.43017578125,198.43017578125,198.43017578125,198.43017578125,,,198.43017578125,198.43017578125,198.43017578125,198.43017578125,198.43017578125,198.43017578125,361397,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(193.246), 'mean_duration_us': np.float64(193.246), 'median_duration_us': np.float64(193.246), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(193.246), 'max_duration_us': np.float64(193.246)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(193.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0017133396675549537,99.84983354094187
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 393, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((77266944, 25755648, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,196.670166015625,196.670166015625,196.670166015625,196.670166015625,,,196.670166015625,196.670166015625,196.670166015625,196.670166015625,196.670166015625,196.670166015625,359135,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(191.486), 'mean_duration_us': np.float64(191.486), 'median_duration_us': np.float64(191.486), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(191.486), 'max_duration_us': np.float64(191.486)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(191.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0016981429136597513,99.85153168385553
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 389, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((76480512, 25493504, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,194.973876953125,194.973876953125,194.973876953125,194.973876953125,,,194.973876953125,194.973876953125,194.973876953125,194.973876953125,194.973876953125,194.973876953125,356873,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(189.502), 'mean_duration_us': np.float64(189.502), 'median_duration_us': np.float64(189.502), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(189.502), 'max_duration_us': np.float64(189.502)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.472), 'mean_duration_us': np.float64(5.472), 'median_duration_us': np.float64(5.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.472), 'max_duration_us': np.float64(5.472)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(189.5)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}]",0.0016834963543500183,99.85321518020987
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 385, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((75694080, 25231360, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,192.9580078125,192.9580078125,192.9580078125,192.9580078125,,,192.9580078125,192.9580078125,192.9580078125,192.9580078125,192.9580078125,192.9580078125,354611,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(187.454), 'mean_duration_us': np.float64(187.454), 'median_duration_us': np.float64(187.454), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(187.454), 'max_duration_us': np.float64(187.454)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.504), 'mean_duration_us': np.float64(5.504), 'median_duration_us': np.float64(5.504), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.504), 'max_duration_us': np.float64(5.504)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(187.45)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.5)}]",0.0016660903900120121,99.85488127059989
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 397, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((78053376, 26017792, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,198.43017578125,198.43017578125,198.43017578125,198.43017578125,,,198.43017578125,198.43017578125,198.43017578125,198.43017578125,198.43017578125,198.43017578125,361397,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(193.246), 'mean_duration_us': np.float64(193.246), 'median_duration_us': np.float64(193.246), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(193.246), 'max_duration_us': np.float64(193.246)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(193.25)}]",0.0017133396675549537,99.84983354094187
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 393, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((77266944, 25755648, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,196.670166015625,196.670166015625,196.670166015625,196.670166015625,,,196.670166015625,196.670166015625,196.670166015625,196.670166015625,196.670166015625,196.670166015625,359135,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(191.486), 'mean_duration_us': np.float64(191.486), 'median_duration_us': np.float64(191.486), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(191.486), 'max_duration_us': np.float64(191.486)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(191.49)}]",0.0016981429136597513,99.85153168385553
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 389, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((76480512, 25493504, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,194.973876953125,194.973876953125,194.973876953125,194.973876953125,,,194.973876953125,194.973876953125,194.973876953125,194.973876953125,194.973876953125,194.973876953125,356873,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.472), 'mean_duration_us': np.float64(5.472), 'median_duration_us': np.float64(5.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.472), 'max_duration_us': np.float64(5.472)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(189.502), 'mean_duration_us': np.float64(189.502), 'median_duration_us': np.float64(189.502), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(189.502), 'max_duration_us': np.float64(189.502)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(189.5)}]",0.0016834963543500183,99.85321518020987
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 385, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((75694080, 25231360, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,192.9580078125,192.9580078125,192.9580078125,192.9580078125,,,192.9580078125,192.9580078125,192.9580078125,192.9580078125,192.9580078125,192.9580078125,354611,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.504), 'mean_duration_us': np.float64(5.504), 'median_duration_us': np.float64(5.504), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.504), 'max_duration_us': np.float64(5.504)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(187.454), 'mean_duration_us': np.float64(187.454), 'median_duration_us': np.float64(187.454), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(187.454), 'max_duration_us': np.float64(187.454)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.5)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(187.45)}]",0.0016660903900120121,99.85488127059989
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((9216,), (1, 1536), (1536, 9216), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (1536, 1), (1, 1536), (), ())","('', '', '', '1', '1')",10,19.065478515625,19.065478515625,19.0240478515625,19.0240478515625,0.23314521563266258,0.23314521563266258,18.719970703125,18.719970703125,19.424072265625,19.424072265625,190.65478515625,190.65478515625,11837,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x4_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x4_tn_align8::Params)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(190.655), 'mean_duration_us': np.float64(19.0655), 'median_duration_us': np.float64(19.024), 'std_dev_duration_us': np.float64(0.22117380043757456), 'min_duration_us': np.float64(18.72), 'max_duration_us': np.float64(19.424)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(19.07)}]",0.0016462032799763153,99.85652747387986
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 381, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((74907648, 24969216, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,190.65283203125,190.65283203125,190.65283203125,190.65283203125,,,190.65283203125,190.65283203125,190.65283203125,190.65283203125,190.65283203125,190.65283203125,352349,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(185.182), 'mean_duration_us': np.float64(185.182), 'median_duration_us': np.float64(185.182), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(185.182), 'max_duration_us': np.float64(185.182)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.471), 'mean_duration_us': np.float64(5.471), 'median_duration_us': np.float64(5.471), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.471), 'max_duration_us': np.float64(5.471)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(185.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}]",0.0016461864157744617,99.85817366029563
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 377, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((74121216, 24707072, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,188.927001953125,188.927001953125,188.927001953125,188.927001953125,,,188.927001953125,188.927001953125,188.927001953125,188.927001953125,188.927001953125,188.927001953125,350087,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(183.807), 'mean_duration_us': np.float64(183.807), 'median_duration_us': np.float64(183.807), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(183.807), 'max_duration_us': np.float64(183.807)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(183.81)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",0.0016312847854116947,99.85980494508105
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 381, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((74907648, 24969216, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,190.65283203125,190.65283203125,190.65283203125,190.65283203125,,,190.65283203125,190.65283203125,190.65283203125,190.65283203125,190.65283203125,190.65283203125,352349,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.471), 'mean_duration_us': np.float64(5.471), 'median_duration_us': np.float64(5.471), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.471), 'max_duration_us': np.float64(5.471)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(185.182), 'mean_duration_us': np.float64(185.182), 'median_duration_us': np.float64(185.182), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(185.182), 'max_duration_us': np.float64(185.182)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(185.18)}]",0.0016461864157744617,99.85817366029563
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 377, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((74121216, 24707072, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,188.927001953125,188.927001953125,188.927001953125,188.927001953125,,,188.927001953125,188.927001953125,188.927001953125,188.927001953125,188.927001953125,188.927001953125,350087,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(183.807), 'mean_duration_us': np.float64(183.807), 'median_duration_us': np.float64(183.807), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(183.807), 'max_duration_us': np.float64(183.807)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(183.81)}]",0.0016312847854116947,99.85980494508105
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 32, 32), ())","('c10::BFloat16', 'Scalar')","((1024, 1024, 32, 1), ())","('', '9.9999999999999998e-13')",126,1.4983084542410714,1.4983084542410714,1.534912109375,1.534912109375,0.11733577524842156,0.11733577524842156,1.343017578125,1.343017578125,1.760009765625,1.760009765625,188.786865234375,188.786865234375,133595,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(188.79000000000002), 'mean_duration_us': np.float64(1.4983333333333335), 'median_duration_us': np.float64(1.535), 'std_dev_duration_us': np.float64(0.11685658012050631), 'min_duration_us': np.float64(1.343), 'max_duration_us': np.float64(1.76)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.5)}]",0.0016300747789287089,99.86143501985998
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 373, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((73334784, 24444928, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,187.261962890625,187.261962890625,187.261962890625,187.261962890625,,,187.261962890625,187.261962890625,187.261962890625,187.261962890625,187.261962890625,187.261962890625,347825,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(182.078), 'mean_duration_us': np.float64(182.078), 'median_duration_us': np.float64(182.078), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(182.078), 'max_duration_us': np.float64(182.078)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(182.08)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0016169080533316171,99.86305192791332
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 369, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((72548352, 24182784, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,184.86083984375,184.86083984375,184.86083984375,184.86083984375,,,184.86083984375,184.86083984375,184.86083984375,184.86083984375,184.86083984375,184.86083984375,345563,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(179.742), 'mean_duration_us': np.float64(179.742), 'median_duration_us': np.float64(179.742), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(179.742), 'max_duration_us': np.float64(179.742)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.119), 'mean_duration_us': np.float64(5.119), 'median_duration_us': np.float64(5.119), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.119), 'max_duration_us': np.float64(5.119)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(179.74)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",0.0015961756251780153,99.8646481035385
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 365, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((71761920, 23920640, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,183.16796875,183.16796875,183.16796875,183.16796875,,,183.16796875,183.16796875,183.16796875,183.16796875,183.16796875,183.16796875,343301,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(177.983), 'mean_duration_us': np.float64(177.983), 'median_duration_us': np.float64(177.983), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(177.983), 'max_duration_us': np.float64(177.983)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(177.98)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0015815585782215256,99.86622966211672
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 361, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((70975488, 23658496, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,180.5419921875,180.5419921875,180.5419921875,180.5419921875,,,180.5419921875,180.5419921875,180.5419921875,180.5419921875,180.5419921875,180.5419921875,341039,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(175.198), 'mean_duration_us': np.float64(175.198), 'median_duration_us': np.float64(175.198), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(175.198), 'max_duration_us': np.float64(175.198)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(175.2)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",0.0015588846588295438,99.86778854677556
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 357, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((70189056, 23396352, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,178.4951171875,178.4951171875,178.4951171875,178.4951171875,,,178.4951171875,178.4951171875,178.4951171875,178.4951171875,178.4951171875,178.4951171875,338777,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(173.215), 'mean_duration_us': np.float64(173.215), 'median_duration_us': np.float64(173.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(173.215), 'max_duration_us': np.float64(173.215)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(173.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",0.001541210975287114,99.86932975775085
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 353, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((69402624, 23134208, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,177.343017578125,177.343017578125,177.343017578125,177.343017578125,,,177.343017578125,177.343017578125,177.343017578125,177.343017578125,177.343017578125,177.343017578125,336515,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(172.063), 'mean_duration_us': np.float64(172.063), 'median_duration_us': np.float64(172.063), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(172.063), 'max_duration_us': np.float64(172.063)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(172.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",0.0015312632042188022,99.87086102095506
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 373, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((73334784, 24444928, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,187.261962890625,187.261962890625,187.261962890625,187.261962890625,,,187.261962890625,187.261962890625,187.261962890625,187.261962890625,187.261962890625,187.261962890625,347825,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(182.078), 'mean_duration_us': np.float64(182.078), 'median_duration_us': np.float64(182.078), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(182.078), 'max_duration_us': np.float64(182.078)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(182.08)}]",0.0016169080533316171,99.86305192791332
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 369, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((72548352, 24182784, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,184.86083984375,184.86083984375,184.86083984375,184.86083984375,,,184.86083984375,184.86083984375,184.86083984375,184.86083984375,184.86083984375,184.86083984375,345563,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.119), 'mean_duration_us': np.float64(5.119), 'median_duration_us': np.float64(5.119), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.119), 'max_duration_us': np.float64(5.119)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(179.742), 'mean_duration_us': np.float64(179.742), 'median_duration_us': np.float64(179.742), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(179.742), 'max_duration_us': np.float64(179.742)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(179.74)}]",0.0015961756251780153,99.8646481035385
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 365, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((71761920, 23920640, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,183.16796875,183.16796875,183.16796875,183.16796875,,,183.16796875,183.16796875,183.16796875,183.16796875,183.16796875,183.16796875,343301,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(177.983), 'mean_duration_us': np.float64(177.983), 'median_duration_us': np.float64(177.983), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(177.983), 'max_duration_us': np.float64(177.983)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(177.98)}]",0.0015815585782215256,99.86622966211672
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 361, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((70975488, 23658496, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,180.5419921875,180.5419921875,180.5419921875,180.5419921875,,,180.5419921875,180.5419921875,180.5419921875,180.5419921875,180.5419921875,180.5419921875,341039,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(175.198), 'mean_duration_us': np.float64(175.198), 'median_duration_us': np.float64(175.198), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(175.198), 'max_duration_us': np.float64(175.198)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(175.2)}]",0.0015588846588295438,99.86778854677556
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 357, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((70189056, 23396352, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,178.4951171875,178.4951171875,178.4951171875,178.4951171875,,,178.4951171875,178.4951171875,178.4951171875,178.4951171875,178.4951171875,178.4951171875,338777,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(173.215), 'mean_duration_us': np.float64(173.215), 'median_duration_us': np.float64(173.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(173.215), 'max_duration_us': np.float64(173.215)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(173.22)}]",0.001541210975287114,99.86932975775085
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 353, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((69402624, 23134208, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,177.343017578125,177.343017578125,177.343017578125,177.343017578125,,,177.343017578125,177.343017578125,177.343017578125,177.343017578125,177.343017578125,177.343017578125,336515,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(172.063), 'mean_duration_us': np.float64(172.063), 'median_duration_us': np.float64(172.063), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(172.063), 'max_duration_us': np.float64(172.063)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(172.06)}]",0.0015312632042188022,99.87086102095506
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 3, 34, 34), ())","('c10::BFloat16', 'Scalar')","((55488, 3468, 1156, 34, 1), ())","('', '0.')",126,1.4029017857142858,1.4029017857142858,1.376953125,1.376953125,0.05095912223686197,0.05095912223686197,1.343017578125,1.343017578125,1.60009765625,1.60009765625,176.765625,176.765625,133464,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(176.76899999999998), 'mean_duration_us': np.float64(1.4029285714285713), 'median_duration_us': np.float64(1.377), 'std_dev_duration_us': np.float64(0.050745424153930956), 'min_duration_us': np.float64(1.343), 'max_duration_us': np.float64(1.6)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(1.4)}]",0.001526277724545872,99.87238729867961
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 349, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((68616192, 22872064, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,175.1669921875,175.1669921875,175.1669921875,175.1669921875,,,175.1669921875,175.1669921875,175.1669921875,175.1669921875,175.1669921875,175.1669921875,334253,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(169.855), 'mean_duration_us': np.float64(169.855), 'median_duration_us': np.float64(169.855), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(169.855), 'max_duration_us': np.float64(169.855)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(169.86)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}]",0.001512474375328812,99.87389977305494
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 345, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((67829760, 22609920, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,173.053955078125,173.053955078125,173.053955078125,173.053955078125,,,173.053955078125,173.053955078125,173.053955078125,173.053955078125,173.053955078125,173.053955078125,331991,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(167.838), 'mean_duration_us': np.float64(167.838), 'median_duration_us': np.float64(167.838), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(167.838), 'max_duration_us': np.float64(167.838)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(167.84)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.001494229416948596,99.8753940024719
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 341, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((67043328, 22347776, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,171.422119140625,171.422119140625,171.422119140625,171.422119140625,,,171.422119140625,171.422119140625,171.422119140625,171.422119140625,171.422119140625,171.422119140625,329729,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(166.238), 'mean_duration_us': np.float64(166.238), 'median_duration_us': np.float64(166.238), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(166.238), 'max_duration_us': np.float64(166.238)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(166.24)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0014801393763000273,99.87687414184819
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 337, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((66256896, 22085632, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,169.43798828125,169.43798828125,169.43798828125,169.43798828125,,,169.43798828125,169.43798828125,169.43798828125,169.43798828125,169.43798828125,169.43798828125,327467,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(164.35), 'mean_duration_us': np.float64(164.35), 'median_duration_us': np.float64(164.35), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(164.35), 'max_duration_us': np.float64(164.35)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(164.35)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",0.0014630074552421399,99.87833714930343
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 349, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((68616192, 22872064, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,175.1669921875,175.1669921875,175.1669921875,175.1669921875,,,175.1669921875,175.1669921875,175.1669921875,175.1669921875,175.1669921875,175.1669921875,334253,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(169.855), 'mean_duration_us': np.float64(169.855), 'median_duration_us': np.float64(169.855), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(169.855), 'max_duration_us': np.float64(169.855)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(169.86)}]",0.001512474375328812,99.87389977305494
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 345, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((67829760, 22609920, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,173.053955078125,173.053955078125,173.053955078125,173.053955078125,,,173.053955078125,173.053955078125,173.053955078125,173.053955078125,173.053955078125,173.053955078125,331991,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(167.838), 'mean_duration_us': np.float64(167.838), 'median_duration_us': np.float64(167.838), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(167.838), 'max_duration_us': np.float64(167.838)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(167.84)}]",0.001494229416948596,99.8753940024719
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 341, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((67043328, 22347776, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,171.422119140625,171.422119140625,171.422119140625,171.422119140625,,,171.422119140625,171.422119140625,171.422119140625,171.422119140625,171.422119140625,171.422119140625,329729,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(166.238), 'mean_duration_us': np.float64(166.238), 'median_duration_us': np.float64(166.238), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(166.238), 'max_duration_us': np.float64(166.238)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(166.24)}]",0.0014801393763000273,99.87687414184819
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 337, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((66256896, 22085632, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,169.43798828125,169.43798828125,169.43798828125,169.43798828125,,,169.43798828125,169.43798828125,169.43798828125,169.43798828125,169.43798828125,169.43798828125,327467,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(164.35), 'mean_duration_us': np.float64(164.35), 'median_duration_us': np.float64(164.35), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(164.35), 'max_duration_us': np.float64(164.35)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(164.35)}]",0.0014630074552421399,99.87833714930343
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((), (1, 16, 126, 32, 32))","('float', 'float')","((), (2064384, 129024, 1024, 32, 1))","('', '')",29,5.837158203125,5.837158203125,5.7919921875,5.7919921875,1.00286243535331,1.00286243535331,4.544921875,4.544921875,7.4560546875,7.4560546875,169.277587890625,169.277587890625,35900,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 29, 'total_duration_us': np.float64(169.27799999999996), 'mean_duration_us': np.float64(5.837172413793102), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.9854236641463869), 'min_duration_us': np.float64(4.545), 'max_duration_us': np.float64(7.456)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(5.84)}]",0.0014616224826649242,99.8797987717861
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 333, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((65470464, 21823488, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,167.197998046875,167.197998046875,167.197998046875,167.197998046875,,,167.197998046875,167.197998046875,167.197998046875,167.197998046875,167.197998046875,167.197998046875,325205,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(161.982), 'mean_duration_us': np.float64(161.982), 'median_duration_us': np.float64(161.982), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(161.982), 'max_duration_us': np.float64(161.982)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(161.98)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0014436663237414485,99.88124243810984
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 329, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((64684032, 21561344, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,165.2470703125,165.2470703125,165.2470703125,165.2470703125,,,165.2470703125,165.2470703125,165.2470703125,165.2470703125,165.2470703125,165.2470703125,322943,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(160.127), 'mean_duration_us': np.float64(160.127), 'median_duration_us': np.float64(160.127), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(160.127), 'max_duration_us': np.float64(160.127)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(160.13)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",0.0014268210941150703,99.88266925920395
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 325, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((63897600, 21299200, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,163.51904296875,163.51904296875,163.51904296875,163.51904296875,,,163.51904296875,163.51904296875,163.51904296875,163.51904296875,163.51904296875,163.51904296875,320681,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(158.207), 'mean_duration_us': np.float64(158.207), 'median_duration_us': np.float64(158.207), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(158.207), 'max_duration_us': np.float64(158.207)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(158.21)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}]",0.001411900491525218,99.88408115969547
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 321, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((63111168, 21037056, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,161.85498046875,161.85498046875,161.85498046875,161.85498046875,,,161.85498046875,161.85498046875,161.85498046875,161.85498046875,161.85498046875,161.85498046875,318419,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(156.799), 'mean_duration_us': np.float64(156.799), 'median_duration_us': np.float64(156.799), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(156.799), 'max_duration_us': np.float64(156.799)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(156.8)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",0.0013975321915460671,99.88547869188702
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 333, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((65470464, 21823488, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,167.197998046875,167.197998046875,167.197998046875,167.197998046875,,,167.197998046875,167.197998046875,167.197998046875,167.197998046875,167.197998046875,167.197998046875,325205,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(161.982), 'mean_duration_us': np.float64(161.982), 'median_duration_us': np.float64(161.982), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(161.982), 'max_duration_us': np.float64(161.982)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(161.98)}]",0.0014436663237414485,99.88124243810984
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 329, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((64684032, 21561344, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,165.2470703125,165.2470703125,165.2470703125,165.2470703125,,,165.2470703125,165.2470703125,165.2470703125,165.2470703125,165.2470703125,165.2470703125,322943,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(160.127), 'mean_duration_us': np.float64(160.127), 'median_duration_us': np.float64(160.127), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(160.127), 'max_duration_us': np.float64(160.127)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(160.13)}]",0.0014268210941150703,99.88266925920395
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 325, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((63897600, 21299200, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,163.51904296875,163.51904296875,163.51904296875,163.51904296875,,,163.51904296875,163.51904296875,163.51904296875,163.51904296875,163.51904296875,163.51904296875,320681,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(158.207), 'mean_duration_us': np.float64(158.207), 'median_duration_us': np.float64(158.207), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(158.207), 'max_duration_us': np.float64(158.207)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(158.21)}]",0.001411900491525218,99.88408115969547
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 321, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((63111168, 21037056, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,161.85498046875,161.85498046875,161.85498046875,161.85498046875,,,161.85498046875,161.85498046875,161.85498046875,161.85498046875,161.85498046875,161.85498046875,318419,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(156.799), 'mean_duration_us': np.float64(156.799), 'median_duration_us': np.float64(156.799), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(156.799), 'max_duration_us': np.float64(156.799)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(156.8)}]",0.0013975321915460671,99.88547869188702
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((126, 16, 16, 22), (126, 16, 16, 21), (126, 16, 16, 21)), ())","('TensorList', 'Scalar')","(((64, 0, 0, 1), (0, 64, 0, 1), (0, 0, 64, 1)), ())","('', '-1')",10,16.1052734375,16.1052734375,15.0400390625,15.0400390625,1.6144847134240268,1.6144847134240268,14.68798828125,14.68798828125,18.431884765625,18.431884765625,161.052734375,161.052734375,11766,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy<at::native::(anonymous namespace)::OpaqueType<16u>, unsigned int, 4, 64, 64>(at::native::(anonymous namespace)::OpaqueType<16u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<16u>, unsigned int, 64, 64>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(161.05300000000003), 'mean_duration_us': np.float64(16.105300000000003), 'median_duration_us': np.float64(15.04), 'std_dev_duration_us': np.float64(1.5316324004146686), 'min_duration_us': np.float64(14.688), 'max_duration_us': np.float64(18.432)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy<at::...', 'stream': 7, 'mean_duration_us': np.float64(16.11)}]",0.001390605220634757,99.88686929710765
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 317, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((62324736, 20774912, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,159.328125,159.328125,159.328125,159.328125,,,159.328125,159.328125,159.328125,159.328125,159.328125,159.328125,316157,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(154.143), 'mean_duration_us': np.float64(154.143), 'median_duration_us': np.float64(154.143), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(154.143), 'max_duration_us': np.float64(154.143)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(154.14)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0013757141303981485,99.88824501123806
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 313, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((61538304, 20512768, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,157.53515625,157.53515625,157.53515625,157.53515625,,,157.53515625,157.53515625,157.53515625,157.53515625,157.53515625,157.53515625,313895,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(152.319), 'mean_duration_us': np.float64(152.319), 'median_duration_us': np.float64(152.319), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(152.319), 'max_duration_us': np.float64(152.319)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(152.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0013602327930966691,99.88960524403115
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 309, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((60751872, 20250624, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,155.903076171875,155.903076171875,155.903076171875,155.903076171875,,,155.903076171875,155.903076171875,155.903076171875,155.903076171875,155.903076171875,155.903076171875,311633,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(150.655), 'mean_duration_us': np.float64(150.655), 'median_duration_us': np.float64(150.655), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(150.655), 'max_duration_us': np.float64(150.655)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(150.66)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",0.0013461406444228686,99.89095138467557
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 317, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((62324736, 20774912, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,159.328125,159.328125,159.328125,159.328125,,,159.328125,159.328125,159.328125,159.328125,159.328125,159.328125,316157,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(154.143), 'mean_duration_us': np.float64(154.143), 'median_duration_us': np.float64(154.143), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(154.143), 'max_duration_us': np.float64(154.143)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(154.14)}]",0.0013757141303981485,99.88824501123806
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 313, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((61538304, 20512768, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,157.53515625,157.53515625,157.53515625,157.53515625,,,157.53515625,157.53515625,157.53515625,157.53515625,157.53515625,157.53515625,313895,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(152.319), 'mean_duration_us': np.float64(152.319), 'median_duration_us': np.float64(152.319), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(152.319), 'max_duration_us': np.float64(152.319)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(152.32)}]",0.0013602327930966691,99.88960524403115
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 309, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((60751872, 20250624, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,155.903076171875,155.903076171875,155.903076171875,155.903076171875,,,155.903076171875,155.903076171875,155.903076171875,155.903076171875,155.903076171875,155.903076171875,311633,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(150.655), 'mean_duration_us': np.float64(150.655), 'median_duration_us': np.float64(150.655), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(150.655), 'max_duration_us': np.float64(150.655)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(150.66)}]",0.0013461406444228686,99.89095138467557
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512), ())","('long int', 'bool', 'Scalar')","((512, 1), (512, 1), ())","('', '', 'False')",48,3.2227071126302085,3.2227071126302085,3.199951171875,3.199951171875,0.07466773906629288,0.07466773906629288,3.10498046875,3.10498046875,3.4560546875,3.4560546875,154.68994140625,154.68994140625,136,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(154.692), 'mean_duration_us': np.float64(3.22275), 'median_duration_us': np.float64(3.2), 'std_dev_duration_us': np.float64(0.07388180312724722), 'min_duration_us': np.float64(3.105), 'max_duration_us': np.float64(3.456)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(3.22)}]",0.001335665867046636,99.89228705054262
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 305, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((59965440, 19988480, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,153.759033203125,153.759033203125,153.759033203125,153.759033203125,,,153.759033203125,153.759033203125,153.759033203125,153.759033203125,153.759033203125,153.759033203125,309371,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(148.479), 'mean_duration_us': np.float64(148.479), 'median_duration_us': np.float64(148.479), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(148.479), 'max_duration_us': np.float64(148.479)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(148.48)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",0.001327627966838229,99.89361467850946
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 305, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((59965440, 19988480, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,153.759033203125,153.759033203125,153.759033203125,153.759033203125,,,153.759033203125,153.759033203125,153.759033203125,153.759033203125,153.759033203125,153.759033203125,309371,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(148.479), 'mean_duration_us': np.float64(148.479), 'median_duration_us': np.float64(148.479), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(148.479), 'max_duration_us': np.float64(148.479)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(148.48)}]",0.001327627966838229,99.89361467850946
 aten::sub,elementwise,python3,CPU,thread 10586 (python3),"((1, 512), (512, 1), ())","('long int', 'long int', 'Scalar')","((512, 1), (1, 1), ())","('', '', '1')",48,3.175237019856771,3.175237019856771,3.16796875,3.16796875,0.04431222073986212,0.04431222073986212,3.10400390625,3.10400390625,3.263916015625,3.263916015625,152.411376953125,152.411376953125,131,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<long> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<long> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<long> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<long> const&)::{lambda(int)#1})', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(152.413), 'mean_duration_us': np.float64(3.1752708333333337), 'median_duration_us': np.float64(3.168), 'std_dev_duration_us': np.float64(0.04387089942059792), 'min_duration_us': np.float64(3.104), 'max_duration_us': np.float64(3.264)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.18)}]",0.0013159916675593388,99.89493067017702
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 301, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((59179008, 19726336, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,151.517822265625,151.517822265625,151.517822265625,151.517822265625,,,151.517822265625,151.517822265625,151.517822265625,151.517822265625,151.517822265625,151.517822265625,307109,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(146.43), 'mean_duration_us': np.float64(146.43), 'median_duration_us': np.float64(146.43), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(146.43), 'max_duration_us': np.float64(146.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(146.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",0.0013082762952113794,99.89623894647222
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 297, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((58392576, 19464192, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,150.4951171875,150.4951171875,150.4951171875,150.4951171875,,,150.4951171875,150.4951171875,150.4951171875,150.4951171875,150.4951171875,150.4951171875,304847,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(145.247), 'mean_duration_us': np.float64(145.247), 'median_duration_us': np.float64(145.247), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(145.247), 'max_duration_us': np.float64(145.247)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(145.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",0.0012994457775158594,99.89753839224974
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 293, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((57606144, 19202048, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,147.77490234375,147.77490234375,147.77490234375,147.77490234375,,,147.77490234375,147.77490234375,147.77490234375,147.77490234375,147.77490234375,147.77490234375,302585,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(142.399), 'mean_duration_us': np.float64(142.399), 'median_duration_us': np.float64(142.399), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(142.399), 'max_duration_us': np.float64(142.399)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(142.4)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}]",0.001275958160384448,99.89881435041012
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 289, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((56819712, 18939904, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,145.981201171875,145.981201171875,145.981201171875,145.981201171875,,,145.981201171875,145.981201171875,145.981201171875,145.981201171875,145.981201171875,145.981201171875,300323,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(140.798), 'mean_duration_us': np.float64(140.798), 'median_duration_us': np.float64(140.798), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(140.798), 'max_duration_us': np.float64(140.798)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.183), 'mean_duration_us': np.float64(5.183), 'median_duration_us': np.float64(5.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.183), 'max_duration_us': np.float64(5.183)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(140.8)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0012604704990072733,99.90007482090913
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 285, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((56033280, 18677760, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,143.7431640625,143.7431640625,143.7431640625,143.7431640625,,,143.7431640625,143.7431640625,143.7431640625,143.7431640625,143.7431640625,143.7431640625,298061,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(138.623), 'mean_duration_us': np.float64(138.623), 'median_duration_us': np.float64(138.623), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(138.623), 'max_duration_us': np.float64(138.623)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(138.62)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",0.0012411462317084357,99.90131596714083
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 301, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((59179008, 19726336, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,151.517822265625,151.517822265625,151.517822265625,151.517822265625,,,151.517822265625,151.517822265625,151.517822265625,151.517822265625,151.517822265625,151.517822265625,307109,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(146.43), 'mean_duration_us': np.float64(146.43), 'median_duration_us': np.float64(146.43), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(146.43), 'max_duration_us': np.float64(146.43)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(146.43)}]",0.0013082762952113794,99.89623894647222
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 297, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((58392576, 19464192, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,150.4951171875,150.4951171875,150.4951171875,150.4951171875,,,150.4951171875,150.4951171875,150.4951171875,150.4951171875,150.4951171875,150.4951171875,304847,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(145.247), 'mean_duration_us': np.float64(145.247), 'median_duration_us': np.float64(145.247), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(145.247), 'max_duration_us': np.float64(145.247)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(145.25)}]",0.0012994457775158594,99.89753839224974
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 293, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((57606144, 19202048, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,147.77490234375,147.77490234375,147.77490234375,147.77490234375,,,147.77490234375,147.77490234375,147.77490234375,147.77490234375,147.77490234375,147.77490234375,302585,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(142.399), 'mean_duration_us': np.float64(142.399), 'median_duration_us': np.float64(142.399), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(142.399), 'max_duration_us': np.float64(142.399)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(142.4)}]",0.001275958160384448,99.89881435041012
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 289, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((56819712, 18939904, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,145.981201171875,145.981201171875,145.981201171875,145.981201171875,,,145.981201171875,145.981201171875,145.981201171875,145.981201171875,145.981201171875,145.981201171875,300323,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.183), 'mean_duration_us': np.float64(5.183), 'median_duration_us': np.float64(5.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.183), 'max_duration_us': np.float64(5.183)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(140.798), 'mean_duration_us': np.float64(140.798), 'median_duration_us': np.float64(140.798), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(140.798), 'max_duration_us': np.float64(140.798)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(140.8)}]",0.0012604704990072733,99.90007482090913
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 285, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((56033280, 18677760, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,143.7431640625,143.7431640625,143.7431640625,143.7431640625,,,143.7431640625,143.7431640625,143.7431640625,143.7431640625,143.7431640625,143.7431640625,298061,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(138.623), 'mean_duration_us': np.float64(138.623), 'median_duration_us': np.float64(138.623), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(138.623), 'max_duration_us': np.float64(138.623)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(138.62)}]",0.0012411462317084357,99.90131596714083
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512), ())","('float', 'long int', 'Scalar')","((512, 1), (512, 1), ())","('', '', 'False')",48,2.980066935221354,2.980066935221354,2.97607421875,2.97607421875,0.03206036266987516,0.03206036266987516,2.910888671875,2.910888671875,3.071044921875,3.071044921875,143.043212890625,143.043212890625,147,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(143.04), 'mean_duration_us': np.float64(2.98), 'median_duration_us': np.float64(2.976), 'std_dev_duration_us': np.float64(0.031730637140362235), 'min_duration_us': np.float64(2.911), 'max_duration_us': np.float64(3.071)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(2.98)}]",0.0012351025233692007,99.9025510696642
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 281, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((55246848, 18415616, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,142.429931640625,142.429931640625,142.429931640625,142.429931640625,,,142.429931640625,142.429931640625,142.429931640625,142.429931640625,142.429931640625,142.429931640625,295799,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(137.086), 'mean_duration_us': np.float64(137.086), 'median_duration_us': np.float64(137.086), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(137.086), 'max_duration_us': np.float64(137.086)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(137.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",0.0012298071639872132,99.90378087682818
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 281, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((55246848, 18415616, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,142.429931640625,142.429931640625,142.429931640625,142.429931640625,,,142.429931640625,142.429931640625,142.429931640625,142.429931640625,142.429931640625,142.429931640625,295799,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(137.086), 'mean_duration_us': np.float64(137.086), 'median_duration_us': np.float64(137.086), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(137.086), 'max_duration_us': np.float64(137.086)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(137.09)}]",0.0012298071639872132,99.90378087682818
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19170432, 199692, 66564, 258, 1), (6291456, 65536, 65536, 256, 1), ())","('', '', 'False')",7,20.342878069196427,20.342878069196427,20.384033203125,20.384033203125,0.20218641417145733,0.20218641417145733,20.06396484375,20.06396484375,20.672119140625,20.672119140625,142.400146484375,142.400146484375,134817,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(142.4), 'mean_duration_us': np.float64(20.342857142857145), 'median_duration_us': np.float64(20.384), 'std_dev_duration_us': np.float64(0.1871496181984799), 'min_duration_us': np.float64(20.064), 'max_duration_us': np.float64(20.672)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(20.34)}]",0.0012295499849089477,99.90501042681309
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((393216, 1024, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",21,6.711065383184524,6.711065383184524,6.3359375,6.3359375,0.7018577159265377,0.7018577159265377,5.920166015625,5.920166015625,7.552001953125,7.552001953125,140.932373046875,140.932373046875,135246,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 21, 'total_duration_us': np.float64(77.60300000000001), 'mean_duration_us': np.float64(3.695380952380953), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.6890610226754388), 'min_duration_us': np.float64(2.976), 'max_duration_us': np.float64(4.545)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 21, 'total_duration_us': np.float64(63.32800000000001), 'mean_duration_us': np.float64(3.0156190476190483), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.0354340113591128), 'min_duration_us': np.float64(2.944), 'max_duration_us': np.float64(3.104)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.7)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.02)}]",0.0012168765372160698,99.9062273033503
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 277, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((54460416, 18153472, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,140.447021484375,140.447021484375,140.447021484375,140.447021484375,,,140.447021484375,140.447021484375,140.447021484375,140.447021484375,140.447021484375,140.447021484375,293537,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(135.391), 'mean_duration_us': np.float64(135.391), 'median_duration_us': np.float64(135.391), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(135.391), 'max_duration_us': np.float64(135.391)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(135.39)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",0.0012126857830554842,99.90743998913337
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((393216, 1024, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",21,6.711065383184524,6.711065383184524,6.3359375,6.3359375,0.7018577159265377,0.7018577159265377,5.920166015625,5.920166015625,7.552001953125,7.552001953125,140.932373046875,140.932373046875,135246,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 21, 'total_duration_us': np.float64(63.32800000000001), 'mean_duration_us': np.float64(3.0156190476190483), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.0354340113591128), 'min_duration_us': np.float64(2.944), 'max_duration_us': np.float64(3.104)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 21, 'total_duration_us': np.float64(77.60300000000001), 'mean_duration_us': np.float64(3.695380952380953), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.6890610226754388), 'min_duration_us': np.float64(2.976), 'max_duration_us': np.float64(4.545)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.02)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.7)}]",0.0012168765372160698,99.9062273033503
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 277, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((54460416, 18153472, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,140.447021484375,140.447021484375,140.447021484375,140.447021484375,,,140.447021484375,140.447021484375,140.447021484375,140.447021484375,140.447021484375,140.447021484375,293537,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(135.391), 'mean_duration_us': np.float64(135.391), 'median_duration_us': np.float64(135.391), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(135.391), 'max_duration_us': np.float64(135.391)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(135.39)}]",0.0012126857830554842,99.90743998913337
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512), ())","('long int', 'float', 'Scalar')","((512, 1), (512, 1), ())","('', '', 'False')",48,2.8992513020833335,2.8992513020833335,2.912109375,2.912109375,0.02176664312934252,0.02176664312934252,2.846923828125,2.846923828125,2.944091796875,2.944091796875,139.1640625,139.1640625,155,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(139.164), 'mean_duration_us': np.float64(2.89925), 'median_duration_us': np.float64(2.912), 'std_dev_duration_us': np.float64(0.021452952399766963), 'min_duration_us': np.float64(2.847), 'max_duration_us': np.float64(2.944)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(2.9)}]",0.0012016081104629902,99.90864159724383
 aten::clamp,elementwise,python3,CPU,thread 10586 (python3),"((501, 3, 256, 256), (), ())","('c10::BFloat16', 'Scalar', 'Scalar')","((65536, 32833536, 256, 1), (), ())","('', '0', '1')",1,139.0380859375,139.0380859375,139.0380859375,139.0380859375,,,139.0380859375,139.0380859375,139.0380859375,139.0380859375,139.0380859375,139.0380859375,417962,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(139.038), 'mean_duration_us': np.float64(139.038), 'median_duration_us': np.float64(139.038), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(139.038), 'max_duration_us': np.float64(139.038)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(139.04)}]",0.0012005203694434418,99.90984211761327
 aten::clamp,elementwise,python3,CPU,thread 10586 (python3),"((1, 3, 501, 256, 256), (), ())","('c10::BFloat16', 'Scalar', 'Scalar')","((98500608, 32833536, 65536, 256, 1), (), ())","('', '-1.', '1.')",1,138.655029296875,138.655029296875,138.655029296875,138.655029296875,,,138.655029296875,138.655029296875,138.655029296875,138.655029296875,138.655029296875,138.655029296875,417954,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(138.655), 'mean_duration_us': np.float64(138.655), 'median_duration_us': np.float64(138.655), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(138.655), 'max_duration_us': np.float64(138.655)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(138.66)}]",0.0011972128778549311,99.91103933049112
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 273, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((53673984, 17891328, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,138.335205078125,138.335205078125,138.335205078125,138.335205078125,,,138.335205078125,138.335205078125,138.335205078125,138.335205078125,138.335205078125,138.335205078125,291275,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(133.183), 'mean_duration_us': np.float64(133.183), 'median_duration_us': np.float64(133.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(133.183), 'max_duration_us': np.float64(133.183)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(133.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",0.0011944513648014267,99.91223378185592
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 273, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((53673984, 17891328, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,138.335205078125,138.335205078125,138.335205078125,138.335205078125,,,138.335205078125,138.335205078125,138.335205078125,138.335205078125,138.335205078125,138.335205078125,291275,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(133.183), 'mean_duration_us': np.float64(133.183), 'median_duration_us': np.float64(133.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(133.183), 'max_duration_us': np.float64(133.183)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(133.18)}]",0.0011944513648014267,99.91223378185592
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((501, 3, 256, 256), (), ())","('c10::BFloat16', 'double', 'Scalar')","((65536, 32833536, 256, 1), (), ())","('', '', '1')",1,137.694091796875,137.694091796875,137.694091796875,137.694091796875,,,137.694091796875,137.694091796875,137.694091796875,137.694091796875,137.694091796875,137.694091796875,417961,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(137.694), 'mean_duration_us': np.float64(137.694), 'median_duration_us': np.float64(137.694), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(137.694), 'max_duration_us': np.float64(137.694)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(137.69)}]",0.001188915690543027,99.91342269754647
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((501, 3, 256, 256), ())","('c10::BFloat16', 'double')","((65536, 32833536, 256, 1), ())","('', '')",1,136.383056640625,136.383056640625,136.383056640625,136.383056640625,,,136.383056640625,136.383056640625,136.383056640625,136.383056640625,136.383056640625,136.383056640625,417960,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(136.383), 'mean_duration_us': np.float64(136.383), 'median_duration_us': np.float64(136.383), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(136.383), 'max_duration_us': np.float64(136.383)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(136.38)}]",0.0011775955950488898,99.91460029314152
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 269, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((52887552, 17629184, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,136.1591796875,136.1591796875,136.1591796875,136.1591796875,,,136.1591796875,136.1591796875,136.1591796875,136.1591796875,136.1591796875,136.1591796875,289013,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(130.975), 'mean_duration_us': np.float64(130.975), 'median_duration_us': np.float64(130.975), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(130.975), 'max_duration_us': np.float64(130.975)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(130.98)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0011756625359114366,99.91577595567743
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 265, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((52101120, 17367040, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,134.97509765625,134.97509765625,134.97509765625,134.97509765625,,,134.97509765625,134.97509765625,134.97509765625,134.97509765625,134.97509765625,134.97509765625,286751,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(129.247), 'mean_duration_us': np.float64(129.247), 'median_duration_us': np.float64(129.247), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(129.247), 'max_duration_us': np.float64(129.247)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.728), 'mean_duration_us': np.float64(5.728), 'median_duration_us': np.float64(5.728), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.728), 'max_duration_us': np.float64(5.728)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(129.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.73)}]",0.001165438613537774,99.91694139429097
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 261, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((51314688, 17104896, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,132.287109375,132.287109375,132.287109375,132.287109375,,,132.287109375,132.287109375,132.287109375,132.287109375,132.287109375,132.287109375,284489,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(127.135), 'mean_duration_us': np.float64(127.135), 'median_duration_us': np.float64(127.135), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(127.135), 'max_duration_us': np.float64(127.135)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(127.14)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",0.0011422292557369449,99.9180836235467
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 257, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((50528256, 16842752, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,130.27099609375,130.27099609375,130.27099609375,130.27099609375,,,130.27099609375,130.27099609375,130.27099609375,130.27099609375,130.27099609375,130.27099609375,282227,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(124.927), 'mean_duration_us': np.float64(124.927), 'median_duration_us': np.float64(124.927), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(124.927), 'max_duration_us': np.float64(124.927)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(124.93)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",0.0011248211833737069,99.91920844473007
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 253, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((49741824, 16580608, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,128.3828125,128.3828125,128.3828125,128.3828125,,,128.3828125,128.3828125,128.3828125,128.3828125,128.3828125,128.3828125,279965,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(123.327), 'mean_duration_us': np.float64(123.327), 'median_duration_us': np.float64(123.327), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(123.327), 'max_duration_us': np.float64(123.327)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(123.33)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",0.001108517716231871,99.92031696244631
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 249, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((48955392, 16318464, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,126.430908203125,126.430908203125,126.430908203125,126.430908203125,,,126.430908203125,126.430908203125,126.430908203125,126.430908203125,126.430908203125,126.430908203125,277703,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(121.343), 'mean_duration_us': np.float64(121.343), 'median_duration_us': np.float64(121.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(121.343), 'max_duration_us': np.float64(121.343)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(121.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",0.0010916640545045658,99.9214086265008
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 256, 256), (96, 192, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((12582912, 65536, 256, 1), (1728, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",1,125.72705078125,125.72705078125,125.72705078125,125.72705078125,,,125.72705078125,125.72705078125,125.72705078125,125.72705078125,125.72705078125,125.72705078125,134768,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(25.568), 'mean_duration_us': np.float64(25.568), 'median_duration_us': np.float64(25.568), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(25.568), 'max_duration_us': np.float64(25.568)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.296), 'mean_duration_us': np.float64(3.296), 'median_duration_us': np.float64(3.296), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.296)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(86.047), 'mean_duration_us': np.float64(86.047), 'median_duration_us': np.float64(86.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(86.047), 'max_duration_us': np.float64(86.047)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.816), 'mean_duration_us': np.float64(10.816), 'median_duration_us': np.float64(10.816), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.816), 'max_duration_us': np.float64(10.816)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.57)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.3)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(86.05)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.82)}]",0.001085586617761624,99.92249421311857
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 245, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((48168960, 16056320, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,124.76513671875,124.76513671875,124.76513671875,124.76513671875,,,124.76513671875,124.76513671875,124.76513671875,124.76513671875,124.76513671875,124.76513671875,275441,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(119.486), 'mean_duration_us': np.float64(119.486), 'median_duration_us': np.float64(119.486), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(119.486), 'max_duration_us': np.float64(119.486)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.279), 'mean_duration_us': np.float64(5.279), 'median_duration_us': np.float64(5.279), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.279), 'max_duration_us': np.float64(5.279)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(119.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",0.001077280998348793,99.92357149411691
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 241, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((47382528, 15794176, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,122.68701171875,122.68701171875,122.68701171875,122.68701171875,,,122.68701171875,122.68701171875,122.68701171875,122.68701171875,122.68701171875,122.68701171875,273179,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(117.471), 'mean_duration_us': np.float64(117.471), 'median_duration_us': np.float64(117.471), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(117.471), 'max_duration_us': np.float64(117.471)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(117.47)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0010593374875767078,99.92463083160449
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 269, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((52887552, 17629184, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,136.1591796875,136.1591796875,136.1591796875,136.1591796875,,,136.1591796875,136.1591796875,136.1591796875,136.1591796875,136.1591796875,136.1591796875,289013,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(130.975), 'mean_duration_us': np.float64(130.975), 'median_duration_us': np.float64(130.975), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(130.975), 'max_duration_us': np.float64(130.975)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(130.98)}]",0.0011756625359114366,99.91577595567743
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 265, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((52101120, 17367040, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,134.97509765625,134.97509765625,134.97509765625,134.97509765625,,,134.97509765625,134.97509765625,134.97509765625,134.97509765625,134.97509765625,134.97509765625,286751,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.728), 'mean_duration_us': np.float64(5.728), 'median_duration_us': np.float64(5.728), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.728), 'max_duration_us': np.float64(5.728)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(129.247), 'mean_duration_us': np.float64(129.247), 'median_duration_us': np.float64(129.247), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(129.247), 'max_duration_us': np.float64(129.247)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.73)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(129.25)}]",0.001165438613537774,99.91694139429097
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 261, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((51314688, 17104896, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,132.287109375,132.287109375,132.287109375,132.287109375,,,132.287109375,132.287109375,132.287109375,132.287109375,132.287109375,132.287109375,284489,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(127.135), 'mean_duration_us': np.float64(127.135), 'median_duration_us': np.float64(127.135), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(127.135), 'max_duration_us': np.float64(127.135)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(127.14)}]",0.0011422292557369449,99.9180836235467
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 257, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((50528256, 16842752, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,130.27099609375,130.27099609375,130.27099609375,130.27099609375,,,130.27099609375,130.27099609375,130.27099609375,130.27099609375,130.27099609375,130.27099609375,282227,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(124.927), 'mean_duration_us': np.float64(124.927), 'median_duration_us': np.float64(124.927), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(124.927), 'max_duration_us': np.float64(124.927)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(124.93)}]",0.0011248211833737069,99.91920844473007
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 253, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((49741824, 16580608, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,128.3828125,128.3828125,128.3828125,128.3828125,,,128.3828125,128.3828125,128.3828125,128.3828125,128.3828125,128.3828125,279965,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(123.327), 'mean_duration_us': np.float64(123.327), 'median_duration_us': np.float64(123.327), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(123.327), 'max_duration_us': np.float64(123.327)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(123.33)}]",0.001108517716231871,99.92031696244631
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 249, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((48955392, 16318464, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,126.430908203125,126.430908203125,126.430908203125,126.430908203125,,,126.430908203125,126.430908203125,126.430908203125,126.430908203125,126.430908203125,126.430908203125,277703,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(121.343), 'mean_duration_us': np.float64(121.343), 'median_duration_us': np.float64(121.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(121.343), 'max_duration_us': np.float64(121.343)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(121.34)}]",0.0010916640545045658,99.9214086265008
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 256, 256), (96, 192, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((12582912, 65536, 256, 1), (1728, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",1,125.72705078125,125.72705078125,125.72705078125,125.72705078125,,,125.72705078125,125.72705078125,125.72705078125,125.72705078125,125.72705078125,125.72705078125,134768,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.296), 'mean_duration_us': np.float64(3.296), 'median_duration_us': np.float64(3.296), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.296)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.816), 'mean_duration_us': np.float64(10.816), 'median_duration_us': np.float64(10.816), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.816), 'max_duration_us': np.float64(10.816)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(25.568), 'mean_duration_us': np.float64(25.568), 'median_duration_us': np.float64(25.568), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(25.568), 'max_duration_us': np.float64(25.568)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(86.047), 'mean_duration_us': np.float64(86.047), 'median_duration_us': np.float64(86.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(86.047), 'max_duration_us': np.float64(86.047)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.3)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.82)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.57)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(86.05)}]",0.001085586617761624,99.92249421311857
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 245, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((48168960, 16056320, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,124.76513671875,124.76513671875,124.76513671875,124.76513671875,,,124.76513671875,124.76513671875,124.76513671875,124.76513671875,124.76513671875,124.76513671875,275441,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.279), 'mean_duration_us': np.float64(5.279), 'median_duration_us': np.float64(5.279), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.279), 'max_duration_us': np.float64(5.279)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(119.486), 'mean_duration_us': np.float64(119.486), 'median_duration_us': np.float64(119.486), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(119.486), 'max_duration_us': np.float64(119.486)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(119.49)}]",0.001077280998348793,99.92357149411691
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 241, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((47382528, 15794176, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,122.68701171875,122.68701171875,122.68701171875,122.68701171875,,,122.68701171875,122.68701171875,122.68701171875,122.68701171875,122.68701171875,122.68701171875,273179,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(117.471), 'mean_duration_us': np.float64(117.471), 'median_duration_us': np.float64(117.471), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(117.471), 'max_duration_us': np.float64(117.471)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(117.47)}]",0.0010593374875767078,99.92463083160449
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('long int', 'Scalar')","((512, 1), ())","('', '15')",48,2.5220540364583335,2.5220540364583335,2.528076171875,2.528076171875,0.05546431652805965,0.05546431652805965,2.39990234375,2.39990234375,2.719970703125,2.719970703125,121.05859375,121.05859375,160,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<long>, std::array<char*, 1ul> >(int, at::native::FillFunctor<long>, std::array<char*, 1ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(121.05600000000001), 'mean_duration_us': np.float64(2.5220000000000002), 'median_duration_us': np.float64(2.528), 'std_dev_duration_us': np.float64(0.05487106098239161), 'min_duration_us': np.float64(2.4), 'max_duration_us': np.float64(2.72)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(2.52)}]",0.0010452769592813823,99.92567610856376
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 237, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((46596096, 15532032, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,120.6708984375,120.6708984375,120.6708984375,120.6708984375,,,120.6708984375,120.6708984375,120.6708984375,120.6708984375,120.6708984375,120.6708984375,270917,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(115.615), 'mean_duration_us': np.float64(115.615), 'median_duration_us': np.float64(115.615), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(115.615), 'max_duration_us': np.float64(115.615)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(115.62)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",0.00104192941521347,99.92671803797897
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 233, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((45809664, 15269888, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,118.65380859375,118.65380859375,118.65380859375,118.65380859375,,,118.65380859375,118.65380859375,118.65380859375,118.65380859375,118.65380859375,118.65380859375,268655,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(113.566), 'mean_duration_us': np.float64(113.566), 'median_duration_us': np.float64(113.566), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(113.566), 'max_duration_us': np.float64(113.566)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(113.57)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",0.0010245129107493054,99.92774255088972
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 237, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((46596096, 15532032, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,120.6708984375,120.6708984375,120.6708984375,120.6708984375,,,120.6708984375,120.6708984375,120.6708984375,120.6708984375,120.6708984375,120.6708984375,270917,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(115.615), 'mean_duration_us': np.float64(115.615), 'median_duration_us': np.float64(115.615), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(115.615), 'max_duration_us': np.float64(115.615)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(115.62)}]",0.00104192941521347,99.92671803797897
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 233, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((45809664, 15269888, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,118.65380859375,118.65380859375,118.65380859375,118.65380859375,,,118.65380859375,118.65380859375,118.65380859375,118.65380859375,118.65380859375,118.65380859375,268655,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(113.566), 'mean_duration_us': np.float64(113.566), 'median_duration_us': np.float64(113.566), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(113.566), 'max_duration_us': np.float64(113.566)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(113.57)}]",0.0010245129107493054,99.92774255088972
 aten::where,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512), (512, 512))","('bool', 'long int', 'long int')","((512, 1), (512, 1), (512, 1))","('', '', '')",48,2.455805460611979,2.455805460611979,2.462890625,2.462890625,0.03710580326618019,0.03710580326618019,2.39990234375,2.39990234375,2.56005859375,2.56005859375,117.878662109375,117.878662109375,163,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(bool, long, long)#1}, std::array<char*, 4ul> >(int, at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(bool, long, long)#1}, std::array<char*, 4ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(117.879), 'mean_duration_us': np.float64(2.4558125), 'median_duration_us': np.float64(2.463), 'std_dev_duration_us': np.float64(0.03663994646670947), 'min_duration_us': np.float64(2.4), 'max_duration_us': np.float64(2.56)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(2.46)}]",0.0010178199306387118,99.92876037082036
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 229, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((45023232, 15007744, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,117.534912109375,117.534912109375,117.534912109375,117.534912109375,,,117.534912109375,117.534912109375,117.534912109375,117.534912109375,117.534912109375,117.534912109375,266393,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(111.551), 'mean_duration_us': np.float64(111.551), 'median_duration_us': np.float64(111.551), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(111.551), 'max_duration_us': np.float64(111.551)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.984), 'mean_duration_us': np.float64(5.984), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.984), 'max_duration_us': np.float64(5.984)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(111.55)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}]",0.0010148518311125024,99.92977522265147
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 3, 258, 258), (3, 96, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((19170432, 199692, 66564, 258, 1), (2592, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",1,115.93310546875,115.93310546875,115.93310546875,115.93310546875,,,115.93310546875,115.93310546875,115.93310546875,115.93310546875,115.93310546875,115.93310546875,135127,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(42.847), 'mean_duration_us': np.float64(42.847), 'median_duration_us': np.float64(42.847), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(42.847), 'max_duration_us': np.float64(42.847)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(1.824), 'mean_duration_us': np.float64(1.824), 'median_duration_us': np.float64(1.824), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(1.824)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.528), 'mean_duration_us': np.float64(10.528), 'median_duration_us': np.float64(10.528), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.528), 'max_duration_us': np.float64(10.528)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(55.871), 'mean_duration_us': np.float64(55.871), 'median_duration_us': np.float64(55.871), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(55.871), 'max_duration_us': np.float64(55.871)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.863), 'mean_duration_us': np.float64(4.863), 'median_duration_us': np.float64(4.863), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.863), 'max_duration_us': np.float64(4.863)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.85)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.82)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.53)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(55.87)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.86)}]",0.0010010210775674305,99.93077624372904
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 128, 128), (192, 384, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((6291456, 16384, 128, 1), (3456, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",1,115.903076171875,115.903076171875,115.903076171875,115.903076171875,,,115.903076171875,115.903076171875,115.903076171875,115.903076171875,115.903076171875,115.903076171875,134437,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(9.472), 'mean_duration_us': np.float64(9.472), 'median_duration_us': np.float64(9.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.472), 'max_duration_us': np.float64(9.472)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(93.407), 'mean_duration_us': np.float64(93.407), 'median_duration_us': np.float64(93.407), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(93.407), 'max_duration_us': np.float64(93.407)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.208), 'mean_duration_us': np.float64(6.208), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.208)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.47)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(93.41)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.21)}]",0.0010007617904639334,99.9317770055195
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 225, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((44236800, 14745600, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,115.4228515625,115.4228515625,115.4228515625,115.4228515625,,,115.4228515625,115.4228515625,115.4228515625,115.4228515625,115.4228515625,115.4228515625,264131,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(109.887), 'mean_duration_us': np.float64(109.887), 'median_duration_us': np.float64(109.887), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(109.887), 'max_duration_us': np.float64(109.887)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.536), 'mean_duration_us': np.float64(5.536), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.536)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(109.89)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.54)}]",0.000996615304833213,99.93277362082434
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 229, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((45023232, 15007744, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,117.534912109375,117.534912109375,117.534912109375,117.534912109375,,,117.534912109375,117.534912109375,117.534912109375,117.534912109375,117.534912109375,117.534912109375,266393,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.984), 'mean_duration_us': np.float64(5.984), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.984), 'max_duration_us': np.float64(5.984)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(111.551), 'mean_duration_us': np.float64(111.551), 'median_duration_us': np.float64(111.551), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(111.551), 'max_duration_us': np.float64(111.551)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(111.55)}]",0.0010148518311125024,99.92977522265147
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 3, 258, 258), (3, 96, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((19170432, 199692, 66564, 258, 1), (2592, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",1,115.93310546875,115.93310546875,115.93310546875,115.93310546875,,,115.93310546875,115.93310546875,115.93310546875,115.93310546875,115.93310546875,115.93310546875,135127,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(1.824), 'mean_duration_us': np.float64(1.824), 'median_duration_us': np.float64(1.824), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(1.824)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.863), 'mean_duration_us': np.float64(4.863), 'median_duration_us': np.float64(4.863), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.863), 'max_duration_us': np.float64(4.863)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.528), 'mean_duration_us': np.float64(10.528), 'median_duration_us': np.float64(10.528), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.528), 'max_duration_us': np.float64(10.528)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(42.847), 'mean_duration_us': np.float64(42.847), 'median_duration_us': np.float64(42.847), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(42.847), 'max_duration_us': np.float64(42.847)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(55.871), 'mean_duration_us': np.float64(55.871), 'median_duration_us': np.float64(55.871), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(55.871), 'max_duration_us': np.float64(55.871)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.82)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.86)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.53)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.85)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(55.87)}]",0.0010010210775674305,99.93077624372904
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 128, 128), (192, 384, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((6291456, 16384, 128, 1), (3456, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",1,115.903076171875,115.903076171875,115.903076171875,115.903076171875,,,115.903076171875,115.903076171875,115.903076171875,115.903076171875,115.903076171875,115.903076171875,134437,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.208), 'mean_duration_us': np.float64(6.208), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.208)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(9.472), 'mean_duration_us': np.float64(9.472), 'median_duration_us': np.float64(9.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.472), 'max_duration_us': np.float64(9.472)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(93.407), 'mean_duration_us': np.float64(93.407), 'median_duration_us': np.float64(93.407), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(93.407), 'max_duration_us': np.float64(93.407)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.21)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.47)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(93.41)}]",0.0010007617904639334,99.9317770055195
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 225, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((44236800, 14745600, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,115.4228515625,115.4228515625,115.4228515625,115.4228515625,,,115.4228515625,115.4228515625,115.4228515625,115.4228515625,115.4228515625,115.4228515625,264131,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.536), 'mean_duration_us': np.float64(5.536), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.536)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(109.887), 'mean_duration_us': np.float64(109.887), 'median_duration_us': np.float64(109.887), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(109.887), 'max_duration_us': np.float64(109.887)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(109.89)}]",0.000996615304833213,99.93277362082434
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512), ())","('long int', 'long int', 'Scalar')","((512, 1), (512, 1), ())","('', '', '1')",48,2.4045613606770835,2.4045613606770835,2.39990234375,2.39990234375,0.036167887473489,0.036167887473489,2.3359375,2.3359375,2.49609375,2.49609375,115.4189453125,115.4189453125,166,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<long>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<long>, std::array<char*, 3ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(115.423), 'mean_duration_us': np.float64(2.4046458333333334), 'median_duration_us': np.float64(2.4), 'std_dev_duration_us': np.float64(0.035774461085699455), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.496)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(2.4)}]",0.0009965815764295062,99.93377020240077
 aten::minimum,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512))","('long int', 'long int')","((512, 1), (512, 1))","('', '')",48,2.4018452962239585,2.4018452962239585,2.39990234375,2.39990234375,0.03941407629488933,0.03941407629488933,2.302978515625,2.302978515625,2.528076171875,2.528076171875,115.28857421875,115.28857421875,162,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BinaryFunctor<long, long, long, at::native::minimum_kernel_cuda(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(long, long)#1}>, std::array<char*, 3ul> >(int, at::native::BinaryFunctor<long, long, long, at::native::minimum_kernel_cuda(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(long, long)#1}>, std::array<char*, 3ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(115.292), 'mean_duration_us': np.float64(2.4019166666666667), 'median_duration_us': np.float64(2.4), 'std_dev_duration_us': np.float64(0.03897639955437422), 'min_duration_us': np.float64(2.303), 'max_duration_us': np.float64(2.528)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Bi...', 'stream': 7, 'mean_duration_us': np.float64(2.4)}]",0.0009954558909557876,99.93476565829172
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 1, 16, 2, 16, 2), (1, 16, 126, 1, 16, 2, 16, 2), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2064384, 129024, 1024, 1024, 64, 32, 2, 1), (2064384, 1, 16384, 64, 1024, 32, 64, 16), ())","('', '', 'False')",10,11.4333984375,11.4333984375,11.3760986328125,11.3760986328125,0.17404195180645385,0.17404195180645385,11.199951171875,11.199951171875,11.840087890625,11.840087890625,114.333984375,114.333984375,23766,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(114.334), 'mean_duration_us': np.float64(11.4334), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.16506435108768958), 'min_duration_us': np.float64(11.2), 'max_duration_us': np.float64(11.84)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(11.43)}]",0.0009872135122999072,99.93575287180403
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 221, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((43450368, 14483456, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,113.152099609375,113.152099609375,113.152099609375,113.152099609375,,,113.152099609375,113.152099609375,113.152099609375,113.152099609375,113.152099609375,113.152099609375,261869,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(107.967), 'mean_duration_us': np.float64(107.967), 'median_duration_us': np.float64(107.967), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(107.967), 'max_duration_us': np.float64(107.967)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(107.97)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.00097700856215333,99.93672988036619
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 217, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((42663936, 14221312, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,111.4228515625,111.4228515625,111.4228515625,111.4228515625,,,111.4228515625,111.4228515625,111.4228515625,111.4228515625,111.4228515625,111.4228515625,259607,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(105.535), 'mean_duration_us': np.float64(105.535), 'median_duration_us': np.float64(105.535), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(105.535), 'max_duration_us': np.float64(105.535)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.888), 'mean_duration_us': np.float64(5.888), 'median_duration_us': np.float64(5.888), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(5.888)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(105.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.89)}]",0.0009620774194373196,99.93769195778562
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 213, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((41877504, 13959168, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,109.18310546875,109.18310546875,109.18310546875,109.18310546875,,,109.18310546875,109.18310546875,109.18310546875,109.18310546875,109.18310546875,109.18310546875,257345,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(103.583), 'mean_duration_us': np.float64(103.583), 'median_duration_us': np.float64(103.583), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(103.583), 'max_duration_us': np.float64(103.583)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.6), 'mean_duration_us': np.float64(5.6), 'median_duration_us': np.float64(5.6), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(5.6)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(103.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.6)}]",0.0009427383959618602,99.93863469618158
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 209, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((41091072, 13697024, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,106.815185546875,106.815185546875,106.815185546875,106.815185546875,,,106.815185546875,106.815185546875,106.815185546875,106.815185546875,106.815185546875,106.815185546875,255083,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(101.599), 'mean_duration_us': np.float64(101.599), 'median_duration_us': np.float64(101.599), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(101.599), 'max_duration_us': np.float64(101.599)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(101.6)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0009222926592397673,99.93955698884082
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 221, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((43450368, 14483456, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,113.152099609375,113.152099609375,113.152099609375,113.152099609375,,,113.152099609375,113.152099609375,113.152099609375,113.152099609375,113.152099609375,113.152099609375,261869,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(107.967), 'mean_duration_us': np.float64(107.967), 'median_duration_us': np.float64(107.967), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(107.967), 'max_duration_us': np.float64(107.967)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(107.97)}]",0.00097700856215333,99.93672988036619
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 217, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((42663936, 14221312, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,111.4228515625,111.4228515625,111.4228515625,111.4228515625,,,111.4228515625,111.4228515625,111.4228515625,111.4228515625,111.4228515625,111.4228515625,259607,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.888), 'mean_duration_us': np.float64(5.888), 'median_duration_us': np.float64(5.888), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(5.888)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(105.535), 'mean_duration_us': np.float64(105.535), 'median_duration_us': np.float64(105.535), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(105.535), 'max_duration_us': np.float64(105.535)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.89)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(105.54)}]",0.0009620774194373196,99.93769195778562
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 213, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((41877504, 13959168, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,109.18310546875,109.18310546875,109.18310546875,109.18310546875,,,109.18310546875,109.18310546875,109.18310546875,109.18310546875,109.18310546875,109.18310546875,257345,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.6), 'mean_duration_us': np.float64(5.6), 'median_duration_us': np.float64(5.6), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(5.6)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(103.583), 'mean_duration_us': np.float64(103.583), 'median_duration_us': np.float64(103.583), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(103.583), 'max_duration_us': np.float64(103.583)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.6)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(103.58)}]",0.0009427383959618602,99.93863469618158
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 209, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((41091072, 13697024, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,106.815185546875,106.815185546875,106.815185546875,106.815185546875,,,106.815185546875,106.815185546875,106.815185546875,106.815185546875,106.815185546875,106.815185546875,255083,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(101.599), 'mean_duration_us': np.float64(101.599), 'median_duration_us': np.float64(101.599), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(101.599), 'max_duration_us': np.float64(101.599)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(101.6)}]",0.0009222926592397673,99.93955698884082
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256))","('c10::BFloat16', 'c10::BFloat16')","((6291456, 65536, 65536, 256, 1), (65536, 0, 65536, 256, 1))","('', '')",6,17.599772135416668,17.599772135416668,17.50390625,17.50390625,0.218143421404457,0.218143421404457,17.406982421875,17.406982421875,17.98388671875,17.98388671875,105.5986328125,105.5986328125,134830,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(105.59900000000002), 'mean_duration_us': np.float64(17.599833333333336), 'median_duration_us': np.float64(17.504), 'std_dev_duration_us': np.float64(0.1991451871262665), 'min_duration_us': np.float64(17.407), 'max_duration_us': np.float64(17.984)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(17.6)}]",0.000911788369510291,99.94046877721033
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 205, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((40304640, 13434880, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,105.2470703125,105.2470703125,105.2470703125,105.2470703125,,,105.2470703125,105.2470703125,105.2470703125,105.2470703125,105.2470703125,105.2470703125,252821,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(100.095), 'mean_duration_us': np.float64(100.095), 'median_duration_us': np.float64(100.095), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(100.095), 'max_duration_us': np.float64(100.095)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(100.1)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",0.0009087528131766677,99.9413775300235
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 205, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((40304640, 13434880, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,105.2470703125,105.2470703125,105.2470703125,105.2470703125,,,105.2470703125,105.2470703125,105.2470703125,105.2470703125,105.2470703125,105.2470703125,252821,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(100.095), 'mean_duration_us': np.float64(100.095), 'median_duration_us': np.float64(100.095), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(100.095), 'max_duration_us': np.float64(100.095)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(100.1)}]",0.0009087528131766677,99.9413775300235
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('long int', 'long int')","((512, 1), ())","('', '')",48,2.1633453369140625,2.1633453369140625,2.14501953125,2.14501953125,0.04409398121392598,0.04409398121392598,2.112060546875,2.112060546875,2.3359375,2.3359375,103.840576171875,103.840576171875,137,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<long, long, long, at::native::binary_internal::MulFunctor<long> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<long, long, long, at::native::binary_internal::MulFunctor<long> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(103.839), 'mean_duration_us': np.float64(2.1633125), 'median_duration_us': np.float64(2.145), 'std_dev_duration_us': np.float64(0.04365544842380309), 'min_duration_us': np.float64(2.112), 'max_duration_us': np.float64(2.336)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(2.16)}]",0.0008966084798169421,99.94227413850332
 aten::abs,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (0,))","('long int', 'long int')","((512, 1), (1,))","('', '')",48,2.1493733723958335,2.1493733723958335,2.14404296875,2.14404296875,0.052905619055956046,0.052905619055956046,2.0791015625,2.0791015625,2.3359375,2.3359375,103.169921875,103.169921875,141,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AbsFunctor<long>, std::array<char*, 2ul> >(int, at::native::AbsFunctor<long>, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(103.168), 'mean_duration_us': np.float64(2.1493333333333333), 'median_duration_us': np.float64(2.144), 'std_dev_duration_us': np.float64(0.05238015421469807), 'min_duration_us': np.float64(2.079), 'max_duration_us': np.float64(2.336)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Ab...', 'stream': 7, 'mean_duration_us': np.float64(2.15)}]",0.0008908177345055091,99.94316495623782
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 201, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((39518208, 13172736, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,103.10302734375,103.10302734375,103.10302734375,103.10302734375,,,103.10302734375,103.10302734375,103.10302734375,103.10302734375,103.10302734375,103.10302734375,250559,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(97.919), 'mean_duration_us': np.float64(97.919), 'median_duration_us': np.float64(97.919), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(97.919), 'max_duration_us': np.float64(97.919)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(97.92)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0008902401355920279,99.94405519637341
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 197, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((38731776, 12910592, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,101.822998046875,101.822998046875,101.822998046875,101.822998046875,,,101.822998046875,101.822998046875,101.822998046875,101.822998046875,101.822998046875,101.822998046875,248297,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(96.415), 'mean_duration_us': np.float64(96.415), 'median_duration_us': np.float64(96.415), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(96.415), 'max_duration_us': np.float64(96.415)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(96.42)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}]",0.0008791877593023142,99.94493438413271
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 201, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((39518208, 13172736, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,103.10302734375,103.10302734375,103.10302734375,103.10302734375,,,103.10302734375,103.10302734375,103.10302734375,103.10302734375,103.10302734375,103.10302734375,250559,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(97.919), 'mean_duration_us': np.float64(97.919), 'median_duration_us': np.float64(97.919), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(97.919), 'max_duration_us': np.float64(97.919)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(97.92)}]",0.0008902401355920279,99.94405519637341
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 197, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((38731776, 12910592, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,101.822998046875,101.822998046875,101.822998046875,101.822998046875,,,101.822998046875,101.822998046875,101.822998046875,101.822998046875,101.822998046875,101.822998046875,248297,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(96.415), 'mean_duration_us': np.float64(96.415), 'median_duration_us': np.float64(96.415), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(96.415), 'max_duration_us': np.float64(96.415)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(96.42)}]",0.0008791877593023142,99.94493438413271
 aten::gt,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('long int', 'Scalar')","((512, 1), ())","('', '0')",48,2.091283162434896,2.091283162434896,2.080078125,2.080078125,0.05679149480364359,0.05679149480364359,2.01611328125,2.01611328125,2.27099609375,2.27099609375,100.381591796875,100.381591796875,132,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::compare_scalar_kernel<long>(at::TensorIteratorBase&, at::native::(anonymous namespace)::OpType, long)::{lambda(long)#1}, std::array<char*, 2ul> >(int, at::native::compare_scalar_kernel<long>(at::TensorIteratorBase&, at::native::(anonymous namespace)::OpType, long)::{lambda(long)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(100.378), 'mean_duration_us': np.float64(2.0912083333333333), 'median_duration_us': np.float64(2.08), 'std_dev_duration_us': np.float64(0.056224237927743906), 'min_duration_us': np.float64(2.016), 'max_duration_us': np.float64(2.271)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::co...', 'stream': 7, 'mean_duration_us': np.float64(2.09)}]",0.000866741978334458,99.94580112611104
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 193, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((37945344, 12648448, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,99.678955078125,99.678955078125,99.678955078125,99.678955078125,,,99.678955078125,99.678955078125,99.678955078125,99.678955078125,99.678955078125,99.678955078125,246035,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(94.431), 'mean_duration_us': np.float64(94.431), 'median_duration_us': np.float64(94.431), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(94.431), 'max_duration_us': np.float64(94.431)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(94.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",0.0008606750817176745,99.94666180119275
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 189, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((37158912, 12386304, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,97.631103515625,97.631103515625,97.631103515625,97.631103515625,,,97.631103515625,97.631103515625,97.631103515625,97.631103515625,97.631103515625,97.631103515625,243773,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(92.447), 'mean_duration_us': np.float64(92.447), 'median_duration_us': np.float64(92.447), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(92.447), 'max_duration_us': np.float64(92.447)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(92.45)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.000842992966074318,99.94750479415882
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 185, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((36372480, 12124160, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,95.839111328125,95.839111328125,95.839111328125,95.839111328125,,,95.839111328125,95.839111328125,95.839111328125,95.839111328125,95.839111328125,95.839111328125,241511,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(90.495), 'mean_duration_us': np.float64(90.495), 'median_duration_us': np.float64(90.495), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(90.495), 'max_duration_us': np.float64(90.495)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(90.5)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",0.0008275200608737651,99.9483323142197
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 193, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((37945344, 12648448, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,99.678955078125,99.678955078125,99.678955078125,99.678955078125,,,99.678955078125,99.678955078125,99.678955078125,99.678955078125,99.678955078125,99.678955078125,246035,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(94.431), 'mean_duration_us': np.float64(94.431), 'median_duration_us': np.float64(94.431), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(94.431), 'max_duration_us': np.float64(94.431)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(94.43)}]",0.0008606750817176745,99.94666180119275
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 189, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((37158912, 12386304, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,97.631103515625,97.631103515625,97.631103515625,97.631103515625,,,97.631103515625,97.631103515625,97.631103515625,97.631103515625,97.631103515625,97.631103515625,243773,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(92.447), 'mean_duration_us': np.float64(92.447), 'median_duration_us': np.float64(92.447), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(92.447), 'max_duration_us': np.float64(92.447)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(92.45)}]",0.000842992966074318,99.94750479415882
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 185, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((36372480, 12124160, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,95.839111328125,95.839111328125,95.839111328125,95.839111328125,,,95.839111328125,95.839111328125,95.839111328125,95.839111328125,95.839111328125,95.839111328125,241511,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(90.495), 'mean_duration_us': np.float64(90.495), 'median_duration_us': np.float64(90.495), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(90.495), 'max_duration_us': np.float64(90.495)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(90.5)}]",0.0008275200608737651,99.9483323142197
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 65536, 65536, 256, 1), (96, 1, 1, 1, 1), ())","('', '', '1')",6,15.86669921875,15.86669921875,15.8880615234375,15.8880615234375,0.0684332747875223,0.0684332747875223,15.743896484375,15.743896484375,15.93603515625,15.93603515625,95.2001953125,95.2001953125,134824,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(95.2), 'mean_duration_us': np.float64(15.866666666666667), 'median_duration_us': np.float64(15.888), 'std_dev_duration_us': np.float64(0.062425066190504724), 'min_duration_us': np.float64(15.744), 'max_duration_us': np.float64(15.936)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.87)}]",0.0008220033588424507,99.94915431757855
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (96, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((6291456, 65536, 65536, 256, 1), (1, 1, 1, 1))","('', '')",6,15.695597330729166,15.695597330729166,15.7119140625,15.7119140625,0.056644921852327286,0.056644921852327286,15.5830078125,15.5830078125,15.743896484375,15.743896484375,94.173583984375,94.173583984375,134832,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(94.174), 'mean_duration_us': np.float64(15.695666666666668), 'median_duration_us': np.float64(15.712), 'std_dev_duration_us': np.float64(0.051745101754229285), 'min_duration_us': np.float64(15.583), 'max_duration_us': np.float64(15.744)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.7)}]",0.000813139112743224,99.94996745669128
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 181, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((35586048, 11862016, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,94.14404296875,94.14404296875,94.14404296875,94.14404296875,,,94.14404296875,94.14404296875,94.14404296875,94.14404296875,94.14404296875,94.14404296875,239249,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(88.544), 'mean_duration_us': np.float64(88.544), 'median_duration_us': np.float64(88.544), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(88.544), 'max_duration_us': np.float64(88.544)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.6), 'mean_duration_us': np.float64(5.6), 'median_duration_us': np.float64(5.6), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(5.6)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(88.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.6)}]",0.0008128840416901902,99.95078034073298
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 181, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((35586048, 11862016, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,94.14404296875,94.14404296875,94.14404296875,94.14404296875,,,94.14404296875,94.14404296875,94.14404296875,94.14404296875,94.14404296875,94.14404296875,239249,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.6), 'mean_duration_us': np.float64(5.6), 'median_duration_us': np.float64(5.6), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(5.6)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(88.544), 'mean_duration_us': np.float64(88.544), 'median_duration_us': np.float64(88.544), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(88.544), 'max_duration_us': np.float64(88.544)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.6)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(88.54)}]",0.0008128840416901902,99.95078034073298
 aten::lt,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('long int', 'Scalar')","((512, 1), ())","('', '8')",48,1.9519449869791667,1.9519449869791667,1.951904296875,1.951904296875,0.05039743910826609,0.05039743910826609,1.887939453125,1.887939453125,2.177001953125,2.177001953125,93.693359375,93.693359375,143,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::compare_scalar_kernel<long>(at::TensorIteratorBase&, at::native::(anonymous namespace)::OpType, long)::{lambda(long)#1}, std::array<char*, 2ul> >(int, at::native::compare_scalar_kernel<long>(at::TensorIteratorBase&, at::native::(anonymous namespace)::OpType, long)::{lambda(long)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(93.69699999999999), 'mean_duration_us': np.float64(1.952020833333333), 'median_duration_us': np.float64(1.952), 'std_dev_duration_us': np.float64(0.04984036582903687), 'min_duration_us': np.float64(1.888), 'max_duration_us': np.float64(2.177)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::co...', 'stream': 7, 'mean_duration_us': np.float64(1.95)}]",0.0008089926271125036,99.95158933336009
 aten::log,elementwise,python3,CPU,thread 10586 (python3),"((512, 512),)","('float',)","((512, 1),)","('',)",48,1.9432017008463542,1.9432017008463542,1.951904296875,1.951904296875,0.025263917601855746,0.025263917601855746,1.887939453125,1.887939453125,1.98388671875,1.98388671875,93.273681640625,93.273681640625,149,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::log_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::log_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(93.27799999999999), 'mean_duration_us': np.float64(1.9432916666666664), 'median_duration_us': np.float64(1.952), 'std_dev_duration_us': np.float64(0.02501162923966017), 'min_duration_us': np.float64(1.888), 'max_duration_us': np.float64(1.984)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::lo...', 'stream': 7, 'mean_duration_us': np.float64(1.94)}]",0.0008053689317392405,99.95239470229183
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 177, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((34799616, 11599872, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,92.031005859375,92.031005859375,92.031005859375,92.031005859375,,,92.031005859375,92.031005859375,92.031005859375,92.031005859375,92.031005859375,92.031005859375,236987,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(86.815), 'mean_duration_us': np.float64(86.815), 'median_duration_us': np.float64(86.815), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(86.815), 'max_duration_us': np.float64(86.815)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(86.82)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0007946390833099743,99.95318934137514
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 177, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((34799616, 11599872, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,92.031005859375,92.031005859375,92.031005859375,92.031005859375,,,92.031005859375,92.031005859375,92.031005859375,92.031005859375,92.031005859375,92.031005859375,236987,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(86.815), 'mean_duration_us': np.float64(86.815), 'median_duration_us': np.float64(86.815), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(86.815), 'max_duration_us': np.float64(86.815)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(86.82)}]",0.0007946390833099743,99.95318934137514
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 3, 258, 258), ())","('c10::BFloat16', 'Scalar')","((19170432, 199692, 66564, 258, 1), ())","('', '0.')",7,13.005719866071429,13.005719866071429,12.89599609375,12.89599609375,0.3572081841031708,0.3572081841031708,12.736083984375,12.736083984375,13.7919921875,13.7919921875,91.0400390625,91.0400390625,134801,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(91.04000000000002), 'mean_duration_us': np.float64(13.005714285714289), 'median_duration_us': np.float64(12.896), 'std_dev_duration_us': np.float64(0.33072634967197084), 'min_duration_us': np.float64(12.736), 'max_duration_us': np.float64(13.792)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(13.01)}]",0.0007860826088945732,99.95397542398403
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 173, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((34013184, 11337728, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,89.9521484375,89.9521484375,89.9521484375,89.9521484375,,,89.9521484375,89.9521484375,89.9521484375,89.9521484375,89.9521484375,89.9521484375,234725,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(84.768), 'mean_duration_us': np.float64(84.768), 'median_duration_us': np.float64(84.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(84.768), 'max_duration_us': np.float64(84.768)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(84.77)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0007766892484621941,99.9547521132325
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 169, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((33226752, 11075584, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,88.287109375,88.287109375,88.287109375,88.287109375,,,88.287109375,88.287109375,88.287109375,88.287109375,88.287109375,88.287109375,232463,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(83.007), 'mean_duration_us': np.float64(83.007), 'median_duration_us': np.float64(83.007), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(83.007), 'max_duration_us': np.float64(83.007)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(83.01)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",0.0007623125163821162,99.95551442574889
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 173, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((34013184, 11337728, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,89.9521484375,89.9521484375,89.9521484375,89.9521484375,,,89.9521484375,89.9521484375,89.9521484375,89.9521484375,89.9521484375,89.9521484375,234725,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(84.768), 'mean_duration_us': np.float64(84.768), 'median_duration_us': np.float64(84.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(84.768), 'max_duration_us': np.float64(84.768)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(84.77)}]",0.0007766892484621941,99.9547521132325
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 169, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((33226752, 11075584, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,88.287109375,88.287109375,88.287109375,88.287109375,,,88.287109375,88.287109375,88.287109375,88.287109375,88.287109375,88.287109375,232463,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(83.007), 'mean_duration_us': np.float64(83.007), 'median_duration_us': np.float64(83.007), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(83.007), 'max_duration_us': np.float64(83.007)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(83.01)}]",0.0007623125163821162,99.95551442574889
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 96, 1, 256, 256), (1, 96, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((6291456, 65536, 65536, 256, 1), (25165824, 65536, 6291456, 256, 1)), ())","('', '2')",1,88.2548828125,88.2548828125,88.2548828125,88.2548828125,,,88.2548828125,88.2548828125,88.2548828125,88.2548828125,88.2548828125,88.2548828125,137065,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(19.712), 'mean_duration_us': np.float64(19.712), 'median_duration_us': np.float64(19.712), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(19.712), 'max_duration_us': np.float64(19.712)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(68.543), 'mean_duration_us': np.float64(68.543), 'median_duration_us': np.float64(68.543), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(68.543), 'max_duration_us': np.float64(68.543)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(19.71)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(68.54)}]",0.0007620342570515341,99.95627646000594
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('float', 'long int')","((512, 1), ())","('', '')",48,1.8100026448567708,1.8100026448567708,1.7919921875,1.7919921875,0.034863572240989384,0.034863572240989384,1.760009765625,1.760009765625,1.887939453125,1.887939453125,86.880126953125,86.880126953125,148,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(86.881), 'mean_duration_us': np.float64(1.8100208333333334), 'median_duration_us': np.float64(1.792), 'std_dev_duration_us': np.float64(0.03451780312590721), 'min_duration_us': np.float64(1.76), 'max_duration_us': np.float64(1.888)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BU...', 'stream': 7, 'mean_duration_us': np.float64(1.81)}]",0.0007501639669719274,99.95702662397291
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('float', 'long int')","((512, 1), ())","('', '')",48,1.7913665771484375,1.7913665771484375,1.7919921875,1.7919921875,0.023347229299725894,0.023347229299725894,1.760009765625,1.760009765625,1.824951171875,1.824951171875,85.985595703125,85.985595703125,151,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(85.986), 'mean_duration_us': np.float64(1.7913750000000002), 'median_duration_us': np.float64(1.792), 'std_dev_duration_us': np.float64(0.023116214547369136), 'min_duration_us': np.float64(1.76), 'max_duration_us': np.float64(1.825)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(1.79)}]",0.0007424401625230411,99.95776906413543
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 165, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((32440320, 10813440, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,85.696044921875,85.696044921875,85.696044921875,85.696044921875,,,85.696044921875,85.696044921875,85.696044921875,85.696044921875,85.696044921875,85.696044921875,230201,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(80.32), 'mean_duration_us': np.float64(80.32), 'median_duration_us': np.float64(80.32), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(80.32), 'max_duration_us': np.float64(80.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(80.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}]",0.0007399400445982651,99.95850900418003
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 161, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((31653888, 10551296, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,83.8720703125,83.8720703125,83.8720703125,83.8720703125,,,83.8720703125,83.8720703125,83.8720703125,83.8720703125,83.8720703125,83.8720703125,227939,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(78.688), 'mean_duration_us': np.float64(78.688), 'median_duration_us': np.float64(78.688), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(78.688), 'max_duration_us': np.float64(78.688)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(78.69)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0007241909880923617,99.95923319516812
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 165, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((32440320, 10813440, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,85.696044921875,85.696044921875,85.696044921875,85.696044921875,,,85.696044921875,85.696044921875,85.696044921875,85.696044921875,85.696044921875,85.696044921875,230201,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(80.32), 'mean_duration_us': np.float64(80.32), 'median_duration_us': np.float64(80.32), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(80.32), 'max_duration_us': np.float64(80.32)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(80.32)}]",0.0007399400445982651,99.95850900418003
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 161, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((31653888, 10551296, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,83.8720703125,83.8720703125,83.8720703125,83.8720703125,,,83.8720703125,83.8720703125,83.8720703125,83.8720703125,83.8720703125,83.8720703125,227939,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(78.688), 'mean_duration_us': np.float64(78.688), 'median_duration_us': np.float64(78.688), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(78.688), 'max_duration_us': np.float64(78.688)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(78.69)}]",0.0007241909880923617,99.95923319516812
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('float', 'double')","((512, 1), ())","('', '')",48,1.729339599609375,1.729339599609375,1.72802734375,1.72802734375,0.022817132279942493,0.022817132279942493,1.695068359375,1.695068359375,1.760009765625,1.760009765625,83.00830078125,83.00830078125,150,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(83.007), 'mean_duration_us': np.float64(1.7293125), 'median_duration_us': np.float64(1.728), 'std_dev_duration_us': np.float64(0.022590702595315634), 'min_duration_us': np.float64(1.695), 'max_duration_us': np.float64(1.76)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BU...', 'stream': 7, 'mean_duration_us': np.float64(1.73)}]",0.0007167327948226674,99.95994992796295
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 157, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((30867456, 10289152, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,82.56005859375,82.56005859375,82.56005859375,82.56005859375,,,82.56005859375,82.56005859375,82.56005859375,82.56005859375,82.56005859375,82.56005859375,225677,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(77.312), 'mean_duration_us': np.float64(77.312), 'median_duration_us': np.float64(77.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(77.312), 'max_duration_us': np.float64(77.312)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(77.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",0.0007128624604972975,99.96066279042346
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 153, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((30081024, 10027008, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,80.60693359375,80.60693359375,80.60693359375,80.60693359375,,,80.60693359375,80.60693359375,80.60693359375,80.60693359375,80.60693359375,80.60693359375,223415,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(75.167), 'mean_duration_us': np.float64(75.167), 'median_duration_us': np.float64(75.167), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(75.167), 'max_duration_us': np.float64(75.167)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.44), 'mean_duration_us': np.float64(5.44), 'median_duration_us': np.float64(5.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.44), 'max_duration_us': np.float64(5.44)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(75.17)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.44)}]",0.0006959982586438339,99.9613587886821
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 149, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((29294592, 9764864, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,78.4951171875,78.4951171875,78.4951171875,78.4951171875,,,78.4951171875,78.4951171875,78.4951171875,78.4951171875,78.4951171875,78.4951171875,221153,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(73.279), 'mean_duration_us': np.float64(73.279), 'median_duration_us': np.float64(73.279), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(73.279), 'max_duration_us': np.float64(73.279)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(73.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0006777638403897763,99.96203655252249
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 145, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((28508160, 9502720, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,76.094970703125,76.094970703125,76.094970703125,76.094970703125,,,76.094970703125,76.094970703125,76.094970703125,76.094970703125,76.094970703125,76.094970703125,218891,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(70.911), 'mean_duration_us': np.float64(70.911), 'median_duration_us': np.float64(70.911), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(70.911), 'max_duration_us': np.float64(70.911)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(70.91)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.0006570398443371012,99.96269359236683
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 157, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((30867456, 10289152, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,82.56005859375,82.56005859375,82.56005859375,82.56005859375,,,82.56005859375,82.56005859375,82.56005859375,82.56005859375,82.56005859375,82.56005859375,225677,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(77.312), 'mean_duration_us': np.float64(77.312), 'median_duration_us': np.float64(77.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(77.312), 'max_duration_us': np.float64(77.312)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(77.31)}]",0.0007128624604972975,99.96066279042346
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 153, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((30081024, 10027008, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,80.60693359375,80.60693359375,80.60693359375,80.60693359375,,,80.60693359375,80.60693359375,80.60693359375,80.60693359375,80.60693359375,80.60693359375,223415,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.44), 'mean_duration_us': np.float64(5.44), 'median_duration_us': np.float64(5.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.44), 'max_duration_us': np.float64(5.44)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(75.167), 'mean_duration_us': np.float64(75.167), 'median_duration_us': np.float64(75.167), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(75.167), 'max_duration_us': np.float64(75.167)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.44)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(75.17)}]",0.0006959982586438339,99.9613587886821
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 149, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((29294592, 9764864, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,78.4951171875,78.4951171875,78.4951171875,78.4951171875,,,78.4951171875,78.4951171875,78.4951171875,78.4951171875,78.4951171875,78.4951171875,221153,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(73.279), 'mean_duration_us': np.float64(73.279), 'median_duration_us': np.float64(73.279), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(73.279), 'max_duration_us': np.float64(73.279)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(73.28)}]",0.0006777638403897763,99.96203655252249
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 145, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((28508160, 9502720, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,76.094970703125,76.094970703125,76.094970703125,76.094970703125,,,76.094970703125,76.094970703125,76.094970703125,76.094970703125,76.094970703125,76.094970703125,218891,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(70.911), 'mean_duration_us': np.float64(70.911), 'median_duration_us': np.float64(70.911), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(70.911), 'max_duration_us': np.float64(70.911)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(70.91)}]",0.0006570398443371012,99.96269359236683
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 64, 64), (1, 384, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((1572864, 4096, 4096, 64, 1), (3145728, 8192, 4096, 64, 1)), ())","('', '2')",5,14.9947265625,14.9947265625,15.008056640625,15.008056640625,0.24875159890892634,0.24875159890892634,14.5908203125,14.5908203125,15.199951171875,15.199951171875,74.9736328125,74.9736328125,136286,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(35.136), 'mean_duration_us': np.float64(7.027200000000001), 'median_duration_us': np.float64(7.008), 'std_dev_duration_us': np.float64(0.19684552319014031), 'min_duration_us': np.float64(6.816), 'max_duration_us': np.float64(7.36)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(39.838), 'mean_duration_us': np.float64(7.9676), 'median_duration_us': np.float64(8.095), 'std_dev_duration_us': np.float64(0.2151990706299636), 'min_duration_us': np.float64(7.648), 'max_duration_us': np.float64(8.192)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.03)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.97)}]",0.0006473576844479815,99.96334095005128
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 3, 66, 66), (384, 192, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((2509056, 13068, 4356, 66, 1), (5184, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",1,74.526123046875,74.526123046875,74.526123046875,74.526123046875,,,74.526123046875,74.526123046875,74.526123046875,74.526123046875,74.526123046875,74.526123046875,134159,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.928), 'mean_duration_us': np.float64(4.928), 'median_duration_us': np.float64(4.928), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.928), 'max_duration_us': np.float64(4.928)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.623), 'mean_duration_us': np.float64(6.623), 'median_duration_us': np.float64(6.623), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.623), 'max_duration_us': np.float64(6.623)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(58.047), 'mean_duration_us': np.float64(58.047), 'median_duration_us': np.float64(58.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(58.047), 'max_duration_us': np.float64(58.047)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.128), 'mean_duration_us': np.float64(4.128), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.128), 'max_duration_us': np.float64(4.128)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.93)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.62)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(58.05)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.13)}]",0.0006434936741983065,99.96398444372548
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 141, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((27721728, 9240576, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,73.98388671875,73.98388671875,73.98388671875,73.98388671875,,,73.98388671875,73.98388671875,73.98388671875,73.98388671875,73.98388671875,73.98388671875,216629,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(68.928), 'mean_duration_us': np.float64(68.928), 'median_duration_us': np.float64(68.928), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(68.928), 'max_duration_us': np.float64(68.928)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(68.93)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",0.0006388117501587387,99.96462325547564
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 137, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((26935296, 8978432, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,72.2548828125,72.2548828125,72.2548828125,72.2548828125,,,72.2548828125,72.2548828125,72.2548828125,72.2548828125,72.2548828125,72.2548828125,214367,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(66.911), 'mean_duration_us': np.float64(66.911), 'median_duration_us': np.float64(66.911), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(66.911), 'max_duration_us': np.float64(66.911)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(66.91)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",0.0006238827154679601,99.96524713819112
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 3, 66, 66), (384, 192, 3, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((2509056, 13068, 4356, 66, 1), (5184, 27, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",1,74.526123046875,74.526123046875,74.526123046875,74.526123046875,,,74.526123046875,74.526123046875,74.526123046875,74.526123046875,74.526123046875,74.526123046875,134159,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.128), 'mean_duration_us': np.float64(4.128), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.128), 'max_duration_us': np.float64(4.128)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.928), 'mean_duration_us': np.float64(4.928), 'median_duration_us': np.float64(4.928), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.928), 'max_duration_us': np.float64(4.928)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.623), 'mean_duration_us': np.float64(6.623), 'median_duration_us': np.float64(6.623), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.623), 'max_duration_us': np.float64(6.623)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(58.047), 'mean_duration_us': np.float64(58.047), 'median_duration_us': np.float64(58.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(58.047), 'max_duration_us': np.float64(58.047)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.13)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.93)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.62)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(58.05)}]",0.0006434936741983065,99.96398444372548
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 141, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((27721728, 9240576, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,73.98388671875,73.98388671875,73.98388671875,73.98388671875,,,73.98388671875,73.98388671875,73.98388671875,73.98388671875,73.98388671875,73.98388671875,216629,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(68.928), 'mean_duration_us': np.float64(68.928), 'median_duration_us': np.float64(68.928), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(68.928), 'max_duration_us': np.float64(68.928)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(68.93)}]",0.0006388117501587387,99.96462325547564
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 137, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((26935296, 8978432, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,72.2548828125,72.2548828125,72.2548828125,72.2548828125,,,72.2548828125,72.2548828125,72.2548828125,72.2548828125,72.2548828125,72.2548828125,214367,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(66.911), 'mean_duration_us': np.float64(66.911), 'median_duration_us': np.float64(66.911), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(66.911), 'max_duration_us': np.float64(66.911)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(66.91)}]",0.0006238827154679601,99.96524713819112
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 3, 64, 64), (1, 384, 3, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6690816, 17424, 4356, 66, 1), (4718592, 12288, 4096, 64, 1), ())","('', '', 'False')",5,14.16962890625,14.16962890625,14.176025390625,14.176025390625,0.10703365573824612,0.10703365573824612,14.048095703125,14.048095703125,14.303955078125,14.303955078125,70.84814453125,70.84814453125,136312,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(70.848), 'mean_duration_us': np.float64(14.169599999999999), 'median_duration_us': np.float64(14.176), 'std_dev_duration_us': np.float64(0.09578642910141298), 'min_duration_us': np.float64(14.048), 'max_duration_us': np.float64(14.304)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(14.17)}]",0.0006117362740830029,99.9658588744652
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 133, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((26148864, 8716288, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,70.14306640625,70.14306640625,70.14306640625,70.14306640625,,,70.14306640625,70.14306640625,70.14306640625,70.14306640625,70.14306640625,70.14306640625,212105,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(64.895), 'mean_duration_us': np.float64(64.895), 'median_duration_us': np.float64(64.895), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(64.895), 'max_duration_us': np.float64(64.895)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(64.9)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",0.0006056482972139025,99.96646452276241
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 133, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((26148864, 8716288, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,70.14306640625,70.14306640625,70.14306640625,70.14306640625,,,70.14306640625,70.14306640625,70.14306640625,70.14306640625,70.14306640625,70.14306640625,212105,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(64.895), 'mean_duration_us': np.float64(64.895), 'median_duration_us': np.float64(64.895), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(64.895), 'max_duration_us': np.float64(64.895)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(64.9)}]",0.0006056482972139025,99.96646452276241
 aten::arange,other,python3,CPU,thread 10586 (python3),"((), (), (), (0,))","('Scalar', 'Scalar', 'Scalar', 'long int')","((), (), (), (1,))","('0', '512', '1', '')",50,1.3919189453125,1.3919189453125,1.3919677734375,1.3919677734375,0.10272110774693352,0.10272110774693352,1.280029296875,1.280029296875,1.633056640625,1.633056640625,69.595947265625,69.595947265625,36,"[{'name': 'void (anonymous namespace)::elementwise_kernel_with_index<int, at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}>(int, at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}, function_traits<at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}>::result_type*)', 'stream': 7, 'count': 50, 'total_duration_us': np.float64(69.597), 'mean_duration_us': np.float64(1.39194), 'median_duration_us': np.float64(1.392), 'std_dev_duration_us': np.float64(0.10172638005945162), 'min_duration_us': np.float64(1.28), 'max_duration_us': np.float64(1.633)}]","[{'name': 'void (anonymous namespace)::elementwise_kernel_with_index<int, a...', 'stream': 7, 'mean_duration_us': np.float64(1.39)}]",0.000600924212669701,99.96706544697508
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 129, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((25362432, 8454144, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,68.864013671875,68.864013671875,68.864013671875,68.864013671875,,,68.864013671875,68.864013671875,68.864013671875,68.864013671875,68.864013671875,68.864013671875,209843,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(63.648), 'mean_duration_us': np.float64(63.648), 'median_duration_us': np.float64(63.648), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(63.648), 'max_duration_us': np.float64(63.648)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(63.65)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0005946043530251155,99.96766005132811
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 125, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((24576000, 8192000, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,66.719970703125,66.719970703125,66.719970703125,66.719970703125,,,66.719970703125,66.719970703125,66.719970703125,66.719970703125,66.719970703125,66.719970703125,207581,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(61.696), 'mean_duration_us': np.float64(61.696), 'median_duration_us': np.float64(61.696), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(61.696), 'max_duration_us': np.float64(61.696)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.024), 'mean_duration_us': np.float64(5.024), 'median_duration_us': np.float64(5.024), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.024), 'max_duration_us': np.float64(5.024)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(61.7)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.02)}]",0.0005760916754404758,99.96823614300355
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 121, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((23789568, 7929856, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,64.63916015625,64.63916015625,64.63916015625,64.63916015625,,,64.63916015625,64.63916015625,64.63916015625,64.63916015625,64.63916015625,64.63916015625,205319,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(59.391), 'mean_duration_us': np.float64(59.391), 'median_duration_us': np.float64(59.391), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(59.391), 'max_duration_us': np.float64(59.391)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(59.39)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",0.000558124976390842,99.96879426797994
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 129, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((25362432, 8454144, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,68.864013671875,68.864013671875,68.864013671875,68.864013671875,,,68.864013671875,68.864013671875,68.864013671875,68.864013671875,68.864013671875,68.864013671875,209843,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(63.648), 'mean_duration_us': np.float64(63.648), 'median_duration_us': np.float64(63.648), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(63.648), 'max_duration_us': np.float64(63.648)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(63.65)}]",0.0005946043530251155,99.96766005132811
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 125, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((24576000, 8192000, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,66.719970703125,66.719970703125,66.719970703125,66.719970703125,,,66.719970703125,66.719970703125,66.719970703125,66.719970703125,66.719970703125,66.719970703125,207581,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.024), 'mean_duration_us': np.float64(5.024), 'median_duration_us': np.float64(5.024), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.024), 'max_duration_us': np.float64(5.024)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(61.696), 'mean_duration_us': np.float64(61.696), 'median_duration_us': np.float64(61.696), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(61.696), 'max_duration_us': np.float64(61.696)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.02)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(61.7)}]",0.0005760916754404758,99.96823614300355
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 121, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((23789568, 7929856, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,64.63916015625,64.63916015625,64.63916015625,64.63916015625,,,64.63916015625,64.63916015625,64.63916015625,64.63916015625,64.63916015625,64.63916015625,205319,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(59.391), 'mean_duration_us': np.float64(59.391), 'median_duration_us': np.float64(59.391), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(59.391), 'max_duration_us': np.float64(59.391)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(59.39)}]",0.000558124976390842,99.96879426797994
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((1536,), (1, 1536), (1536, 1536), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (1536, 1), (1, 1536), (), ())","('', '', '', '1', '1')",10,6.4446044921875,6.4446044921875,6.4635009765625,6.4635009765625,0.0944805958845497,0.0944805958845497,6.239990234375,6.239990234375,6.56005859375,6.56005859375,64.446044921875,64.446044921875,11828,"[{'name': 'std::enable_if<!(false), void>::type internal::gemvx::kernel<int, int, __nv_bfloat16, __nv_bfloat16, __nv_bfloat16, float, false, true, true, false, 6, false, cublasGemvParamsEx<int, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16>, float> >(cublasGemvParamsEx<int, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16>, float>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(64.446), 'mean_duration_us': np.float64(6.444599999999999), 'median_duration_us': np.float64(6.4635), 'std_dev_duration_us': np.float64(0.08959374978200195), 'min_duration_us': np.float64(6.24), 'max_duration_us': np.float64(6.56)}]","[{'name': 'std::enable_if<!(false), void>::type internal::gemvx::kernel<int...', 'stream': 7, 'mean_duration_us': np.float64(6.44)}]",0.0005564575284325809,99.96935072550838
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 117, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((23003136, 7667712, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,62.4951171875,62.4951171875,62.4951171875,62.4951171875,,,62.4951171875,62.4951171875,62.4951171875,62.4951171875,62.4951171875,62.4951171875,203057,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(57.28), 'mean_duration_us': np.float64(57.28), 'median_duration_us': np.float64(57.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(57.28), 'max_duration_us': np.float64(57.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.215), 'mean_duration_us': np.float64(5.215), 'median_duration_us': np.float64(5.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.215), 'max_duration_us': np.float64(5.215)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(57.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0005396122988062024,99.96989033780719
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 113, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((22216704, 7405568, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,60.447998046875,60.447998046875,60.447998046875,60.447998046875,,,60.447998046875,60.447998046875,60.447998046875,60.447998046875,60.447998046875,60.447998046875,200795,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(55.232), 'mean_duration_us': np.float64(55.232), 'median_duration_us': np.float64(55.232), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(55.232), 'max_duration_us': np.float64(55.232)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(55.23)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.0005219365072385407,99.97041227431443
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 109, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((21430272, 7143424, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,58.623046875,58.623046875,58.623046875,58.623046875,,,58.623046875,58.623046875,58.623046875,58.623046875,58.623046875,58.623046875,198533,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(53.215), 'mean_duration_us': np.float64(53.215), 'median_duration_us': np.float64(53.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(53.215), 'max_duration_us': np.float64(53.215)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(53.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}]",0.0005061790186317107,99.97091845333306
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 117, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((23003136, 7667712, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,62.4951171875,62.4951171875,62.4951171875,62.4951171875,,,62.4951171875,62.4951171875,62.4951171875,62.4951171875,62.4951171875,62.4951171875,203057,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.215), 'mean_duration_us': np.float64(5.215), 'median_duration_us': np.float64(5.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.215), 'max_duration_us': np.float64(5.215)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(57.28), 'mean_duration_us': np.float64(57.28), 'median_duration_us': np.float64(57.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(57.28), 'max_duration_us': np.float64(57.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(57.28)}]",0.0005396122988062024,99.96989033780719
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 113, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((22216704, 7405568, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,60.447998046875,60.447998046875,60.447998046875,60.447998046875,,,60.447998046875,60.447998046875,60.447998046875,60.447998046875,60.447998046875,60.447998046875,200795,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(55.232), 'mean_duration_us': np.float64(55.232), 'median_duration_us': np.float64(55.232), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(55.232), 'max_duration_us': np.float64(55.232)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(55.23)}]",0.0005219365072385407,99.97041227431443
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 109, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((21430272, 7143424, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,58.623046875,58.623046875,58.623046875,58.623046875,,,58.623046875,58.623046875,58.623046875,58.623046875,58.623046875,58.623046875,198533,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(53.215), 'mean_duration_us': np.float64(53.215), 'median_duration_us': np.float64(53.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(53.215), 'max_duration_us': np.float64(53.215)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(53.22)}]",0.0005061790186317107,99.97091845333306
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((9734400, 50700, 16900, 130, 1), (3145728, 16384, 16384, 128, 1), ())","('', '', 'False')",6,9.743977864583334,9.743977864583334,9.8079833984375,9.8079833984375,0.24091975336814547,0.24091975336814547,9.280029296875,9.280029296875,9.919921875,9.919921875,58.4638671875,58.4638671875,134486,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(58.464000000000006), 'mean_duration_us': np.float64(9.744000000000002), 'median_duration_us': np.float64(9.808), 'std_dev_duration_us': np.float64(0.21996363335788052), 'min_duration_us': np.float64(9.28), 'max_duration_us': np.float64(9.92)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.74)}]",0.0005048045861806535,99.97142325791924
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3145728, 16384, 16384, 128, 1), (192, 1, 1, 1, 1), ())","('', '', '1')",6,9.4134521484375,9.4134521484375,9.43994140625,9.43994140625,0.06851418540425257,0.06851418540425257,9.280029296875,9.280029296875,9.472900390625,9.472900390625,56.480712890625,56.480712890625,134493,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(56.481), 'mean_duration_us': np.float64(9.4135), 'median_duration_us': np.float64(9.44), 'std_dev_duration_us': np.float64(0.06258261206863584), 'min_duration_us': np.float64(9.28), 'max_duration_us': np.float64(9.473)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.41)}]",0.0004876810972236928,99.97191093901647
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 105, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((20643840, 6881280, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,56.4169921875,56.4169921875,56.4169921875,56.4169921875,,,56.4169921875,56.4169921875,56.4169921875,56.4169921875,56.4169921875,56.4169921875,196271,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(51.296), 'mean_duration_us': np.float64(51.296), 'median_duration_us': np.float64(51.296), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(51.296), 'max_duration_us': np.float64(51.296)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.121), 'mean_duration_us': np.float64(5.121), 'median_duration_us': np.float64(5.121), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.121), 'max_duration_us': np.float64(5.121)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(51.3)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",0.0004871309026382235,99.97239806991911
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 105, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((20643840, 6881280, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,56.4169921875,56.4169921875,56.4169921875,56.4169921875,,,56.4169921875,56.4169921875,56.4169921875,56.4169921875,56.4169921875,56.4169921875,196271,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.121), 'mean_duration_us': np.float64(5.121), 'median_duration_us': np.float64(5.121), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.121), 'max_duration_us': np.float64(5.121)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(51.296), 'mean_duration_us': np.float64(51.296), 'median_duration_us': np.float64(51.296), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(51.296), 'max_duration_us': np.float64(51.296)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(51.3)}]",0.0004871309026382235,99.97239806991911
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((1572864, 4096, 4096, 64, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",5,11.193603515625,11.193603515625,11.16796875,11.16796875,0.13840480392503354,0.13840480392503354,11.072021484375,11.072021484375,11.424072265625,11.424072265625,55.968017578125,55.968017578125,134163,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(55.967999999999996), 'mean_duration_us': np.float64(11.1936), 'median_duration_us': np.float64(11.168), 'std_dev_duration_us': np.float64(0.1237701094772079), 'min_duration_us': np.float64(11.072), 'max_duration_us': np.float64(11.424)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(11.19)}]",0.0004832542442371586,99.97288132416334
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256),)","('c10::BFloat16',)","((6291456, 65536, 65536, 256, 1),)","('',)",6,9.301513671875,9.301513671875,9.2965087890625,9.2965087890625,0.0259566381236691,0.0259566381236691,9.280029296875,9.280029296875,9.343994140625,9.343994140625,55.80908203125,55.80908203125,134834,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(55.809), 'mean_duration_us': np.float64(9.301499999999999), 'median_duration_us': np.float64(9.2965), 'std_dev_duration_us': np.float64(0.023704781514847575), 'min_duration_us': np.float64(9.28), 'max_duration_us': np.float64(9.344)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(9.3)}]",0.000481881919811333,99.97336320608315
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 101, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((19857408, 6619136, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,54.912109375,54.912109375,54.912109375,54.912109375,,,54.912109375,54.912109375,54.912109375,54.912109375,54.912109375,54.912109375,194009,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(49.792), 'mean_duration_us': np.float64(49.792), 'median_duration_us': np.float64(49.792), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(49.792), 'max_duration_us': np.float64(49.792)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(49.79)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",0.00047413703511012983,99.97383734311826
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 101, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((19857408, 6619136, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,54.912109375,54.912109375,54.912109375,54.912109375,,,54.912109375,54.912109375,54.912109375,54.912109375,54.912109375,54.912109375,194009,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(49.792), 'mean_duration_us': np.float64(49.792), 'median_duration_us': np.float64(49.792), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(49.792), 'max_duration_us': np.float64(49.792)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(49.79)}]",0.00047413703511012983,99.97383734311826
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), ())","('c10::BFloat16', 'double')","((6291456, 65536, 65536, 256, 1), ())","('', '')",6,8.970662434895834,8.970662434895834,8.9444580078125,8.9444580078125,0.0748778009968087,0.0748778009968087,8.927001953125,8.927001953125,9.1201171875,9.1201171875,53.823974609375,53.823974609375,134831,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(53.824), 'mean_duration_us': np.float64(8.970666666666666), 'median_duration_us': np.float64(8.944500000000001), 'std_dev_duration_us': np.float64(0.06830243203738917), 'min_duration_us': np.float64(8.927), 'max_duration_us': np.float64(9.12)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(8.97)}]",0.00046474156665251887,99.97430208468491
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (), ())","('c10::BFloat16', 'double', 'Scalar')","((6291456, 65536, 65536, 256, 1), (), ())","('', '', '1')",6,8.949462890625,8.949462890625,8.9599609375,8.9599609375,0.016646022727121266,0.016646022727121266,8.927978515625,8.927978515625,8.9609375,8.9609375,53.69677734375,53.69677734375,134833,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(53.697), 'mean_duration_us': np.float64(8.9495), 'median_duration_us': np.float64(8.96), 'std_dev_duration_us': np.float64(0.015206906325745492), 'min_duration_us': np.float64(8.928), 'max_duration_us': np.float64(8.961)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(8.95)}]",0.00046364328550681206,99.97476572797042
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 97, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((19070976, 6356992, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,52.76806640625,52.76806640625,52.76806640625,52.76806640625,,,52.76806640625,52.76806640625,52.76806640625,52.76806640625,52.76806640625,52.76806640625,191747,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(47.52), 'mean_duration_us': np.float64(47.52), 'median_duration_us': np.float64(47.52), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(47.52), 'max_duration_us': np.float64(47.52)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(47.52)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",0.0004556243575254901,99.97522135232795
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 97, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((19070976, 6356992, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,52.76806640625,52.76806640625,52.76806640625,52.76806640625,,,52.76806640625,52.76806640625,52.76806640625,52.76806640625,52.76806640625,52.76806640625,191747,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(47.52), 'mean_duration_us': np.float64(47.52), 'median_duration_us': np.float64(47.52), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(47.52), 'max_duration_us': np.float64(47.52)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(47.52)}]",0.0004556243575254901,99.97522135232795
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 1, 1, 1), (1, 16, 126, 32, 32, 1))","('float', 'float')","((1, 1, 1, 1, 1, 1), (2064384, 129024, 1024, 32, 1, 2064384))","('', '')",6,8.773356119791666,8.773356119791666,8.6566162109375,8.6566162109375,0.32423160634729187,0.32423160634729187,8.511962890625,8.511962890625,9.406982421875,9.406982421875,52.64013671875,52.64013671875,60217,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(52.64), 'mean_duration_us': np.float64(8.773333333333333), 'median_duration_us': np.float64(8.656500000000001), 'std_dev_duration_us': np.float64(0.2959885508296261), 'min_duration_us': np.float64(8.512), 'max_duration_us': np.float64(9.407)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.77)}]",0.00045451975230408824,99.97567587208026
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((6291456, 65536, 65536, 256, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",6,8.5653076171875,8.5653076171875,8.639892578125,8.639892578125,0.21102314376005626,0.21102314376005626,8.19189453125,8.19189453125,8.736083984375,8.736083984375,51.391845703125,51.391845703125,134825,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(51.392), 'mean_duration_us': np.float64(8.565333333333333), 'median_duration_us': np.float64(8.64), 'std_dev_duration_us': np.float64(0.19259168090952322), 'min_duration_us': np.float64(8.192), 'max_duration_us': np.float64(8.736)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(8.57)}]",0.00044374141929449327,99.97611961349955
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 93, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((18284544, 6094848, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,51.2939453125,51.2939453125,51.2939453125,51.2939453125,,,51.2939453125,51.2939453125,51.2939453125,51.2939453125,51.2939453125,51.2939453125,189485,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(45.951), 'mean_duration_us': np.float64(45.951), 'median_duration_us': np.float64(45.951), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(45.951), 'max_duration_us': np.float64(45.951)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.343), 'mean_duration_us': np.float64(5.343), 'median_duration_us': np.float64(5.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.343), 'max_duration_us': np.float64(5.343)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(45.95)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",0.0004428961011765884,99.97656250960073
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 93, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((18284544, 6094848, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,51.2939453125,51.2939453125,51.2939453125,51.2939453125,,,51.2939453125,51.2939453125,51.2939453125,51.2939453125,51.2939453125,51.2939453125,189485,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.343), 'mean_duration_us': np.float64(5.343), 'median_duration_us': np.float64(5.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.343), 'max_duration_us': np.float64(5.343)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(45.951), 'mean_duration_us': np.float64(45.951), 'median_duration_us': np.float64(45.951), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(45.951), 'max_duration_us': np.float64(45.951)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(45.95)}]",0.0004428961011765884,99.97656250960073
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 128, 128))","('c10::BFloat16', 'c10::BFloat16')","((3145728, 16384, 16384, 128, 1), (16384, 0, 16384, 128, 1))","('', '')",5,10.2080078125,10.2080078125,10.176025390625,10.176025390625,0.1550405423148289,0.1550405423148289,10.048095703125,10.048095703125,10.39990234375,10.39990234375,51.0400390625,51.0400390625,134499,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(51.04), 'mean_duration_us': np.float64(10.208), 'median_duration_us': np.float64(10.176), 'std_dev_duration_us': np.float64(0.13874869368754444), 'min_duration_us': np.float64(10.048), 'max_duration_us': np.float64(10.4)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.21)}]",0.00044070375493563817,99.97700321335566
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 89, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((17498112, 5832704, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,49.725830078125,49.725830078125,49.725830078125,49.725830078125,,,49.725830078125,49.725830078125,49.725830078125,49.725830078125,49.725830078125,49.725830078125,187223,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(43.775), 'mean_duration_us': np.float64(43.775), 'median_duration_us': np.float64(43.775), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(43.775), 'max_duration_us': np.float64(43.775)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.951), 'mean_duration_us': np.float64(5.951), 'median_duration_us': np.float64(5.951), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.951), 'max_duration_us': np.float64(5.951)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(43.78)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.95)}]",0.00042935625511348886,99.97743256961077
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 89, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((17498112, 5832704, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,49.725830078125,49.725830078125,49.725830078125,49.725830078125,,,49.725830078125,49.725830078125,49.725830078125,49.725830078125,49.725830078125,49.725830078125,187223,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.951), 'mean_duration_us': np.float64(5.951), 'median_duration_us': np.float64(5.951), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.951), 'max_duration_us': np.float64(5.951)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(43.775), 'mean_duration_us': np.float64(43.775), 'median_duration_us': np.float64(43.775), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(43.775), 'max_duration_us': np.float64(43.775)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.95)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(43.78)}]",0.00042935625511348886,99.97743256961077
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 1, 128, 128), (1, 192, 4, 128, 128)), ())","('TensorList', 'Scalar')","(((3145728, 16384, 16384, 128, 1), (12582912, 16384, 3145728, 128, 1)), ())","('', '2')",1,47.008056640625,47.008056640625,47.008056640625,47.008056640625,,,47.008056640625,47.008056640625,47.008056640625,47.008056640625,47.008056640625,47.008056640625,136676,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(11.168), 'mean_duration_us': np.float64(11.168), 'median_duration_us': np.float64(11.168), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(11.168), 'max_duration_us': np.float64(11.168)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(35.84), 'mean_duration_us': np.float64(35.84), 'median_duration_us': np.float64(35.84), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(35.84), 'max_duration_us': np.float64(35.84)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(11.17)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(35.84)}]",0.00040588971823439426,99.977838459329
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 85, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((16711680, 5570560, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,46.81494140625,46.81494140625,46.81494140625,46.81494140625,,,46.81494140625,46.81494140625,46.81494140625,46.81494140625,46.81494140625,46.81494140625,184961,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(41.759), 'mean_duration_us': np.float64(41.759), 'median_duration_us': np.float64(41.759), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(41.759), 'max_duration_us': np.float64(41.759)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(41.76)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",0.000404222270276133,99.97824268159928
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 85, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((16711680, 5570560, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,46.81494140625,46.81494140625,46.81494140625,46.81494140625,,,46.81494140625,46.81494140625,46.81494140625,46.81494140625,46.81494140625,46.81494140625,184961,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(41.759), 'mean_duration_us': np.float64(41.759), 'median_duration_us': np.float64(41.759), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(41.759), 'max_duration_us': np.float64(41.759)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(41.76)}]",0.000404222270276133,99.97824268159928
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (192, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((3145728, 16384, 16384, 128, 1), (1, 1, 1, 1))","('', '')",5,9.331005859375,9.331005859375,9.375,9.375,0.09742211312002604,0.09742211312002604,9.18408203125,9.18408203125,9.407958984375,9.407958984375,46.655029296875,46.655029296875,134501,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(46.655), 'mean_duration_us': np.float64(9.331), 'median_duration_us': np.float64(9.375), 'std_dev_duration_us': np.float64(0.08718256706475225), 'min_duration_us': np.float64(9.184), 'max_duration_us': np.float64(9.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.33)}]",0.00040284151374938063,99.97864552311303
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((3145728, 16384, 16384, 128, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",5,9.25439453125,9.25439453125,9.216064453125,9.216064453125,0.16219805394638606,0.16219805394638606,9.087890625,9.087890625,9.50390625,9.50390625,46.27197265625,46.27197265625,134494,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(46.272), 'mean_duration_us': np.float64(9.2544), 'median_duration_us': np.float64(9.216), 'std_dev_duration_us': np.float64(0.14509803582405945), 'min_duration_us': np.float64(9.088), 'max_duration_us': np.float64(9.504)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(9.25)}]",0.00039953402216087014,99.9790450571352
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 2, 1536), (1, 1, 1536), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3072, 1536, 1), (1536, 1536, 1), ())","('', '', '1')",10,4.563134765625,4.563134765625,4.5919189453125,4.5919189453125,0.15630022725154996,0.15630022725154996,4.256103515625,4.256103515625,4.736083984375,4.736083984375,45.63134765625,45.63134765625,23712,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(45.631), 'mean_duration_us': np.float64(4.5631), 'median_duration_us': np.float64(4.592), 'std_dev_duration_us': np.float64(0.14827032744281624), 'min_duration_us': np.float64(4.256), 'max_duration_us': np.float64(4.736)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.56)}]",0.00039400256395293406,99.97943905969915
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 81, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((15925248, 5308416, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,45.5029296875,45.5029296875,45.5029296875,45.5029296875,,,45.5029296875,45.5029296875,45.5029296875,45.5029296875,45.5029296875,45.5029296875,182699,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(40.223), 'mean_duration_us': np.float64(40.223), 'median_duration_us': np.float64(40.223), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(40.223), 'max_duration_us': np.float64(40.223)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(40.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",0.00039289374268106883,99.97983195344183
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 81, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((15925248, 5308416, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,45.5029296875,45.5029296875,45.5029296875,45.5029296875,,,45.5029296875,45.5029296875,45.5029296875,45.5029296875,45.5029296875,45.5029296875,182699,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(40.223), 'mean_duration_us': np.float64(40.223), 'median_duration_us': np.float64(40.223), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(40.223), 'max_duration_us': np.float64(40.223)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(40.22)}]",0.00039289374268106883,99.97983195344183
 aten::sub,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 126, 32, 32), ())","('float', 'c10::BFloat16', 'Scalar')","((2064384, 129024, 1024, 32, 1), (2064384, 129024, 1024, 32, 1), ())","('', '', '1')",5,8.86376953125,8.86376953125,8.864013671875,8.864013671875,0.1631752728863939,0.1631752728863939,8.60791015625,8.60791015625,9.055908203125,9.055908203125,44.31884765625,44.31884765625,35828,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>, 4, TrivialOffsetCalculator<2, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<2>, at::native::memory::StoreWithCast<1> >(int, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>, TrivialOffsetCalculator<2, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<2>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(44.319), 'mean_duration_us': np.float64(8.863800000000001), 'median_duration_us': np.float64(8.864), 'std_dev_duration_us': np.float64(0.14594300257292195), 'min_duration_us': np.float64(8.608), 'max_duration_us': np.float64(9.056)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::CUDAFun...', 'stream': 7, 'mean_duration_us': np.float64(8.86)}]",0.0003826698203074065,99.98021462326214
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 2, 32, 32), (1, 384, 2, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1331712, 3468, 1156, 34, 1), (786432, 2048, 1024, 32, 1), ())","('', '', 'False')",10,4.3809326171875,4.3809326171875,4.3685302734375,4.3685302734375,0.03510932144970561,0.03510932144970561,4.35205078125,4.35205078125,4.447998046875,4.447998046875,43.809326171875,43.809326171875,135280,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(43.809), 'mean_duration_us': np.float64(4.3809), 'median_duration_us': np.float64(4.3685), 'std_dev_duration_us': np.float64(0.03332401536429854), 'min_duration_us': np.float64(4.352), 'max_duration_us': np.float64(4.448)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.38)}]",0.00037827037164888413,99.9805928936338
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 65536, 65536, 256, 1), (6291456, 65536, 65536, 256, 1), ())","('', '', 'False')",7,6.216866629464286,6.216866629464286,6.2080078125,6.2080078125,0.05104110242941407,0.05104110242941407,6.14404296875,6.14404296875,6.302978515625,6.302978515625,43.51806640625,43.51806640625,134797,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(43.518), 'mean_duration_us': np.float64(6.216857142857143), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.04727557077219408), 'min_duration_us': np.float64(6.144), 'max_duration_us': np.float64(6.303)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(6.22)}]",0.0003757554975474864,99.98096864913134
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 77, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((15138816, 5046272, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,43.071044921875,43.071044921875,43.071044921875,43.071044921875,,,43.071044921875,43.071044921875,43.071044921875,43.071044921875,43.071044921875,43.071044921875,180437,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(37.791), 'mean_duration_us': np.float64(37.791), 'median_duration_us': np.float64(37.791), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(37.791), 'max_duration_us': np.float64(37.791)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(37.79)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",0.00037189570334827493,99.9813405448347
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 77, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((15138816, 5046272, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,43.071044921875,43.071044921875,43.071044921875,43.071044921875,,,43.071044921875,43.071044921875,43.071044921875,43.071044921875,43.071044921875,43.071044921875,180437,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(37.791), 'mean_duration_us': np.float64(37.791), 'median_duration_us': np.float64(37.791), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(37.791), 'max_duration_us': np.float64(37.791)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(37.79)}]",0.00037189570334827493,99.9813405448347
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (1, 384, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1572864, 4096, 4096, 64, 1), (384, 1, 1, 1, 1), ())","('', '', '1')",7,6.130126953125,6.130126953125,6.176025390625,6.176025390625,0.10125038900418387,0.10125038900418387,5.98291015625,5.98291015625,6.2080078125,6.2080078125,42.910888671875,42.910888671875,134112,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(42.911), 'mean_duration_us': np.float64(6.130142857142857), 'median_duration_us': np.float64(6.176), 'std_dev_duration_us': np.float64(0.09368706050529325), 'min_duration_us': np.float64(5.983), 'max_duration_us': np.float64(6.208)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.13)}]",0.00037051283879629087,99.9817110576735
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 3, 130, 130), ())","('c10::BFloat16', 'Scalar')","((9734400, 50700, 16900, 130, 1), ())","('', '0.')",6,7.119710286458333,7.119710286458333,7.071533203125,7.071533203125,0.1355960342720044,0.1355960342720044,7.0390625,7.0390625,7.39208984375,7.39208984375,42.71826171875,42.71826171875,134470,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(42.718), 'mean_duration_us': np.float64(7.119666666666667), 'median_duration_us': np.float64(7.0715), 'std_dev_duration_us': np.float64(0.12376411255107676), 'min_duration_us': np.float64(7.039), 'max_duration_us': np.float64(7.392)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(7.12)}]",0.00036884960688849305,99.98207990728038
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 73, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((14352384, 4784128, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,41.886962890625,41.886962890625,41.886962890625,41.886962890625,,,41.886962890625,41.886962890625,41.886962890625,41.886962890625,41.886962890625,41.886962890625,178175,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(36.575), 'mean_duration_us': np.float64(36.575), 'median_duration_us': np.float64(36.575), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(36.575), 'max_duration_us': np.float64(36.575)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(36.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}]",0.0003616717809746126,99.98244157906136
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 69, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((13565952, 4521984, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,39.2001953125,39.2001953125,39.2001953125,39.2001953125,,,39.2001953125,39.2001953125,39.2001953125,39.2001953125,39.2001953125,39.2001953125,175913,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(34.048), 'mean_duration_us': np.float64(34.048), 'median_duration_us': np.float64(34.048), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(34.048), 'max_duration_us': np.float64(34.048)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(34.05)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",0.0003384729632999417,99.98278005202467
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 64, 64), (192, 384, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((1572864, 4096, 64, 1), (3456, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",1,38.624267578125,38.624267578125,38.624267578125,38.624267578125,,,38.624267578125,38.624267578125,38.624267578125,38.624267578125,38.624267578125,38.624267578125,134094,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.872), 'mean_duration_us': np.float64(3.872), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.872), 'max_duration_us': np.float64(3.872)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(26.08), 'mean_duration_us': np.float64(26.08), 'median_duration_us': np.float64(26.08), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(26.08), 'max_duration_us': np.float64(26.08)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.656), 'mean_duration_us': np.float64(2.656), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(2.656)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.87)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(26.08)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.66)}]",0.0003335001317784016,99.98311355215644
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 65, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((12779520, 4259840, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,37.72802734375,37.72802734375,37.72802734375,37.72802734375,,,37.72802734375,37.72802734375,37.72802734375,37.72802734375,37.72802734375,37.72802734375,173651,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.544), 'mean_duration_us': np.float64(32.544), 'median_duration_us': np.float64(32.544), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.544), 'max_duration_us': np.float64(32.544)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(32.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",0.00032576157115289347,99.98343931372759
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 73, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((14352384, 4784128, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,41.886962890625,41.886962890625,41.886962890625,41.886962890625,,,41.886962890625,41.886962890625,41.886962890625,41.886962890625,41.886962890625,41.886962890625,178175,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(36.575), 'mean_duration_us': np.float64(36.575), 'median_duration_us': np.float64(36.575), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(36.575), 'max_duration_us': np.float64(36.575)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(36.58)}]",0.0003616717809746126,99.98244157906136
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 69, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((13565952, 4521984, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,39.2001953125,39.2001953125,39.2001953125,39.2001953125,,,39.2001953125,39.2001953125,39.2001953125,39.2001953125,39.2001953125,39.2001953125,175913,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(34.048), 'mean_duration_us': np.float64(34.048), 'median_duration_us': np.float64(34.048), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(34.048), 'max_duration_us': np.float64(34.048)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(34.05)}]",0.0003384729632999417,99.98278005202467
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 64, 64), (192, 384, 3, 3), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((1572864, 4096, 64, 1), (3456, 9, 3, 1), (), (), (), (), (), (), ())","('', '', '[1, 1]', '[1, 1]', '[1, 1]', '1', 'False', 'False', 'True')",1,38.624267578125,38.624267578125,38.624267578125,38.624267578125,,,38.624267578125,38.624267578125,38.624267578125,38.624267578125,38.624267578125,38.624267578125,134094,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.656), 'mean_duration_us': np.float64(2.656), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(2.656)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.872), 'mean_duration_us': np.float64(3.872), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.872), 'max_duration_us': np.float64(3.872)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(26.08), 'mean_duration_us': np.float64(26.08), 'median_duration_us': np.float64(26.08), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(26.08), 'max_duration_us': np.float64(26.08)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.66)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.87)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(26.08)}]",0.0003335001317784016,99.98311355215644
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 65, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((12779520, 4259840, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,37.72802734375,37.72802734375,37.72802734375,37.72802734375,,,37.72802734375,37.72802734375,37.72802734375,37.72802734375,37.72802734375,37.72802734375,173651,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.544), 'mean_duration_us': np.float64(32.544), 'median_duration_us': np.float64(32.544), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.544), 'max_duration_us': np.float64(32.544)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(32.54)}]",0.00032576157115289347,99.98343931372759
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((1536,), (1, 256), (256, 1536), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (256, 1), (1, 256), (), ())","('', '', '', '1', '1')",10,3.702392578125,3.702392578125,3.6959228515625,3.6959228515625,0.13998001440387378,0.13998001440387378,3.51904296875,3.51904296875,3.904052734375,3.904052734375,37.02392578125,37.02392578125,11821,"[{'name': 'std::enable_if<!(false), void>::type internal::gemvx::kernel<int, int, __nv_bfloat16, __nv_bfloat16, __nv_bfloat16, float, false, true, true, false, 7, false, cublasGemvParamsEx<int, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16>, float> >(cublasGemvParamsEx<int, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16>, float>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(37.024), 'mean_duration_us': np.float64(3.7024), 'median_duration_us': np.float64(3.696), 'std_dev_duration_us': np.float64(0.13277665457451465), 'min_duration_us': np.float64(3.519), 'max_duration_us': np.float64(3.904)}]","[{'name': 'std::enable_if<!(false), void>::type internal::gemvx::kernel<int...', 'stream': 7, 'mean_duration_us': np.float64(3.7)}]",0.00031968202638471983,99.98375899575397
-aten::linalg_lu_factor_ex,other,python3,CPU,thread 10586 (python3),"((2, 2), (), (), (2, 2), (2,), ())","('float', 'Scalar', 'Scalar', 'float', 'int', 'int')","((1, 2), (), (), (1, 2), (1,), ())","('', 'True', 'False', '', '', '')",3,12.170979817708334,13.792399088541666,12.255859375,13.823974609375,0.26679603647274336,0.17861925007041496,11.8720703125,13.60009765625,12.385009765625,13.953125,36.512939453125,41.377197265625,84418,"[{'name': 'xxtrf4_set_info_ker(int, int*)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(4.033), 'mean_duration_us': np.float64(1.3443333333333334), 'median_duration_us': np.float64(1.28), 'std_dev_duration_us': np.float64(0.09098107251266914), 'min_duration_us': np.float64(1.28), 'max_duration_us': np.float64(1.473)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(2.3680000000000003), 'mean_duration_us': np.float64(0.7893333333333334), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.015084944665313026), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(0.8)}, {'name': 'void getrf_pivot<getrf_params_<float, 32, 1, 32, 32, 1> >(int, int, int, void*, int, long*, int, getrf_params_<float, 32, 1, 32, 32, 1>::data_type*, unsigned int*, unsigned int*, getrf_params_<float, 32, 1, 32, 32, 1>::data_type*, unsigned int, unsigned int, unsigned int, int*)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(11.52), 'mean_duration_us': np.float64(3.84), 'median_duration_us': np.float64(3.936), 'std_dev_duration_us': np.float64(0.1589297538746809), 'min_duration_us': np.float64(3.616), 'max_duration_us': np.float64(3.968)}, {'name': 'void ipiv_lower_small<float, 32>(int, void*, int, long*, int, int)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(6.464), 'mean_duration_us': np.float64(2.154666666666667), 'median_duration_us': np.float64(2.208), 'std_dev_duration_us': np.float64(0.0989185972852876), 'min_duration_us': np.float64(2.016), 'max_duration_us': np.float64(2.24)}, {'name': 'void create_pivot_v2<32>(int, int*, long*, int)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(4.704000000000001), 'mean_duration_us': np.float64(1.5680000000000003), 'median_duration_us': np.float64(1.504), 'std_dev_duration_us': np.float64(0.09050966799187807), 'min_duration_us': np.float64(1.504), 'max_duration_us': np.float64(1.696)}, {'name': 'void ipiv_lower_diag<float, 32>(int, void*, int, int*, int)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(3.3600000000000003), 'mean_duration_us': np.float64(1.12), 'median_duration_us': np.float64(1.088), 'std_dev_duration_us': np.float64(0.09420544924083034), 'min_duration_us': np.float64(1.024), 'max_duration_us': np.float64(1.248)}, {'name': 'void ipiv_64_to_32_ker<128>(long, long const*, int*)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(4.064), 'mean_duration_us': np.float64(1.3546666666666667), 'median_duration_us': np.float64(1.376), 'std_dev_duration_us': np.float64(0.07982202425117739), 'min_duration_us': np.float64(1.248), 'max_duration_us': np.float64(1.44)}]","[{'name': 'xxtrf4_set_info_ker(int, int*)', 'stream': 7, 'mean_duration_us': np.float64(1.34)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.79)}, {'name': 'void getrf_pivot<getrf_params_<float, 32, 1, 32, 32, 1> >(int, i...', 'stream': 7, 'mean_duration_us': np.float64(3.84)}, {'name': 'void ipiv_lower_small<float, 32>(int, void*, int, long*, int, in...', 'stream': 7, 'mean_duration_us': np.float64(2.15)}, {'name': 'void create_pivot_v2<32>(int, int*, long*, int)', 'stream': 7, 'mean_duration_us': np.float64(1.57)}, {'name': 'void ipiv_lower_diag<float, 32>(int, void*, int, int*, int)', 'stream': 7, 'mean_duration_us': np.float64(1.12)}, {'name': 'void ipiv_64_to_32_ker<128>(long, long const*, int*)', 'stream': 7, 'mean_duration_us': np.float64(1.35)}]",0.0003152699295748074,99.98407426568355
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 61, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((11993088, 3997696, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,35.6162109375,35.6162109375,35.6162109375,35.6162109375,,,35.6162109375,35.6162109375,35.6162109375,35.6162109375,35.6162109375,35.6162109375,171389,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(30.464), 'mean_duration_us': np.float64(30.464), 'median_duration_us': np.float64(30.464), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.464), 'max_duration_us': np.float64(30.464)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(30.46)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",0.00030752715289883594,99.98438179283644
+aten::linalg_lu_factor_ex,other,python3,CPU,thread 10586 (python3),"((2, 2), (), (), (2, 2), (2,), ())","('float', 'Scalar', 'Scalar', 'float', 'int', 'int')","((1, 2), (), (), (1, 2), (1,), ())","('', 'True', 'False', '', '', '')",3,12.170979817708334,13.792399088541666,12.255859375,13.823974609375,0.26679603647274336,0.17861925007041496,11.8720703125,13.60009765625,12.385009765625,13.953125,36.512939453125,41.377197265625,84418,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(2.3680000000000003), 'mean_duration_us': np.float64(0.7893333333333334), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.015084944665313026), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(0.8)}, {'name': 'void ipiv_lower_diag<float, 32>(int, void*, int, int*, int)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(3.3600000000000003), 'mean_duration_us': np.float64(1.12), 'median_duration_us': np.float64(1.088), 'std_dev_duration_us': np.float64(0.09420544924083034), 'min_duration_us': np.float64(1.024), 'max_duration_us': np.float64(1.248)}, {'name': 'xxtrf4_set_info_ker(int, int*)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(4.033), 'mean_duration_us': np.float64(1.3443333333333334), 'median_duration_us': np.float64(1.28), 'std_dev_duration_us': np.float64(0.09098107251266914), 'min_duration_us': np.float64(1.28), 'max_duration_us': np.float64(1.473)}, {'name': 'void ipiv_64_to_32_ker<128>(long, long const*, int*)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(4.064), 'mean_duration_us': np.float64(1.3546666666666667), 'median_duration_us': np.float64(1.376), 'std_dev_duration_us': np.float64(0.07982202425117739), 'min_duration_us': np.float64(1.248), 'max_duration_us': np.float64(1.44)}, {'name': 'void create_pivot_v2<32>(int, int*, long*, int)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(4.704000000000001), 'mean_duration_us': np.float64(1.5680000000000003), 'median_duration_us': np.float64(1.504), 'std_dev_duration_us': np.float64(0.09050966799187807), 'min_duration_us': np.float64(1.504), 'max_duration_us': np.float64(1.696)}, {'name': 'void ipiv_lower_small<float, 32>(int, void*, int, long*, int, int)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(6.464), 'mean_duration_us': np.float64(2.154666666666667), 'median_duration_us': np.float64(2.208), 'std_dev_duration_us': np.float64(0.0989185972852876), 'min_duration_us': np.float64(2.016), 'max_duration_us': np.float64(2.24)}, {'name': 'void getrf_pivot<getrf_params_<float, 32, 1, 32, 32, 1> >(int, int, int, void*, int, long*, int, getrf_params_<float, 32, 1, 32, 32, 1>::data_type*, unsigned int*, unsigned int*, getrf_params_<float, 32, 1, 32, 32, 1>::data_type*, unsigned int, unsigned int, unsigned int, int*)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(11.52), 'mean_duration_us': np.float64(3.84), 'median_duration_us': np.float64(3.936), 'std_dev_duration_us': np.float64(0.1589297538746809), 'min_duration_us': np.float64(3.616), 'max_duration_us': np.float64(3.968)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.79)}, {'name': 'void ipiv_lower_diag<float, 32>(int, void*, int, int*, int)', 'stream': 7, 'mean_duration_us': np.float64(1.12)}, {'name': 'xxtrf4_set_info_ker(int, int*)', 'stream': 7, 'mean_duration_us': np.float64(1.34)}, {'name': 'void ipiv_64_to_32_ker<128>(long, long const*, int*)', 'stream': 7, 'mean_duration_us': np.float64(1.35)}, {'name': 'void create_pivot_v2<32>(int, int*, long*, int)', 'stream': 7, 'mean_duration_us': np.float64(1.57)}, {'name': 'void ipiv_lower_small<float, 32>(int, void*, int, long*, int, in...', 'stream': 7, 'mean_duration_us': np.float64(2.15)}, {'name': 'void getrf_pivot<getrf_params_<float, 32, 1, 32, 32, 1> >(int, i...', 'stream': 7, 'mean_duration_us': np.float64(3.84)}]",0.0003152699295748074,99.98407426568355
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 61, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((11993088, 3997696, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,35.6162109375,35.6162109375,35.6162109375,35.6162109375,,,35.6162109375,35.6162109375,35.6162109375,35.6162109375,35.6162109375,35.6162109375,171389,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(30.464), 'mean_duration_us': np.float64(30.464), 'median_duration_us': np.float64(30.464), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.464), 'max_duration_us': np.float64(30.464)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(30.46)}]",0.00030752715289883594,99.98438179283644
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 1536),)","('c10::BFloat16',)","((1536, 1),)","('',)",20,1.69124755859375,1.69124755859375,1.7120361328125,1.7120361328125,0.0985900969293492,0.0985900969293492,1.568115234375,1.568115234375,1.823974609375,1.823974609375,33.824951171875,33.824951171875,11823,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 20, 'total_duration_us': np.float64(33.824000000000005), 'mean_duration_us': np.float64(1.6912000000000003), 'median_duration_us': np.float64(1.712), 'std_dev_duration_us': np.float64(0.09614655480047114), 'min_duration_us': np.float64(1.568), 'max_duration_us': np.float64(1.824)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.69)}]",0.0002920605717739781,99.98467385340822
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 57, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((11206656, 3735552, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,33.5361328125,33.5361328125,33.5361328125,33.5361328125,,,33.5361328125,33.5361328125,33.5361328125,33.5361328125,33.5361328125,33.5361328125,169127,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(28.32), 'mean_duration_us': np.float64(28.32), 'median_duration_us': np.float64(28.32), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(28.32), 'max_duration_us': np.float64(28.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(28.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",0.00028956677792489713,99.98496342018615
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 57, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((11206656, 3735552, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,33.5361328125,33.5361328125,33.5361328125,33.5361328125,,,33.5361328125,33.5361328125,33.5361328125,33.5361328125,33.5361328125,33.5361328125,169127,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(28.32), 'mean_duration_us': np.float64(28.32), 'median_duration_us': np.float64(28.32), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(28.32), 'max_duration_us': np.float64(28.32)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(28.32)}]",0.00028956677792489713,99.98496342018615
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (1, 384, 1, 64, 64))","('c10::BFloat16', 'c10::BFloat16')","((1572864, 4096, 4096, 64, 1), (4096, 0, 4096, 64, 1))","('', '')",5,6.515185546875,6.515185546875,6.367919921875,6.367919921875,0.26259009086858637,0.26259009086858637,6.303955078125,6.303955078125,6.912109375,6.912109375,32.575927734375,32.575927734375,134168,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(32.576), 'mean_duration_us': np.float64(6.5152), 'median_duration_us': np.float64(6.368), 'std_dev_duration_us': np.float64(0.23480238499640482), 'min_duration_us': np.float64(6.304), 'max_duration_us': np.float64(6.912)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.52)}]",0.0002812759146886881,99.98524469610084
 aten::_upsample_nearest_exact2d,other,python3,CPU,thread 10586 (python3),"((1, 192, 128, 128), (), (), ())","('float', 'ScalarList', 'Scalar', 'Scalar')","((3145728, 16384, 128, 1), (), (), ())","('', '[256, 256]', '2.', '2.')",1,32.384033203125,32.384033203125,32.384033203125,32.384033203125,,,32.384033203125,32.384033203125,32.384033203125,32.384033203125,32.384033203125,32.384033203125,134759,"[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_frame<float, &at::native::nearest_neighbor_exact_compute_source_index>(float const*, float*, unsigned long, unsigned long, unsigned long, unsigned long, unsigned long, float, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.384), 'mean_duration_us': np.float64(32.384), 'median_duration_us': np.float64(32.384), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.384), 'max_duration_us': np.float64(32.384)}]","[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_f...', 'stream': 7, 'mean_duration_us': np.float64(32.38)}]",0.00027961900685658533,99.9855243151077
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (1, 384, 1, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1331712, 3468, 1156, 34, 1), (393216, 1024, 1024, 32, 1), ())","('', '', 'False')",10,3.2350341796875,3.2350341796875,3.23193359375,3.23193359375,0.03830580324021132,0.03830580324021132,3.198974609375,3.198974609375,3.327880859375,3.327880859375,32.350341796875,32.350341796875,133530,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(32.351), 'mean_duration_us': np.float64(3.2351), 'median_duration_us': np.float64(3.232), 'std_dev_duration_us': np.float64(0.0363605555513113), 'min_duration_us': np.float64(3.199), 'max_duration_us': np.float64(3.328)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.24)}]",0.00027932809937461305,99.98580364320708
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 53, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((10420224, 3473408, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,31.83984375,31.83984375,31.83984375,31.83984375,,,31.83984375,31.83984375,31.83984375,31.83984375,31.83984375,31.83984375,166865,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(26.432), 'mean_duration_us': np.float64(26.432), 'median_duration_us': np.float64(26.432), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(26.432), 'max_duration_us': np.float64(26.432)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(26.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}]",0.000274920218615164,99.98607856342569
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 53, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((10420224, 3473408, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,31.83984375,31.83984375,31.83984375,31.83984375,,,31.83984375,31.83984375,31.83984375,31.83984375,31.83984375,31.83984375,166865,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(26.432), 'mean_duration_us': np.float64(26.432), 'median_duration_us': np.float64(26.432), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(26.432), 'max_duration_us': np.float64(26.432)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(26.43)}]",0.000274920218615164,99.98607856342569
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (384, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((1572864, 4096, 4096, 64, 1), (1, 1, 1, 1))","('', '')",5,6.086474609375,6.086474609375,6.048095703125,6.048095703125,0.12262245733208914,0.12262245733208914,6.01611328125,6.01611328125,6.303955078125,6.303955078125,30.432373046875,30.432373046875,134170,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(30.432000000000002), 'mean_duration_us': np.float64(6.0864), 'median_duration_us': np.float64(6.048), 'std_dev_duration_us': np.float64(0.10973714047668646), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.304)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.09)}]",0.0002627674531545118,99.98634133087884
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 49, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((9633792, 3211264, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,29.631103515625,29.631103515625,29.631103515625,29.631103515625,,,29.631103515625,29.631103515625,29.631103515625,29.631103515625,29.631103515625,29.631103515625,164603,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(24.479), 'mean_duration_us': np.float64(24.479), 'median_duration_us': np.float64(24.479), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(24.479), 'max_duration_us': np.float64(24.479)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(24.48)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",0.00025584891434412833,99.9865971797932
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 49, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((9633792, 3211264, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,29.631103515625,29.631103515625,29.631103515625,29.631103515625,,,29.631103515625,29.631103515625,29.631103515625,29.631103515625,29.631103515625,29.631103515625,164603,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(24.479), 'mean_duration_us': np.float64(24.479), 'median_duration_us': np.float64(24.479), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(24.479), 'max_duration_us': np.float64(24.479)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(24.48)}]",0.00025584891434412833,99.9865971797932
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (1, 384, 1, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((5018112, 13068, 4356, 66, 1), (1572864, 4096, 4096, 64, 1), ())","('', '', 'False')",5,5.907177734375,5.907177734375,5.887939453125,5.887939453125,0.0771100685219849,0.0771100685219849,5.823974609375,5.823974609375,6.01611328125,6.01611328125,29.535888671875,29.535888671875,134206,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(29.535999999999994), 'mean_duration_us': np.float64(5.907199999999999), 'median_duration_us': np.float64(5.888), 'std_dev_duration_us': np.float64(0.06893010953132171), 'min_duration_us': np.float64(5.824), 'max_duration_us': np.float64(6.016)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.91)}]",0.000255026784503772,99.9868522065777
 aten::index_select,other,python3,CPU,thread 10586 (python3),"((256384, 4096), (), (512,))","('c10::BFloat16', 'Scalar', 'long int')","((4096, 1), (), (1,))","('', '0', '')",2,14.20751953125,14.20751953125,14.20751953125,14.20751953125,0.09115048351232839,0.09115048351232839,14.14306640625,14.14306640625,14.27197265625,14.27197265625,28.4150390625,28.4150390625,30,"[{'name': 'void at::native::(anonymous namespace)::indexSelectLargeIndex<c10::BFloat16, long, unsigned int, 2, 2, -2, true>(at::cuda::detail::TensorInfo<c10::BFloat16, unsigned int>, at::cuda::detail::TensorInfo<c10::BFloat16 const, unsigned int>, at::cuda::detail::TensorInfo<long const, unsigned int>, int, int, unsigned int, unsigned int, long)', 'stream': 7, 'count': 2, 'total_duration_us': np.float64(28.415), 'mean_duration_us': np.float64(14.2075), 'median_duration_us': np.float64(14.2075), 'std_dev_duration_us': np.float64(0.06449999999999978), 'min_duration_us': np.float64(14.143), 'max_duration_us': np.float64(14.272)}]","[{'name': 'void at::native::(anonymous namespace)::indexSelectLargeIndex<c1...', 'stream': 7, 'mean_duration_us': np.float64(14.21)}]",0.0002453488406651156,99.98709755541836
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), ())","('float', 'float')","((2064384, 129024, 1024, 32, 1), ())","('', '')",6,4.688028971354167,4.688028971354167,4.7840576171875,4.7840576171875,0.22785085727585347,0.22785085727585347,4.384033203125,4.384033203125,4.89599609375,4.89599609375,28.128173828125,28.128173828125,60119,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(28.128), 'mean_duration_us': np.float64(4.688), 'median_duration_us': np.float64(4.784), 'std_dev_duration_us': np.float64(0.20799999999999977), 'min_duration_us': np.float64(4.384), 'max_duration_us': np.float64(4.896)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BU...', 'stream': 7, 'mean_duration_us': np.float64(4.69)}]",0.00024287191101788808,99.98734042732937
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128),)","('c10::BFloat16',)","((3145728, 16384, 16384, 128, 1),)","('',)",5,5.555126953125,5.555126953125,5.535888671875,5.535888671875,0.04301810464525955,0.04301810464525955,5.535888671875,5.535888671875,5.632080078125,5.632080078125,27.775634765625,27.775634765625,134503,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(27.776000000000003), 'mean_duration_us': np.float64(5.555200000000001), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.03840000000000004), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.632)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(5.56)}]",0.0002398279225833379,99.98758025525196
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((1, 16, 126, 32, 32),), ())","('TensorList', 'Scalar')","(((2064384, 129024, 1024, 32, 1),), ())","('', '1')",6,4.576009114583333,4.576009114583333,4.575927734375,4.575927734375,0.08827574946278834,0.08827574946278834,4.447998046875,4.447998046875,4.672119140625,4.672119140625,27.4560546875,27.4560546875,60185,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(27.456), 'mean_duration_us': np.float64(4.576), 'median_duration_us': np.float64(4.576), 'std_dev_duration_us': np.float64(0.0805315673095545), 'min_duration_us': np.float64(4.448), 'max_duration_us': np.float64(4.672)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(4.58)}]",0.00023706851755506491,99.9878173237695
 aten::gelu,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1536), ())","('c10::BFloat16', '')","((786432, 1536, 1), ())","('', '')",10,2.7455810546875,2.7455810546875,2.719970703125,2.719970703125,0.07956041911586159,0.07956041911586159,2.68798828125,2.68798828125,2.944091796875,2.944091796875,27.455810546875,27.455810546875,11848,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(27.455999999999996), 'mean_duration_us': np.float64(2.7455999999999996), 'median_duration_us': np.float64(2.72), 'std_dev_duration_us': np.float64(0.07545488718433012), 'min_duration_us': np.float64(2.688), 'max_duration_us': np.float64(2.944)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Ge...', 'stream': 7, 'mean_duration_us': np.float64(2.75)}]",0.00023706640952983322,99.98805439017903
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 45, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((8847360, 2949120, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,27.328125,27.328125,27.328125,27.328125,,,27.328125,27.328125,27.328125,27.328125,27.328125,27.328125,162341,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(22.528), 'mean_duration_us': np.float64(22.528), 'median_duration_us': np.float64(22.528), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(22.528), 'max_duration_us': np.float64(22.528)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.8), 'mean_duration_us': np.float64(4.8), 'median_duration_us': np.float64(4.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.8), 'max_duration_us': np.float64(4.8)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(22.53)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.8)}]",0.00023596391233366305,99.98829035409136
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 45, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((8847360, 2949120, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,27.328125,27.328125,27.328125,27.328125,,,27.328125,27.328125,27.328125,27.328125,27.328125,27.328125,162341,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.8), 'mean_duration_us': np.float64(4.8), 'median_duration_us': np.float64(4.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.8), 'max_duration_us': np.float64(4.8)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(22.528), 'mean_duration_us': np.float64(22.528), 'median_duration_us': np.float64(22.528), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(22.528), 'max_duration_us': np.float64(22.528)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.8)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(22.53)}]",0.00023596391233366305,99.98829035409136
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (), ())","('c10::BFloat16', 'double', 'Scalar')","((3145728, 16384, 16384, 128, 1), (), ())","('', '', '1')",5,5.330810546875,5.330810546875,5.31201171875,5.31201171875,0.10459994170294876,0.10459994170294876,5.216064453125,5.216064453125,5.43896484375,5.43896484375,26.654052734375,26.654052734375,134502,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(26.654000000000003), 'mean_duration_us': np.float64(5.330800000000001), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.09359786322347315), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.439)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(5.33)}]",0.00023014365466898643,99.98852049774604
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), ())","('c10::BFloat16', 'double')","((3145728, 16384, 16384, 128, 1), ())","('', '')",5,5.26083984375,5.26083984375,5.248046875,5.248046875,0.01751749390458421,0.01751749390458421,5.248046875,5.248046875,5.280029296875,5.280029296875,26.30419921875,26.30419921875,134500,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(26.304000000000002), 'mean_duration_us': np.float64(5.260800000000001), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.015676734353812352), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(5.26)}]",0.00022712285451198473,99.98874762060055
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 41, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((8060928, 2686976, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,25.15185546875,25.15185546875,25.15185546875,25.15185546875,,,25.15185546875,25.15185546875,25.15185546875,25.15185546875,25.15185546875,25.15185546875,160079,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(20.576), 'mean_duration_us': np.float64(20.576), 'median_duration_us': np.float64(20.576), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(20.576), 'max_duration_us': np.float64(20.576)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.576), 'mean_duration_us': np.float64(4.576), 'median_duration_us': np.float64(4.576), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.576), 'max_duration_us': np.float64(4.576)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(20.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.58)}]",0.00021717297541844118,99.98896479357597
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 41, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((8060928, 2686976, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,25.15185546875,25.15185546875,25.15185546875,25.15185546875,,,25.15185546875,25.15185546875,25.15185546875,25.15185546875,25.15185546875,25.15185546875,160079,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.576), 'mean_duration_us': np.float64(4.576), 'median_duration_us': np.float64(4.576), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.576), 'max_duration_us': np.float64(4.576)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(20.576), 'mean_duration_us': np.float64(20.576), 'median_duration_us': np.float64(20.576), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(20.576), 'max_duration_us': np.float64(20.576)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(20.58)}]",0.00021717297541844118,99.98896479357597
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 256, 256), (1, 192, 256, 256), ())","('c10::BFloat16', 'float', 'Scalar')","((12582912, 65536, 256, 1), (12582912, 65536, 256, 1), ())","('', '', 'False')",1,25.02392578125,25.02392578125,25.02392578125,25.02392578125,,,25.02392578125,25.02392578125,25.02392578125,25.02392578125,25.02392578125,25.02392578125,134764,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(25.024), 'mean_duration_us': np.float64(25.024), 'median_duration_us': np.float64(25.024), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(25.024), 'max_duration_us': np.float64(25.024)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(25.02)}]",0.00021606837019703932,99.98918086194617
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 126, 32, 32), ())","('c10::BFloat16', 'float', 'Scalar')","((2064384, 129024, 1024, 32, 1), (2064384, 129024, 1024, 32, 1), ())","('', '', 'False')",6,4.021158854166667,4.021158854166667,4.031982421875,4.031982421875,0.02603673252409782,0.02603673252409782,3.968017578125,3.968017578125,4.031982421875,4.031982421875,24.126953125,24.126953125,11740,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(24.127), 'mean_duration_us': np.float64(4.021166666666667), 'median_duration_us': np.float64(4.032), 'std_dev_duration_us': np.float64(0.02377965984244144), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(4.032)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(4.02)}]",0.00020832348549583616,99.98938918543166
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((1, 128), (1, 128)), ())","('TensorList', 'Scalar')","(((128, 1), (128, 1)), ())","('', '-1')",10,2.371435546875,2.371435546875,2.384521484375,2.384521484375,0.2807628557117679,0.2807628557117679,2.080078125,2.080078125,2.656005859375,2.656005859375,23.71435546875,23.71435546875,11803,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_aligned16_contig<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 2, 128, 1>(at::native::(anonymous namespace)::OpaqueType<4u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(23.714000000000002), 'mean_duration_us': np.float64(2.3714000000000004), 'median_duration_us': np.float64(2.3845), 'std_dev_duration_us': np.float64(0.26637987912002664), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.656)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_alig...', 'stream': 7, 'mean_duration_us': np.float64(2.37)}]",0.000204760922854292,99.98959394635452
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3145728, 16384, 16384, 128, 1), (3145728, 16384, 16384, 128, 1), ())","('', '', 'False')",6,3.9518636067708335,3.9518636067708335,3.935546875,3.935546875,0.10066216305791166,0.10066216305791166,3.80810546875,3.80810546875,4.095947265625,4.095947265625,23.711181640625,23.711181640625,134466,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(23.711), 'mean_duration_us': np.float64(3.951833333333333), 'median_duration_us': np.float64(3.9355), 'std_dev_duration_us': np.float64(0.09194276601354907), 'min_duration_us': np.float64(3.808), 'max_duration_us': np.float64(4.096)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(3.95)}]",0.00020473351852628007,99.98979867987305
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((1, 128), (1, 128)), ())","('TensorList', 'Scalar')","(((256, 1), (256, 1)), ())","('', '-1')",10,2.332958984375,2.332958984375,2.3360595703125,2.3360595703125,0.30140102106180305,0.30140102106180305,2.01611328125,2.01611328125,2.656982421875,2.656982421875,23.32958984375,23.32958984375,11812,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_aligned16_contig<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 2, 128, 1>(at::native::(anonymous namespace)::OpaqueType<4u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(23.329), 'mean_duration_us': np.float64(2.3329), 'median_duration_us': np.float64(2.3360000000000003), 'std_dev_duration_us': np.float64(0.2859767298225504), 'min_duration_us': np.float64(2.016), 'max_duration_us': np.float64(2.657)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_alig...', 'stream': 7, 'mean_duration_us': np.float64(2.33)}]",0.00020143867508915964,99.99000011854814
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 37, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((7274496, 2424832, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,22.94384765625,22.94384765625,22.94384765625,22.94384765625,,,22.94384765625,22.94384765625,22.94384765625,22.94384765625,22.94384765625,22.94384765625,157817,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(18.88), 'mean_duration_us': np.float64(18.88), 'median_duration_us': np.float64(18.88), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(18.88), 'max_duration_us': np.float64(18.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.064), 'mean_duration_us': np.float64(4.064), 'median_duration_us': np.float64(4.064), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.064), 'max_duration_us': np.float64(4.064)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(18.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.06)}]",0.0001981079952231006,99.99019822654336
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 37, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((7274496, 2424832, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,22.94384765625,22.94384765625,22.94384765625,22.94384765625,,,22.94384765625,22.94384765625,22.94384765625,22.94384765625,22.94384765625,22.94384765625,157817,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.064), 'mean_duration_us': np.float64(4.064), 'median_duration_us': np.float64(4.064), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.064), 'max_duration_us': np.float64(4.064)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(18.88), 'mean_duration_us': np.float64(18.88), 'median_duration_us': np.float64(18.88), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(18.88), 'max_duration_us': np.float64(18.88)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(18.88)}]",0.0001981079952231006,99.99019822654336
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 1), (1, 128))","('float', 'float')","((0, 1), (128, 1))","('', '')",10,2.262109375,2.262109375,2.239501953125,2.239501953125,0.15916105550092546,0.15916105550092546,2.080078125,2.080078125,2.49609375,2.49609375,22.62109375,22.62109375,11799,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(22.621), 'mean_duration_us': np.float64(2.2620999999999998), 'median_duration_us': np.float64(2.2394999999999996), 'std_dev_duration_us': np.float64(0.1510440002118588), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.496)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.26)}]",0.0001953211858668157,99.99039354772923
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 65536, 65536, 256, 1), (6291456, 65536, 65536, 256, 1), ())","('', '', '1')",2,11.135986328125,11.135986328125,11.135986328125,11.135986328125,0.5883349390341196,0.5883349390341196,10.719970703125,10.719970703125,11.552001953125,11.552001953125,22.27197265625,22.27197265625,134978,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 2, 'total_duration_us': np.float64(22.272), 'mean_duration_us': np.float64(11.136), 'median_duration_us': np.float64(11.136), 'std_dev_duration_us': np.float64(0.4159999999999995), 'min_duration_us': np.float64(10.72), 'max_duration_us': np.float64(11.552)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(11.14)}]",0.0001923067097855091,99.99058585443902
 aten::sub,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 126, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2064384, 129024, 1024, 32, 1), (2064384, 129024, 1024, 32, 1), ())","('', '', '1')",5,4.30107421875,4.30107421875,4.256103515625,4.256103515625,0.09459597050833392,0.09459597050833392,4.193115234375,4.193115234375,4.416015625,4.416015625,21.50537109375,21.50537109375,35801,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(21.505000000000003), 'mean_duration_us': np.float64(4.301), 'median_duration_us': np.float64(4.256), 'std_dev_duration_us': np.float64(0.0846498670997187), 'min_duration_us': np.float64(4.193), 'max_duration_us': np.float64(4.416)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(4.3)}]",0.00018568751055802462,99.99077154194957
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 33, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((6488064, 2162688, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,21.50390625,21.50390625,21.50390625,21.50390625,,,21.50390625,21.50390625,21.50390625,21.50390625,21.50390625,21.50390625,155555,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(17.088), 'mean_duration_us': np.float64(17.088), 'median_duration_us': np.float64(17.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(17.088), 'max_duration_us': np.float64(17.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.416), 'mean_duration_us': np.float64(4.416), 'median_duration_us': np.float64(4.416), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.416), 'max_duration_us': np.float64(4.416)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(17.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.42)}]",0.0001856748624066345,99.99095721681198
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 33, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((6488064, 2162688, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,21.50390625,21.50390625,21.50390625,21.50390625,,,21.50390625,21.50390625,21.50390625,21.50390625,21.50390625,21.50390625,155555,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.416), 'mean_duration_us': np.float64(4.416), 'median_duration_us': np.float64(4.416), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.416), 'max_duration_us': np.float64(4.416)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(17.088), 'mean_duration_us': np.float64(17.088), 'median_duration_us': np.float64(17.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(17.088), 'max_duration_us': np.float64(17.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.42)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(17.09)}]",0.0001856748624066345,99.99095721681198
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 3, 66, 66), ())","('c10::BFloat16', 'Scalar')","((5018112, 13068, 4356, 66, 1), ())","('', '0.')",5,4.275048828125,4.275048828125,4.2880859375,4.2880859375,0.01785701342944505,0.01785701342944505,4.2548828125,4.2548828125,4.2880859375,4.2880859375,21.375244140625,21.375244140625,134190,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(21.375), 'mean_duration_us': np.float64(4.275), 'median_duration_us': np.float64(4.288), 'std_dev_duration_us': np.float64(0.015924823389915604), 'min_duration_us': np.float64(4.255), 'max_duration_us': np.float64(4.288)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(4.28)}]",0.00018456393310953758,99.99114178074508
-aten::linalg_lu_solve,other,python3,CPU,thread 10586 (python3),"((2, 2), (2,), (2, 1), (), (), (2, 1))","('float', 'int', 'float', 'Scalar', 'Scalar', 'float')","((1, 2), (1,), (1, 1), (), (), (1, 1))","('', '', '', 'True', 'True', '')",3,6.91064453125,11.966389973958334,6.94287109375,11.967041015625,0.08434131091033752,0.06396732859359312,6.81494140625,11.902099609375,6.97412109375,12.030029296875,20.73193359375,35.899169921875,84424,"[{'name': 'void trsm_batch_left_lower_kernel<float>(cublasTrsmBatchParams<float>, float const* const*, float* const*, float const*, float)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(8.096), 'mean_duration_us': np.float64(2.6986666666666665), 'median_duration_us': np.float64(2.72), 'std_dev_duration_us': np.float64(0.054389541478322936), 'min_duration_us': np.float64(2.624), 'max_duration_us': np.float64(2.752)}, {'name': 'void trsm_batch_left_upper_kernel<float>(cublasTrsmBatchParams<float>, float const* const*, float* const*, float const*, float)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(6.91), 'mean_duration_us': np.float64(2.3033333333333332), 'median_duration_us': np.float64(2.303), 'std_dev_duration_us': np.float64(0.07797577971538477), 'min_duration_us': np.float64(2.208), 'max_duration_us': np.float64(2.399)}, {'name': 'void laswp_kernel_reverse<float, false>(int, float* const*, int, int, int, int const*, int, int, int)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(5.726000000000001), 'mean_duration_us': np.float64(1.908666666666667), 'median_duration_us': np.float64(1.855), 'std_dev_duration_us': np.float64(0.09863175057871697), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(2.047)}]","[{'name': 'void trsm_batch_left_lower_kernel<float>(cublasTrsmBatchParams<f...', 'stream': 7, 'mean_duration_us': np.float64(2.7)}, {'name': 'void trsm_batch_left_upper_kernel<float>(cublasTrsmBatchParams<f...', 'stream': 7, 'mean_duration_us': np.float64(2.3)}, {'name': 'void laswp_kernel_reverse<float, false>(int, float* const*, int,...', 'stream': 7, 'mean_duration_us': np.float64(1.91)}]",0.00017900928662405302,99.99132079003171
+aten::linalg_lu_solve,other,python3,CPU,thread 10586 (python3),"((2, 2), (2,), (2, 1), (), (), (2, 1))","('float', 'int', 'float', 'Scalar', 'Scalar', 'float')","((1, 2), (1,), (1, 1), (), (), (1, 1))","('', '', '', 'True', 'True', '')",3,6.91064453125,11.966389973958334,6.94287109375,11.967041015625,0.08434131091033752,0.06396732859359312,6.81494140625,11.902099609375,6.97412109375,12.030029296875,20.73193359375,35.899169921875,84424,"[{'name': 'void laswp_kernel_reverse<float, false>(int, float* const*, int, int, int, int const*, int, int, int)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(5.726000000000001), 'mean_duration_us': np.float64(1.908666666666667), 'median_duration_us': np.float64(1.855), 'std_dev_duration_us': np.float64(0.09863175057871697), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(2.047)}, {'name': 'void trsm_batch_left_upper_kernel<float>(cublasTrsmBatchParams<float>, float const* const*, float* const*, float const*, float)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(6.91), 'mean_duration_us': np.float64(2.3033333333333332), 'median_duration_us': np.float64(2.303), 'std_dev_duration_us': np.float64(0.07797577971538477), 'min_duration_us': np.float64(2.208), 'max_duration_us': np.float64(2.399)}, {'name': 'void trsm_batch_left_lower_kernel<float>(cublasTrsmBatchParams<float>, float const* const*, float* const*, float const*, float)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(8.096), 'mean_duration_us': np.float64(2.6986666666666665), 'median_duration_us': np.float64(2.72), 'std_dev_duration_us': np.float64(0.054389541478322936), 'min_duration_us': np.float64(2.624), 'max_duration_us': np.float64(2.752)}]","[{'name': 'void laswp_kernel_reverse<float, false>(int, float* const*, int,...', 'stream': 7, 'mean_duration_us': np.float64(1.91)}, {'name': 'void trsm_batch_left_upper_kernel<float>(cublasTrsmBatchParams<f...', 'stream': 7, 'mean_duration_us': np.float64(2.3)}, {'name': 'void trsm_batch_left_lower_kernel<float>(cublasTrsmBatchParams<f...', 'stream': 7, 'mean_duration_us': np.float64(2.7)}]",0.00017900928662405302,99.99132079003171
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 1), (1, 1), ())","('float', 'long int', 'Scalar')","((0, 1), (0, 1), ())","('', '', 'False')",10,2.0447998046875,2.0447998046875,2.0321044921875,2.0321044921875,0.12113406422925874,0.12113406422925874,1.887939453125,1.887939453125,2.239990234375,2.239990234375,20.447998046875,20.447998046875,11794,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(20.448), 'mean_duration_us': np.float64(2.0448), 'median_duration_us': np.float64(2.032), 'std_dev_duration_us': np.float64(0.11488846765450404), 'min_duration_us': np.float64(1.888), 'max_duration_us': np.float64(2.24)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(2.04)}]",0.00017655765327960574,99.99149734768498
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((2,), (2,), ())","('float', 'float', 'Scalar')","((1,), (1,), ())","('', '', 'False')",18,1.1324734157986112,1.1324734157986112,0.8800048828125,0.8800048828125,0.43740261932624386,0.43740261932624386,0.76806640625,0.76806640625,1.919921875,1.919921875,20.384521484375,20.384521484375,60126,"[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'count': 18, 'total_duration_us': np.float64(20.384), 'mean_duration_us': np.float64(1.1324444444444444), 'median_duration_us': np.float64(0.88), 'std_dev_duration_us': np.float64(0.42508655618228336), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(1.92)}]","[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'mean_duration_us': np.float64(1.13)}]",0.00017600956671936816,99.9916733572517
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 126, 32, 32), ())","('float', 'float', 'Scalar')","((2064384, 129024, 1024, 32, 1), (2064384, 129024, 1024, 32, 1), ())","('', '', '1')",3,6.761962890625,6.761962890625,6.782958984375,6.782958984375,0.09813481372912171,0.09813481372912171,6.655029296875,6.655029296875,6.847900390625,6.847900390625,20.285888671875,20.285888671875,84484,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(20.286), 'mean_duration_us': np.float64(6.7620000000000005), 'median_duration_us': np.float64(6.783), 'std_dev_duration_us': np.float64(0.08017896648539843), 'min_duration_us': np.float64(6.655), 'max_duration_us': np.float64(6.848)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(6.76)}]",0.00017515792452576826,99.99184851517623
@@ -426,32 +426,32 @@ aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32),
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), ())","('c10::BFloat16', 'double')","((2064384, 129024, 1024, 32, 1), ())","('', '')",5,3.968212890625,3.968212890625,3.968017578125,3.968017578125,0.032228596940991935,0.032228596940991935,3.93603515625,3.93603515625,4.0009765625,4.0009765625,19.841064453125,19.841064453125,35802,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(19.841), 'mean_duration_us': np.float64(3.9682000000000004), 'median_duration_us': np.float64(3.968), 'std_dev_duration_us': np.float64(0.02884718357136457), 'min_duration_us': np.float64(3.936), 'max_duration_us': np.float64(4.001)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(3.97)}]",0.00017131710255364192,99.9923674140191
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((), (1, 16, 126, 32, 32))","('float', 'c10::BFloat16')","((), (2064384, 129024, 1024, 32, 1))","('', '')",5,3.93603515625,3.93603515625,3.93603515625,3.93603515625,0.05056864910669648,0.05056864910669648,3.8720703125,3.8720703125,4.0,4.0,19.68017578125,19.68017578125,35827,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(19.68), 'mean_duration_us': np.float64(3.936), 'median_duration_us': np.float64(3.936), 'std_dev_duration_us': np.float64(0.04525483399593908), 'min_duration_us': np.float64(3.872), 'max_duration_us': np.float64(4.0)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(3.94)}]",0.00016992791392596285,99.99253734193303
 aten::sin,elementwise,python3,CPU,thread 10586 (python3),"((1, 128),)","('float',)","((128, 1),)","('',)",10,1.948779296875,1.948779296875,1.9678955078125,1.9678955078125,0.10637515805854415,0.10637515805854415,1.822998046875,1.822998046875,2.112060546875,2.112060546875,19.48779296875,19.48779296875,11801,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::sin_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::sin_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(19.488), 'mean_duration_us': np.float64(1.9487999999999999), 'median_duration_us': np.float64(1.968), 'std_dev_duration_us': np.float64(0.10088984091572352), 'min_duration_us': np.float64(1.823), 'max_duration_us': np.float64(2.112)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::si...', 'stream': 7, 'mean_duration_us': np.float64(1.95)}]",0.00016826679004339667,99.99270560872307
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 29, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((5701632, 1900544, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,19.455810546875,19.455810546875,19.455810546875,19.455810546875,,,19.455810546875,19.455810546875,19.455810546875,19.455810546875,19.455810546875,19.455810546875,153293,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(15.264), 'mean_duration_us': np.float64(15.264), 'median_duration_us': np.float64(15.264), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(15.264), 'max_duration_us': np.float64(15.264)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.192), 'mean_duration_us': np.float64(4.192), 'median_duration_us': np.float64(4.192), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.192), 'max_duration_us': np.float64(4.192)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.26)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.19)}]",0.00016799063873804623,99.99287359936181
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 29, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((5701632, 1900544, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,19.455810546875,19.455810546875,19.455810546875,19.455810546875,,,19.455810546875,19.455810546875,19.455810546875,19.455810546875,19.455810546875,19.455810546875,153293,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.192), 'mean_duration_us': np.float64(4.192), 'median_duration_us': np.float64(4.192), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.192), 'max_duration_us': np.float64(4.192)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(15.264), 'mean_duration_us': np.float64(15.264), 'median_duration_us': np.float64(15.264), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(15.264), 'max_duration_us': np.float64(15.264)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.19)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.26)}]",0.00016799063873804623,99.99287359936181
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64),)","('c10::BFloat16',)","((1572864, 4096, 4096, 64, 1),)","('',)",5,3.6865234375,3.6865234375,3.679931640625,3.679931640625,0.05252457316105804,0.05252457316105804,3.64794921875,3.64794921875,3.77587890625,3.77587890625,18.4326171875,18.4326171875,134172,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(18.433), 'mean_duration_us': np.float64(3.6866), 'median_duration_us': np.float64(3.68), 'std_dev_duration_us': np.float64(0.04700468061799791), 'min_duration_us': np.float64(3.648), 'max_duration_us': np.float64(3.776)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(3.69)}]",0.00015915590499206297,99.99303275526681
 aten::cos,elementwise,python3,CPU,thread 10586 (python3),"((1, 128),)","('float',)","((128, 1),)","('',)",10,1.7633056640625,1.7633056640625,1.760009765625,1.760009765625,0.08185653649823099,0.08185653649823099,1.6640625,1.6640625,1.919921875,1.919921875,17.633056640625,17.633056640625,11802,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::cos_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::cos_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(17.633), 'mean_duration_us': np.float64(1.7632999999999999), 'median_duration_us': np.float64(1.76), 'std_dev_duration_us': np.float64(0.0776994851977798), 'min_duration_us': np.float64(1.664), 'max_duration_us': np.float64(1.92)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::co...', 'stream': 7, 'mean_duration_us': np.float64(1.76)}]",0.00015225212235830127,99.99318500738917
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256))","('c10::BFloat16', 'c10::BFloat16')","((6291456, 65536, 6291456, 256, 1), (65536, 0, 65536, 256, 1))","('', '')",1,17.59912109375,17.59912109375,17.59912109375,17.59912109375,,,17.59912109375,17.59912109375,17.59912109375,17.59912109375,17.59912109375,17.59912109375,134780,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(17.599), 'mean_duration_us': np.float64(17.599), 'median_duration_us': np.float64(17.599), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(17.599), 'max_duration_us': np.float64(17.599)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(17.6)}]",0.00015195910685109735,99.99333696649602
 aten::exp,elementwise,python3,CPU,thread 10586 (python3),"((128,),)","('float',)","((1,),)","('',)",10,1.7088134765625,1.7088134765625,1.72802734375,1.72802734375,0.12443584981305608,0.12443584981305608,1.535888671875,1.535888671875,1.9189453125,1.9189453125,17.088134765625,17.088134765625,11786,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::exp_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::exp_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(17.088), 'mean_duration_us': np.float64(1.7088), 'median_duration_us': np.float64(1.728), 'std_dev_duration_us': np.float64(0.11807692407917814), 'min_duration_us': np.float64(1.536), 'max_duration_us': np.float64(1.919)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::ex...', 'stream': 7, 'mean_duration_us': np.float64(1.71)}]",0.00014754701004118494,99.99348451350606
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), ())","('c10::BFloat16', 'double')","((1572864, 4096, 4096, 64, 1), ())","('', '')",5,3.41123046875,3.41123046875,3.39208984375,3.39208984375,0.08346085725098594,0.08346085725098594,3.327880859375,3.327880859375,3.552001953125,3.552001953125,17.05615234375,17.05615234375,134169,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(17.056), 'mean_duration_us': np.float64(3.4112), 'median_duration_us': np.float64(3.392), 'std_dev_duration_us': np.float64(0.07463618425401992), 'min_duration_us': np.float64(3.328), 'max_duration_us': np.float64(3.552)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(3.41)}]",0.00014727085873583447,99.9936317843648
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 25, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((4915200, 1638400, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,17.02392578125,17.02392578125,17.02392578125,17.02392578125,,,17.02392578125,17.02392578125,17.02392578125,17.02392578125,17.02392578125,17.02392578125,151031,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(13.408), 'mean_duration_us': np.float64(13.408), 'median_duration_us': np.float64(13.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(13.408), 'max_duration_us': np.float64(13.408)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.616), 'mean_duration_us': np.float64(3.616), 'median_duration_us': np.float64(3.616), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.616), 'max_duration_us': np.float64(3.616)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(13.41)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.62)}]",0.00014699259940525233,99.9937787769642
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 25, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((4915200, 1638400, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,17.02392578125,17.02392578125,17.02392578125,17.02392578125,,,17.02392578125,17.02392578125,17.02392578125,17.02392578125,17.02392578125,17.02392578125,151031,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.616), 'mean_duration_us': np.float64(3.616), 'median_duration_us': np.float64(3.616), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.616), 'max_duration_us': np.float64(3.616)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(13.408), 'mean_duration_us': np.float64(13.408), 'median_duration_us': np.float64(13.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(13.408), 'max_duration_us': np.float64(13.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.62)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(13.41)}]",0.00014699259940525233,99.9937787769642
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (), ())","('c10::BFloat16', 'double', 'Scalar')","((1572864, 4096, 4096, 64, 1), (), ())","('', '', '1')",5,3.359765625,3.359765625,3.327880859375,3.327880859375,0.06022598386272043,0.06022598386272043,3.294921875,3.294921875,3.424072265625,3.424072265625,16.798828125,16.798828125,134171,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(16.799), 'mean_duration_us': np.float64(3.3598), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.053786243594435956), 'min_duration_us': np.float64(3.295), 'max_duration_us': np.float64(3.424)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(3.36)}]",0.00014504900014164065,99.99392382596434
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 256, 256), (1, 96, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 65536, 256, 1), (96, 1, 1, 1), ())","('', '', '1')",1,16.0,16.0,16.0,16.0,,,16.0,16.0,16.0,16.0,16.0,16.0,134771,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(16.0), 'mean_duration_us': np.float64(16.0), 'median_duration_us': np.float64(16.0), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.0), 'max_duration_us': np.float64(16.0)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(16.0)}]",0.00013815154158357403,99.99406197750592
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (96, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((6291456, 65536, 6291456, 256, 1), (1, 1, 1, 1))","('', '')",1,15.8720703125,15.8720703125,15.8720703125,15.8720703125,,,15.8720703125,15.8720703125,15.8720703125,15.8720703125,15.8720703125,15.8720703125,134782,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(15.872), 'mean_duration_us': np.float64(15.872), 'median_duration_us': np.float64(15.872), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(15.872), 'max_duration_us': np.float64(15.872)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.87)}]",0.00013704693636217214,99.99419902444228
 aten::arange,other,python3,CPU,thread 10586 (python3),"((), (), (), (0,))","('Scalar', 'Scalar', 'Scalar', 'float')","((), (), (), (1,))","('0', '128', '1', '')",10,1.57451171875,1.57451171875,1.60009765625,1.60009765625,0.11376527006057859,0.11376527006057859,1.407958984375,1.407958984375,1.72802734375,1.72802734375,15.7451171875,15.7451171875,11782,"[{'name': 'void (anonymous namespace)::elementwise_kernel_with_index<int, at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(long)#1}>(int, at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(long)#1}, function_traits<at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(long)#1}>::result_type*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(15.745), 'mean_duration_us': np.float64(1.5745), 'median_duration_us': np.float64(1.6), 'std_dev_duration_us': np.float64(0.10787979421559905), 'min_duration_us': np.float64(1.408), 'max_duration_us': np.float64(1.728)}]","[{'name': 'void (anonymous namespace)::elementwise_kernel_with_index<int, a...', 'stream': 7, 'mean_duration_us': np.float64(1.57)}]",0.00013595076324169703,99.99433497520552
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((128,), ())","('float', 'long int')","((1,), ())","('', '')",10,1.54609375,1.54609375,1.552490234375,1.552490234375,0.10792824740727533,0.10792824740727533,1.407958984375,1.407958984375,1.696044921875,1.696044921875,15.4609375,15.4609375,11785,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(15.461), 'mean_duration_us': np.float64(1.5461), 'median_duration_us': np.float64(1.5525), 'std_dev_duration_us': np.float64(0.10232932131114718), 'min_duration_us': np.float64(1.408), 'max_duration_us': np.float64(1.696)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BU...', 'stream': 7, 'mean_duration_us': np.float64(1.55)}]",0.00013349702187201806,99.9944684722274
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((128,), ())","('float', 'double')","((1,), ())","('', '')",10,1.5328125,1.5328125,1.5364990234375,1.5364990234375,0.10183471975511765,0.10183471975511765,1.406982421875,1.406982421875,1.6640625,1.6640625,15.328125,15.328125,11784,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(15.328), 'mean_duration_us': np.float64(1.5328), 'median_duration_us': np.float64(1.5365000000000002), 'std_dev_duration_us': np.float64(0.09654615476547991), 'min_duration_us': np.float64(1.407), 'max_duration_us': np.float64(1.664)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(1.53)}]",0.00013235025614598254,99.99460082248355
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 21, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((4128768, 1376256, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,15.2958984375,15.2958984375,15.2958984375,15.2958984375,,,15.2958984375,15.2958984375,15.2958984375,15.2958984375,15.2958984375,15.2958984375,148769,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(11.712), 'mean_duration_us': np.float64(11.712), 'median_duration_us': np.float64(11.712), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(11.712), 'max_duration_us': np.float64(11.712)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(11.71)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}]",0.0001320719968154004,99.99473289448036
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 21, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((4128768, 1376256, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,15.2958984375,15.2958984375,15.2958984375,15.2958984375,,,15.2958984375,15.2958984375,15.2958984375,15.2958984375,15.2958984375,15.2958984375,148769,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(11.712), 'mean_duration_us': np.float64(11.712), 'median_duration_us': np.float64(11.712), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(11.712), 'max_duration_us': np.float64(11.712)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(11.71)}]",0.0001320719968154004,99.99473289448036
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 128), ())","('float', 'long int')","((128, 1), ())","('', '')",10,1.526318359375,1.526318359375,1.52001953125,1.52001953125,0.10560973990795085,0.10560973990795085,1.407958984375,1.407958984375,1.632080078125,1.632080078125,15.26318359375,15.26318359375,11800,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(15.263), 'mean_duration_us': np.float64(1.5263), 'median_duration_us': np.float64(1.52), 'std_dev_duration_us': np.float64(0.10012197560975312), 'min_duration_us': np.float64(1.408), 'max_duration_us': np.float64(1.632)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(1.53)}]",0.00013178952143435486,99.9948646840018
 aten::_upsample_nearest_exact2d,other,python3,CPU,thread 10586 (python3),"((1, 384, 64, 64), (), (), ())","('float', 'ScalarList', 'Scalar', 'Scalar')","((1572864, 4096, 64, 1), (), (), ())","('', '[128, 128]', '2.', '2.')",1,15.008056640625,15.008056640625,15.008056640625,15.008056640625,,,15.008056640625,15.008056640625,15.008056640625,15.008056640625,15.008056640625,15.008056640625,134428,"[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_frame<float, &at::native::nearest_neighbor_exact_compute_source_index>(float const*, float*, unsigned long, unsigned long, unsigned long, unsigned long, unsigned long, float, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(15.008), 'mean_duration_us': np.float64(15.008), 'median_duration_us': np.float64(15.008), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(15.008), 'max_duration_us': np.float64(15.008)}]","[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_f...', 'stream': 7, 'mean_duration_us': np.float64(15.01)}]",0.0001295866350672462,99.99499427063687
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((2,), (2,)), ())","('TensorList', 'Scalar')","(((1,), (1,)), ())","('', '0')",6,2.4161783854166665,2.4161783854166665,2.4000244140625,2.4000244140625,0.30686041533805636,0.30686041533805636,2.112060546875,2.112060546875,2.81591796875,2.81591796875,14.4970703125,14.4970703125,60171,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_aligned16_contig<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 1, 128, 1>(at::native::(anonymous namespace)::OpaqueType<4u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(14.497), 'mean_duration_us': np.float64(2.416166666666667), 'median_duration_us': np.float64(2.4000000000000004), 'std_dev_duration_us': np.float64(0.2801621058522289), 'min_duration_us': np.float64(2.112), 'max_duration_us': np.float64(2.816)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_alig...', 'stream': 7, 'mean_duration_us': np.float64(2.42)}]",0.00012517453825733376,99.99511944517512
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 256), (1, 256), ())","('c10::BFloat16', 'float', 'Scalar')","((256, 1), (256, 1), ())","('', '', 'False')",10,1.4300537109375,1.4300537109375,1.4234619140625,1.4234619140625,0.09885617052143533,0.09885617052143533,1.31103515625,1.31103515625,1.535888671875,1.535888671875,14.300537109375,14.300537109375,11816,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(14.301), 'mean_duration_us': np.float64(1.4301), 'median_duration_us': np.float64(1.4235), 'std_dev_duration_us': np.float64(0.09383330965067785), 'min_duration_us': np.float64(1.311), 'max_duration_us': np.float64(1.536)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(1.43)}]",0.00012347757794582898,99.99524292275306
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 17, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((3342336, 1114112, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,13.72802734375,13.72802734375,13.72802734375,13.72802734375,,,13.72802734375,13.72802734375,13.72802734375,13.72802734375,13.72802734375,13.72802734375,146507,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.176), 'mean_duration_us': np.float64(10.176), 'median_duration_us': np.float64(10.176), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.176), 'max_duration_us': np.float64(10.176)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.552), 'mean_duration_us': np.float64(3.552), 'median_duration_us': np.float64(3.552), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.552), 'max_duration_us': np.float64(3.552)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.55)}]",0.00011853425877753246,99.99536145701184
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 17, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((3342336, 1114112, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,13.72802734375,13.72802734375,13.72802734375,13.72802734375,,,13.72802734375,13.72802734375,13.72802734375,13.72802734375,13.72802734375,13.72802734375,146507,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.552), 'mean_duration_us': np.float64(3.552), 'median_duration_us': np.float64(3.552), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.552), 'max_duration_us': np.float64(3.552)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.176), 'mean_duration_us': np.float64(10.176), 'median_duration_us': np.float64(10.176), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.176), 'max_duration_us': np.float64(10.176)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.55)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.18)}]",0.00011853425877753246,99.99536145701184
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (1, 384, 1, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1572864, 4096, 4096, 64, 1), (1572864, 4096, 4096, 64, 1), ())","('', '', 'False')",5,2.560009765625,2.560009765625,2.56005859375,2.56005859375,0.1412996849515498,0.1412996849515498,2.39990234375,2.39990234375,2.783935546875,2.783935546875,12.800048828125,12.800048828125,134186,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(12.799999999999999), 'mean_duration_us': np.float64(2.5599999999999996), 'median_duration_us': np.float64(2.56), 'std_dev_duration_us': np.float64(0.12638987301204155), 'min_duration_us': np.float64(2.4), 'max_duration_us': np.float64(2.784)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(2.56)}]",0.00011052165487190554,99.99547197866671
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 256, 256), ())","('c10::BFloat16', 'Scalar')","((65536, 65536, 65536, 256, 1), ())","('', '9.9999999999999998e-13')",7,1.8238351004464286,1.8238351004464286,1.823974609375,1.823974609375,0.031984551711389295,0.031984551711389295,1.7919921875,1.7919921875,1.887939453125,1.887939453125,12.766845703125,12.766845703125,134776,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(12.767000000000001), 'mean_duration_us': np.float64(1.823857142857143), 'median_duration_us': np.float64(1.824), 'std_dev_duration_us': np.float64(0.02962830968337335), 'min_duration_us': np.float64(1.792), 'max_duration_us': np.float64(1.888)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.82)}]",0.00011023496344039666,99.99558221363016
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3145728, 16384, 16384, 128, 1), (3145728, 16384, 16384, 128, 1), ())","('', '', '1')",2,6.3360595703125,6.3360595703125,6.3360595703125,6.3360595703125,0.4072424064499672,0.4072424064499672,6.048095703125,6.048095703125,6.6240234375,6.6240234375,12.672119140625,12.672119140625,134647,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 2, 'total_duration_us': np.float64(12.672), 'mean_duration_us': np.float64(6.336), 'median_duration_us': np.float64(6.336), 'std_dev_duration_us': np.float64(0.2879999999999998), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(6.624)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(6.34)}]",0.00010941704965050368,99.99569163067981
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 13, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((2555904, 851968, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,12.223876953125,12.223876953125,12.223876953125,12.223876953125,,,12.223876953125,12.223876953125,12.223876953125,12.223876953125,12.223876953125,12.223876953125,144245,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.64), 'mean_duration_us': np.float64(8.64), 'median_duration_us': np.float64(8.64), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.64), 'max_duration_us': np.float64(8.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}]",0.00010554671532513378,99.99579717739515
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 13, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((2555904, 851968, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,12.223876953125,12.223876953125,12.223876953125,12.223876953125,,,12.223876953125,12.223876953125,12.223876953125,12.223876953125,12.223876953125,12.223876953125,144245,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.64), 'mean_duration_us': np.float64(8.64), 'median_duration_us': np.float64(8.64), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.64), 'max_duration_us': np.float64(8.64)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.64)}]",0.00010554671532513378,99.99579717739515
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (1, 384, 1, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1572864, 4096, 4096, 64, 1), (1572864, 4096, 4096, 64, 1), ())","('', '', '1')",3,3.85107421875,3.85107421875,3.8720703125,3.8720703125,0.037215232445881305,0.037215232445881305,3.80810546875,3.80810546875,3.873046875,3.873046875,11.55322265625,11.55322265625,134214,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(11.553), 'mean_duration_us': np.float64(3.8510000000000004), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.030408332191468067), 'min_duration_us': np.float64(3.808), 'max_duration_us': np.float64(3.873)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(3.85)}]",9.97559700137007e-05,99.99589693336516
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 65536, 65536, 256, 1), (6291456, 65536, 6291456, 256, 1), ())","('', '', '1')",1,10.6240234375,10.6240234375,10.6240234375,10.6240234375,,,10.6240234375,10.6240234375,10.6240234375,10.6240234375,10.6240234375,10.6240234375,134876,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.624), 'mean_duration_us': np.float64(10.624), 'median_duration_us': np.float64(10.624), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.624), 'max_duration_us': np.float64(10.624)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(10.62)}]",9.173282598191539e-05,99.99598866619114
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 9, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((1769472, 589824, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,10.496826171875,10.496826171875,10.496826171875,10.496826171875,,,10.496826171875,10.496826171875,10.496826171875,10.496826171875,10.496826171875,10.496826171875,141983,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.88), 'mean_duration_us': np.float64(6.88), 'median_duration_us': np.float64(6.88), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.88), 'max_duration_us': np.float64(6.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.617), 'mean_duration_us': np.float64(3.617), 'median_duration_us': np.float64(3.617), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.617), 'max_duration_us': np.float64(3.617)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.62)}]",9.063454483620858e-05,99.99607930073597
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 9, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((1769472, 589824, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,10.496826171875,10.496826171875,10.496826171875,10.496826171875,,,10.496826171875,10.496826171875,10.496826171875,10.496826171875,10.496826171875,10.496826171875,141983,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.617), 'mean_duration_us': np.float64(3.617), 'median_duration_us': np.float64(3.617), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.617), 'max_duration_us': np.float64(3.617)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.88), 'mean_duration_us': np.float64(6.88), 'median_duration_us': np.float64(6.88), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.88), 'max_duration_us': np.float64(6.88)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.62)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.88)}]",9.063454483620858e-05,99.99607930073597
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 1, 64, 64), (1, 192, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((786432, 4096, 4096, 64, 1), (1572864, 4096, 786432, 64, 1)), ())","('', '2')",1,10.239990234375,10.239990234375,10.239990234375,10.239990234375,,,10.239990234375,10.239990234375,10.239990234375,10.239990234375,10.239990234375,10.239990234375,136227,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.704), 'mean_duration_us': np.float64(4.704), 'median_duration_us': np.float64(4.704), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.704), 'max_duration_us': np.float64(4.704)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.536), 'mean_duration_us': np.float64(5.536), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.536)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.7)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.54)}]",8.841690229247811e-05,99.99616771763826
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 128, 128), ())","('c10::BFloat16', 'Scalar')","((16384, 16384, 16384, 128, 1), ())","('', '9.9999999999999998e-13')",6,1.6907145182291667,1.6907145182291667,1.696044921875,1.696044921875,0.03738889659984171,0.03738889659984171,1.632080078125,1.632080078125,1.72802734375,1.72802734375,10.144287109375,10.144287109375,134445,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(10.144), 'mean_duration_us': np.float64(1.6906666666666668), 'median_duration_us': np.float64(1.696), 'std_dev_duration_us': np.float64(0.03414999593297522), 'min_duration_us': np.float64(1.632), 'max_duration_us': np.float64(1.728)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.69)}]",8.759055640165838e-05,99.99625530819466
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 64, 64), ())","('c10::BFloat16', 'Scalar')","((4096, 4096, 4096, 64, 1), ())","('', '9.9999999999999998e-13')",6,1.690673828125,1.690673828125,1.6640625,1.6640625,0.20072784307254962,0.20072784307254962,1.43994140625,1.43994140625,1.98388671875,1.98388671875,10.14404296875,10.14404296875,134114,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(10.144), 'mean_duration_us': np.float64(1.6906666666666668), 'median_duration_us': np.float64(1.6640000000000001), 'std_dev_duration_us': np.float64(0.1832836296260222), 'min_duration_us': np.float64(1.44), 'max_duration_us': np.float64(1.984)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.69)}]",8.75884483764267e-05,99.99634289664304
@@ -466,22 +466,22 @@ aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256),
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), ())","('c10::BFloat16', 'double')","((6291456, 65536, 6291456, 256, 1), ())","('', '')",1,8.89599609375,8.89599609375,8.89599609375,8.89599609375,,,8.89599609375,8.89599609375,8.89599609375,8.89599609375,8.89599609375,8.89599609375,134781,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.896), 'mean_duration_us': np.float64(8.896), 'median_duration_us': np.float64(8.896), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.896), 'max_duration_us': np.float64(8.896)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(8.9)}]",7.681222339206344e-05,99.9970695645608
 aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (16, 16, 1, 1, 1), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((2064384, 129024, 1024, 32, 1), (16, 1, 1, 1, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",1,8.76806640625,8.76806640625,8.76806640625,8.76806640625,,,8.76806640625,8.76806640625,8.76806640625,8.76806640625,8.76806640625,8.76806640625,133433,"[{'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8>(cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.768), 'mean_duration_us': np.float64(8.768), 'median_duration_us': np.float64(8.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.768), 'max_duration_us': np.float64(8.768)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_...', 'stream': 7, 'mean_duration_us': np.float64(8.77)}]",7.570761817066158e-05,99.99714527217897
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 128, 128), (1, 192, 128, 128), ())","('float', 'c10::BFloat16', 'Scalar')","((3145728, 16384, 128, 1), (3145728, 16384, 128, 1), ())","('', '', 'False')",1,8.736083984375,8.736083984375,8.736083984375,8.736083984375,,,8.736083984375,8.736083984375,8.736083984375,8.736083984375,8.736083984375,8.736083984375,134757,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.736), 'mean_duration_us': np.float64(8.736), 'median_duration_us': np.float64(8.736), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.736), 'max_duration_us': np.float64(8.736)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(8.74)}]",7.54314668653111e-05,99.99722070364584
-aten::nonzero,other,python3,CPU,thread 10586 (python3),"((5,),)","('bool',)","((1,),)","('',)",1,8.54296875,8.54296875,8.54296875,8.54296875,,,8.54296875,8.54296875,8.54296875,8.54296875,8.54296875,8.54296875,35806,"[{'name': 'void at_cuda_detail::cub::DeviceReduceSingleTileKernel<at_cuda_detail::cub::DeviceReducePolicy<int, unsigned long long, cuda::std::__4::plus<void> >::Policy600, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, int*, unsigned long long, cuda::std::__4::plus<void>, int, int>(at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, int*, unsigned long long, cuda::std::__4::plus<void>, int)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.143), 'mean_duration_us': np.float64(2.143), 'median_duration_us': np.float64(2.143), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.143), 'max_duration_us': np.float64(2.143)}, {'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.688), 'mean_duration_us': np.float64(2.688), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.688), 'max_duration_us': np.float64(2.688)}, {'name': 'void at_cuda_detail::cub::DeviceCompactInitKernel<at_cuda_detail::cub::ScanTileState<int, true>, int*>(at_cuda_detail::cub::ScanTileState<int, true>, int, int*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(1.44), 'mean_duration_us': np.float64(1.44), 'median_duration_us': np.float64(1.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(1.44), 'max_duration_us': np.float64(1.44)}, {'name': 'void at_cuda_detail::cub::DeviceSelectSweepKernel<at_cuda_detail::cub::detail::device_select_policy_hub<long, bool, int, false, false>::Policy900, at_cuda_detail::cub::CountingInputIterator<long, long>, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, long*, int*, at_cuda_detail::cub::ScanTileState<int, true>, at_cuda_detail::cub::NullType, at_cuda_detail::cub::NullType, int, false>(at_cuda_detail::cub::CountingInputIterator<long, long>, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, long*, int*, at_cuda_detail::cub::ScanTileState<int, true>, at_cuda_detail::cub::NullType, at_cuda_detail::cub::NullType, int, int)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.272), 'mean_duration_us': np.float64(2.272), 'median_duration_us': np.float64(2.272), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.272)}]","[{'name': 'void at_cuda_detail::cub::DeviceReduceSingleTileKernel<at_cuda_d...', 'stream': 7, 'mean_duration_us': np.float64(2.14)}, {'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'mean_duration_us': np.float64(2.69)}, {'name': 'void at_cuda_detail::cub::DeviceCompactInitKernel<at_cuda_detail...', 'stream': 7, 'mean_duration_us': np.float64(1.44)}, {'name': 'void at_cuda_detail::cub::DeviceSelectSweepKernel<at_cuda_detail...', 'stream': 7, 'mean_duration_us': np.float64(2.27)}]",7.37640189070499e-05,99.99729446766474
+aten::nonzero,other,python3,CPU,thread 10586 (python3),"((5,),)","('bool',)","((1,),)","('',)",1,8.54296875,8.54296875,8.54296875,8.54296875,,,8.54296875,8.54296875,8.54296875,8.54296875,8.54296875,8.54296875,35806,"[{'name': 'void at_cuda_detail::cub::DeviceCompactInitKernel<at_cuda_detail::cub::ScanTileState<int, true>, int*>(at_cuda_detail::cub::ScanTileState<int, true>, int, int*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(1.44), 'mean_duration_us': np.float64(1.44), 'median_duration_us': np.float64(1.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(1.44), 'max_duration_us': np.float64(1.44)}, {'name': 'void at_cuda_detail::cub::DeviceReduceSingleTileKernel<at_cuda_detail::cub::DeviceReducePolicy<int, unsigned long long, cuda::std::__4::plus<void> >::Policy600, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, int*, unsigned long long, cuda::std::__4::plus<void>, int, int>(at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, int*, unsigned long long, cuda::std::__4::plus<void>, int)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.143), 'mean_duration_us': np.float64(2.143), 'median_duration_us': np.float64(2.143), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.143), 'max_duration_us': np.float64(2.143)}, {'name': 'void at_cuda_detail::cub::DeviceSelectSweepKernel<at_cuda_detail::cub::detail::device_select_policy_hub<long, bool, int, false, false>::Policy900, at_cuda_detail::cub::CountingInputIterator<long, long>, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, long*, int*, at_cuda_detail::cub::ScanTileState<int, true>, at_cuda_detail::cub::NullType, at_cuda_detail::cub::NullType, int, false>(at_cuda_detail::cub::CountingInputIterator<long, long>, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, long*, int*, at_cuda_detail::cub::ScanTileState<int, true>, at_cuda_detail::cub::NullType, at_cuda_detail::cub::NullType, int, int)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.272), 'mean_duration_us': np.float64(2.272), 'median_duration_us': np.float64(2.272), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.272)}, {'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.688), 'mean_duration_us': np.float64(2.688), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.688), 'max_duration_us': np.float64(2.688)}]","[{'name': 'void at_cuda_detail::cub::DeviceCompactInitKernel<at_cuda_detail...', 'stream': 7, 'mean_duration_us': np.float64(1.44)}, {'name': 'void at_cuda_detail::cub::DeviceReduceSingleTileKernel<at_cuda_d...', 'stream': 7, 'mean_duration_us': np.float64(2.14)}, {'name': 'void at_cuda_detail::cub::DeviceSelectSweepKernel<at_cuda_detail...', 'stream': 7, 'mean_duration_us': np.float64(2.27)}, {'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'mean_duration_us': np.float64(2.69)}]",7.37640189070499e-05,99.99729446766474
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1,), (1,), ())","('float', 'float', 'Scalar')","((1,), (1,), ())","('', '', 'False')",10,0.8481201171875,0.8481201171875,0.864013671875,0.864013671875,0.04334555435244896,0.04334555435244896,0.76806640625,0.76806640625,0.89599609375,0.89599609375,8.481201171875,8.481201171875,35856,"[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(8.481), 'mean_duration_us': np.float64(0.8481), 'median_duration_us': np.float64(0.864), 'std_dev_duration_us': np.float64(0.041144744500361145), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(0.896)}]","[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'mean_duration_us': np.float64(0.85)}]",7.323068852343411e-05,99.99736769835327
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((2,), ())","('float', 'Scalar')","((1,), ())","('', '1')",6,1.3868001302083333,1.3868001302083333,1.37646484375,1.37646484375,0.11718889023697927,0.11718889023697927,1.280029296875,1.280029296875,1.50390625,1.50390625,8.32080078125,8.32080078125,60141,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<float>, std::array<char*, 1ul> >(int, at::native::FillFunctor<float>, std::array<char*, 1ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(8.321), 'mean_duration_us': np.float64(1.3868333333333334), 'median_duration_us': np.float64(1.3765), 'std_dev_duration_us': np.float64(0.10703335409529541), 'min_duration_us': np.float64(1.28), 'max_duration_us': np.float64(1.504)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(1.39)}]",7.184571594621841e-05,99.99743954406922
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 192, 1, 64, 64), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((786432, 4096, 786432, 64, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",1,8.22412109375,8.22412109375,8.22412109375,8.22412109375,,,8.22412109375,8.22412109375,8.22412109375,8.22412109375,8.22412109375,8.22412109375,134113,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.224), 'mean_duration_us': np.float64(8.224), 'median_duration_us': np.float64(8.224), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.224), 'max_duration_us': np.float64(8.224)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(8.22)}]",7.101093795447196e-05,99.99751055500718
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((6291456, 65536, 6291456, 256, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",1,8.22412109375,8.22412109375,8.22412109375,8.22412109375,,,8.22412109375,8.22412109375,8.22412109375,8.22412109375,8.22412109375,8.22412109375,134775,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.224), 'mean_duration_us': np.float64(8.224), 'median_duration_us': np.float64(8.224), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.224), 'max_duration_us': np.float64(8.224)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(8.22)}]",7.101093795447196e-05,99.99758156594514
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 3, 64, 64), (1, 192, 3, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3345408, 17424, 4356, 66, 1), (2359296, 12288, 4096, 64, 1), ())","('', '', 'False')",1,8.158935546875,8.158935546875,8.158935546875,8.158935546875,,,8.158935546875,8.158935546875,8.158935546875,8.158935546875,8.158935546875,8.158935546875,136253,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.159), 'mean_duration_us': np.float64(8.159), 'median_duration_us': np.float64(8.159), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.159), 'max_duration_us': np.float64(8.159)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.16)}]",7.044809521761262e-05,99.99765201404036
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 5, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((983040, 327680, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,8.12890625,8.12890625,8.12890625,8.12890625,,,8.12890625,8.12890625,8.12890625,8.12890625,8.12890625,8.12890625,139721,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.545), 'mean_duration_us': np.float64(4.545), 'median_duration_us': np.float64(4.545), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.545), 'max_duration_us': np.float64(4.545)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}]",7.018880811411561e-05,99.99772220284846
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 5, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((983040, 327680, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,8.12890625,8.12890625,8.12890625,8.12890625,,,8.12890625,8.12890625,8.12890625,8.12890625,8.12890625,8.12890625,139721,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.545), 'mean_duration_us': np.float64(4.545), 'median_duration_us': np.float64(4.545), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.545), 'max_duration_us': np.float64(4.545)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.54)}]",7.018880811411561e-05,99.99772220284846
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64), (1, 384, 2, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 16384, 4096, 64, 1), (3145728, 8192, 4096, 64, 1), ())","('', '', 'False')",1,8.0,8.0,8.0,8.0,,,8.0,8.0,8.0,8.0,8.0,8.0,136577,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.0), 'mean_duration_us': np.float64(8.0), 'median_duration_us': np.float64(8.0), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.0), 'max_duration_us': np.float64(8.0)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.0)}]",6.907577079178702e-05,99.99779127861926
 aten::normal_,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (), (), ())","('float', 'Scalar', 'Scalar', '')","((2064384, 129024, 1024, 32, 1), (), (), ())","('', '0.', '1.', '')",1,7.87109375,7.87109375,7.87109375,7.87109375,,,7.87109375,7.87109375,7.87109375,7.87109375,7.87109375,7.87109375,11724,"[{'name': 'void at::native::(anonymous namespace)::distribution_elementwise_grid_stride_kernel<float, 4, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2}, at::native::(anonymous namespace)::distribution_nullary_kernel<float, float, float4, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2}, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2} const&, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(int, float)#1}>(long, at::PhiloxCudaState, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2}, at::native::(anonymous namespace)::distribution_nullary_kernel<float, float, float4, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2}, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2} const&, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(int, float)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(7.871), 'mean_duration_us': np.float64(7.871), 'median_duration_us': np.float64(7.871), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(7.871), 'max_duration_us': np.float64(7.871)}]","[{'name': 'void at::native::(anonymous namespace)::distribution_elementwise...', 'stream': 7, 'mean_duration_us': np.float64(7.87)}]",6.796273346945841e-05,99.99785924135273
 aten::_local_scalar_dense,other,python3,CPU,thread 10586 (python3),"((),)","('bool',)","((),)","('',)",3,2.6027018229166665,2.6027018229166665,2.56005859375,2.56005859375,0.10280910235108046,0.10280910235108046,2.528076171875,2.528076171875,2.719970703125,2.719970703125,7.80810546875,7.80810546875,84452,"[{'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(7.808), 'mean_duration_us': np.float64(2.6026666666666665), 'median_duration_us': np.float64(2.56), 'std_dev_duration_us': np.float64(0.08398941732279273), 'min_duration_us': np.float64(2.528), 'max_duration_us': np.float64(2.72)}]","[{'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'mean_duration_us': np.float64(2.6)}]",6.74188629596842e-05,99.99792666021568
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 1, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((196608, 65536, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,7.64794921875,7.64794921875,7.64794921875,7.64794921875,,,7.64794921875,7.64794921875,7.64794921875,7.64794921875,7.64794921875,7.64794921875,137459,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.128), 'mean_duration_us': np.float64(4.128), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.128), 'max_duration_us': np.float64(4.128)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.52), 'mean_duration_us': np.float64(3.52), 'median_duration_us': np.float64(3.52), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.52), 'max_duration_us': np.float64(3.52)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.13)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.52)}]",6.60359984077002e-05,99.99799269621408
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 1, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((196608, 65536, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",1,7.64794921875,7.64794921875,7.64794921875,7.64794921875,,,7.64794921875,7.64794921875,7.64794921875,7.64794921875,7.64794921875,7.64794921875,137459,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.52), 'mean_duration_us': np.float64(3.52), 'median_duration_us': np.float64(3.52), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.52), 'max_duration_us': np.float64(3.52)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.128), 'mean_duration_us': np.float64(4.128), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.128), 'max_duration_us': np.float64(4.128)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.52)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.13)}]",6.60359984077002e-05,99.99799269621408
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((2064384, 129024, 1024, 32, 1), (16, 1, 1, 1, 1))","('', '')",1,7.615966796875,7.615966796875,7.615966796875,7.615966796875,,,7.615966796875,7.615966796875,7.615966796875,7.615966796875,7.615966796875,7.615966796875,133423,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(7.616), 'mean_duration_us': np.float64(7.616), 'median_duration_us': np.float64(7.616), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(7.616), 'max_duration_us': np.float64(7.616)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.62)}]",6.575984710234972e-05,99.99805845606119
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2064384, 129024, 1024, 32, 1), (16, 1, 1, 1, 1), ())","('', '', '1')",1,7.16796875,7.16796875,7.16796875,7.16796875,,,7.16796875,7.16796875,7.16796875,7.16796875,7.16796875,7.16796875,133424,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(7.168), 'mean_duration_us': np.float64(7.168), 'median_duration_us': np.float64(7.168), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(7.168), 'max_duration_us': np.float64(7.168)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.17)}]",6.18916208022115e-05,99.99812034768199
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2064384, 129024, 1024, 32, 1), (16, 1, 1, 1, 1), ())","('', '', '1')",1,6.912109375,6.912109375,6.912109375,6.912109375,,,6.912109375,6.912109375,6.912109375,6.912109375,6.912109375,6.912109375,133436,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.912), 'mean_duration_us': np.float64(6.912), 'median_duration_us': np.float64(6.912), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.912), 'max_duration_us': np.float64(6.912)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.91)}]",5.968241035940777e-05,99.99818003009234
 aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 1, 64, 64), (384, 192, 1, 1, 1), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((786432, 4096, 786432, 64, 1), (192, 1, 1, 1, 1), (), (), (), (), (), (), ())","('', '', '[0, 0, 0]', '[1, 1, 1]', '[1, 1, 1]', '1', 'False', 'False', 'True')",1,6.719970703125,6.719970703125,6.719970703125,6.719970703125,,,6.719970703125,6.719970703125,6.719970703125,6.719970703125,6.719970703125,6.719970703125,134109,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.72), 'mean_duration_us': np.float64(6.72), 'median_duration_us': np.float64(6.72), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.72), 'max_duration_us': np.float64(6.72)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.72)}]",5.802339450207329e-05,99.99823805348684
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 1, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((16384, 1024, 1024, 32, 1), (16384, 1024, 1024, 32, 1)), ())","('', '2')",1,6.4638671875,6.4638671875,6.4638671875,6.4638671875,,,6.4638671875,6.4638671875,6.4638671875,6.4638671875,6.4638671875,6.4638671875,135168,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.744), 'mean_duration_us': np.float64(3.744), 'median_duration_us': np.float64(3.744), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.744), 'max_duration_us': np.float64(3.744)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.72), 'mean_duration_us': np.float64(2.72), 'median_duration_us': np.float64(2.72), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.72), 'max_duration_us': np.float64(2.72)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.74)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.72)}]",5.5812076034037865e-05,99.99829386556287
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 1, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((16384, 1024, 1024, 32, 1), (16384, 1024, 1024, 32, 1)), ())","('', '2')",1,6.4638671875,6.4638671875,6.4638671875,6.4638671875,,,6.4638671875,6.4638671875,6.4638671875,6.4638671875,6.4638671875,6.4638671875,135168,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.72), 'mean_duration_us': np.float64(2.72), 'median_duration_us': np.float64(2.72), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.72), 'max_duration_us': np.float64(2.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.744), 'mean_duration_us': np.float64(3.744), 'median_duration_us': np.float64(3.744), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.744), 'max_duration_us': np.float64(3.744)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.74)}]",5.5812076034037865e-05,99.99829386556287
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 512), (1, 1, 1, 512), ())","('c10::BFloat16', 'long int', 'Scalar')","((512, 512, 512, 1), (512, 512, 512, 1), ())","('', '', 'False')",2,2.9764404296875,2.9764404296875,2.9764404296875,2.9764404296875,0.13655309177699196,0.13655309177699196,2.8798828125,2.8798828125,3.072998046875,3.072998046875,5.952880859375,5.952880859375,49,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 2, 'total_duration_us': np.float64(5.952999999999999), 'mean_duration_us': np.float64(2.9764999999999997), 'median_duration_us': np.float64(2.9764999999999997), 'std_dev_duration_us': np.float64(0.09650000000000003), 'min_duration_us': np.float64(2.88), 'max_duration_us': np.float64(3.073)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(2.98)}]",5.1399979224125445e-05,99.9983452655421
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3145728, 16384, 16384, 128, 1), (3145728, 16384, 3145728, 128, 1), ())","('', '', '1')",1,5.951904296875,5.951904296875,5.951904296875,5.951904296875,,,5.951904296875,5.951904296875,5.951904296875,5.951904296875,5.951904296875,5.951904296875,134545,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.952), 'mean_duration_us': np.float64(5.952), 'median_duration_us': np.float64(5.952), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.952), 'max_duration_us': np.float64(5.952)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(5.95)}]",5.139154712319871e-05,99.99839665708922
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((1, 4096), (511, 4096)), ())","('TensorList', 'Scalar')","(((4096, 1), (4096, 1)), ())","('', '0')",1,5.85595703125,5.85595703125,5.85595703125,5.85595703125,,,5.85595703125,5.85595703125,5.85595703125,5.85595703125,5.85595703125,5.85595703125,11668,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_contig<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 2, 128, 1>(at::native::(anonymous namespace)::OpaqueType<2u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.856), 'mean_duration_us': np.float64(5.856), 'median_duration_us': np.float64(5.856), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.856), 'max_duration_us': np.float64(5.856)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_cont...', 'stream': 7, 'mean_duration_us': np.float64(5.86)}]",5.056309320714731e-05,99.99844722018243
diff --git a/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/unified_perf_summary.csv b/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/unified_perf_summary.csv
index 8a9cc2d7..270fa824 100644
--- a/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/unified_perf_summary.csv
+++ b/tests/traces/h100/Wan-AI_Wan2.1-T2V-1.3B-Diffusers__1016009_perf_report_csvs/unified_perf_summary.csv
@@ -2,18 +2,18 @@ name,op category,process_name,process_label,thread_name,Input Dims,Input type,In
 aten::_scaled_dot_product_flash_attention,SDPA_fwd,python3,CPU,thread 10586 (python3),"((1, 12, 32256, 128), (1, 12, 32256, 128), (1, 12, 32256, 128), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((1536, 128, 1536, 1), (1536, 128, 1536, 1), (49545216, 128, 1536, 1), (), (), (), ())","('', '', '', '0.', 'False', 'False', '0.088388347648318433')",12015,300,29619.705,98.73235000000001,37.772630659300305,6392.521949184,378.0,16128.0,,0.02231863243583381,0.0002936556480736209,359.95490392512767,4.736078292131349,17762.308549804686,234.79477512060606,5328692.564941406,124.441,43.6,227.532,0.02233104504189549,0.02130703120831687,0.022972820897245966,360.1550944356905,343.6397993277345,370.50565543078295,17749.359497070312,17253.507080078125,18602.39111328125,"[{'name': 'void pytorch_flash::flash_fwd_kernel<pytorch_flash::Flash_fwd_kernel_traits<128, 128, 64, 4, false, false, cutlass::bfloat16_t, pytorch_flash::Flash_kernel_traits<128, 128, 64, 4, cutlass::bfloat16_t> >, false, false, false, false, true, true, false>(pytorch_flash::Flash_fwd_params)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(5328692.5649999995), 'mean_duration_us': np.float64(17762.308549999998), 'median_duration_us': np.float64(17749.3595), 'std_dev_duration_us': np.float64(234.40312254453335), 'min_duration_us': np.float64(17253.507), 'max_duration_us': np.float64(18602.391)}]","[{'name': 'void pytorch_flash::flash_fwd_kernel<pytorch_flash::Flash_fwd_ke...', 'stream': 7, 'mean_duration_us': np.float64(17762.31)}]","{'B': 1, 'N_Q': 32256, 'H_Q': 12, 'N_KV': 32256, 'H_KV': 12, 'd_h_qk': 128, 'd_h_v': 128, 'dropout': 0.0, 'causal': False, 'flash_impl': True}",True,46.01069879735512,46.01069879735512
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((1536,), (32256, 1536), (1536, 1536), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (1536, 1), (1, 1536), (), ())","('', '', '', '1', '1')",11917,1800,372472.589,206.9292161111111,313.57888679558135,152.252448768,193.5029296875,750.3723599146089,matrix_bf16,0.9961870730638054,0.009165655649765165,747.5112449313145,6.87765466007899,203.69642388237847,1.8795173958208344,366653.56298828125,67.501,34.96,1651.34,0.9961897768889316,0.9676120402884131,1.0164743660409066,747.5132738069551,726.069330153006,762.734268838821,203.6785888671875,199.614013671875,209.694091796875,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1800, 'total_duration_us': np.float64(1709.3609999999999), 'mean_duration_us': np.float64(0.949645), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.21114300598172794), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.76)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 1800, 'total_duration_us': np.float64(364944.137), 'mean_duration_us': np.float64(202.74674277777777), 'median_duration_us': np.float64(202.7345), 'std_dev_duration_us': np.float64(1.8754461904520678), 'min_duration_us': np.float64(198.718), 'max_duration_us': np.float64(208.735)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.95)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(202.75)}]","{'M': 32256, 'N': 1536, 'K': 1536, 'bias': True, 'stride_A': (1536, 1), 'stride_B': (1, 1536), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,3.165877266146312,49.17657606350143
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((8960,), (32256, 1536), (1536, 8960), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (1536, 1), (1, 1536), (), ())","('', '', '', '1', '1')",12226,300,40059.352,133.53117333333333,65.67973040741916,888.13928448,672.01708984375,1260.3781031773076,matrix_bf16,0.6130246274525368,0.009278216572878261,772.642817149604,11.69406100499256,1149.8357413736978,23.43479543431236,344950.7224121094,182.187,53.571,206.023,0.6136162762465612,0.4536644041637975,0.6161746427320722,773.3885183343638,571.7886811990305,776.6130274326044,1148.3740234375,1143.60595703125,1553.264892578125,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(284.666), 'mean_duration_us': np.float64(0.9488866666666667), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.21814426531286327), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.536)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(344666.045), 'mean_duration_us': np.float64(1148.8868166666666), 'median_duration_us': np.float64(1147.4615), 'std_dev_duration_us': np.float64(23.393421280844223), 'min_duration_us': np.float64(1142.646), 'max_duration_us': np.float64(1552.273)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.95)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(1148.89)}]","{'M': 32256, 'N': 8960, 'K': 1536, 'bias': True, 'stride_A': (1536, 1), 'stride_B': (1, 1536), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,2.978483670320008,52.15505973382144
-aten::layer_norm,NORM_fwd,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (), (), (), (), ())","('float', 'ScalarList', '', '', 'Scalar', 'Scalar')","((49545216, 1, 32256), (), (), (), (), ())","('', '[1536]', '', '', '9.9999999999999995e-07', 'True')",11890,610,146267.473,239.78274262295082,222.22475200906098,0.247735296,378.03515625,0.6249651260113457,vector_fp32,0.7117386649018712,0.0013246538188599003,0.44481184439754484,0.0008278624408251691,556.9459448642418,1.0368574405172726,339737.0263671875,191.247,40.4,1618.089,0.7117654036228107,0.7075387630522089,0.7151764444743967,0.4448285551656462,0.4421870522088353,0.44696033674128743,556.923095703125,554.266845703125,560.25,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 610, 'total_duration_us': np.float64(245193.71000000002), 'mean_duration_us': np.float64(401.9569016393443), 'median_duration_us': np.float64(401.98), 'std_dev_duration_us': np.float64(0.5264631478678129), 'min_duration_us': np.float64(400.733), 'max_duration_us': np.float64(403.228)}, {'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 7, 'count': 610, 'total_duration_us': np.float64(94543.31599999999), 'mean_duration_us': np.float64(154.98904262295082), 'median_duration_us': np.float64(154.943), 'std_dev_duration_us': np.float64(0.9304707718137512), 'min_duration_us': np.float64(152.286), 'max_duration_us': np.float64(158.335)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(401.96)}, {'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(154.99)}]","{'op_shape': (1, 32256, 1536), 'dtype_in_out': ('float', None), 'stride_input': (49545216, 1, 32256), 'stride_output': None, 'num_channels': 1536, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,2.933465911194229,55.088525645015665
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 6, 258, 258), (96, 96, 3, 3, 3), (96,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((38340864, 399384, 66564, 258, 1), (2592, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",137093,750,66923.343,89.231124,80.87066060096622,130.459631616,121.60400390625,1023.1242064687104,matrix_bf16,0.2825786840015168,0.0006022781490769081,289.11309183402443,0.6162053533477364,451.242876953125,0.9615305761214227,338432.15771484375,82.696,73.951,1662.24,0.2825665209737053,0.2811115063277445,0.2844425817856833,289.1006475458465,287.61198684079744,291.02009077538855,451.26025390625,448.283935546875,453.595947265625,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(62149.172999999995), 'mean_duration_us': np.float64(82.86556399999999), 'median_duration_us': np.float64(82.88), 'std_dev_duration_us': np.float64(0.46354650026076166), 'min_duration_us': np.float64(81.344), 'max_duration_us': np.float64(83.808)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(2586.933), 'mean_duration_us': np.float64(3.449244), 'median_duration_us': np.float64(3.424), 'std_dev_duration_us': np.float64(0.1322517112579897), 'min_duration_us': np.float64(3.231), 'max_duration_us': np.float64(4.16)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(721.184), 'mean_duration_us': np.float64(0.9615786666666666), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.20368544657115023), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.535)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(177480.581), 'mean_duration_us': np.float64(236.6407746666667), 'median_duration_us': np.float64(236.638), 'std_dev_duration_us': np.float64(0.7877751717494584), 'min_duration_us': np.float64(233.822), 'max_duration_us': np.float64(239.39)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(37789.115000000005), 'mean_duration_us': np.float64(50.38548666666667), 'median_duration_us': np.float64(50.336), 'std_dev_duration_us': np.float64(0.3434009888680517), 'min_duration_us': np.float64(49.664), 'max_duration_us': np.float64(51.456)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(57705.129), 'mean_duration_us': np.float64(76.940172), 'median_duration_us': np.float64(76.991), 'std_dev_duration_us': np.float64(0.33444091219426697), 'min_duration_us': np.float64(75.935), 'max_duration_us': np.float64(77.919)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.87)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.45)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(236.64)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.39)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(76.94)}]","{'convNd': 'conv3d', 'input_shape': (1, 96, 6, 258, 258), 'filter_shape': (96, 96, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (38340864, 399384, 66564, 258, 1), 'weight_stride': (2592, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,2.92219899763121,58.01072464264688
+aten::layer_norm,NORM_fwd,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (), (), (), (), ())","('float', 'ScalarList', '', '', 'Scalar', 'Scalar')","((49545216, 1, 32256), (), (), (), (), ())","('', '[1536]', '', '', '9.9999999999999995e-07', 'True')",11890,610,146267.473,239.78274262295082,222.22475200906098,0.247735296,378.03515625,0.6249651260113457,vector_fp32,0.7117386649018712,0.0013246538188599003,0.44481184439754484,0.0008278624408251691,556.9459448642418,1.0368574405172726,339737.0263671875,191.247,40.4,1618.089,0.7117654036228107,0.7075387630522089,0.7151764444743967,0.4448285551656462,0.4421870522088353,0.44696033674128743,556.923095703125,554.266845703125,560.25,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 7, 'count': 610, 'total_duration_us': np.float64(94543.31599999999), 'mean_duration_us': np.float64(154.98904262295082), 'median_duration_us': np.float64(154.943), 'std_dev_duration_us': np.float64(0.9304707718137512), 'min_duration_us': np.float64(152.286), 'max_duration_us': np.float64(158.335)}, {'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 610, 'total_duration_us': np.float64(245193.71000000002), 'mean_duration_us': np.float64(401.9569016393443), 'median_duration_us': np.float64(401.98), 'std_dev_duration_us': np.float64(0.5264631478678129), 'min_duration_us': np.float64(400.733), 'max_duration_us': np.float64(403.228)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(154.99)}, {'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(401.96)}]","{'op_shape': (1, 32256, 1536), 'dtype_in_out': ('float', None), 'stride_input': (49545216, 1, 32256), 'stride_output': None, 'num_channels': 1536, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,2.933465911194229,55.088525645015665
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 6, 258, 258), (96, 96, 3, 3, 3), (96,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((38340864, 399384, 66564, 258, 1), (2592, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",137093,750,66923.343,89.231124,80.87066060096622,130.459631616,121.60400390625,1023.1242064687104,matrix_bf16,0.2825786840015168,0.0006022781490769081,289.11309183402443,0.6162053533477364,451.242876953125,0.9615305761214227,338432.15771484375,82.696,73.951,1662.24,0.2825665209737053,0.2811115063277445,0.2844425817856833,289.1006475458465,287.61198684079744,291.02009077538855,451.26025390625,448.283935546875,453.595947265625,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(721.184), 'mean_duration_us': np.float64(0.9615786666666666), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.20368544657115023), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.535)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(2586.933), 'mean_duration_us': np.float64(3.449244), 'median_duration_us': np.float64(3.424), 'std_dev_duration_us': np.float64(0.1322517112579897), 'min_duration_us': np.float64(3.231), 'max_duration_us': np.float64(4.16)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(37789.115000000005), 'mean_duration_us': np.float64(50.38548666666667), 'median_duration_us': np.float64(50.336), 'std_dev_duration_us': np.float64(0.3434009888680517), 'min_duration_us': np.float64(49.664), 'max_duration_us': np.float64(51.456)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(57705.129), 'mean_duration_us': np.float64(76.940172), 'median_duration_us': np.float64(76.991), 'std_dev_duration_us': np.float64(0.33444091219426697), 'min_duration_us': np.float64(75.935), 'max_duration_us': np.float64(77.919)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(62149.172999999995), 'mean_duration_us': np.float64(82.86556399999999), 'median_duration_us': np.float64(82.88), 'std_dev_duration_us': np.float64(0.46354650026076166), 'min_duration_us': np.float64(81.344), 'max_duration_us': np.float64(83.808)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(177480.581), 'mean_duration_us': np.float64(236.6407746666667), 'median_duration_us': np.float64(236.638), 'std_dev_duration_us': np.float64(0.7877751717494584), 'min_duration_us': np.float64(233.822), 'max_duration_us': np.float64(239.39)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.45)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.39)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(76.94)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.87)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(236.64)}]","{'convNd': 'conv3d', 'input_shape': (1, 96, 6, 258, 258), 'filter_shape': (96, 96, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (38340864, 399384, 66564, 258, 1), 'weight_stride': (2592, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,2.92219899763121,58.01072464264688
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((1536,), (32256, 8960), (8960, 1536), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (8960, 1), (1, 8960), (), ())","('', '', '', '1', '1')",12237,300,14617.529,48.725096666666666,3.622101279587241,887.899815936,672.0029296875,1260.0648190533489,matrix_bf16,0.6280223769901393,0.0011147025918556313,791.3489028235339,1.404597519704882,1122.0115462239582,1.9930724283064778,336603.4638671875,48.460499999999996,41.731,64.921,0.6281309463124868,0.6239660806244178,0.6314452104953299,791.4857072070524,786.2377064774342,795.6618949049015,1121.8140869140625,1115.926025390625,1129.302001953125,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(283.045), 'mean_duration_us': np.float64(0.9434833333333333), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.20174815089335738), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.6)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize256x128x64_warpgroupsize2x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(336320.40800000005), 'mean_duration_us': np.float64(1121.0680266666668), 'median_duration_us': np.float64(1120.854), 'std_dev_duration_us': np.float64(1.9656534280714149), 'min_duration_us': np.float64(1115.222), 'max_duration_us': np.float64(1128.246)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.94)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize256x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(1121.07)}]","{'M': 32256, 'N': 1536, 'K': 8960, 'bias': True, 'stride_A': (8960, 1), 'stride_B': (1, 8960), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,2.906409105309281,60.91713374795616
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('float', 'float', 'Scalar')","((49545216, 1, 32256), (49545216, 1536, 1), ())","('', '', '1')",12052,600,22725.826,37.876376666666665,93.00535312156448,0.049545216,567.0,0.08333333333333333,vector_fp32,1.3695784197911651,0.002731917611581861,0.11413153498259711,0.00022765980096514993,434.1080045572917,0.8663701575617777,260464.802734375,9.44,8.43,1517.998,1.3698760468264561,1.3622422738092774,1.3768777251826652,0.11415633723553803,0.11352018948410647,0.11473981043188879,434.011962890625,431.804931640625,436.444091796875,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<float> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<float> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float> const&)::{lambda(int)#1})', 'stream': 7, 'count': 600, 'total_duration_us': np.float64(260464.80200000003), 'mean_duration_us': np.float64(434.1080033333334), 'median_duration_us': np.float64(434.012), 'std_dev_duration_us': np.float64(0.8656460304240348), 'min_duration_us': np.float64(431.805), 'max_duration_us': np.float64(436.444)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(434.11)}]","{'shape_in1': (1, 32256, 1536), 'shape_in2': (1, 32256, 1536), 'dtype_in1_in2_out': ('float', 'float', None), 'stride_input1': (49545216, 1, 32256), 'stride_input2': (49545216, 1536, 1), 'stride_output': None}",True,2.248988366258961,63.16612211421512
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 6, 130, 130), (192, 192, 3, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((19468800, 101400, 16900, 130, 1), (5184, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136704,750,64940.835,86.58778,19.385352322182328,130.459631616,63.0322265625,1973.8474552637695,matrix_bf16,0.19276502569912513,0.0011759237299539993,380.48875544007325,2.3210940619539846,342.886572265625,2.093920309276013,257164.92919921875,83.05600000000001,73.301,357.294,0.19281666887221474,0.18812910161714333,0.19590743628264023,380.5906911858579,371.33814848805747,386.6913945737385,342.781982421875,337.3740234375,351.322998046875,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(29195.826999999997), 'mean_duration_us': np.float64(38.92776933333333), 'median_duration_us': np.float64(38.815), 'std_dev_duration_us': np.float64(0.3583380993692351), 'min_duration_us': np.float64(38.304), 'max_duration_us': np.float64(39.84)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(3685.314), 'mean_duration_us': np.float64(4.913752), 'median_duration_us': np.float64(4.896), 'std_dev_duration_us': np.float64(0.14547149032026865), 'min_duration_us': np.float64(4.64), 'max_duration_us': np.float64(5.664)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(726.1790000000001), 'mean_duration_us': np.float64(0.9682386666666668), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.2008908701382143), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.568)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(178017.588), 'mean_duration_us': np.float64(237.35678399999998), 'median_duration_us': np.float64(237.19799999999998), 'std_dev_duration_us': np.float64(2.040857747454241), 'min_duration_us': np.float64(231.614), 'max_duration_us': np.float64(245.054)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(18797.244), 'mean_duration_us': np.float64(25.062991999999998), 'median_duration_us': np.float64(25.024), 'std_dev_duration_us': np.float64(0.21605943611886072), 'min_duration_us': np.float64(24.639), 'max_duration_us': np.float64(25.951)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(26742.756), 'mean_duration_us': np.float64(35.657008000000005), 'median_duration_us': np.float64(35.647), 'std_dev_duration_us': np.float64(0.2934462902633686), 'min_duration_us': np.float64(34.848), 'max_duration_us': np.float64(36.512)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(38.93)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.91)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.97)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(237.36)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(35.66)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 6, 130, 130), 'filter_shape': (192, 192, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (19468800, 101400, 16900, 130, 1), 'weight_stride': (5184, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,2.220495544531103,65.38661765874622
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 6, 130, 130), (192, 192, 3, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((19468800, 101400, 16900, 130, 1), (5184, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136704,750,64940.835,86.58778,19.385352322182328,130.459631616,63.0322265625,1973.8474552637695,matrix_bf16,0.19276502569912513,0.0011759237299539993,380.48875544007325,2.3210940619539846,342.886572265625,2.093920309276013,257164.92919921875,83.05600000000001,73.301,357.294,0.19281666887221474,0.18812910161714333,0.19590743628264023,380.5906911858579,371.33814848805747,386.6913945737385,342.781982421875,337.3740234375,351.322998046875,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(726.1790000000001), 'mean_duration_us': np.float64(0.9682386666666668), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.2008908701382143), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.568)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(3685.314), 'mean_duration_us': np.float64(4.913752), 'median_duration_us': np.float64(4.896), 'std_dev_duration_us': np.float64(0.14547149032026865), 'min_duration_us': np.float64(4.64), 'max_duration_us': np.float64(5.664)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(18797.244), 'mean_duration_us': np.float64(25.062991999999998), 'median_duration_us': np.float64(25.024), 'std_dev_duration_us': np.float64(0.21605943611886072), 'min_duration_us': np.float64(24.639), 'max_duration_us': np.float64(25.951)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(26742.756), 'mean_duration_us': np.float64(35.657008000000005), 'median_duration_us': np.float64(35.647), 'std_dev_duration_us': np.float64(0.2934462902633686), 'min_duration_us': np.float64(34.848), 'max_duration_us': np.float64(36.512)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(29195.826999999997), 'mean_duration_us': np.float64(38.92776933333333), 'median_duration_us': np.float64(38.815), 'std_dev_duration_us': np.float64(0.3583380993692351), 'min_duration_us': np.float64(38.304), 'max_duration_us': np.float64(39.84)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(178017.588), 'mean_duration_us': np.float64(237.35678399999998), 'median_duration_us': np.float64(237.19799999999998), 'std_dev_duration_us': np.float64(2.040857747454241), 'min_duration_us': np.float64(231.614), 'max_duration_us': np.float64(245.054)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.97)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.91)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(35.66)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(38.93)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(237.36)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 6, 130, 130), 'filter_shape': (192, 192, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (19468800, 101400, 16900, 130, 1), 'weight_stride': (5184, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,2.220495544531103,65.38661765874622
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('float', 'c10::BFloat16', 'Scalar')","((49545216, 1, 32256), (49545216, 1, 32256), ())","('', '', 'False')",11888,1510,55791.176,36.947798675496685,51.39609857974198,0.049545216,283.5,0.16666666666666666,vector_fp32,1.933926056609385,0.012908670993090208,0.3223210094348975,0.0021514451655150375,153.72073303626863,1.0259995853644428,232118.30688476562,11.405000000000001,5.57,154.452,1.9343703063418067,1.8974369326435208,1.9740429145370508,0.3223950510569678,0.31623948877392016,0.32900715242284184,153.6785888671875,150.590087890625,156.669921875,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 1510, 'total_duration_us': np.float64(232118.304), 'mean_duration_us': np.float64(153.72073112582783), 'median_duration_us': np.float64(153.67849999999999), 'std_dev_duration_us': np.float64(1.0256629543464066), 'min_duration_us': np.float64(150.59), 'max_duration_us': np.float64(156.67)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(153.72)}]","{'op_shape': (1, 32256, 1536), 'dtype_in_out': ('float', 'c10::BFloat16'), 'stride_input': (49545216, 1, 32256), 'stride_output': (49545216, 1, 32256)}",True,2.0042300007496165,67.39084765949583
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1))","('c10::BFloat16', 'float')","((49545216, 1536, 1), (32256, 1, 1))","('', '')",11948,900,51013.783,56.681981111111114,59.438138533146535,0.049545216,283.623046875,0.1665943600867679,vector_bf16,1.4058087277328806,0.009368499938487899,0.2341998054010526,0.001560739252225329,211.56048800998263,1.41708557964542,190404.43920898438,23.595,7.61,170.782,1.4079455924770976,1.36253398720854,1.4326881677047854,0.23455579501570742,0.22699047769547917,0.23867776850266276,211.22998046875,207.58203125,218.27001953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 900, 'total_duration_us': np.float64(190404.43699999998), 'mean_duration_us': np.float64(211.56048555555552), 'median_duration_us': np.float64(211.23), 'std_dev_duration_us': np.float64(1.416302213046441), 'min_duration_us': np.float64(207.582), 'max_duration_us': np.float64(218.27)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(211.56)}]","{'shape_in1': (1, 32256, 1536), 'shape_in2': (1, 32256, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'float', None), 'stride_input1': (49545216, 1536, 1), 'stride_input2': (32256, 1, 1), 'stride_output': None}",True,1.6440508052128964,69.03489846470873
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('float', 'c10::BFloat16', 'Scalar')","((49545216, 1536, 1), (49545216, 1536, 1), ())","('', '', 'False')",11941,1200,232579.389,193.8161575,365.5021322463638,0.049545216,283.5,0.16666666666666666,vector_fp32,1.9292450566913177,0.011042932920512248,0.3215408427818863,0.0018404888200853735,154.09189880371093,0.8825984384059727,184910.27856445312,12.59,5.53,1093.803,1.9289416978608735,1.8805369504190816,1.9636138908454055,0.3214902829768123,0.313422825069847,0.3272689818075676,154.111083984375,151.389892578125,158.077880859375,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 1200, 'total_duration_us': np.float64(184910.277), 'mean_duration_us': np.float64(154.0918975), 'median_duration_us': np.float64(154.111), 'std_dev_duration_us': np.float64(0.882229499805511), 'min_duration_us': np.float64(151.39), 'max_duration_us': np.float64(158.078)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(154.09)}]","{'op_shape': (1, 32256, 1536), 'dtype_in_out': ('float', 'c10::BFloat16'), 'stride_input': (49545216, 1536, 1), 'stride_output': (49545216, 1536, 1)}",True,1.596611369088739,70.63150983379747
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('c10::BFloat16', 'float', 'Scalar')","((49545216, 1536, 1), (49545216, 1536, 1), ())","('', '', 'False')",11910,1810,119185.203,65.84817845303867,66.0145135632579,0.049545216,283.5,0.16666666666666666,vector_bf16,3.0307716652559558,0.024284776617634136,0.5051286108759927,0.0040474627696056855,98.09064577218578,0.7850619200928944,177544.06884765625,8.74,5.84,185.552,3.02994609709279,2.976549918879806,3.106966372670649,0.5049910161821317,0.4960916531466344,0.5178277287784415,98.111083984375,95.678955078125,99.87109375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1810, 'total_duration_us': np.float64(177544.068), 'mean_duration_us': np.float64(98.0906453038674), 'median_duration_us': np.float64(98.111), 'std_dev_duration_us': np.float64(0.7848435584288297), 'min_duration_us': np.float64(95.679), 'max_duration_us': np.float64(99.871)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(98.09)}]","{'op_shape': (1, 32256, 1536), 'dtype_in_out': ('c10::BFloat16', 'float'), 'stride_input': (49545216, 1536, 1), 'stride_output': (49545216, 1536, 1)}",True,1.5330076891189943,72.16451752291646
-aten::layer_norm,NORM_fwd,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (), (1536,), (1536,), (), ())","('float', 'ScalarList', 'float', 'float', 'Scalar', 'Scalar')","((49545216, 1, 32256), (), (1,), (1,), (), ())","('', '[1536]', '', '', '9.9999999999999995e-07', 'True')",12071,300,17547.528,58.49175999999999,18.81634378389468,0.247735296,378.03515625,0.6249651260113457,vector_fp32,0.7077201144892726,0.001205855493637823,0.4423003905325522,0.0007536176305328355,560.1080590820312,0.9549584374165081,168032.41772460938,55.7555,43.461,258.453,0.707781497897338,0.7038404159591337,0.7105817014639663,0.44233875302190884,0.4398757142517779,0.4440887825967841,560.057861328125,557.850830078125,563.19384765625,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(120340.451), 'mean_duration_us': np.float64(401.1348366666667), 'median_duration_us': np.float64(401.084), 'std_dev_duration_us': np.float64(0.42878223298338886), 'min_duration_us': np.float64(400.22), 'max_duration_us': np.float64(403.036)}, {'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(47691.966), 'mean_duration_us': np.float64(158.97322), 'median_duration_us': np.float64(158.911), 'std_dev_duration_us': np.float64(0.7480740771697236), 'min_duration_us': np.float64(157.086), 'max_duration_us': np.float64(161.566)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(401.13)}, {'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(158.97)}]","{'op_shape': (1, 32256, 1536), 'dtype_in_out': ('float', None), 'stride_input': (49545216, 1, 32256), 'stride_output': None, 'num_channels': 1536, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,1.4508791539193198,73.61539667683577
+aten::layer_norm,NORM_fwd,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (), (1536,), (1536,), (), ())","('float', 'ScalarList', 'float', 'float', 'Scalar', 'Scalar')","((49545216, 1, 32256), (), (1,), (1,), (), ())","('', '[1536]', '', '', '9.9999999999999995e-07', 'True')",12071,300,17547.528,58.49175999999999,18.81634378389468,0.247735296,378.03515625,0.6249651260113457,vector_fp32,0.7077201144892726,0.001205855493637823,0.4423003905325522,0.0007536176305328355,560.1080590820312,0.9549584374165081,168032.41772460938,55.7555,43.461,258.453,0.707781497897338,0.7038404159591337,0.7105817014639663,0.44233875302190884,0.4398757142517779,0.4440887825967841,560.057861328125,557.850830078125,563.19384765625,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(47691.966), 'mean_duration_us': np.float64(158.97322), 'median_duration_us': np.float64(158.911), 'std_dev_duration_us': np.float64(0.7480740771697236), 'min_duration_us': np.float64(157.086), 'max_duration_us': np.float64(161.566)}, {'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(120340.451), 'mean_duration_us': np.float64(401.1348366666667), 'median_duration_us': np.float64(401.084), 'std_dev_duration_us': np.float64(0.42878223298338886), 'min_duration_us': np.float64(400.22), 'max_duration_us': np.float64(403.036)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(158.97)}, {'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(401.13)}]","{'op_shape': (1, 32256, 1536), 'dtype_in_out': ('float', None), 'stride_input': (49545216, 1, 32256), 'stride_output': None, 'num_channels': 1536, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,1.4508791539193198,73.61539667683577
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 12, 32256, 64), (1, 1, 32256, 64))","('c10::complex<double>', 'c10::complex<double>')","((768, 64, 768, 1), (2064384, 2064384, 64, 1))","('', '')",11989,600,31564.498,52.60749666666666,66.60309350709255,0.024772608,,,,,,0.09006450149506869,0.0001958983777662497,275.05537068684896,0.5974514721109113,165033.22241210938,13.21,8.56,169.442,,,,0.09000693877102069,0.08965249339149443,0.09051203055703978,275.22998046875,273.694091796875,276.318115234375,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::complex<double>, c10::complex<double>, c10::complex<double>, at::native::binary_internal::MulFunctor<c10::complex<double> > > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::complex<double>, c10::complex<double>, c10::complex<double>, at::native::binary_internal::MulFunctor<c10::complex<double> > > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::complex<double>, c10::complex<double>, c10::complex<double>, at::native::binary_internal::MulFunctor<c10::complex<double> > > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::complex<double>, c10::complex<double>, c10::complex<double>, at::native::binary_internal::MulFunctor<c10::complex<double> > > const&)::{lambda(int)#1})', 'stream': 7, 'count': 600, 'total_duration_us': np.float64(165033.221), 'mean_duration_us': np.float64(275.0553683333333), 'median_duration_us': np.float64(275.23), 'std_dev_duration_us': np.float64(0.5969574071885038), 'min_duration_us': np.float64(273.694), 'max_duration_us': np.float64(276.318)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(275.06)}]","{'shape_in1': (1, 12, 32256, 64), 'shape_in2': (1, 1, 32256, 64), 'dtype_in1_in2_out': ('c10::complex<double>', 'c10::complex<double>', None), 'stride_input1': (768, 64, 768, 1), 'stride_input2': (2064384, 2064384, 64, 1), 'stride_output': None}",True,1.4249825441081672,75.04037922094393
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 4, 66, 66), (384, 384, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((6690816, 17424, 4356, 66, 1), (10368, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136314,625,83206.693,133.1307088,95.29716678987833,65.229815808,26.35546875,2360.345042240996,matrix_bf16,0.11103784071337952,0.002815932980572456,262.08761682897074,6.646573449977111,249.045025,6.303024694762048,155653.140625,86.171,74.021,1619.199,0.11103404352457648,0.10291095546302527,0.11994773431668626,262.07865415320504,242.9053635194356,283.1180400224306,248.89404296875,230.39794921875,268.5400390625,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6494.4400000000005), 'mean_duration_us': np.float64(10.391104), 'median_duration_us': np.float64(10.368), 'std_dev_duration_us': np.float64(0.1370308592398078), 'min_duration_us': np.float64(10.08), 'max_duration_us': np.float64(10.944)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6743.719000000001), 'mean_duration_us': np.float64(10.789950400000002), 'median_duration_us': np.float64(10.783), 'std_dev_duration_us': np.float64(0.157450667638597), 'min_duration_us': np.float64(10.399), 'max_duration_us': np.float64(11.551)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(600.2610000000001), 'mean_duration_us': np.float64(0.9604176000000001), 'median_duration_us': np.float64(0.991), 'std_dev_duration_us': np.float64(0.19863821991308722), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.664)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(132142.75799999997), 'mean_duration_us': np.float64(211.42841279999996), 'median_duration_us': np.float64(211.326), 'std_dev_duration_us': np.float64(6.328508274846147), 'min_duration_us': np.float64(192.127), 'max_duration_us': np.float64(230.813)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(3890.9410000000003), 'mean_duration_us': np.float64(6.2255056), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.16895054059883918), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(6.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(5780.9929999999995), 'mean_duration_us': np.float64(9.2495888), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.08963018528687762), 'min_duration_us': np.float64(9.024), 'max_duration_us': np.float64(9.6)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.39)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.79)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(211.43)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.23)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.25)}]","{'convNd': 'conv3d', 'input_shape': (1, 384, 4, 66, 66), 'filter_shape': (384, 384, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (6690816, 17424, 4356, 66, 1), 'weight_stride': (10368, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,1.3439900468789727,76.3843692678229
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 4, 66, 66), (384, 384, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((6690816, 17424, 4356, 66, 1), (10368, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136314,625,83206.693,133.1307088,95.29716678987833,65.229815808,26.35546875,2360.345042240996,matrix_bf16,0.11103784071337952,0.002815932980572456,262.08761682897074,6.646573449977111,249.045025,6.303024694762048,155653.140625,86.171,74.021,1619.199,0.11103404352457648,0.10291095546302527,0.11994773431668626,262.07865415320504,242.9053635194356,283.1180400224306,248.89404296875,230.39794921875,268.5400390625,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(600.2610000000001), 'mean_duration_us': np.float64(0.9604176000000001), 'median_duration_us': np.float64(0.991), 'std_dev_duration_us': np.float64(0.19863821991308722), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(1.664)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(3890.9410000000003), 'mean_duration_us': np.float64(6.2255056), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.16895054059883918), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(6.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(5780.9929999999995), 'mean_duration_us': np.float64(9.2495888), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.08963018528687762), 'min_duration_us': np.float64(9.024), 'max_duration_us': np.float64(9.6)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6494.4400000000005), 'mean_duration_us': np.float64(10.391104), 'median_duration_us': np.float64(10.368), 'std_dev_duration_us': np.float64(0.1370308592398078), 'min_duration_us': np.float64(10.08), 'max_duration_us': np.float64(10.944)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(6743.719000000001), 'mean_duration_us': np.float64(10.789950400000002), 'median_duration_us': np.float64(10.783), 'std_dev_duration_us': np.float64(0.157450667638597), 'min_duration_us': np.float64(10.399), 'max_duration_us': np.float64(11.551)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(132142.75799999997), 'mean_duration_us': np.float64(211.42841279999996), 'median_duration_us': np.float64(211.326), 'std_dev_duration_us': np.float64(6.328508274846147), 'min_duration_us': np.float64(192.127), 'max_duration_us': np.float64(230.813)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.23)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.25)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.39)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.79)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(211.43)}]","{'convNd': 'conv3d', 'input_shape': (1, 384, 4, 66, 66), 'filter_shape': (384, 384, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (6690816, 17424, 4356, 66, 1), 'weight_stride': (10368, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,1.3439900468789727,76.3843692678229
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 12, 32256, 128), (1, 12, 32256, 128), ())","('double', 'c10::BFloat16', 'Scalar')","((49545216, 128, 1536, 1), (49545216, 128, 1536, 1), ())","('', '', 'False')",11985,600,23502.243,39.170404999999995,52.337011846646696,0.049545216,472.5,0.1,vector_fp64,2.0180644186452694,0.007590335442127286,0.20180644186452698,0.0007590335442127194,245.51206787109376,0.924904015835969,147307.24072265625,8.17,5.84,139.562,2.0186449680000473,1.985001313010281,2.0401911811938707,0.2018644968000048,0.19850013130102812,0.2040191181193871,245.43798828125,242.845947265625,249.597900390625,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#6}::operator()() const::{lambda(double)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#6}::operator()() const::{lambda(double)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 600, 'total_duration_us': np.float64(147307.239), 'mean_duration_us': np.float64(245.512065), 'median_duration_us': np.float64(245.438), 'std_dev_duration_us': np.float64(0.9241347362668503), 'min_duration_us': np.float64(242.846), 'max_duration_us': np.float64(249.598)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(245.51)}]","{'op_shape': (1, 12, 32256, 128), 'dtype_in_out': ('double', 'c10::BFloat16'), 'stride_input': (49545216, 128, 1536, 1), 'stride_output': (49545216, 128, 1536, 1)}",True,1.2719272130938084,77.65629648091671
 aten::gelu,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 8960), ())","('c10::BFloat16', '')","((289013760, 8960, 1), ())","('', '')",12229,300,4676.887,15.589623333333332,2.5127974819724153,,,,,,,,,456.7545027669271,4.18224362913537,137026.35083007812,16.0155,11.59,26.881,,,,,,,457.29150390625,441.051025390625,467.35595703125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(137026.34999999998), 'mean_duration_us': np.float64(456.75449999999995), 'median_duration_us': np.float64(457.2915), 'std_dev_duration_us': np.float64(4.175269277144491), 'min_duration_us': np.float64(441.051), 'max_duration_us': np.float64(467.356)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Ge...', 'stream': 7, 'mean_duration_us': np.float64(456.75)}]",,False,1.1831566708920767,78.83945315180878
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((49545216, 1, 32256), (49545216, 1536, 1), ())","('', '', '1')",12193,300,5749.397,19.164656666666666,1.9854002752506714,0.049545216,283.5,0.16666666666666666,vector_bf16,0.7353239285505149,0.0021812107643439872,0.12255398809175247,0.0003635351273906627,404.2761181640625,1.199405667017406,121282.83544921875,19.240499999999997,16.241,27.5,0.7359136540077826,0.7313649814134969,0.7404589154794678,0.12265227566796377,0.12189416356891616,0.12340981924657798,403.9486083984375,401.468994140625,406.4609375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(121282.83500000002), 'mean_duration_us': np.float64(404.2761166666667), 'median_duration_us': np.float64(403.94849999999997), 'std_dev_duration_us': np.float64(1.1974009394192997), 'min_duration_us': np.float64(401.469), 'max_duration_us': np.float64(406.461)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(404.28)}]","{'shape_in1': (1, 32256, 1536), 'shape_in2': (1, 32256, 1536), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (49545216, 1, 32256), 'stride_input2': (49545216, 1536, 1), 'stride_output': None}",True,1.0472189834814665,79.88667213529025
@@ -27,16 +27,16 @@ aten::_scaled_dot_product_flash_attention,SDPA_fwd,python3,CPU,thread 10586 (pyt
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 6, 256, 256), (1, 96, 6, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((38340864, 399384, 66564, 258, 1), (37748736, 393216, 65536, 256, 1), ())","('', '', 'False')",139371,868,5429.266,6.254914746543778,0.7286530048585028,0.037748736,144.0,0.25,vector_bf16,1.421786457024816,0.0032545064994980075,0.355446614256204,0.0008136266248745019,106.201416859429,0.24370126975100181,92182.82983398438,6.14,5.75,15.15,1.422132089097778,1.4060282958847306,1.4299047939537002,0.3555330222744445,0.35150707397118264,0.35747619848842505,106.175048828125,105.597900390625,107.39111328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 868, 'total_duration_us': np.float64(92182.826), 'mean_duration_us': np.float64(106.20141244239632), 'median_duration_us': np.float64(106.175), 'std_dev_duration_us': np.float64(0.2435553248252166), 'min_duration_us': np.float64(105.598), 'max_duration_us': np.float64(107.391)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(106.2)}]","{'op_shape': (1, 96, 6, 256, 256), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (38340864, 399384, 66564, 258, 1), 'stride_output': (37748736, 393216, 65536, 256, 1)}",True,0.7959544233578681,87.12527426025919
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 96, 2, 256, 256), (1, 96, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((12582912, 131072, 65536, 256, 1), (25165824, 262144, 65536, 256, 1)), ())","('', '2')",139405,744,23855.782,32.06422311827957,7.026961601182868,,,,,,,,,101.31975858954974,0.3151894966770076,75381.900390625,30.3455,27.211,102.131,,,,,,,101.31103515625,100.1591796875,102.55908203125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(26078.028000000002), 'mean_duration_us': np.float64(35.05111290322581), 'median_duration_us': np.float64(34.848), 'std_dev_duration_us': np.float64(0.41360644785166834), 'min_duration_us': np.float64(34.367), 'max_duration_us': np.float64(36.031)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(49303.873999999996), 'mean_duration_us': np.float64(66.26864784946235), 'median_duration_us': np.float64(66.368), 'std_dev_duration_us': np.float64(0.3622605655986425), 'min_duration_us': np.float64(65.343), 'max_duration_us': np.float64(67.167)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(35.05)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(66.27)}]",,False,0.6508864738161922,87.77616073407538
 aten::mean,reduce,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (), (), ())","('float', 'ScalarList', 'Scalar', '')","((49545216, 1536, 1), (), (), ())","('', '[-1]', 'True', '')",11945,900,102180.326,113.53369555555555,108.23613668309095,0.049545216,189.00000381469727,0.24999999495410424,vector_fp32,2.5343697673687346,0.020795248387808177,0.633592429054018,0.00519881199202139,78.20252522786458,0.6377835819094839,70382.27270507812,148.257,9.4,1508.008,2.5278518299213384,2.484220427491569,2.591277701502257,0.6319629447250578,0.621055094337775,0.6478194123002472,78.39892578125,76.47998046875,79.77587890625,"[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4> >(at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4>)', 'stream': 7, 'count': 900, 'total_duration_us': np.float64(70382.272), 'mean_duration_us': np.float64(78.20252444444444), 'median_duration_us': np.float64(78.399), 'std_dev_duration_us': np.float64(0.6374313683860161), 'min_duration_us': np.float64(76.48), 'max_duration_us': np.float64(79.776)}]","[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<floa...', 'stream': 7, 'mean_duration_us': np.float64(78.2)}]","{'num_input_elems': 49545216, 'num_output_elems': 1, 'dtype_in_out': ('float', None), 'reduce_type': 'mean'}",True,0.6077170920710203,88.3838778261464
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((4, 192, 256, 256), (96, 192, 3, 3), (96,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((12582912, 65536, 256, 1), (1728, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",137032,125,9167.339,73.338712,13.792352377089504,86.973087744,144.31640625,574.737149817296,matrix_bf16,0.27423332863539235,0.0005406726881108903,157.61208168481525,0.3107446797489213,551.819515625,1.0861989041732607,68977.439453125,70.291,61.95,162.952,0.2741614035509857,0.2725963633485016,0.27612999449819775,157.57074366680303,156.67125692147783,158.7021660169598,551.962158203125,548.027099609375,555.131103515625,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(11688.209), 'mean_duration_us': np.float64(93.505672), 'median_duration_us': np.float64(93.535), 'std_dev_duration_us': np.float64(0.44195545071420866), 'min_duration_us': np.float64(91.999), 'max_duration_us': np.float64(94.335)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.846), 'mean_duration_us': np.float64(3.342768), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.09118966046652441), 'min_duration_us': np.float64(3.168), 'max_duration_us': np.float64(3.776)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(40031.989), 'mean_duration_us': np.float64(320.255912), 'median_duration_us': np.float64(320.349), 'std_dev_duration_us': np.float64(0.8807170262098912), 'min_duration_us': np.float64(317.213), 'max_duration_us': np.float64(321.981)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6291.21), 'mean_duration_us': np.float64(50.32968), 'median_duration_us': np.float64(50.271), 'std_dev_duration_us': np.float64(0.3359084303794716), 'min_duration_us': np.float64(49.728), 'max_duration_us': np.float64(51.04)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10548.186), 'mean_duration_us': np.float64(84.385488), 'median_duration_us': np.float64(84.415), 'std_dev_duration_us': np.float64(0.3284471492584459), 'min_duration_us': np.float64(83.551), 'max_duration_us': np.float64(85.12)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(93.51)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(320.26)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.33)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(84.39)}]","{'convNd': 'conv2d', 'input_shape': (4, 192, 256, 256), 'filter_shape': (96, 192, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (12582912, 65536, 256, 1), 'weight_stride': (1728, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.595587032243327,88.97946485838973
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 34, 34), (384, 384, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((1331712, 3468, 1156, 34, 1), (10368, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",133532,1260,103864.205,82.43190873015872,60.03890876600732,8.153726976,10.8837890625,714.457065948856,matrix_bf16,0.20897574737052427,0.002099692608335388,149.30419932081412,1.5001402203457994,54.61697222997272,0.5447566160218644,68817.38500976562,77.256,68.401,1545.719,0.20893158937318984,0.20275828929333586,0.2248721260751602,149.2726503276004,144.86209246532607,160.66147940934016,54.623046875,50.7509765625,56.2861328125,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4533.416), 'mean_duration_us': np.float64(3.5979492063492065), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.036870157731099445), 'min_duration_us': np.float64(3.519), 'max_duration_us': np.float64(3.713)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(12757.131000000001), 'mean_duration_us': np.float64(10.124707142857144), 'median_duration_us': np.float64(10.08), 'std_dev_duration_us': np.float64(0.3393344173148024), 'min_duration_us': np.float64(3.616), 'max_duration_us': np.float64(11.199)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(43786.708), 'mean_duration_us': np.float64(34.751355555555556), 'median_duration_us': np.float64(34.816), 'std_dev_duration_us': np.float64(1.1047508836158895), 'min_duration_us': np.float64(10.016), 'max_duration_us': np.float64(36.352)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(3258.419), 'mean_duration_us': np.float64(2.586046825396825), 'median_duration_us': np.float64(2.528), 'std_dev_duration_us': np.float64(1.2701055293730084), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(34.655)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4481.675), 'mean_duration_us': np.float64(3.556884920634921), 'median_duration_us': np.float64(3.552), 'std_dev_duration_us': np.float64(0.06787377590168706), 'min_duration_us': np.float64(2.56), 'max_duration_us': np.float64(3.872)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.6)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.12)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(34.75)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.59)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.56)}]","{'convNd': 'conv3d', 'input_shape': (1, 384, 3, 34, 34), 'filter_shape': (384, 384, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (1331712, 3468, 1156, 34, 1), 'weight_stride': (10368, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.5942050390630416,89.57366989745277
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((4, 192, 256, 256), (96, 192, 3, 3), (96,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((12582912, 65536, 256, 1), (1728, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",137032,125,9167.339,73.338712,13.792352377089504,86.973087744,144.31640625,574.737149817296,matrix_bf16,0.27423332863539235,0.0005406726881108903,157.61208168481525,0.3107446797489213,551.819515625,1.0861989041732607,68977.439453125,70.291,61.95,162.952,0.2741614035509857,0.2725963633485016,0.27612999449819775,157.57074366680303,156.67125692147783,158.7021660169598,551.962158203125,548.027099609375,555.131103515625,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.846), 'mean_duration_us': np.float64(3.342768), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.09118966046652441), 'min_duration_us': np.float64(3.168), 'max_duration_us': np.float64(3.776)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6291.21), 'mean_duration_us': np.float64(50.32968), 'median_duration_us': np.float64(50.271), 'std_dev_duration_us': np.float64(0.3359084303794716), 'min_duration_us': np.float64(49.728), 'max_duration_us': np.float64(51.04)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10548.186), 'mean_duration_us': np.float64(84.385488), 'median_duration_us': np.float64(84.415), 'std_dev_duration_us': np.float64(0.3284471492584459), 'min_duration_us': np.float64(83.551), 'max_duration_us': np.float64(85.12)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(11688.209), 'mean_duration_us': np.float64(93.505672), 'median_duration_us': np.float64(93.535), 'std_dev_duration_us': np.float64(0.44195545071420866), 'min_duration_us': np.float64(91.999), 'max_duration_us': np.float64(94.335)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(40031.989), 'mean_duration_us': np.float64(320.255912), 'median_duration_us': np.float64(320.349), 'std_dev_duration_us': np.float64(0.8807170262098912), 'min_duration_us': np.float64(317.213), 'max_duration_us': np.float64(321.981)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(50.33)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(84.39)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(93.51)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(320.26)}]","{'convNd': 'conv2d', 'input_shape': (4, 192, 256, 256), 'filter_shape': (96, 192, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (12582912, 65536, 256, 1), 'weight_stride': (1728, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.595587032243327,88.97946485838973
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 34, 34), (384, 384, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((1331712, 3468, 1156, 34, 1), (10368, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",133532,1260,103864.205,82.43190873015872,60.03890876600732,8.153726976,10.8837890625,714.457065948856,matrix_bf16,0.20897574737052427,0.002099692608335388,149.30419932081412,1.5001402203457994,54.61697222997272,0.5447566160218644,68817.38500976562,77.256,68.401,1545.719,0.20893158937318984,0.20275828929333586,0.2248721260751602,149.2726503276004,144.86209246532607,160.66147940934016,54.623046875,50.7509765625,56.2861328125,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(3194.8049999999994), 'mean_duration_us': np.float64(2.5355595238095234), 'median_duration_us': np.float64(2.528), 'std_dev_duration_us': np.float64(0.07527902876101565), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.817)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4483.563), 'mean_duration_us': np.float64(3.5583833333333335), 'median_duration_us': np.float64(3.552), 'std_dev_duration_us': np.float64(0.05549016679656959), 'min_duration_us': np.float64(3.455), 'max_duration_us': np.float64(3.872)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4533.608), 'mean_duration_us': np.float64(3.5981015873015876), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.036745856011098886), 'min_duration_us': np.float64(3.519), 'max_duration_us': np.float64(3.713)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(12770.155), 'mean_duration_us': np.float64(10.135043650793651), 'median_duration_us': np.float64(10.08), 'std_dev_duration_us': np.float64(0.21867246761905867), 'min_duration_us': np.float64(9.664), 'max_duration_us': np.float64(11.199)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(43835.218), 'mean_duration_us': np.float64(34.789855555555555), 'median_duration_us': np.float64(34.816), 'std_dev_duration_us': np.float64(0.5068618262227237), 'min_duration_us': np.float64(31.199), 'max_duration_us': np.float64(36.352)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.56)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.6)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.14)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(34.79)}]","{'convNd': 'conv3d', 'input_shape': (1, 384, 3, 34, 34), 'filter_shape': (384, 384, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (1331712, 3468, 1156, 34, 1), 'weight_stride': (10368, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.5942050390630416,89.57366989745277
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 1, 1536))","('c10::BFloat16', 'float')","((49545216, 1536, 1), (9216, 1536, 1))","('', '')",12051,300,16146.407,53.82135666666667,39.36189937937399,0.049545216,283.505859375,0.1666632220729565,vector_bf16,1.3898654744789216,0.008492424705007478,0.23163945822461557,0.001415374864548526,213.8973543294271,1.312406445133598,64169.206298828125,63.3455,11.481,114.131,1.3911355129208458,1.3593800801573674,1.4157286529951656,0.23185112692350318,0.22655866418082074,0.23594989888918086,213.694091796875,209.98193359375,218.68603515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(64169.207), 'mean_duration_us': np.float64(213.89735666666667), 'median_duration_us': np.float64(213.694), 'std_dev_duration_us': np.float64(1.3102123731627975), 'min_duration_us': np.float64(209.982), 'max_duration_us': np.float64(218.686)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(213.9)}]","{'shape_in1': (1, 32256, 1536), 'shape_in2': (1, 1, 1536), 'dtype_in1_in2_out': ('c10::BFloat16', 'float', None), 'stride_input1': (49545216, 1536, 1), 'stride_input2': (9216, 1536, 1), 'stride_output': None}",True,0.5540702502722051,90.12774014772498
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((4, 384, 128, 128), (192, 384, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((6291456, 16384, 128, 1), (3456, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",136643,125,21441.903,171.535224,77.68528321788473,86.973087744,73.265625,1132.0998080614204,matrix_bf16,0.15062348963971134,0.0016824667772654216,170.52082371065856,1.9047203156118981,510.106994140625,5.704400389555255,63763.374267578125,232.692,75.901,284.204,0.15053870481592255,0.14577664379505234,0.1542526050623827,170.42483882792072,165.0337104602168,174.62934458409754,510.3310546875,498.0439453125,527.001953125,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(5993.478000000001), 'mean_duration_us': np.float64(47.94782400000001), 'median_duration_us': np.float64(47.808), 'std_dev_duration_us': np.float64(0.5438342551035189), 'min_duration_us': np.float64(47.039), 'max_duration_us': np.float64(49.248)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(791.1539999999999), 'mean_duration_us': np.float64(6.329231999999999), 'median_duration_us': np.float64(6.272), 'std_dev_duration_us': np.float64(0.23541857653124995), 'min_duration_us': np.float64(6.08), 'max_duration_us': np.float64(7.424)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.383), 'mean_duration_us': np.float64(0.9630639999999999), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.19605047284819285), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.44)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(48729.125), 'mean_duration_us': np.float64(389.833), 'median_duration_us': np.float64(390.141), 'std_dev_duration_us': np.float64(5.700758677930507), 'min_duration_us': np.float64(376.861), 'max_duration_us': np.float64(405.852)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(3248.1550000000007), 'mean_duration_us': np.float64(25.985240000000005), 'median_duration_us': np.float64(25.951), 'std_dev_duration_us': np.float64(0.25695183673209965), 'min_duration_us': np.float64(25.375), 'max_duration_us': np.float64(26.719)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4881.072999999999), 'mean_duration_us': np.float64(39.048584), 'median_duration_us': np.float64(39.007), 'std_dev_duration_us': np.float64(0.3160215229126018), 'min_duration_us': np.float64(38.4), 'max_duration_us': np.float64(39.871)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(47.95)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.33)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(389.83)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.99)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(39.05)}]","{'convNd': 'conv2d', 'input_shape': (4, 384, 128, 128), 'filter_shape': (192, 384, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (6291456, 16384, 128, 1), 'weight_stride': (3456, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.5505660857656968,90.67830623349067
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((4, 384, 128, 128), (192, 384, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((6291456, 16384, 128, 1), (3456, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",136643,125,21441.903,171.535224,77.68528321788473,86.973087744,73.265625,1132.0998080614204,matrix_bf16,0.15062348963971134,0.0016824667772654216,170.52082371065856,1.9047203156118981,510.106994140625,5.704400389555255,63763.374267578125,232.692,75.901,284.204,0.15053870481592255,0.14577664379505234,0.1542526050623827,170.42483882792072,165.0337104602168,174.62934458409754,510.3310546875,498.0439453125,527.001953125,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.383), 'mean_duration_us': np.float64(0.9630639999999999), 'median_duration_us': np.float64(0.992), 'std_dev_duration_us': np.float64(0.19605047284819285), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.44)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(791.1539999999999), 'mean_duration_us': np.float64(6.329231999999999), 'median_duration_us': np.float64(6.272), 'std_dev_duration_us': np.float64(0.23541857653124995), 'min_duration_us': np.float64(6.08), 'max_duration_us': np.float64(7.424)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(3248.1550000000007), 'mean_duration_us': np.float64(25.985240000000005), 'median_duration_us': np.float64(25.951), 'std_dev_duration_us': np.float64(0.25695183673209965), 'min_duration_us': np.float64(25.375), 'max_duration_us': np.float64(26.719)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4881.072999999999), 'mean_duration_us': np.float64(39.048584), 'median_duration_us': np.float64(39.007), 'std_dev_duration_us': np.float64(0.3160215229126018), 'min_duration_us': np.float64(38.4), 'max_duration_us': np.float64(39.871)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(5993.478000000001), 'mean_duration_us': np.float64(47.94782400000001), 'median_duration_us': np.float64(47.808), 'std_dev_duration_us': np.float64(0.5438342551035189), 'min_duration_us': np.float64(47.039), 'max_duration_us': np.float64(49.248)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(48729.125), 'mean_duration_us': np.float64(389.833), 'median_duration_us': np.float64(390.141), 'std_dev_duration_us': np.float64(5.700758677930507), 'min_duration_us': np.float64(376.861), 'max_duration_us': np.float64(405.852)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.33)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.99)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(39.05)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(47.95)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(389.83)}]","{'convNd': 'conv2d', 'input_shape': (4, 384, 128, 128), 'filter_shape': (192, 384, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (6291456, 16384, 128, 1), 'weight_stride': (3456, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.5505660857656968,90.67830623349067
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 32256, 1536), ())","('c10::BFloat16', 'float', 'Scalar')","((49545216, 1, 32256), (49545216, 1, 32256), ())","('', '', 'False')",12057,600,22496.893,37.49482166666667,50.386264710093265,0.049545216,283.5,0.16666666666666666,vector_bf16,3.159800324466776,0.0160092216699683,0.5266333874111293,0.002668203611661383,94.08154256184896,0.4750764834872682,56448.925537109375,6.62,5.82,127.671,3.158727786509771,3.12053457206488,3.2133620859431287,0.5264546310849618,0.5200890953441467,0.5355603476571882,94.111083984375,92.510986328125,95.262939453125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 600, 'total_duration_us': np.float64(56448.924), 'mean_duration_us': np.float64(94.08154), 'median_duration_us': np.float64(94.111), 'std_dev_duration_us': np.float64(0.4746818882858989), 'min_duration_us': np.float64(92.511), 'max_duration_us': np.float64(95.263)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(94.08)}]","{'op_shape': (1, 32256, 1536), 'dtype_in_out': ('c10::BFloat16', 'float'), 'stride_input': (49545216, 1, 32256), 'stride_output': (49545216, 1, 32256)}",True,0.4874093370314048,91.16571557052208
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (1, 96, 4, 256, 256))","('c10::BFloat16', 'c10::BFloat16')","((25165824, 262144, 65536, 256, 1), (262144, 0, 65536, 256, 1))","('', '')",137104,750,7263.76,9.685013333333334,0.8576566249597444,0.025165824,144.0,0.16666666666666666,vector_bf16,2.1316155126044967,0.013025985363434432,0.35526925210074956,0.0021709975605723915,70.83856315104167,0.4332707878208309,53128.92236328125,9.52,8.801,19.791,2.1322469665515174,2.100884854763102,2.160529344283713,0.35537449442525293,0.3501474757938503,0.3600882240472856,70.81494140625,69.887939453125,71.8720703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(53128.925), 'mean_duration_us': np.float64(70.83856666666667), 'median_duration_us': np.float64(70.815), 'std_dev_duration_us': np.float64(0.43298778145449923), 'min_duration_us': np.float64(69.888), 'max_duration_us': np.float64(71.872)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(70.84)}]","{'shape_in1': (1, 96, 4, 256, 256), 'shape_in2': (1, 96, 4, 256, 256), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (25165824, 262144, 65536, 256, 1), 'stride_input2': (262144, 0, 65536, 256, 1), 'stride_output': None}",True,0.45874270554992647,91.624458276072
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (96, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((25165824, 262144, 65536, 256, 1), (1, 1, 1, 1))","('', '')",137106,750,7828.023,10.437364,52.8418213004558,0.025165824,96.00018310546875,0.2499995231637513,vector_bf16,1.452279397477974,0.009022255256026073,0.36306915687003355,0.002255559511868136,69.31679557291666,0.4290856758226848,51987.5966796875,8.15,7.62,1455.267,1.4489808609452588,1.4337892661594314,1.4727418573969697,0.36224452430971654,0.3584466328571628,0.3681847620925398,69.471923828125,68.35107421875,70.2080078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(51987.596), 'mean_duration_us': np.float64(69.31679466666667), 'median_duration_us': np.float64(69.472), 'std_dev_duration_us': np.float64(0.4287926280129146), 'min_duration_us': np.float64(68.351), 'max_duration_us': np.float64(70.208)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(69.32)}]","{'shape_in1': (1, 96, 4, 256, 256), 'shape_in2': (96, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (25165824, 262144, 65536, 256, 1), 'stride_input2': (1, 1, 1, 1), 'stride_output': None}",True,0.44888790690700736,92.07334618297901
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 1, 1536))","('float', 'float')","((49545216, 1536, 1), (9216, 1536, 1))","('', '')",12248,300,5157.42,17.1914,88.00174497487009,0.049545216,378.005859375,0.12499806240602669,vector_fp32,2.366521656130158,0.008607546290667234,0.2958106216581712,0.0010759266084035878,167.49185302734375,0.6091109088561037,50247.555908203125,11.16,10.4,1534.518,2.3656616018164236,2.340192810890284,2.388018162085835,0.29570311653539044,0.2925195670177988,0.29849764325113043,167.550537109375,165.98193359375,169.3740234375,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(50247.55500000001), 'mean_duration_us': np.float64(167.49185000000003), 'median_duration_us': np.float64(167.5505), 'std_dev_duration_us': np.float64(0.6080943793250078), 'min_duration_us': np.float64(165.982), 'max_duration_us': np.float64(169.374)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(167.49)}]","{'shape_in1': (1, 32256, 1536), 'shape_in2': (1, 1, 1536), 'dtype_in1_in2_out': ('float', 'float', None), 'stride_input1': (49545216, 1536, 1), 'stride_input2': (9216, 1536, 1), 'stride_output': None}",True,0.43386349128231555,92.50720967426132
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 6, 128, 128), (1, 192, 6, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19468800, 101400, 16900, 130, 1), (18874368, 98304, 16384, 128, 1), ())","('', '', 'False')",139000,744,13099.722,17.607153225806453,37.54874490809235,0.018874368,72.0,0.25,vector_bf16,1.318247713213966,0.009051256640656395,0.3295619283034915,0.0022628141601640987,57.27377417779738,0.3927322057546129,42611.68798828125,6.27,5.73,206.583,1.3173062633099042,1.2977637925677235,1.342060781668258,0.32932656582747605,0.32444094814193086,0.3355151954170645,57.31201171875,56.2548828125,58.175048828125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(42611.688), 'mean_duration_us': np.float64(57.27377419354839), 'median_duration_us': np.float64(57.312), 'std_dev_duration_us': np.float64(0.39246634343835934), 'min_duration_us': np.float64(56.255), 'max_duration_us': np.float64(58.175)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(57.27)}]","{'op_shape': (1, 192, 6, 128, 128), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (19468800, 101400, 16900, 130, 1), 'stride_output': (18874368, 98304, 16384, 128, 1)}",True,0.3679314423532036,92.87514111661453
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 6, 258, 258), (3, 96, 3, 3, 3), (3,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((38340864, 399384, 66564, 258, 1), (2592, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",137453,125,12133.03,97.06424000000001,20.060207641079536,4.076863488,74.64422607421875,52.08708301341569,matrix_bf16,0.2475071006172878,0.001217595388469356,12.891922896262498,0.06342099207595558,316.24153125,1.5569215941361938,39530.19140625,93.401,83.841,273.053,0.2475673426549774,0.24391422062822304,0.2506375573630539,12.895060728280534,12.704780258014843,13.054979256649123,316.156982421875,312.2841796875,320.89208984375,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10334.655999999999), 'mean_duration_us': np.float64(82.67724799999999), 'median_duration_us': np.float64(82.752), 'std_dev_duration_us': np.float64(0.500920475221367), 'min_duration_us': np.float64(81.279), 'max_duration_us': np.float64(83.615)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(218.17300000000006), 'mean_duration_us': np.float64(1.7453840000000005), 'median_duration_us': np.float64(1.761), 'std_dev_duration_us': np.float64(0.13080561357984605), 'min_duration_us': np.float64(1.599), 'max_duration_us': np.float64(2.368)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1335.496), 'mean_duration_us': np.float64(10.683968), 'median_duration_us': np.float64(10.655), 'std_dev_duration_us': np.float64(0.23739347711342013), 'min_duration_us': np.float64(10.24), 'max_duration_us': np.float64(11.648)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(25336.348999999995), 'mean_duration_us': np.float64(202.69079199999996), 'median_duration_us': np.float64(202.558), 'std_dev_duration_us': np.float64(1.5094199431357738), 'min_duration_us': np.float64(199.582), 'max_duration_us': np.float64(207.198)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1775.31), 'mean_duration_us': np.float64(14.20248), 'median_duration_us': np.float64(14.176), 'std_dev_duration_us': np.float64(0.14339755088564102), 'min_duration_us': np.float64(13.952), 'max_duration_us': np.float64(14.689)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(530.1970000000001), 'mean_duration_us': np.float64(4.241576000000001), 'median_duration_us': np.float64(4.224), 'std_dev_duration_us': np.float64(0.06692518378009889), 'min_duration_us': np.float64(4.095), 'max_duration_us': np.float64(4.448)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.68)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.75)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.68)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(202.69)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(14.2)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.24)}]","{'convNd': 'conv3d', 'input_shape': (1, 96, 6, 258, 258), 'filter_shape': (3, 96, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (38340864, 399384, 66564, 258, 1), 'weight_stride': (2592, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.3413242006418443,93.21646531725638
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 6, 258, 258), (3, 96, 3, 3, 3), (3,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((38340864, 399384, 66564, 258, 1), (2592, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",137453,125,12133.03,97.06424000000001,20.060207641079536,4.076863488,74.64422607421875,52.08708301341569,matrix_bf16,0.2475071006172878,0.001217595388469356,12.891922896262498,0.06342099207595558,316.24153125,1.5569215941361938,39530.19140625,93.401,83.841,273.053,0.2475673426549774,0.24391422062822304,0.2506375573630539,12.895060728280534,12.704780258014843,13.054979256649123,316.156982421875,312.2841796875,320.89208984375,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(218.17300000000006), 'mean_duration_us': np.float64(1.7453840000000005), 'median_duration_us': np.float64(1.761), 'std_dev_duration_us': np.float64(0.13080561357984605), 'min_duration_us': np.float64(1.599), 'max_duration_us': np.float64(2.368)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(530.1970000000001), 'mean_duration_us': np.float64(4.241576000000001), 'median_duration_us': np.float64(4.224), 'std_dev_duration_us': np.float64(0.06692518378009889), 'min_duration_us': np.float64(4.095), 'max_duration_us': np.float64(4.448)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1335.496), 'mean_duration_us': np.float64(10.683968), 'median_duration_us': np.float64(10.655), 'std_dev_duration_us': np.float64(0.23739347711342013), 'min_duration_us': np.float64(10.24), 'max_duration_us': np.float64(11.648)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1775.31), 'mean_duration_us': np.float64(14.20248), 'median_duration_us': np.float64(14.176), 'std_dev_duration_us': np.float64(0.14339755088564102), 'min_duration_us': np.float64(13.952), 'max_duration_us': np.float64(14.689)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10334.655999999999), 'mean_duration_us': np.float64(82.67724799999999), 'median_duration_us': np.float64(82.752), 'std_dev_duration_us': np.float64(0.500920475221367), 'min_duration_us': np.float64(81.279), 'max_duration_us': np.float64(83.615)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(25336.348999999995), 'mean_duration_us': np.float64(202.69079199999996), 'median_duration_us': np.float64(202.558), 'std_dev_duration_us': np.float64(1.5094199431357738), 'min_duration_us': np.float64(199.582), 'max_duration_us': np.float64(207.198)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.75)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.24)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.68)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(14.2)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(82.68)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(202.69)}]","{'convNd': 'conv3d', 'input_shape': (1, 96, 6, 258, 258), 'filter_shape': (3, 96, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (38340864, 399384, 66564, 258, 1), 'weight_stride': (2592, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.3413242006418443,93.21646531725638
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 2, 128, 128), (1, 192, 4, 128, 128)), ())","('TensorList', 'Scalar')","(((6291456, 32768, 16384, 128, 1), (12582912, 65536, 16384, 128, 1)), ())","('', '2')",139034,620,23422.673,37.77850483870967,90.28802035293499,,,,,,,,,53.94473876953125,0.37683968798089407,33445.738037109375,30.57,27.461,1656.899,,,,,,,54.01611328125,53.1201171875,54.84814453125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 620, 'total_duration_us': np.float64(11761.634), 'mean_duration_us': np.float64(18.97037741935484), 'median_duration_us': np.float64(18.848), 'std_dev_duration_us': np.float64(0.29345280349182434), 'min_duration_us': np.float64(18.592), 'max_duration_us': np.float64(20.032)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 620, 'total_duration_us': np.float64(21684.119000000002), 'mean_duration_us': np.float64(34.974385483870975), 'median_duration_us': np.float64(34.815), 'std_dev_duration_us': np.float64(0.35279103032759324), 'min_duration_us': np.float64(34.464), 'max_duration_us': np.float64(36.031)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(18.97)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(34.97)}]",,False,0.2887878705942203,93.5052531878506
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256),)","('c10::BFloat16',)","((25165824, 262144, 65536, 256, 1),)","('',)",137108,750,6851.061,9.134748,5.364641550291451,,,,,,,,,38.7168974609375,0.5573501419090436,29037.673095703125,8.5205,7.91,139.141,,,,,,,38.4635009765625,37.85595703125,39.968017578125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(29037.674), 'mean_duration_us': np.float64(38.716898666666665), 'median_duration_us': np.float64(38.463499999999996), 'std_dev_duration_us': np.float64(0.5569805936758983), 'min_duration_us': np.float64(37.856), 'max_duration_us': np.float64(39.968)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(38.72)}]",,False,0.2507263487806694,93.75597953663127
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (), ())","('c10::BFloat16', 'double', 'Scalar')","((25165824, 262144, 65536, 256, 1), (), ())","('', '', '1')",137107,750,6568.79,8.758386666666667,1.4759317565147583,0.025165824,96.00000762939453,0.24999998013178665,vector_bf16,2.848542984701269,0.03357955406556933,0.7121356895798576,0.008394887849226554,35.34346647135417,0.419860388620171,26507.599853515625,8.2655,7.5,20.74,2.8649630911150177,2.7642591390721374,2.896704321933399,0.7162407158570566,0.6910647298471441,0.7241760229310104,35.135986328125,34.7509765625,36.416015625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(26507.590000000004), 'mean_duration_us': np.float64(35.343453333333336), 'median_duration_us': np.float64(35.136), 'std_dev_duration_us': np.float64(0.41959080044994096), 'min_duration_us': np.float64(34.751), 'max_duration_us': np.float64(36.416)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(35.34)}]","{'shape_in1': (1, 96, 4, 256, 256), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (25165824, 262144, 65536, 256, 1), 'stride_input2': (), 'stride_output': None}",True,0.22888038253982718,93.9848599191711
@@ -47,9 +47,9 @@ aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128)
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (1, 192, 4, 128, 128))","('c10::BFloat16', 'c10::BFloat16')","((12582912, 65536, 16384, 128, 1), (65536, 0, 16384, 128, 1))","('', '')",136715,625,6121.902,9.7950432,1.1627224875552495,0.012582912,72.0,0.16666666666666666,vector_bf16,2.178241025226258,0.016823586304894732,0.36304017087104296,0.0028039310508157517,34.661909375,0.2691766171051939,21663.693359375,9.59,8.84,20.04,2.1804939029191934,2.1160225077972643,2.2173772259771547,0.36341565048653224,0.35267041796621074,0.3695628709961925,34.6240234375,34.048095703125,35.678955078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(21663.693), 'mean_duration_us': np.float64(34.6619088), 'median_duration_us': np.float64(34.624), 'std_dev_duration_us': np.float64(0.2689628786330191), 'min_duration_us': np.float64(34.048), 'max_duration_us': np.float64(35.679)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(34.66)}]","{'shape_in1': (1, 192, 4, 128, 128), 'shape_in2': (1, 192, 4, 128, 128), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (12582912, 65536, 16384, 128, 1), 'stride_input2': (65536, 0, 16384, 128, 1), 'stride_output': None}",True,0.18705557842731835,95.02730364457305
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 6, 258, 258), ())","('c10::BFloat16', 'Scalar')","((38340864, 399384, 66564, 258, 1), ())","('', '0.')",137075,875,5735.163,6.554472,1.0197237500367515,,,,,,,,,24.239363839285716,0.13724639994841434,21209.443359375,6.4,5.94,29.05,,,,,,,24.19189453125,24.094970703125,25.02392578125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 875, 'total_duration_us': np.float64(21209.476000000002), 'mean_duration_us': np.float64(24.239401142857144), 'median_duration_us': np.float64(24.192), 'std_dev_duration_us': np.float64(0.13713148726202126), 'min_duration_us': np.float64(24.095), 'max_duration_us': np.float64(25.024)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(24.24)}]",,False,0.18313334803515677,95.21043699260821
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((25165824, 262144, 65536, 256, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",137099,750,12730.707,16.974276,53.3590515271745,,,,,,,,,24.948663736979167,1.2396991635897927,18711.497802734375,14.71,13.25,1475.138,,,,,,,24.9759521484375,22.944091796875,27.77490234375,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(18711.502), 'mean_duration_us': np.float64(24.948669333333335), 'median_duration_us': np.float64(24.976), 'std_dev_duration_us': np.float64(1.2388720019946462), 'min_duration_us': np.float64(22.944), 'max_duration_us': np.float64(27.775)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(24.95)}]",,False,0.16156478891524306,95.37200178152345
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 4, 66, 66), (384, 192, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((3345408, 17424, 4356, 66, 1), (5184, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136255,125,12631.751,101.054008,132.74162151443755,32.614907904,16.177734375,1922.6425208257879,matrix_bf16,0.1252841779437451,0.0028561089303392683,240.87668770134866,5.491276473580529,135.47070703125,3.0907594754963634,16933.83837890625,86.491,78.721,1566.869,0.12535150398337375,0.11827671682157084,0.13386876092455838,241.00613160789746,227.4038449848228,257.3817719638176,135.328125,126.718017578125,143.4228515625,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(724.149), 'mean_duration_us': np.float64(5.793192), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.04352244404901916), 'min_duration_us': np.float64(5.696), 'max_duration_us': np.float64(5.952)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(830.36), 'mean_duration_us': np.float64(6.64288), 'median_duration_us': np.float64(6.624), 'std_dev_duration_us': np.float64(0.12525868273297458), 'min_duration_us': np.float64(6.432), 'max_duration_us': np.float64(7.168)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.00300000000003), 'mean_duration_us': np.float64(0.9600240000000002), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.20049907586819443), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.377)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(13353.03), 'mean_duration_us': np.float64(106.82424), 'median_duration_us': np.float64(106.559), 'std_dev_duration_us': np.float64(3.1057160215319106), 'min_duration_us': np.float64(98.015), 'max_duration_us': np.float64(114.783)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(747.1940000000001), 'mean_duration_us': np.float64(5.977552), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.11338362887119116), 'min_duration_us': np.float64(5.728), 'max_duration_us': np.float64(6.272)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1159.095), 'mean_duration_us': np.float64(9.27276), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.0993545087049401), 'min_duration_us': np.float64(9.088), 'max_duration_us': np.float64(9.536)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.79)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.64)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(106.82)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.27)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 4, 66, 66), 'filter_shape': (384, 192, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (3345408, 17424, 4356, 66, 1), 'weight_stride': (5184, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.1462155543108378,95.5182173358343
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 4, 66, 66), (384, 192, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((3345408, 17424, 4356, 66, 1), (5184, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136255,125,12631.751,101.054008,132.74162151443755,32.614907904,16.177734375,1922.6425208257879,matrix_bf16,0.1252841779437451,0.0028561089303392683,240.87668770134866,5.491276473580529,135.47070703125,3.0907594754963634,16933.83837890625,86.491,78.721,1566.869,0.12535150398337375,0.11827671682157084,0.13386876092455838,241.00613160789746,227.4038449848228,257.3817719638176,135.328125,126.718017578125,143.4228515625,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(120.00300000000003), 'mean_duration_us': np.float64(0.9600240000000002), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.20049907586819443), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(1.377)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(724.149), 'mean_duration_us': np.float64(5.793192), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.04352244404901916), 'min_duration_us': np.float64(5.696), 'max_duration_us': np.float64(5.952)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(747.1940000000001), 'mean_duration_us': np.float64(5.977552), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.11338362887119116), 'min_duration_us': np.float64(5.728), 'max_duration_us': np.float64(6.272)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(830.36), 'mean_duration_us': np.float64(6.64288), 'median_duration_us': np.float64(6.624), 'std_dev_duration_us': np.float64(0.12525868273297458), 'min_duration_us': np.float64(6.432), 'max_duration_us': np.float64(7.168)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1159.095), 'mean_duration_us': np.float64(9.27276), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.0993545087049401), 'min_duration_us': np.float64(9.088), 'max_duration_us': np.float64(9.536)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(13353.03), 'mean_duration_us': np.float64(106.82424), 'median_duration_us': np.float64(106.559), 'std_dev_duration_us': np.float64(3.1057160215319106), 'min_duration_us': np.float64(98.015), 'max_duration_us': np.float64(114.783)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.79)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.27)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(106.82)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 4, 66, 66), 'filter_shape': (384, 192, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (3345408, 17424, 4356, 66, 1), 'weight_stride': (5184, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.1462155543108378,95.5182173358343
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((393216, 1024, 1024, 32, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",133488,1260,20392.743,16.184716666666667,40.9821643558875,,,,,,,,,11.3769775390625,0.5715271891366651,14334.99169921875,14.76,13.02,1468.227,,,,,,,11.552001953125,9.6630859375,12.256103515625,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(14335.005000000001), 'mean_duration_us': np.float64(11.376988095238096), 'median_duration_us': np.float64(11.552), 'std_dev_duration_us': np.float64(0.5712999329164498), 'min_duration_us': np.float64(9.663), 'max_duration_us': np.float64(12.256)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(11.38)}]",,False,0.12377576249655382,95.64199309833084
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 64, 64), (1, 384, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((3145728, 8192, 4096, 64, 1), (3145728, 8192, 4096, 64, 1)), ())","('', '2')",138597,744,30465.296,40.947978494623655,15.356301923795725,,,,,,,,,19.073629399781588,0.41710258242543374,14190.7802734375,36.4205,30.34,191.022,,,,,,,19.072021484375,17.952880859375,20.671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(8001.236999999999), 'mean_duration_us': np.float64(10.754350806451612), 'median_duration_us': np.float64(10.752), 'std_dev_duration_us': np.float64(0.2538392711751816), 'min_duration_us': np.float64(10.176), 'max_duration_us': np.float64(11.711)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(6189.5509999999995), 'mean_duration_us': np.float64(8.319288978494622), 'median_duration_us': np.float64(8.32), 'std_dev_duration_us': np.float64(0.3178681695481003), 'min_duration_us': np.float64(7.616), 'max_duration_us': np.float64(9.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.75)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.32)}]",,False,0.12253056615732175,95.76452366448817
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 64, 64), (1, 384, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((3145728, 8192, 4096, 64, 1), (3145728, 8192, 4096, 64, 1)), ())","('', '2')",138597,744,30465.296,40.947978494623655,15.356301923795725,,,,,,,,,19.073629399781588,0.41710258242543374,14190.7802734375,36.4205,30.34,191.022,,,,,,,19.072021484375,17.952880859375,20.671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(6189.5509999999995), 'mean_duration_us': np.float64(8.319288978494622), 'median_duration_us': np.float64(8.32), 'std_dev_duration_us': np.float64(0.3178681695481003), 'min_duration_us': np.float64(7.616), 'max_duration_us': np.float64(9.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 744, 'total_duration_us': np.float64(8001.236999999999), 'mean_duration_us': np.float64(10.754350806451612), 'median_duration_us': np.float64(10.752), 'std_dev_duration_us': np.float64(0.2538392711751816), 'min_duration_us': np.float64(10.176), 'max_duration_us': np.float64(11.711)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.75)}]",,False,0.12253056615732175,95.76452366448817
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 96, 2, 256, 256), (1, 96, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((25165824, 65536, 6291456, 256, 1), (25165824, 65536, 6291456, 256, 1)), ())","('', '2')",139348,124,4464.147,36.00118548387097,6.113880417710509,,,,,,,,,106.87098743069556,0.42004603444373795,13252.00244140625,34.700500000000005,30.66,93.501,,,,,,,106.815185546875,105.69482421875,108.031005859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(4627.055999999999), 'mean_duration_us': np.float64(37.314967741935476), 'median_duration_us': np.float64(37.072), 'std_dev_duration_us': np.float64(0.5594973253054326), 'min_duration_us': np.float64(36.415), 'max_duration_us': np.float64(38.431)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(8624.944999999998), 'mean_duration_us': np.float64(69.5560080645161), 'median_duration_us': np.float64(69.6), 'std_dev_duration_us': np.float64(0.33994125431694233), 'min_duration_us': np.float64(68.767), 'max_duration_us': np.float64(70.335)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(37.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(69.56)}]",,False,0.11442467084795352,95.87894833533612
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (1, 96, 4, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((25165824, 262144, 65536, 256, 1), (25165824, 262144, 65536, 256, 1), ())","('', '', '1')",137279,250,2441.401,9.765604,1.7099816338007103,0.025165824,144.0,0.16666666666666666,vector_bf16,2.884056184582788,0.030684922179747446,0.480676030763798,0.0051141536966245885,52.3609619140625,0.5566739769206366,13090.240478515625,9.184999999999999,8.521,20.2,2.8824612151282825,2.8204434024707794,2.9546597616304067,0.4804102025213805,0.47007390041179664,0.4924432936050678,52.384033203125,51.10400390625,53.535888671875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 250, 'total_duration_us': np.float64(13090.241), 'mean_duration_us': np.float64(52.360964), 'median_duration_us': np.float64(52.384), 'std_dev_duration_us': np.float64(0.5555667040995166), 'min_duration_us': np.float64(51.104), 'max_duration_us': np.float64(53.536)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(52.36)}]","{'shape_in1': (1, 96, 4, 256, 256), 'shape_in2': (1, 96, 4, 256, 256), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (25165824, 262144, 65536, 256, 1), 'stride_input2': (25165824, 262144, 65536, 256, 1), 'stride_output': None}",True,0.11302793405731991,95.99197626939343
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((4, 192, 256, 256), (4, 192, 256, 256), ())","('c10::BFloat16', 'float', 'Scalar')","((12582912, 65536, 256, 1), (12582912, 65536, 256, 1), ())","('', '', 'False')",137030,125,827.54,6.6203199999999995,0.676002583980555,0.050331648,288.0,0.16666666666666666,vector_bf16,2.9944194865723364,0.01033653572587373,0.4990699144287228,0.001722755954312299,100.852087890625,0.34809279409233,12606.510986328125,6.54,6.0,13.3,2.9949797128578624,2.9639698684922444,3.0286535817597744,0.49916328547631045,0.4939949780820408,0.5047755969599624,100.83203125,99.7109375,101.886962890625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(12606.512), 'mean_duration_us': np.float64(100.852096), 'median_duration_us': np.float64(100.832), 'std_dev_duration_us': np.float64(0.34670645621908985), 'min_duration_us': np.float64(99.711), 'max_duration_us': np.float64(101.887)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(100.85)}]","{'op_shape': (4, 192, 256, 256), 'dtype_in_out': ('c10::BFloat16', 'float'), 'stride_input': (12582912, 65536, 256, 1), 'stride_output': (12582912, 65536, 256, 1)}",True,0.10885116242090231,96.10082743181434
@@ -57,10 +57,10 @@ aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128
 aten::_upsample_nearest_exact2d,other,python3,CPU,thread 10586 (python3),"((4, 384, 64, 64), (), (), ())","('float', 'ScalarList', 'Scalar', 'Scalar')","((4096, 16384, 64, 1), (), (), ())","('', '[128, 128]', '2.', '2.')",136631,125,10731.682999999999,85.85346399999999,170.85205090131691,,,,,,,,,93.117369140625,0.4902879924684799,11639.671142578125,96.511,26.69,1938.973,,,,,,,93.087890625,91.934814453125,94.3349609375,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(2676.493000000001), 'mean_duration_us': np.float64(21.411944000000005), 'median_duration_us': np.float64(21.408), 'std_dev_duration_us': np.float64(0.27509772238969915), 'min_duration_us': np.float64(20.895), 'max_duration_us': np.float64(22.4)}, {'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_frame<float, &at::native::nearest_neighbor_exact_compute_source_index>(float const*, float*, unsigned long, unsigned long, unsigned long, unsigned long, unsigned long, float, float)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(8963.181000000002), 'mean_duration_us': np.float64(71.70544800000002), 'median_duration_us': np.float64(71.711), 'std_dev_duration_us': np.float64(0.4596889114346783), 'min_duration_us': np.float64(70.527), 'max_duration_us': np.float64(72.671)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(21.41)}, {'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_f...', 'stream': 7, 'mean_duration_us': np.float64(71.71)}]",,False,0.10050296512974326,96.30720074454099
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), ())","('c10::BFloat16', 'double')","((12582912, 65536, 16384, 128, 1), ())","('', '')",136716,625,5991.733,9.5867728,1.4199838691626228,0.012582912,48.00000762939453,0.24999996026357646,vector_bf16,2.8005770819255353,0.04767359612933915,0.7001441591964668,0.011918397137956572,17.97717265625,0.31104177892413853,11235.73291015625,9.12,8.45,19.97,2.8088514765927295,2.6613454375710006,2.8914635966282836,0.7022127575344705,0.6653362536404007,0.7228657842606488,17.9189453125,17.406982421875,18.912109375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(11235.734), 'mean_duration_us': np.float64(17.9771744), 'median_duration_us': np.float64(17.919), 'std_dev_duration_us': np.float64(0.3107914799099864), 'min_duration_us': np.float64(17.407), 'max_duration_us': np.float64(18.912)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(17.98)}]","{'shape_in1': (1, 192, 4, 128, 128), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (12582912, 65536, 16384, 128, 1), 'stride_input2': (), 'stride_output': None}",True,0.09701515266576725,96.40421589720675
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (), ())","('c10::BFloat16', 'double', 'Scalar')","((12582912, 65536, 16384, 128, 1), (), ())","('', '', '1')",136718,625,5486.136,8.7778176,1.820661650302453,0.012582912,48.00000762939453,0.24999996026357646,vector_bf16,2.817918982766169,0.0517773874788557,0.7044796337175202,0.012944344812265734,17.86745234375,0.33622489686365903,11167.15771484375,8.31,7.64,37.71,2.8339880813251765,2.639031003673882,2.9289697237518824,0.7084969077187435,0.659757646052817,0.7322423145511892,17.760009765625,17.18408203125,19.072021484375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(11167.151000000002), 'mean_duration_us': np.float64(17.867441600000003), 'median_duration_us': np.float64(17.76), 'std_dev_duration_us': np.float64(0.33596789874843624), 'min_duration_us': np.float64(17.184), 'max_duration_us': np.float64(19.072)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(17.87)}]","{'shape_in1': (1, 192, 4, 128, 128), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (12582912, 65536, 16384, 128, 1), 'stride_input2': (), 'stride_output': None}",True,0.0964230388183196,96.50063893602507
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 4, 64, 64), (768, 384, 3, 1, 1), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((6291456, 16384, 4096, 64, 1), (1152, 3, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136579,125,22941.933,183.53546400000002,92.39270611935318,14.495514624,25.6875,538.1605839416059,matrix_bf16,0.31667515481207814,0.001552105045884047,170.4220862334664,0.8352817578316736,85.058578125,0.4172317483537168,10632.322265625,251.493,71.691,284.784,0.31680030212431154,0.31314599996593984,0.32029243828983006,170.48943558409667,168.52283420064828,172.3687656221357,85.02294921875,84.095947265625,86.01513671875,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1159.1540000000002), 'mean_duration_us': np.float64(9.273232000000002), 'median_duration_us': np.float64(9.216), 'std_dev_duration_us': np.float64(0.16966169330759392), 'min_duration_us': np.float64(9.056), 'max_duration_us': np.float64(9.728)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1985.772), 'mean_duration_us': np.float64(15.886175999999999), 'median_duration_us': np.float64(15.872), 'std_dev_duration_us': np.float64(0.11880539139281523), 'min_duration_us': np.float64(15.68), 'max_duration_us': np.float64(16.256)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4227.709), 'mean_duration_us': np.float64(33.821672), 'median_duration_us': np.float64(33.76), 'std_dev_duration_us': np.float64(0.3127105441394648), 'min_duration_us': np.float64(33.184), 'max_duration_us': np.float64(34.623)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1304.312), 'mean_duration_us': np.float64(10.434496), 'median_duration_us': np.float64(10.432), 'std_dev_duration_us': np.float64(0.16263139298425758), 'min_duration_us': np.float64(10.079), 'max_duration_us': np.float64(10.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1955.373), 'mean_duration_us': np.float64(15.642984), 'median_duration_us': np.float64(15.616), 'std_dev_duration_us': np.float64(0.09303487380547155), 'min_duration_us': np.float64(15.456), 'max_duration_us': np.float64(15.904)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.27)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.89)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(33.82)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.64)}]","{'convNd': 'conv3d', 'input_shape': (1, 384, 4, 64, 64), 'filter_shape': (768, 384, 3, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (6291456, 16384, 4096, 64, 1), 'weight_stride': (1152, 3, 1, 1, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.09180499180955534,96.59244392783462
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 4, 64, 64), (768, 384, 3, 1, 1), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((6291456, 16384, 4096, 64, 1), (1152, 3, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136579,125,22941.933,183.53546400000002,92.39270611935318,14.495514624,25.6875,538.1605839416059,matrix_bf16,0.31667515481207814,0.001552105045884047,170.4220862334664,0.8352817578316736,85.058578125,0.4172317483537168,10632.322265625,251.493,71.691,284.784,0.31680030212431154,0.31314599996593984,0.32029243828983006,170.48943558409667,168.52283420064828,172.3687656221357,85.02294921875,84.095947265625,86.01513671875,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1159.1540000000002), 'mean_duration_us': np.float64(9.273232000000002), 'median_duration_us': np.float64(9.216), 'std_dev_duration_us': np.float64(0.16966169330759392), 'min_duration_us': np.float64(9.056), 'max_duration_us': np.float64(9.728)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1304.312), 'mean_duration_us': np.float64(10.434496), 'median_duration_us': np.float64(10.432), 'std_dev_duration_us': np.float64(0.16263139298425758), 'min_duration_us': np.float64(10.079), 'max_duration_us': np.float64(10.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1955.373), 'mean_duration_us': np.float64(15.642984), 'median_duration_us': np.float64(15.616), 'std_dev_duration_us': np.float64(0.09303487380547155), 'min_duration_us': np.float64(15.456), 'max_duration_us': np.float64(15.904)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1985.772), 'mean_duration_us': np.float64(15.886175999999999), 'median_duration_us': np.float64(15.872), 'std_dev_duration_us': np.float64(0.11880539139281523), 'min_duration_us': np.float64(15.68), 'max_duration_us': np.float64(16.256)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4227.709), 'mean_duration_us': np.float64(33.821672), 'median_duration_us': np.float64(33.76), 'std_dev_duration_us': np.float64(0.3127105441394648), 'min_duration_us': np.float64(33.184), 'max_duration_us': np.float64(34.623)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.27)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.64)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.89)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(33.82)}]","{'convNd': 'conv3d', 'input_shape': (1, 384, 4, 64, 64), 'filter_shape': (768, 384, 3, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (6291456, 16384, 4096, 64, 1), 'weight_stride': (1152, 3, 1, 1, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.09180499180955534,96.59244392783462
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (1, 96, 4, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((25165824, 262144, 65536, 256, 1), (25165824, 65536, 6291456, 256, 1), ())","('', '', '1')",137159,125,1251.172,10.009376,1.0116669146480715,0.025165824,144.0,0.16666666666666666,vector_bf16,1.8213777554314938,0.0064345791118548415,0.30356295923858234,0.0010724298519758104,82.902521484375,0.29210381160061255,10362.815185546875,9.8,9.2,17.42,1.821171457919983,1.8072183231032215,1.8410673873183045,0.3035285763199972,0.3012030538505369,0.3068445645530508,82.910888671875,82.014892578125,83.551025390625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(10362.815999999999), 'mean_duration_us': np.float64(82.90252799999999), 'median_duration_us': np.float64(82.911), 'std_dev_duration_us': np.float64(0.2909223284933629), 'min_duration_us': np.float64(82.015), 'max_duration_us': np.float64(83.551)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(82.9)}]","{'shape_in1': (1, 96, 4, 256, 256), 'shape_in2': (1, 96, 4, 256, 256), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (25165824, 262144, 65536, 256, 1), 'stride_input2': (25165824, 65536, 6291456, 256, 1), 'stride_output': None}",True,0.0894779277250531,96.68192185555968
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((786432, 2048, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",137586,1364,38637.923,28.32692302052786,10.913236089017863,,,,,,,,,7.580523448955279,0.11454798207399505,10339.833984375,26.0555,22.9,245.653,,,,,,,7.583984375,7.168212890625,8.094970703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(6239.612), 'mean_duration_us': np.float64(4.5744956011730205), 'median_duration_us': np.float64(4.576), 'std_dev_duration_us': np.float64(0.1068676895035594), 'min_duration_us': np.float64(4.224), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(4100.179), 'mean_duration_us': np.float64(3.0059963343108507), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.04217361287495253), 'min_duration_us': np.float64(2.912), 'max_duration_us': np.float64(3.328)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.57)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.01)}]",,False,0.08927949609999045,96.77120135165967
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((786432, 2048, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",137578,1364,50618.361,37.1102353372434,40.724691140831396,,,,,,,,,7.477196657063325,0.11605631160938776,10198.896240234375,34.321,29.291,1502.137,,,,,,,7.487060546875,7.072021484375,7.968994140625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(6098.029), 'mean_duration_us': np.float64(4.470695747800587), 'median_duration_us': np.float64(4.479), 'std_dev_duration_us': np.float64(0.10711114193577995), 'min_duration_us': np.float64(4.096), 'max_duration_us': np.float64(4.896)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(4100.797), 'mean_duration_us': np.float64(3.0064494134897357), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.04071097892020462), 'min_duration_us': np.float64(2.912), 'max_duration_us': np.float64(3.296)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.47)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.01)}]",,False,0.08806256642806738,96.85926391808773
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((786432, 2048, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",137586,1364,38637.923,28.32692302052786,10.913236089017863,,,,,,,,,7.580523448955279,0.11454798207399505,10339.833984375,26.0555,22.9,245.653,,,,,,,7.583984375,7.168212890625,8.094970703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(4100.179), 'mean_duration_us': np.float64(3.0059963343108507), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.04217361287495253), 'min_duration_us': np.float64(2.912), 'max_duration_us': np.float64(3.328)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(6239.612), 'mean_duration_us': np.float64(4.5744956011730205), 'median_duration_us': np.float64(4.576), 'std_dev_duration_us': np.float64(0.1068676895035594), 'min_duration_us': np.float64(4.224), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.01)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.57)}]",,False,0.08927949609999045,96.77120135165967
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((786432, 2048, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",137578,1364,50618.361,37.1102353372434,40.724691140831396,,,,,,,,,7.477196657063325,0.11605631160938776,10198.896240234375,34.321,29.291,1502.137,,,,,,,7.487060546875,7.072021484375,7.968994140625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(4100.797), 'mean_duration_us': np.float64(3.0064494134897357), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.04071097892020462), 'min_duration_us': np.float64(2.912), 'max_duration_us': np.float64(3.296)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1364, 'total_duration_us': np.float64(6098.029), 'mean_duration_us': np.float64(4.470695747800587), 'median_duration_us': np.float64(4.479), 'std_dev_duration_us': np.float64(0.10711114193577995), 'min_duration_us': np.float64(4.096), 'max_duration_us': np.float64(4.896)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.01)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.47)}]",,False,0.08806256642806738,96.85926391808773
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 4, 64, 64), (1, 384, 4, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6690816, 17424, 4356, 66, 1), (6291456, 16384, 4096, 64, 1), ())","('', '', 'False')",138620,620,18739.235,30.224572580645162,57.59633569955405,0.006291456,24.0,0.25,vector_bf16,1.5815318627997312,0.02123494371024196,0.3953829656999328,0.00530873592756049,15.915161920362904,0.21283878186289495,9867.400390625,6.35,5.671,202.122,1.5791772390844747,1.515291434216329,1.6383885417468014,0.3947943097711187,0.37882285855408226,0.40959713543670034,15.93603515625,15.360107421875,16.60791015625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 620, 'total_duration_us': np.float64(9867.403000000002), 'mean_duration_us': np.float64(15.915166129032261), 'median_duration_us': np.float64(15.936), 'std_dev_duration_us': np.float64(0.21267278322278413), 'min_duration_us': np.float64(15.36), 'max_duration_us': np.float64(16.608)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.92)}]","{'op_shape': (1, 384, 4, 64, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (6690816, 17424, 4356, 66, 1), 'stride_output': (6291456, 16384, 4096, 64, 1)}",True,0.08520025911664568,96.94446417720438
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 6, 130, 130), ())","('c10::BFloat16', 'Scalar')","((19468800, 101400, 16900, 130, 1), ())","('', '0.')",136686,750,5089.452,6.785936,2.6786990233782886,,,,,,,,,13.109687825520833,0.0850294343573056,9832.265869140625,6.51,5.9,76.711,,,,,,,13.087890625,12.799072265625,13.7919921875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(9832.29), 'mean_duration_us': np.float64(13.109720000000001), 'median_duration_us': np.float64(13.088), 'std_dev_duration_us': np.float64(0.08493556145690684), 'min_duration_us': np.float64(12.799), 'max_duration_us': np.float64(13.792)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(13.11)}]",,False,0.08489688941278202,97.02936106661716
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (1, 96, 4, 256, 256))","('c10::BFloat16', 'c10::BFloat16')","((25165824, 65536, 6291456, 256, 1), (262144, 0, 65536, 256, 1))","('', '')",137046,125,1342.742,10.741935999999999,0.5391673949173258,0.025165824,144.0,0.16666666666666666,vector_bf16,1.9200281104832435,0.006779832410485941,0.32000468508054064,0.0011299720684143175,78.64301953125,0.27718200836862,9830.37744140625,10.65,10.061,13.64,1.9189309735093174,1.9057569119156934,1.9362326033397825,0.3198218289182196,0.31762615198594896,0.32270543388996376,78.68701171875,77.98388671875,79.23095703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(9830.376), 'mean_duration_us': np.float64(78.643008), 'median_duration_us': np.float64(78.687), 'std_dev_duration_us': np.float64(0.276085769166033), 'min_duration_us': np.float64(77.984), 'max_duration_us': np.float64(79.231)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(78.64)}]","{'shape_in1': (1, 96, 4, 256, 256), 'shape_in2': (1, 96, 4, 256, 256), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (25165824, 65536, 6291456, 256, 1), 'stride_input2': (262144, 0, 65536, 256, 1), 'stride_output': None}",True,0.08488058374706234,97.11424165036422
@@ -68,7 +68,7 @@ aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 2, 128, 12
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((1, 64, 512, 512), (1, 64, 512, 512), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((16777216, 262144, 512, 1), (64, 1, 32768, 64), ())","('', '', '1')",193,48,331.115,6.898229166666667,0.7197767750766317,0.016777216,96.0,0.16666666666666666,vector_bf16,0.5103901447944608,0.0017005945685354803,0.08506502413241011,0.0002834324280892468,197.23028055826822,0.6578699450156928,9467.053466796875,6.6655,6.32,10.44,0.5106328318231035,0.5067266165196199,0.5138449062093805,0.08510547197051724,0.08445443608660332,0.0856408177015634,197.1343994140625,195.902099609375,198.654052734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(9467.053), 'mean_duration_us': np.float64(197.23027083333332), 'median_duration_us': np.float64(197.1345), 'std_dev_duration_us': np.float64(0.6509906790033976), 'min_duration_us': np.float64(195.902), 'max_duration_us': np.float64(198.654)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(197.23)}]","{'shape_in1': (1, 64, 512, 512), 'shape_in2': (1, 64, 512, 512), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (16777216, 262144, 512, 1), 'stride_input2': (64, 1, 32768, 64), 'stride_output': None}",True,0.08174345587603575,97.27976739220215
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (96, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((25165824, 65536, 6291456, 256, 1), (1, 1, 1, 1))","('', '')",137048,125,1092.239,8.737912,1.000079166350215,0.025165824,96.00018310546875,0.2499995231637513,vector_bf16,1.3450569532944459,0.0066650047624964345,0.3362635969516996,0.0016662480125082607,74.841388671875,0.36938522209163926,9355.173583984375,8.47,8.07,16.38,1.343754552366054,1.3346507069429292,1.360631634892454,0.33593799734063357,0.3336620403258959,0.3401572599246289,74.912109375,73.98291015625,75.423095703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(9355.173999999997), 'mean_duration_us': np.float64(74.84139199999998), 'median_duration_us': np.float64(74.912), 'std_dev_duration_us': np.float64(0.36790824717040527), 'min_duration_us': np.float64(73.983), 'max_duration_us': np.float64(75.423)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(74.84)}]","{'shape_in1': (1, 96, 4, 256, 256), 'shape_in2': (96, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (25165824, 65536, 6291456, 256, 1), 'stride_input2': (1, 1, 1, 1), 'stride_output': None}",True,0.08077742686857584,97.36054481907072
 aten::_scaled_dot_product_efficient_attention,SDPA_fwd,python3,CPU,thread 10586 (python3),"((1, 1, 1024, 384), (1, 1, 1024, 384), (1, 1, 1024, 384), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', '', 'Scalar', 'Scalar', 'Scalar', '')","((1179648, 1179648, 1152, 1), (1179648, 1179648, 1152, 1), (1179648, 1179648, 1152, 1), (), (), (), (), ())","('', '', '', '', 'False', '0.', 'False', '')",133631,126,6402.754,50.815507936507935,16.794607518722685,1.610612736,3.0,512.0,,0.044532436349023,0.00026101428220545985,22.800607410699776,0.13363931248919544,70.64143492683532,0.4140213207002293,8900.82080078125,46.2255,39.85,158.251,0.04453243201562104,0.04380742228840701,0.04519781213562604,22.800605191997974,22.42940021166439,23.141279813440534,70.6390380859375,69.59912109375,71.80810546875,"[{'name': 'fmha_cutlassF_bf16_aligned_32x128_gmem_sm80(PyTorchMemEffAttention::AttentionKernel<cutlass::bfloat16_t, cutlass::arch::Sm80, true, 32, 128, 65536, true, true>::Params)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(8900.819), 'mean_duration_us': np.float64(70.64142063492064), 'median_duration_us': np.float64(70.63900000000001), 'std_dev_duration_us': np.float64(0.41238584477528567), 'min_duration_us': np.float64(69.599), 'max_duration_us': np.float64(71.808)}]","[{'name': 'fmha_cutlassF_bf16_aligned_32x128_gmem_sm80(PyTorchMemEffAttenti...', 'stream': 7, 'mean_duration_us': np.float64(70.64)}]","{'B': 1, 'N_Q': 1024, 'H_Q': 1, 'N_KV': 1024, 'H_KV': 1, 'd_h_qk': 384, 'd_h_v': 384, 'dropout': 0.0, 'causal': False, 'flash_impl': False}",True,0.07685430899286314,97.43739912806359
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((2, 384, 64, 64), (192, 384, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((1572864, 4096, 64, 1), (3456, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",136177,125,9678.569,77.428552,8.872773405794867,10.871635968,10.265625,1009.972602739726,matrix_bf16,0.15316259910177193,0.0022933030552192567,154.6900288571978,2.3161732555507557,70.295919921875,1.062975123078855,8786.989990234375,75.251,69.371,140.202,0.153322079118678,0.1461291437775708,0.15696834200108226,154.85109930495742,147.58643167716082,158.5337249185725,70.20703125,68.576171875,73.662841796875,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(714.037), 'mean_duration_us': np.float64(5.712296), 'median_duration_us': np.float64(5.696), 'std_dev_duration_us': np.float64(0.061330713219397696), 'min_duration_us': np.float64(5.599), 'max_duration_us': np.float64(5.887)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(734.327), 'mean_duration_us': np.float64(5.874616), 'median_duration_us': np.float64(5.856), 'std_dev_duration_us': np.float64(0.12301159516078154), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(6.24)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6021.096), 'mean_duration_us': np.float64(48.16876799999999), 'median_duration_us': np.float64(48.031), 'std_dev_duration_us': np.float64(1.01678098436979), 'min_duration_us': np.float64(46.624), 'max_duration_us': np.float64(51.296)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(493.9740000000001), 'mean_duration_us': np.float64(3.9517920000000006), 'median_duration_us': np.float64(3.936), 'std_dev_duration_us': np.float64(0.09127902681339241), 'min_duration_us': np.float64(3.712), 'max_duration_us': np.float64(4.224)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(823.546), 'mean_duration_us': np.float64(6.588368), 'median_duration_us': np.float64(6.561), 'std_dev_duration_us': np.float64(0.08364960595244895), 'min_duration_us': np.float64(6.4), 'max_duration_us': np.float64(6.848)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.71)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.87)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(48.17)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.95)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.59)}]","{'convNd': 'conv2d', 'input_shape': (2, 384, 64, 64), 'filter_shape': (192, 384, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (1572864, 4096, 64, 1), 'weight_stride': (3456, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.07587143466222729,97.51327056272582
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((2, 384, 64, 64), (192, 384, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((1572864, 4096, 64, 1), (3456, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",136177,125,9678.569,77.428552,8.872773405794867,10.871635968,10.265625,1009.972602739726,matrix_bf16,0.15316259910177193,0.0022933030552192567,154.6900288571978,2.3161732555507557,70.295919921875,1.062975123078855,8786.989990234375,75.251,69.371,140.202,0.153322079118678,0.1461291437775708,0.15696834200108226,154.85109930495742,147.58643167716082,158.5337249185725,70.20703125,68.576171875,73.662841796875,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(493.9740000000001), 'mean_duration_us': np.float64(3.9517920000000006), 'median_duration_us': np.float64(3.936), 'std_dev_duration_us': np.float64(0.09127902681339241), 'min_duration_us': np.float64(3.712), 'max_duration_us': np.float64(4.224)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(714.037), 'mean_duration_us': np.float64(5.712296), 'median_duration_us': np.float64(5.696), 'std_dev_duration_us': np.float64(0.061330713219397696), 'min_duration_us': np.float64(5.599), 'max_duration_us': np.float64(5.887)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(734.327), 'mean_duration_us': np.float64(5.874616), 'median_duration_us': np.float64(5.856), 'std_dev_duration_us': np.float64(0.12301159516078154), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(6.24)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(823.546), 'mean_duration_us': np.float64(6.588368), 'median_duration_us': np.float64(6.561), 'std_dev_duration_us': np.float64(0.08364960595244895), 'min_duration_us': np.float64(6.4), 'max_duration_us': np.float64(6.848)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(6021.096), 'mean_duration_us': np.float64(48.16876799999999), 'median_duration_us': np.float64(48.031), 'std_dev_duration_us': np.float64(1.01678098436979), 'min_duration_us': np.float64(46.624), 'max_duration_us': np.float64(51.296)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.95)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.71)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(5.87)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.59)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(48.17)}]","{'convNd': 'conv2d', 'input_shape': (2, 384, 64, 64), 'filter_shape': (192, 384, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (1572864, 4096, 64, 1), 'weight_stride': (3456, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.07587143466222729,97.51327056272582
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((12582912, 65536, 16384, 128, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",136710,625,9487.329,15.1797264,3.3364274258991924,,,,,,,,,12.046916796875,2.244274140384505,7529.322998046875,14.92,13.33,81.171,,,,,,,10.39990234375,9.887939453125,16.447998046875,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(7529.325000000001), 'mean_duration_us': np.float64(12.046920000000002), 'median_duration_us': np.float64(10.4), 'std_dev_duration_us': np.float64(2.242482709141812), 'min_duration_us': np.float64(9.888), 'max_duration_us': np.float64(16.448)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(12.05)}]",,False,0.06501208474483325,97.57828264747066
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((3145728, 8192, 4096, 64, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",136261,625,10904.753,17.4476048,7.725889281378418,,,,,,,,,11.755144140625,0.16558117324212981,7346.965087890625,14.94,13.24,43.981,,,,,,,11.743896484375,11.360107421875,12.22412109375,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(7346.969999999999), 'mean_duration_us': np.float64(11.755151999999999), 'median_duration_us': np.float64(11.744), 'std_dev_duration_us': np.float64(0.16544031218539224), 'min_duration_us': np.float64(11.36), 'max_duration_us': np.float64(12.224)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(11.76)}]",,False,0.06343751185002662,97.64172015932068
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 2, 128, 128), (1, 192, 4, 128, 128)), ())","('TensorList', 'Scalar')","(((12582912, 16384, 3145728, 128, 1), (12582912, 16384, 3145728, 128, 1)), ())","('', '2')",138977,124,12448.651,100.39234677419354,57.767677339247875,,,,,,,,,57.03428797568044,0.3816765707982526,7072.251708984375,143.85649999999998,31.331,171.522,,,,,,,57.0880126953125,56.35205078125,57.951904296875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(2522.916), 'mean_duration_us': np.float64(20.34609677419355), 'median_duration_us': np.float64(20.255), 'std_dev_duration_us': np.float64(0.27235459036487725), 'min_duration_us': np.float64(19.936), 'max_duration_us': np.float64(21.024)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(4549.335999999999), 'mean_duration_us': np.float64(36.68819354838709), 'median_duration_us': np.float64(36.544), 'std_dev_duration_us': np.float64(0.35302091863037643), 'min_duration_us': np.float64(36.159), 'max_duration_us': np.float64(37.535)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(20.35)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(36.69)}]",,False,0.061065493877809796,97.70278565319849
@@ -80,7 +80,7 @@ aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128)
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 3, 32, 32), (1, 384, 3, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1331712, 3468, 1156, 34, 1), (1179648, 3072, 1024, 32, 1), ())","('', '', 'False')",137609,1240,7758.13,6.256556451612903,0.5288344700659493,0.001179648,4.5,0.25,vector_bf16,0.9646919909012525,0.014855199007441462,0.24117299772531312,0.0037137997518603655,4.892459795551916,0.0757944864681429,6066.650146484375,6.18,5.73,14.06,0.9637654748179915,0.9102078191579542,1.0030803836412705,0.24094136870449787,0.22755195478948856,0.2507700959103176,4.89599609375,4.7041015625,5.18408203125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1240, 'total_duration_us': np.float64(6066.648999999999), 'mean_duration_us': np.float64(4.892458870967742), 'median_duration_us': np.float64(4.896), 'std_dev_duration_us': np.float64(0.07580069315379813), 'min_duration_us': np.float64(4.704), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.89)}]","{'op_shape': (1, 384, 3, 32, 32), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (1331712, 3468, 1156, 34, 1), 'stride_output': (1179648, 3072, 1024, 32, 1)}",True,0.052382607777991065,98.03104587673187
 aten::mm,GEMM,python3,CPU,thread 10586 (python3),"((512, 4096), (4096, 4096))","('c10::BFloat16', 'c10::BFloat16')","((4096, 1), (1, 4096))","('', '')",77,192,8040.803,41.879182291666666,106.47227864690899,17.179869184,40.0,409.6,matrix_bf16,1.3387112394781984,0.04694098358016499,548.33612369027,19.22702687443559,31.37018585205078,1.126722931713206,6023.07568359375,35.7605,22.18,1498.848,1.351256031461381,1.2136275720199494,1.4201173121719364,553.4744704865817,497.1018534993713,581.6800510656251,31.0400390625,29.534912109375,34.56005859375,"[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 192, 'total_duration_us': np.float64(6023.076), 'mean_duration_us': np.float64(31.3701875), 'median_duration_us': np.float64(31.04), 'std_dev_duration_us': np.float64(1.1237826868855696), 'min_duration_us': np.float64(29.535), 'max_duration_us': np.float64(34.56)}]","[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(31.37)}]","{'M': 512, 'N': 4096, 'K': 4096, 'bias': False, 'stride_A': (4096, 1), 'stride_B': (1, 4096), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.05200636323716173,98.08305223996904
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64), (384, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((3145728, 8192, 4096, 64, 1), (1, 1, 1, 1))","('', '')",136268,625,9075.711,14.5211376,14.709127691313626,0.003145728,12.000732421875,0.24998474214220323,vector_bf16,1.3670114335850339,0.012991124790125945,0.34173200073019827,0.003247582980796759,9.20608359375,0.08802088745502001,5753.80224609375,8.25,7.63,70.121,1.3701619777765963,1.310786665988505,1.3946304800043292,0.34251958870753363,0.3276766667005747,0.3486363409275394,9.18408203125,9.02294921875,9.60009765625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(5753.777), 'mean_duration_us': np.float64(9.2060432), 'median_duration_us': np.float64(9.184), 'std_dev_duration_us': np.float64(0.08795475049001056), 'min_duration_us': np.float64(9.023), 'max_duration_us': np.float64(9.6)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.21)}]","{'shape_in1': (1, 384, 2, 64, 64), 'shape_in2': (384, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (3145728, 8192, 4096, 64, 1), 'stride_input2': (1, 1, 1, 1), 'stride_output': None}",True,0.049681316544009674,98.13273355651305
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 32, 32), (768, 384, 3, 1, 1), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((1179648, 3072, 1024, 32, 1), (1152, 3, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136113,125,10065.179,80.521432,8.44938261090237,1.811939328,5.4375,317.7931034482759,matrix_bf16,0.13147732023217665,0.0005511163491296946,41.782585629646206,0.1751409749510105,43.366654296875,0.1819913322180833,5420.831787109375,78.921,72.531,142.112,0.13150228146379642,0.129866455385642,0.1326706660379824,41.79051813690855,41.27066389083023,42.1618226967602,43.357666015625,42.975830078125,43.90380859375,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.598), 'mean_duration_us': np.float64(3.340784), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.03836719098396442), 'min_duration_us': np.float64(3.232), 'max_duration_us': np.float64(3.425)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1974.3799999999999), 'mean_duration_us': np.float64(15.795039999999998), 'median_duration_us': np.float64(15.776), 'std_dev_duration_us': np.float64(0.09840547952222992), 'min_duration_us': np.float64(15.584), 'max_duration_us': np.float64(16.127)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(2155.7850000000008), 'mean_duration_us': np.float64(17.246280000000006), 'median_duration_us': np.float64(17.248), 'std_dev_duration_us': np.float64(0.07720762656629208), 'min_duration_us': np.float64(17.088), 'max_duration_us': np.float64(17.696)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(355.5439999999999), 'mean_duration_us': np.float64(2.8443519999999993), 'median_duration_us': np.float64(2.848), 'std_dev_duration_us': np.float64(0.0836824718564169), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(3.104)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(517.5329999999999), 'mean_duration_us': np.float64(4.140263999999999), 'median_duration_us': np.float64(4.159), 'std_dev_duration_us': np.float64(0.05790352583392486), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(4.288)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(17.25)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.84)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.14)}]","{'convNd': 'conv3d', 'input_shape': (1, 384, 3, 32, 32), 'filter_shape': (768, 384, 3, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (1179648, 3072, 1024, 32, 1), 'weight_stride': (1152, 3, 1, 1, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.046806276689479134,98.17953983320253
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 32, 32), (768, 384, 3, 1, 1), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((1179648, 3072, 1024, 32, 1), (1152, 3, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136113,125,10065.179,80.521432,8.44938261090237,1.811939328,5.4375,317.7931034482759,matrix_bf16,0.13147732023217665,0.0005511163491296946,41.782585629646206,0.1751409749510105,43.366654296875,0.1819913322180833,5420.831787109375,78.921,72.531,142.112,0.13150228146379642,0.129866455385642,0.1326706660379824,41.79051813690855,41.27066389083023,42.1618226967602,43.357666015625,42.975830078125,43.90380859375,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(355.5439999999999), 'mean_duration_us': np.float64(2.8443519999999993), 'median_duration_us': np.float64(2.848), 'std_dev_duration_us': np.float64(0.0836824718564169), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(3.104)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(417.598), 'mean_duration_us': np.float64(3.340784), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.03836719098396442), 'min_duration_us': np.float64(3.232), 'max_duration_us': np.float64(3.425)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(517.5329999999999), 'mean_duration_us': np.float64(4.140263999999999), 'median_duration_us': np.float64(4.159), 'std_dev_duration_us': np.float64(0.05790352583392486), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(4.288)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1974.3799999999999), 'mean_duration_us': np.float64(15.795039999999998), 'median_duration_us': np.float64(15.776), 'std_dev_duration_us': np.float64(0.09840547952222992), 'min_duration_us': np.float64(15.584), 'max_duration_us': np.float64(16.127)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize256x128x64_warpgroupsize2x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(2155.7850000000008), 'mean_duration_us': np.float64(17.246280000000006), 'median_duration_us': np.float64(17.248), 'std_dev_duration_us': np.float64(0.07720762656629208), 'min_duration_us': np.float64(17.088), 'max_duration_us': np.float64(17.696)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.84)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.14)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(15.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(17.25)}]","{'convNd': 'conv3d', 'input_shape': (1, 384, 3, 32, 32), 'filter_shape': (768, 384, 3, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (1179648, 3072, 1024, 32, 1), 'weight_stride': (1152, 3, 1, 1, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.046806276689479134,98.17953983320253
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (1, 192, 4, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((12582912, 65536, 16384, 128, 1), (12582912, 16384, 3145728, 128, 1), ())","('', '', '1')",136770,125,1250.993,10.007944,0.7794557893067902,0.012582912,72.0,0.16666666666666666,vector_bf16,1.762680284541191,0.012645174451751947,0.29378004742353186,0.0021075290752919835,42.8332578125,0.308287363638673,5354.1572265625,9.84,9.26,16.591,1.7659823955044884,1.7309594981948042,1.7846433474263752,0.2943303992507481,0.2884932496991341,0.2974405579043959,42.7509765625,42.303955078125,43.615966796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(5354.158000000001), 'mean_duration_us': np.float64(42.83326400000001), 'median_duration_us': np.float64(42.751), 'std_dev_duration_us': np.float64(0.3070680222751956), 'min_duration_us': np.float64(42.304), 'max_duration_us': np.float64(43.616)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(42.83)}]","{'shape_in1': (1, 192, 4, 128, 128), 'shape_in2': (1, 192, 4, 128, 128), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (12582912, 65536, 16384, 128, 1), 'stride_input2': (12582912, 16384, 3145728, 128, 1), 'stride_output': None}",True,0.046230573909598074,98.22577040711212
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((4, 192, 128, 128), (4, 192, 128, 128), ())","('float', 'c10::BFloat16', 'Scalar')","((16384, 65536, 128, 1), (16384, 65536, 128, 1), ())","('', '', 'False')",137018,125,1314.681,10.517448,0.5373229409198066,0.012582912,72.0,0.16666666666666666,vector_fp32,1.859257051919652,0.016423624804260434,0.30987617531994205,0.002737270800710063,40.60941796875,0.3605953246313821,5076.17724609375,10.4,9.54,13.421,1.8651020211577665,1.820447788071985,1.8844693129227656,0.31085033685962776,0.30340796467866415,0.314078218820461,40.47900390625,40.06298828125,41.471923828125,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(5076.174999999999), 'mean_duration_us': np.float64(40.609399999999994), 'median_duration_us': np.float64(40.479), 'std_dev_duration_us': np.float64(0.3591505979390822), 'min_duration_us': np.float64(40.063), 'max_duration_us': np.float64(41.472)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(40.61)}]","{'op_shape': (4, 192, 128, 128), 'dtype_in_out': ('float', 'c10::BFloat16'), 'stride_input': (16384, 65536, 128, 1), 'stride_output': (16384, 65536, 128, 1)}",True,0.04383035040314345,98.26960075751526
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 128, 128), (1, 192, 4, 128, 128))","('c10::BFloat16', 'c10::BFloat16')","((12582912, 16384, 3145728, 128, 1), (65536, 0, 16384, 128, 1))","('', '')",136657,125,2909.889,23.279112,11.777842547942685,0.012582912,72.0,0.16666666666666666,vector_bf16,1.9111488744907352,0.009149718988801533,0.31852481241512254,0.0015249531648002153,39.504615234375,0.19049170059148235,4938.076904296875,27.671,10.33,40.901,1.9119547252796172,1.8724993206779414,1.9259583173707515,0.3186591208799362,0.3120832201129903,0.32099305289512525,39.487060546875,39.199951171875,40.319091796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4938.076000000001), 'mean_duration_us': np.float64(39.504608000000005), 'median_duration_us': np.float64(39.487), 'std_dev_duration_us': np.float64(0.1897263248365917), 'min_duration_us': np.float64(39.2), 'max_duration_us': np.float64(40.319)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(39.5)}]","{'shape_in1': (1, 192, 4, 128, 128), 'shape_in2': (1, 192, 4, 128, 128), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (12582912, 16384, 3145728, 128, 1), 'stride_input2': (65536, 0, 16384, 128, 1), 'stride_output': None}",True,0.042637920336520224,98.31223867785178
@@ -91,14 +91,14 @@ aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32),
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (), ())","('c10::BFloat16', 'double', 'Scalar')","((25165824, 65536, 6291456, 256, 1), (), ())","('', '', '1')",137049,125,1138.664,9.109312,1.0294230878538,0.025165824,96.00000762939453,0.24999998013178665,vector_bf16,2.854407809201876,0.0317387704258178,0.7136018955884857,0.0079346919758618,35.270287109375,0.39636543101500077,4408.785888671875,8.68,8.17,12.43,2.8676530663365374,2.764333269757837,2.896704321933399,0.7169132096089914,0.6910832625170962,0.7241760229310104,35.10302734375,34.7509765625,36.4150390625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4408.782999999999), 'mean_duration_us': np.float64(35.270264), 'median_duration_us': np.float64(35.103), 'std_dev_duration_us': np.float64(0.39478529139774193), 'min_duration_us': np.float64(34.751), 'max_duration_us': np.float64(36.415)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(35.27)}]","{'shape_in1': (1, 96, 4, 256, 256), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (25165824, 65536, 6291456, 256, 1), 'stride_input2': (), 'stride_output': None}",True,0.03806774684663043,98.51384367848063
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), ())","('c10::BFloat16', 'double')","((25165824, 65536, 6291456, 256, 1), ())","('', '')",137047,125,1225.616,9.804928,1.2810579686211476,0.025165824,96.00000762939453,0.24999998013178665,vector_bf16,2.8603574791074453,0.030698140823414582,0.7150893129466688,0.0076745345959364315,35.19661328125,0.38066973231558143,4399.57666015625,9.51,8.851,18.231,2.8754325049618883,2.7863014811731315,2.896704321933399,0.7188580691107656,0.6965753149344507,0.7241760229310104,35.008056640625,34.7509765625,36.1279296875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(4399.5779999999995), 'mean_duration_us': np.float64(35.19662399999999), 'median_duration_us': np.float64(35.008), 'std_dev_duration_us': np.float64(0.3791522894880105), 'min_duration_us': np.float64(34.751), 'max_duration_us': np.float64(36.128)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(35.2)}]","{'shape_in1': (1, 96, 4, 256, 256), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (25165824, 65536, 6291456, 256, 1), 'stride_input2': (), 'stride_output': None}",True,0.037988229585271385,98.55183190806589
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (384, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((393216, 1024, 1024, 32, 1), (1, 1, 1, 1))","('', '')",133495,1260,12213.59,9.693325396825397,41.26575915564248,0.000393216,1.500732421875,0.24987798926305516,vector_bf16,0.46235935079163537,0.0114868282093333,0.11553342489278541,0.0028703055359583455,3.405628410218254,0.08649731780561377,4291.091796875,8.16,7.49,1471.158,0.46391224067943,0.4167591278934437,0.486901093216498,0.11592145789549446,0.10413893288503814,0.1216658661429219,3.39208984375,3.23193359375,3.77587890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(4291.061), 'mean_duration_us': np.float64(3.405603968253968), 'median_duration_us': np.float64(3.392), 'std_dev_duration_us': np.float64(0.08644539234261618), 'min_duration_us': np.float64(3.232), 'max_duration_us': np.float64(3.776)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.41)}]","{'shape_in1': (1, 384, 1, 32, 32), 'shape_in2': (384, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (393216, 1024, 1024, 32, 1), 'stride_input2': (1, 1, 1, 1), 'stride_output': None}",True,0.03705151493947896,98.58888342300537
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1536, 16, 1, 2, 2), (1536,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((2064384, 129024, 1024, 32, 1), (64, 4, 4, 2, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 2, 2]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",11770,10,2484.06,248.406,31.136808535522356,6.341787648,98.625,61.32319391634981,matrix_bf16,0.29432080846053194,0.002429381320169562,18.04869201084205,0.1489774217935162,351.3926025390625,2.9030591533399024,3513.926025390625,251.4725,199.903,281.503,0.29419852117792245,0.28942935553340227,0.29873995509497675,18.041192964097085,17.74873249445898,18.319688196850894,351.51708984375,346.17333984375,357.309326171875,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(84.416), 'mean_duration_us': np.float64(8.4416), 'median_duration_us': np.float64(8.416), 'std_dev_duration_us': np.float64(0.16860083036568962), 'min_duration_us': np.float64(8.16), 'max_duration_us': np.float64(8.704)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(43.648), 'mean_duration_us': np.float64(4.364800000000001), 'median_duration_us': np.float64(4.368), 'std_dev_duration_us': np.float64(0.07039999999999988), 'min_duration_us': np.float64(4.256), 'max_duration_us': np.float64(4.512)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(7.296999999999999), 'mean_duration_us': np.float64(0.7296999999999999), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.012853404218338436), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.737)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(762.554), 'mean_duration_us': np.float64(76.2554), 'median_duration_us': np.float64(76.1115), 'std_dev_duration_us': np.float64(1.3488461142769423), 'min_duration_us': np.float64(73.663), 'max_duration_us': np.float64(78.912)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1104.886), 'mean_duration_us': np.float64(110.48859999999999), 'median_duration_us': np.float64(110.431), 'std_dev_duration_us': np.float64(0.2850695353768956), 'min_duration_us': np.float64(110.111), 'max_duration_us': np.float64(110.975)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1511.123), 'mean_duration_us': np.float64(151.1123), 'median_duration_us': np.float64(151.135), 'std_dev_duration_us': np.float64(1.1013839521256856), 'min_duration_us': np.float64(148.959), 'max_duration_us': np.float64(153.534)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(8.44)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.36)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(76.26)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(110.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(151.11)}]","{'convNd': 'conv3d', 'input_shape': (1, 16, 126, 32, 32), 'filter_shape': (1536, 16, 1, 2, 2), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (2064384, 129024, 1024, 32, 1), 'weight_stride': (64, 4, 4, 2, 1), 'bias': False, 'stride': (1, 2, 2), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.030341062086064085,98.61922448509144
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1536, 16, 1, 2, 2), (1536,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((2064384, 129024, 1024, 32, 1), (64, 4, 4, 2, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 2, 2]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",11770,10,2484.06,248.406,31.136808535522356,6.341787648,98.625,61.32319391634981,matrix_bf16,0.29432080846053194,0.002429381320169562,18.04869201084205,0.1489774217935162,351.3926025390625,2.9030591533399024,3513.926025390625,251.4725,199.903,281.503,0.29419852117792245,0.28942935553340227,0.29873995509497675,18.041192964097085,17.74873249445898,18.319688196850894,351.51708984375,346.17333984375,357.309326171875,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(7.296999999999999), 'mean_duration_us': np.float64(0.7296999999999999), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.012853404218338436), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.737)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(43.648), 'mean_duration_us': np.float64(4.364800000000001), 'median_duration_us': np.float64(4.368), 'std_dev_duration_us': np.float64(0.07039999999999988), 'min_duration_us': np.float64(4.256), 'max_duration_us': np.float64(4.512)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(84.416), 'mean_duration_us': np.float64(8.4416), 'median_duration_us': np.float64(8.416), 'std_dev_duration_us': np.float64(0.16860083036568962), 'min_duration_us': np.float64(8.16), 'max_duration_us': np.float64(8.704)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(762.554), 'mean_duration_us': np.float64(76.2554), 'median_duration_us': np.float64(76.1115), 'std_dev_duration_us': np.float64(1.3488461142769423), 'min_duration_us': np.float64(73.663), 'max_duration_us': np.float64(78.912)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1104.886), 'mean_duration_us': np.float64(110.48859999999999), 'median_duration_us': np.float64(110.431), 'std_dev_duration_us': np.float64(0.2850695353768956), 'min_duration_us': np.float64(110.111), 'max_duration_us': np.float64(110.975)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1511.123), 'mean_duration_us': np.float64(151.1123), 'median_duration_us': np.float64(151.135), 'std_dev_duration_us': np.float64(1.1013839521256856), 'min_duration_us': np.float64(148.959), 'max_duration_us': np.float64(153.534)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.36)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(8.44)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(76.26)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(110.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(151.11)}]","{'convNd': 'conv3d', 'input_shape': (1, 16, 126, 32, 32), 'filter_shape': (1536, 16, 1, 2, 2), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (2064384, 129024, 1024, 32, 1), 'weight_stride': (64, 4, 4, 2, 1), 'bias': False, 'stride': (1, 2, 2), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.030341062086064085,98.61922448509144
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64),)","('c10::BFloat16',)","((3145728, 8192, 4096, 64, 1),)","('',)",136270,625,9579.717,15.327547200000001,22.25407710617379,,,,,,,,,5.55972578125,0.06293178273687887,3474.82861328125,8.57,7.96,99.641,,,,,,,5.535888671875,5.470947265625,5.823974609375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(3474.8329999999996), 'mean_duration_us': np.float64(5.559732799999999), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.06282354179891485), 'min_duration_us': np.float64(5.471), 'max_duration_us': np.float64(5.824)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(5.56)}]",,False,0.030003474726613875,98.64922795981805
 aten::mm,GEMM,python3,CPU,thread 10586 (python3),"((512, 10240), (10240, 4096))","('c10::BFloat16', 'c10::BFloat16')","((10240, 1), (1, 10240))","('', '')",289,48,1597.278,33.276625,2.6353552437267873,42.94967296,94.0,435.74468085106383,matrix_bf16,1.3724764570786148,0.01613094400980978,598.0493157653199,7.028973049380965,71.82601420084636,0.846523518853255,3447.648681640625,33.0355,29.011,39.51,1.3711251186526003,1.3328587891965415,1.4019999854982375,597.4604772341544,580.7861277179825,610.9140362341257,71.8870849609375,70.303955078125,73.950927734375,"[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(3447.648), 'mean_duration_us': np.float64(71.82600000000001), 'median_duration_us': np.float64(71.887), 'std_dev_duration_us': np.float64(0.8376598354940977), 'min_duration_us': np.float64(70.304), 'max_duration_us': np.float64(73.951)}]","[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(71.83)}]","{'M': 512, 'N': 4096, 'K': 10240, 'bias': False, 'stride_A': (10240, 1), 'stride_B': (1, 10240), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.02976878908228205,98.67899674890033
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 4, 66, 66), ())","('c10::BFloat16', 'Scalar')","((6690816, 17424, 4356, 66, 1), ())","('', '0.')",136296,625,12954.463,20.7271408,46.15295399603662,,,,,,,,,5.31633359375,0.06651587998524273,3322.70849609375,6.46,5.95,186.783,,,,,,,5.31201171875,5.215087890625,5.568115234375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(3322.7019999999998), 'mean_duration_us': np.float64(5.316323199999999), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.06649757545775631), 'min_duration_us': np.float64(5.215), 'max_duration_us': np.float64(5.568)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(5.32)}]",,False,0.028689990638794412,98.70768673953913
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64), ())","('c10::BFloat16', 'double')","((3145728, 8192, 4096, 64, 1), ())","('', '')",136267,625,8004.826,12.8077216,7.520131897280622,0.003145728,12.000007629394531,0.24999984105438167,vector_bf16,2.3908406192747966,0.026366114053941625,0.5977097748050586,0.0065915243227070985,5.2636234375,0.059448436124279705,3289.7646484375,9.2,8.48,35.301,2.3976386453293634,2.259816736966721,2.4272223942733353,0.5994092802381839,0.5649538250537116,0.6068052127719695,5.248046875,5.18408203125,5.568115234375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(3289.74), 'mean_duration_us': np.float64(5.263584), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.05943141041570529), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.568)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(5.26)}]","{'shape_in1': (1, 384, 2, 64, 64), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (3145728, 8192, 4096, 64, 1), 'stride_input2': (), 'stride_output': None}",True,0.02840553635038036,98.7360922758895
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64), (), ())","('c10::BFloat16', 'double', 'Scalar')","((3145728, 8192, 4096, 64, 1), (), ())","('', '', '1')",136269,625,9268.452,14.829523199999999,16.24265923345745,0.003145728,12.000007629394531,0.24999984105438167,vector_bf16,2.395279259382274,0.02884453593639032,0.5988194341264254,0.007211129399384996,5.253988671875,0.06425591865551121,3283.742919921875,8.34,7.49,68.081,2.3976386453293634,2.2861799290276794,2.4428685335102855,0.5994092802381839,0.5715446188786373,0.6107167450943218,5.248046875,5.15087890625,5.50390625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 625, 'total_duration_us': np.float64(3283.716), 'mean_duration_us': np.float64(5.2539456), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.06423713755017425), 'min_duration_us': np.float64(5.151), 'max_duration_us': np.float64(5.504)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]","{'shape_in1': (1, 384, 2, 64, 64), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (3145728, 8192, 4096, 64, 1), 'stride_input2': (), 'stride_output': None}",True,0.028353541619291024,98.7644458175088
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 96, 4, 256, 256), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((25165824, 65536, 6291456, 256, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",137041,125,2127.008,17.016064,0.9093391409646474,,,,,,,,,25.725466796875,0.4690794869817903,3215.683349609375,16.82,15.89,23.19,,,,,,,25.72802734375,24.638916015625,27.135986328125,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(3215.6830000000004), 'mean_duration_us': np.float64(25.725464000000002), 'median_duration_us': np.float64(25.728), 'std_dev_duration_us': np.float64(0.46719119073886595), 'min_duration_us': np.float64(24.639), 'max_duration_us': np.float64(27.136)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(25.73)}]",,False,0.027765879945857573,98.79221169745466
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 3, 34, 34), (384, 16, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((55488, 3468, 1156, 34, 1), (432, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",133482,126,10031.601,79.61588095238096,16.892966758320288,0.339738624,1.1722412109375,276.39362699156516,matrix_bf16,0.05112145511943368,0.0011534954534109603,14.129644397546787,0.31881879208653585,24.056532118055557,0.5427397457118388,3031.123046875,76.181,70.361,201.173,0.051183996262822454,0.04887003546780816,0.05342406875988158,14.14693037100421,13.507366354153925,14.766072133190434,24.0150146484375,23.008056640625,25.152099609375,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(267.73800000000006), 'mean_duration_us': np.float64(2.1249047619047623), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.020600673656510377), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.176)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(338.046), 'mean_duration_us': np.float64(2.6829047619047617), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.07396314274867424), 'min_duration_us': np.float64(2.464), 'max_duration_us': np.float64(2.912)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(1659.4389999999999), 'mean_duration_us': np.float64(13.170150793650793), 'median_duration_us': np.float64(13.1675), 'std_dev_duration_us': np.float64(0.5961994987759045), 'min_duration_us': np.float64(12.032), 'max_duration_us': np.float64(14.368)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(333.2749999999999), 'mean_duration_us': np.float64(2.645039682539682), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.07982435090074093), 'min_duration_us': np.float64(2.431), 'max_duration_us': np.float64(2.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(432.60799999999995), 'mean_duration_us': np.float64(3.433396825396825), 'median_duration_us': np.float64(3.424), 'std_dev_duration_us': np.float64(0.02585892108046477), 'min_duration_us': np.float64(3.391), 'max_duration_us': np.float64(3.52)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.12)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.68)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(13.17)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.65)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.43)}]","{'convNd': 'conv3d', 'input_shape': (1, 16, 3, 34, 34), 'filter_shape': (384, 16, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (55488, 3468, 1156, 34, 1), 'weight_stride': (432, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.02617229044982828,98.81838398790448
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 3, 34, 34), (384, 16, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((55488, 3468, 1156, 34, 1), (432, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",133482,126,10031.601,79.61588095238096,16.892966758320288,0.339738624,1.1722412109375,276.39362699156516,matrix_bf16,0.05112145511943368,0.0011534954534109603,14.129644397546787,0.31881879208653585,24.056532118055557,0.5427397457118388,3031.123046875,76.181,70.361,201.173,0.051183996262822454,0.04887003546780816,0.05342406875988158,14.14693037100421,13.507366354153925,14.766072133190434,24.0150146484375,23.008056640625,25.152099609375,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(267.73800000000006), 'mean_duration_us': np.float64(2.1249047619047623), 'median_duration_us': np.float64(2.112), 'std_dev_duration_us': np.float64(0.020600673656510377), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.176)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(333.2749999999999), 'mean_duration_us': np.float64(2.645039682539682), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.07982435090074093), 'min_duration_us': np.float64(2.431), 'max_duration_us': np.float64(2.88)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(338.046), 'mean_duration_us': np.float64(2.6829047619047617), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.07396314274867424), 'min_duration_us': np.float64(2.464), 'max_duration_us': np.float64(2.912)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(432.60799999999995), 'mean_duration_us': np.float64(3.433396825396825), 'median_duration_us': np.float64(3.424), 'std_dev_duration_us': np.float64(0.02585892108046477), 'min_duration_us': np.float64(3.391), 'max_duration_us': np.float64(3.52)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(1659.4389999999999), 'mean_duration_us': np.float64(13.170150793650793), 'median_duration_us': np.float64(13.1675), 'std_dev_duration_us': np.float64(0.5961994987759045), 'min_duration_us': np.float64(12.032), 'max_duration_us': np.float64(14.368)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.12)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.65)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.68)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.43)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(13.17)}]","{'convNd': 'conv3d', 'input_shape': (1, 16, 3, 34, 34), 'filter_shape': (384, 16, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (55488, 3468, 1156, 34, 1), 'weight_stride': (432, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.02617229044982828,98.81838398790448
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64), (1, 384, 2, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3145728, 8192, 4096, 64, 1), (3145728, 8192, 4096, 64, 1), ())","('', '', 'False')",136284,750,14763.086,19.684114666666666,17.330057033371,0.003145728,12.0,0.25,vector_bf16,3.2091507450029138,0.08626031143992276,0.8022876862507284,0.02156507785998069,3.9237975260416667,0.10625073147184932,2942.84814453125,12.4555,11.201,72.251,3.1976428559374614,2.912665021305454,3.449311173336903,0.7994107139843654,0.7281662553263635,0.8623277933342257,3.93505859375,3.64794921875,4.320068359375,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 750, 'total_duration_us': np.float64(2942.835), 'mean_duration_us': np.float64(3.9237800000000003), 'median_duration_us': np.float64(3.935), 'std_dev_duration_us': np.float64(0.10618742361190114), 'min_duration_us': np.float64(3.648), 'max_duration_us': np.float64(4.32)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(3.92)}]","{'op_shape': (1, 384, 2, 64, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (3145728, 8192, 4096, 64, 1), 'stride_output': (3145728, 8192, 4096, 64, 1)}",True,0.025410079101809015,98.84379406700629
 aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 2, 64, 64), (384, 192, 1, 1, 1), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((1572864, 4096, 786432, 64, 1), (192, 1, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",136192,125,10638.847,85.110776,14.046718990031197,1.207959552,9.140625,126.03076923076924,matrix_bf16,0.4132859913527641,0.0027230878494342,52.0867514024899,0.34319285634715435,23.19230078125,0.1529023346001054,2899.03759765625,82.781,71.46,185.532,0.41314929480231105,0.40695648799096085,0.4201036430176565,52.0695234310851,51.28903922495309,52.94598528616372,23.198974609375,22.81494140625,23.552001953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(724.82), 'mean_duration_us': np.float64(5.79856), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.10529458865487823), 'min_duration_us': np.float64(5.599), 'max_duration_us': np.float64(6.08)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1037.9370000000001), 'mean_duration_us': np.float64(8.303496), 'median_duration_us': np.float64(8.288), 'std_dev_duration_us': np.float64(0.08734690597840312), 'min_duration_us': np.float64(8.128), 'max_duration_us': np.float64(8.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1136.2769999999996), 'mean_duration_us': np.float64(9.090215999999996), 'median_duration_us': np.float64(9.088), 'std_dev_duration_us': np.float64(0.0806049709633343), 'min_duration_us': np.float64(8.928), 'max_duration_us': np.float64(9.343)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.8)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(8.3)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.09)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 2, 64, 64), 'filter_shape': (384, 192, 1, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (1572864, 4096, 786432, 64, 1), 'weight_stride': (192, 1, 1, 1, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.025031796089260108,98.86882586309555
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32),)","('c10::BFloat16',)","((393216, 1024, 1024, 32, 1),)","('',)",133497,1260,11067.634,8.783836507936508,1.104066340745062,,,,,,,,,2.2670419844370038,0.09927549340521838,2856.472900390625,8.53,7.84,22.371,,,,,,,2.239990234375,2.111083984375,2.528076171875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(2856.4880000000003), 'mean_duration_us': np.float64(2.2670539682539683), 'median_duration_us': np.float64(2.24), 'std_dev_duration_us': np.float64(0.09926518247858568), 'min_duration_us': np.float64(2.111), 'max_duration_us': np.float64(2.528)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(2.27)}]",,False,0.02466427038920861,98.89349013348476
@@ -118,16 +118,16 @@ aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((4, 384, 64, 64), (
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1), (), ())","('float', 'double', 'Scalar')","((32256, 1, 1), (), ())","('', '', '1')",11946,900,62368.097,69.29788555555555,76.41874428334576,3.2256e-05,0.24610137939453125,0.12499612487212076,vector_fp32,0.11862110465946453,0.006613781662009536,0.014827178410483331,0.0008266970785014867,2.183308376736111,0.14258203301392905,1964.9775390625,11.0755,7.75,182.703,0.1203047320737537,0.07906330884882938,0.13220730156347718,0.015037625312997948,0.009882607225671327,0.01652540037523452,2.14501953125,1.951904296875,3.263916015625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<float>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<float>, std::array<char*, 2ul>)', 'stream': 7, 'count': 900, 'total_duration_us': np.float64(1964.958), 'mean_duration_us': np.float64(2.1832866666666666), 'median_duration_us': np.float64(2.145), 'std_dev_duration_us': np.float64(0.14252511685079694), 'min_duration_us': np.float64(1.952), 'max_duration_us': np.float64(3.264)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(2.18)}]","{'shape_in1': (1, 32256, 1), 'shape_in2': (), 'dtype_in1_in2_out': ('float', 'double', None), 'stride_input1': (32256, 1, 1), 'stride_input2': (), 'stride_output': None}",True,0.01696663648569242,99.17650010039036
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 1, 1536))","('float', 'c10::BFloat16')","((49545216, 1536, 1), (1536, 1536, 1))","('', '')",23742,10,3990.447,399.04470000000003,1.419384925475355,0.049545216,378.0029296875,0.12499903119550475,vector_fp32,2.0312512581099478,0.01565518657695597,0.25390443937839363,0.001956883155304353,195.143896484375,1.524953027255422,1951.43896484375,399.2195,396.995,400.644,2.0359130931984515,1.990442284648006,2.0490432231177573,0.25448716424804985,0.24880335723156788,0.25612841776743417,194.6865234375,193.43896484375,199.134033203125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1951.439), 'mean_duration_us': np.float64(195.1439), 'median_duration_us': np.float64(194.6865), 'std_dev_duration_us': np.float64(1.4466861062441967), 'min_duration_us': np.float64(193.439), 'max_duration_us': np.float64(199.134)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(195.14)}]","{'shape_in1': (1, 32256, 1536), 'shape_in2': (1, 1, 1536), 'dtype_in1_in2_out': ('float', 'c10::BFloat16', None), 'stride_input1': (49545216, 1536, 1), 'stride_input2': (1536, 1536, 1), 'stride_output': None}",True,0.01684973740530207,99.19334983779567
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 32256, 1536), (1, 1, 1536), ())","('float', 'c10::BFloat16', 'Scalar')","((49545216, 1536, 1), (3072, 1536, 1), ())","('', '', '1')",23743,10,1517.388,151.7388,2.6854389171563318,0.049545216,378.0029296875,0.12499903119550475,vector_fp32,2.03438361617493,0.015274177164111197,0.2542959811018738,0.0019092573478223791,194.8428955078125,1.4836207129753647,1948.428955078125,152.332,146.772,156.211,2.038594671557493,1.9942883018867925,2.049392407639067,0.2548223589450048,0.24928410566037737,0.2561720654943063,194.4305419921875,193.406005859375,198.75,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::CUDAFunctor_add<float> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::CUDAFunctor_add<float> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float> const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(1948.429), 'mean_duration_us': np.float64(194.84290000000001), 'median_duration_us': np.float64(194.4305), 'std_dev_duration_us': np.float64(1.407482891547887), 'min_duration_us': np.float64(193.406), 'max_duration_us': np.float64(198.75)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(194.84)}]","{'shape_in1': (1, 32256, 1536), 'shape_in2': (1, 1, 1536), 'dtype_in1_in2_out': ('float', 'c10::BFloat16', None), 'stride_input1': (49545216, 1536, 1), 'stride_input2': (3072, 1536, 1), 'stride_output': None}",True,0.016823747417886687,99.21017358521355
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 64, 64), (1, 384, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((6291456, 8192, 4096, 64, 1), (6291456, 8192, 4096, 64, 1)), ())","('', '3')",136612,125,12989.499,103.915992,60.13188135760243,,,,,,,,,15.543044921875,0.15482708209067517,1942.880615234375,145.972,31.17,172.262,,,,,,,15.51806640625,15.2958984375,16.2880859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(974.4499999999999), 'mean_duration_us': np.float64(7.795599999999999), 'median_duration_us': np.float64(7.776), 'std_dev_duration_us': np.float64(0.06987840868251084), 'min_duration_us': np.float64(7.648), 'max_duration_us': np.float64(8.064)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(968.44), 'mean_duration_us': np.float64(7.747520000000001), 'median_duration_us': np.float64(7.712), 'std_dev_duration_us': np.float64(0.13303909801257682), 'min_duration_us': np.float64(7.584), 'max_duration_us': np.float64(8.48)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.8)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.75)}]",,False,0.016775840170421198,99.22694942538398
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 2, 64, 64), (1, 384, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((6291456, 8192, 4096, 64, 1), (6291456, 8192, 4096, 64, 1)), ())","('', '3')",136612,125,12989.499,103.915992,60.13188135760243,,,,,,,,,15.543044921875,0.15482708209067517,1942.880615234375,145.972,31.17,172.262,,,,,,,15.51806640625,15.2958984375,16.2880859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(968.44), 'mean_duration_us': np.float64(7.747520000000001), 'median_duration_us': np.float64(7.712), 'std_dev_duration_us': np.float64(0.13303909801257682), 'min_duration_us': np.float64(7.584), 'max_duration_us': np.float64(8.48)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(974.4499999999999), 'mean_duration_us': np.float64(7.795599999999999), 'median_duration_us': np.float64(7.776), 'std_dev_duration_us': np.float64(0.06987840868251084), 'min_duration_us': np.float64(7.648), 'max_duration_us': np.float64(8.064)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.75)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.8)}]",,False,0.016775840170421198,99.22694942538398
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 96, 2, 256, 256), (1, 96, 2, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((25165824, 65536, 6291456, 256, 1), (25165824, 65536, 6291456, 256, 1), ())","('', '', 'False')",137063,125,1666.579,13.332632,0.7456849691131575,0.012582912,48.0,0.25,vector_bf16,3.266544815554852,0.08661941078480735,0.816636203888713,0.021654852696201838,15.419470703125,0.4278622789383105,1927.433837890625,13.19,11.9,17.631,3.297426947873515,2.956524167617955,3.3754961966107246,0.8243567369683787,0.7391310419044888,0.8438740491526812,15.263916015625,14.910888671875,17.02392578125,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1927.4349999999997), 'mean_duration_us': np.float64(15.419479999999998), 'median_duration_us': np.float64(15.264), 'std_dev_duration_us': np.float64(0.4261443248478151), 'min_duration_us': np.float64(14.911), 'max_duration_us': np.float64(17.024)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(15.42)}]","{'op_shape': (1, 96, 2, 256, 256), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (25165824, 65536, 6291456, 256, 1), 'stride_output': (25165824, 65536, 6291456, 256, 1)}",True,0.016642464673319146,99.2435918900573
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 32, 32), ())","('c10::BFloat16', 'Scalar')","((1024, 1024, 1024, 32, 1), ())","('', '9.9999999999999998e-13')",133489,1260,11698.548,9.284561904761905,1.73923730149813,1.024e-06,0.00390625,0.25,vector_bf16,0.0027974203857112382,0.00021100210021978146,0.0006993550964278096,5.2750525054945365e-05,1.4727593315972223,0.11389590559749868,1855.6767578125,9.06,8.221,56.07,0.002723574025974026,0.00213342014242116,0.0031242487895716945,0.0006808935064935065,0.00053335503560529,0.0007810621973929236,1.50390625,1.31103515625,1.919921875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1260, 'total_duration_us': np.float64(1855.716), 'mean_duration_us': np.float64(1.4727904761904762), 'median_duration_us': np.float64(1.504), 'std_dev_duration_us': np.float64(0.11385165329021839), 'min_duration_us': np.float64(1.311), 'max_duration_us': np.float64(1.92)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.47)}]","{'op_shape': (1, 1, 1, 32, 32), 'dtype_in_out': ('c10::BFloat16', None), 'stride_input': (1024, 1024, 1024, 32, 1), 'stride_output': None}",True,0.016022876780451355,99.25961476683776
 aten::mean,reduce,python3,CPU,thread 10586 (python3),"((1, 512, 1536), (), (), ())","('float', 'ScalarList', 'Scalar', '')","((786432, 1536, 1), (), (), ())","('', '[-1]', 'True', '')",12139,300,17141.306,57.13768666666667,38.54059585907301,0.000786432,3.0000038146972656,0.24999968210896542,vector_fp32,0.5097961163195301,0.004188135600193208,0.1274488670202677,0.0010470325686775452,6.170985514322917,0.050900669158329886,1851.295654296875,86.781,9.56,97.501,0.5093457039174606,0.49152812512397953,0.5201194151697413,0.12733626406293236,0.12288187502861067,0.13002968845113633,6.176025390625,6.048095703125,6.39990234375,"[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4> >(at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4>)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(1851.2870000000003), 'mean_duration_us': np.float64(6.170956666666668), 'median_duration_us': np.float64(6.176), 'std_dev_duration_us': np.float64(0.050843499639143246), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(6.4)}]","[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<floa...', 'stream': 7, 'mean_duration_us': np.float64(6.17)}]","{'num_input_elems': 786432, 'num_output_elems': 1, 'dtype_in_out': ('float', None), 'reduce_type': 'mean'}",True,0.015985048057589074,99.27559981489534
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 4, 256, 256), ())","('c10::BFloat16', 'Scalar')","((262144, 262144, 65536, 256, 1), ())","('', '9.9999999999999998e-13')",137042,875,8218.712,9.392813714285714,1.2628411742537764,0.000262144,1.0,0.25,vector_bf16,0.5116234231411306,0.029380900177670068,0.12790585578528266,0.007345225044417517,2.0565200892857143,0.12299186231240895,1799.455078125,9.1,8.27,19.921,0.5043409224988258,0.34858918074831585,0.5652760326401685,0.12608523062470645,0.08714729518707896,0.14131900816004211,2.0791015625,1.85498046875,3.008056640625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 875, 'total_duration_us': np.float64(1799.44), 'mean_duration_us': np.float64(2.056502857142857), 'median_duration_us': np.float64(2.079), 'std_dev_duration_us': np.float64(0.12289569441653543), 'min_duration_us': np.float64(1.855), 'max_duration_us': np.float64(3.008)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(2.06)}]","{'op_shape': (1, 1, 4, 256, 256), 'dtype_in_out': ('c10::BFloat16', None), 'stride_input': (262144, 262144, 65536, 256, 1), 'stride_output': None}",True,0.015537429602094317,99.29113724449743
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 64, 512, 512), (1, 64, 512, 512), ())","('c10::BFloat16', 'float', 'Scalar')","((16777216, 262144, 512, 1), (16777216, 262144, 512, 1), ())","('', '', 'False')",204,48,308.932,6.436083333333333,0.4056228640022875,0.016777216,96.0,0.16666666666666666,vector_bf16,2.7650244876468073,0.04381614728042544,0.4608374146078013,0.0073026912134042336,36.4149169921875,0.5790198531495682,1747.916015625,6.3004999999999995,6.02,8.06,2.7900066070412812,2.6933323344481606,2.8162373412200234,0.46500110117354687,0.44888872240802674,0.4693728902033372,36.0799560546875,35.743896484375,37.375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(1747.9170000000001), 'mean_duration_us': np.float64(36.4149375), 'median_duration_us': np.float64(36.08), 'std_dev_duration_us': np.float64(0.5729612554618473), 'min_duration_us': np.float64(35.744), 'max_duration_us': np.float64(37.375)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(36.41)}]","{'op_shape': (1, 64, 512, 512), 'dtype_in_out': ('c10::BFloat16', 'float'), 'stride_input': (16777216, 262144, 512, 1), 'stride_output': (16777216, 262144, 512, 1)}",True,0.015092414572218665,99.30622965906966
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 32, 32), (1152, 384, 1, 1), (1152,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((393216, 1024, 32, 1), (384, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",133604,126,8530.476,67.70219047619048,12.697990451226069,0.905969664,3.84375,224.78048780487805,matrix_bf16,0.2991607946876656,0.002813506853756701,67.24550936198844,0.6324214430297996,13.473752945188492,0.12707220881994244,1697.69287109375,65.64099999999999,57.201,163.411,0.299172377433658,0.2902336552451609,0.3064559224800445,67.24811293728274,65.23886260340008,68.8853117457583,13.4720458984375,13.15185546875,13.886962890625,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(1051.736), 'mean_duration_us': np.float64(8.347111111111111), 'median_duration_us': np.float64(8.352), 'std_dev_duration_us': np.float64(0.06400089560660828), 'min_duration_us': np.float64(8.128), 'max_duration_us': np.float64(8.512)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(645.95), 'mean_duration_us': np.float64(5.126587301587302), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.10554614351163616), 'min_duration_us': np.float64(4.928), 'max_duration_us': np.float64(5.505)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(8.35)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.13)}]","{'convNd': 'conv2d', 'input_shape': (1, 384, 32, 32), 'filter_shape': (1152, 384, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (393216, 1024, 32, 1), 'weight_stride': (384, 1, 1, 1), 'bias': False, 'stride': (1, 1), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.0146587618614418,99.3208884209311
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 32, 32), (384, 384, 1, 1), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((384, 1, 12288, 384), (384, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",133653,126,10802.84,85.7368253968254,14.351047987978795,0.301989888,1.78125,161.68421052631578,matrix_bf16,0.13873810414118423,0.001304266716311059,22.431760837985156,0.2108793343425032,13.463785807291666,0.1268494393293826,1696.43701171875,82.441,73.621,166.902,0.138645883011869,0.13479949423829157,0.14166902144365023,22.41685013749798,21.794949805264828,22.90564388815229,13.4715576171875,13.18408203125,13.85595703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(615.1959999999999), 'mean_duration_us': np.float64(4.882507936507936), 'median_duration_us': np.float64(4.8955), 'std_dev_duration_us': np.float64(0.08823073520845527), 'min_duration_us': np.float64(4.703), 'max_duration_us': np.float64(5.025)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_nn_align8::Params)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(646.9029999999999), 'mean_duration_us': np.float64(5.134150793650793), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.09580147026909003), 'min_duration_us': np.float64(4.96), 'max_duration_us': np.float64(5.408)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(434.3310000000001), 'mean_duration_us': np.float64(3.4470714285714292), 'median_duration_us': np.float64(3.456), 'std_dev_duration_us': np.float64(0.03336264867378809), 'min_duration_us': np.float64(3.36), 'max_duration_us': np.float64(3.583)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.88)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(5.13)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.45)}]","{'convNd': 'conv2d', 'input_shape': (1, 384, 32, 32), 'filter_shape': (384, 384, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (384, 1, 12288, 384), 'weight_stride': (384, 1, 1, 1), 'bias': False, 'stride': (1, 1), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.014647918119429896,99.33553633905053
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 32, 32), (1152, 384, 1, 1), (1152,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((393216, 1024, 32, 1), (384, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",133604,126,8530.476,67.70219047619048,12.697990451226069,0.905969664,3.84375,224.78048780487805,matrix_bf16,0.2991607946876656,0.002813506853756701,67.24550936198844,0.6324214430297996,13.473752945188492,0.12707220881994244,1697.69287109375,65.64099999999999,57.201,163.411,0.299172377433658,0.2902336552451609,0.3064559224800445,67.24811293728274,65.23886260340008,68.8853117457583,13.4720458984375,13.15185546875,13.886962890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(645.95), 'mean_duration_us': np.float64(5.126587301587302), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.10554614351163616), 'min_duration_us': np.float64(4.928), 'max_duration_us': np.float64(5.505)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(1051.736), 'mean_duration_us': np.float64(8.347111111111111), 'median_duration_us': np.float64(8.352), 'std_dev_duration_us': np.float64(0.06400089560660828), 'min_duration_us': np.float64(8.128), 'max_duration_us': np.float64(8.512)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.13)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(8.35)}]","{'convNd': 'conv2d', 'input_shape': (1, 384, 32, 32), 'filter_shape': (1152, 384, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (393216, 1024, 32, 1), 'weight_stride': (384, 1, 1, 1), 'bias': False, 'stride': (1, 1), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.0146587618614418,99.3208884209311
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 32, 32), (384, 384, 1, 1), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((384, 1, 12288, 384), (384, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",133653,126,10802.84,85.7368253968254,14.351047987978795,0.301989888,1.78125,161.68421052631578,matrix_bf16,0.13873810414118423,0.001304266716311059,22.431760837985156,0.2108793343425032,13.463785807291666,0.1268494393293826,1696.43701171875,82.441,73.621,166.902,0.138645883011869,0.13479949423829157,0.14166902144365023,22.41685013749798,21.794949805264828,22.90564388815229,13.4715576171875,13.18408203125,13.85595703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(434.3310000000001), 'mean_duration_us': np.float64(3.4470714285714292), 'median_duration_us': np.float64(3.456), 'std_dev_duration_us': np.float64(0.03336264867378809), 'min_duration_us': np.float64(3.36), 'max_duration_us': np.float64(3.583)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(615.1959999999999), 'mean_duration_us': np.float64(4.882507936507936), 'median_duration_us': np.float64(4.8955), 'std_dev_duration_us': np.float64(0.08823073520845527), 'min_duration_us': np.float64(4.703), 'max_duration_us': np.float64(5.025)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_nn_align8::Params)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(646.9029999999999), 'mean_duration_us': np.float64(5.134150793650793), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.09580147026909003), 'min_duration_us': np.float64(4.96), 'max_duration_us': np.float64(5.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.45)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.88)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(5.13)}]","{'convNd': 'conv2d', 'input_shape': (1, 384, 32, 32), 'filter_shape': (384, 384, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (384, 1, 12288, 384), 'weight_stride': (384, 1, 1, 1), 'bias': False, 'stride': (1, 1), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.014647918119429896,99.33553633905053
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1536), (1, 512, 1))","('c10::BFloat16', 'float')","((786432, 1536, 1), (512, 1, 1))","('', '')",12142,300,2806.404,9.35468,1.500303941647963,0.000786432,4.501953125,0.1665943600867679,vector_bf16,0.8604574432774712,0.009719638319899415,0.14334735714470673,0.0016192369261784794,5.4868994140625,0.06230153644462122,1646.06982421875,8.91,7.79,19.071,0.8627020675500825,0.8241301440627397,0.8886727383031529,0.14372129888903762,0.13729543397834798,0.1480478661641695,5.471923828125,5.31201171875,5.72802734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(1646.0839999999998), 'mean_duration_us': np.float64(5.486946666666666), 'median_duration_us': np.float64(5.472), 'std_dev_duration_us': np.float64(0.06217129955927299), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.728)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.49)}]","{'shape_in1': (1, 512, 1536), 'shape_in2': (1, 512, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'float', None), 'stride_input1': (786432, 1536, 1), 'stride_input2': (512, 1, 1), 'stride_output': None}",True,0.014213021666859286,99.3497493607174
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 2, 64, 64), (1, 192, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((1572864, 4096, 786432, 64, 1), (1572864, 4096, 786432, 64, 1)), ())","('', '2')",138541,124,4564.97,36.81427419354839,8.076776466314284,,,,,,,,,12.921849404611896,0.1768638754743268,1602.309326171875,35.310500000000005,31.27,99.581,,,,,,,12.927490234375,12.510986328125,13.43994140625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(902.765), 'mean_duration_us': np.float64(7.280362903225806), 'median_duration_us': np.float64(7.264), 'std_dev_duration_us': np.float64(0.1251489006484147), 'min_duration_us': np.float64(7.072), 'max_duration_us': np.float64(7.711)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(699.5449999999998), 'mean_duration_us': np.float64(5.641491935483869), 'median_duration_us': np.float64(5.632), 'std_dev_duration_us': np.float64(0.09359844704802688), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.856)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.64)}]",,False,0.013835170801882775,99.36358453151928
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 2, 64, 64), (1, 192, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((1572864, 4096, 786432, 64, 1), (1572864, 4096, 786432, 64, 1)), ())","('', '2')",138541,124,4564.97,36.81427419354839,8.076776466314284,,,,,,,,,12.921849404611896,0.1768638754743268,1602.309326171875,35.310500000000005,31.27,99.581,,,,,,,12.927490234375,12.510986328125,13.43994140625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(699.5449999999998), 'mean_duration_us': np.float64(5.641491935483869), 'median_duration_us': np.float64(5.632), 'std_dev_duration_us': np.float64(0.09359844704802688), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.856)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(902.765), 'mean_duration_us': np.float64(7.280362903225806), 'median_duration_us': np.float64(7.264), 'std_dev_duration_us': np.float64(0.1251489006484147), 'min_duration_us': np.float64(7.072), 'max_duration_us': np.float64(7.711)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.28)}]",,False,0.013835170801882775,99.36358453151928
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1536), (1, 512, 1536), ())","('float', 'c10::BFloat16', 'Scalar')","((786432, 1536, 1), (786432, 1536, 1), ())","('', '', 'False')",12135,300,32562.545000000002,108.54181666666668,85.13828251463335,0.000786432,4.5,0.16666666666666666,vector_fp32,0.8942502119188444,0.02995038812713545,0.14904170198647404,0.004991731354522569,5.282928059895833,0.19021166031641673,1584.87841796875,173.977,6.45,191.122,0.8991139203572757,0.7720132946674655,0.939224066089999,0.14985232005954596,0.12866888244457758,0.1565373443483332,5.248046875,5.02392578125,6.112060546875,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(1584.872), 'mean_duration_us': np.float64(5.282906666666667), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.1899047602235277), 'min_duration_us': np.float64(5.024), 'max_duration_us': np.float64(6.112)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]","{'op_shape': (1, 512, 1536), 'dtype_in_out': ('float', 'c10::BFloat16'), 'stride_input': (786432, 1536, 1), 'stride_output': (786432, 1536, 1)}",True,0.013684663288581124,99.37726919480787
 aten::_upsample_nearest_exact2d,other,python3,CPU,thread 10586 (python3),"((2, 384, 32, 32), (), (), ())","('float', 'ScalarList', 'Scalar', 'Scalar')","((1024, 2048, 32, 1), (), (), ())","('', '[64, 64]', '2.', '2.')",136165,125,4128.878,33.031023999999995,8.01063677794275,,,,,,,,,12.00978515625,0.07783659090481626,1501.22314453125,31.161,27.751,94.031,,,,,,,12.0,11.840087890625,12.287841796875,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(506.9650000000001), 'mean_duration_us': np.float64(4.055720000000001), 'median_duration_us': np.float64(4.063), 'std_dev_duration_us': np.float64(0.04955572217211653), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(4.255)}, {'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_frame<float, &at::native::nearest_neighbor_exact_compute_source_index>(float const*, float*, unsigned long, unsigned long, unsigned long, unsigned long, unsigned long, float, float)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(994.2579999999999), 'mean_duration_us': np.float64(7.954064), 'median_duration_us': np.float64(7.967), 'std_dev_duration_us': np.float64(0.06137435868504052), 'min_duration_us': np.float64(7.808), 'max_duration_us': np.float64(8.16)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.06)}, {'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_f...', 'stream': 7, 'mean_duration_us': np.float64(7.95)}]",,False,0.012962340215513101,99.39023153502337
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (1, 384, 1, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((393216, 1024, 1024, 32, 1), (393216, 1024, 1024, 32, 1), ())","('', '', '1')",133589,630,5946.003,9.4381,3.352539153204312,0.000393216,2.25,0.16666666666666666,vector_bf16,1.010653282869952,0.0366216720220317,0.16844221381165866,0.0061036120036719365,2.337560066344246,0.08680374524531527,1472.662841796875,9.11,8.44,69.81,1.00999962541806,0.8573169283179559,1.1342343211267605,0.16833327090301003,0.14288615471965932,0.18903905352112677,2.3359375,2.080078125,2.751953125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 630, 'total_duration_us': np.float64(1472.6889999999999), 'mean_duration_us': np.float64(2.337601587301587), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.08673673905700154), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.752)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(2.34)}]","{'shape_in1': (1, 384, 1, 32, 32), 'shape_in2': (1, 384, 1, 32, 32), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (393216, 1024, 1024, 32, 1), 'stride_input2': (393216, 1024, 1024, 32, 1), 'stride_output': None}",True,0.012715735730330711,99.4029472707537
@@ -146,22 +146,22 @@ aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 4, 64, 64)
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 192, 2, 64, 64), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((1572864, 4096, 786432, 64, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",136203,125,1956.47,15.65176,3.0960589839759294,,,,,,,,,8.49199609375,0.16815258930118324,1061.49951171875,15.1,14.28,44.481,,,,,,,8.47998046875,8.095947265625,8.927978515625,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(1061.498), 'mean_duration_us': np.float64(8.491984), 'median_duration_us': np.float64(8.48), 'std_dev_duration_us': np.float64(0.16749447675669793), 'min_duration_us': np.float64(8.096), 'max_duration_us': np.float64(8.928)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(8.49)}]",,False,0.009165538021195256,99.54880853783645
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 4096), (1, 512, 1))","('c10::BFloat16', 'float')","((2097152, 4096, 1), (512, 1, 1))","('', '')",64,98,1051.084,10.72534693877551,1.7248315985455058,0.002097152,12.001953125,0.16663954434499592,vector_bf16,1.216236500495833,0.014288667046545737,0.20267309625837804,0.0023810569659337678,10.348879444355868,0.12197459951200888,1014.190185546875,10.51,8.83,19.4,1.2175925018896447,1.1811286153564144,1.244549510128202,0.202899059712774,0.1968227342758289,0.2073911632825515,10.3359375,10.112060546875,10.655029296875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 98, 'total_duration_us': np.float64(1014.192), 'mean_duration_us': np.float64(10.348897959183674), 'median_duration_us': np.float64(10.336), 'std_dev_duration_us': np.float64(0.12134379307687736), 'min_duration_us': np.float64(10.112), 'max_duration_us': np.float64(10.655)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.35)}]","{'shape_in1': (1, 512, 4096), 'shape_in2': (1, 512, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'float', None), 'stride_input1': (2097152, 4096, 1), 'stride_input2': (512, 1, 1), 'stride_output': None}",True,0.008757044731279985,99.55756558256773
 aten::mean,reduce,python3,CPU,thread 10586 (python3),"((1, 512, 4096), (), (), ())","('float', 'ScalarList', 'Scalar', '')","((2097152, 4096, 1), (), (), ())","('', '[-1]', 'True', '')",61,98,1275.081,13.011030612244896,1.6957931784884226,0.002097152,8.000003814697266,0.2499998807907673,vector_fp32,0.8294320467827867,0.005987909755465986,0.20735791281973875,0.0014969767250523713,10.114205496651786,0.0732592187330293,991.192138671875,12.524999999999999,11.65,22.39,0.8295650486974578,0.8090930546542022,0.8429152602114663,0.2073911632825515,0.2022731672121883,0.21072871456958517,10.112060546875,9.951904296875,10.367919921875,"[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4> >(at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4>)', 'stream': 7, 'count': 98, 'total_duration_us': np.float64(991.187), 'mean_duration_us': np.float64(10.11415306122449), 'median_duration_us': np.float64(10.112), 'std_dev_duration_us': np.float64(0.07290703502361782), 'min_duration_us': np.float64(9.952), 'max_duration_us': np.float64(10.368)}]","[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<floa...', 'stream': 7, 'mean_duration_us': np.float64(10.11)}]","{'num_input_elems': 2097152, 'num_output_elems': 1, 'dtype_in_out': ('float', None), 'reduce_type': 'mean'}",True,0.008558467651668577,99.5661240502194
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 3, 258, 258), (96, 96, 3, 3, 3), (96,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((19170432, 199692, 66564, 258, 1), (2592, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",134819,6,559.456,93.24266666666666,5.3653645418244125,32.614907904,49.039306640625,634.266716451348,matrix_bf16,0.3335532656843505,0.0011684041287883275,211.56173458723705,0.741079850254763,154.1641845703125,0.5414742684401492,924.985107421875,92.941,87.461,103.101,0.3339769356289489,0.3315308597171109,0.3348466374037974,211.83045433185663,210.27898979506438,212.38207722088165,153.967041015625,153.567138671875,155.10302734375,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(253.95), 'mean_duration_us': np.float64(42.324999999999996), 'median_duration_us': np.float64(42.352000000000004), 'std_dev_duration_us': np.float64(0.20668010708983695), 'min_duration_us': np.float64(42.015), 'max_duration_us': np.float64(42.656)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(20.96), 'mean_duration_us': np.float64(3.4933333333333336), 'median_duration_us': np.float64(3.536), 'std_dev_duration_us': np.float64(0.11599233691163502), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.648)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.608), 'mean_duration_us': np.float64(0.7679999999999999), 'median_duration_us': np.float64(0.768), 'std_dev_duration_us': np.float64(0.03200000000000003), 'min_duration_us': np.float64(0.736), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(480.379), 'mean_duration_us': np.float64(80.06316666666667), 'median_duration_us': np.float64(79.983), 'std_dev_duration_us': np.float64(0.3969082247685089), 'min_duration_us': np.float64(79.584), 'max_duration_us': np.float64(80.799)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(69.888), 'mean_duration_us': np.float64(11.648000000000001), 'median_duration_us': np.float64(11.6), 'std_dev_duration_us': np.float64(0.15567487487281534), 'min_duration_us': np.float64(11.52), 'max_duration_us': np.float64(11.968)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(95.2), 'mean_duration_us': np.float64(15.866666666666667), 'median_duration_us': np.float64(15.888), 'std_dev_duration_us': np.float64(0.062425066190504724), 'min_duration_us': np.float64(15.744), 'max_duration_us': np.float64(15.936)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.32)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.49)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.77)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.06)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.65)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.87)}]","{'convNd': 'conv3d', 'input_shape': (1, 96, 3, 258, 258), 'filter_shape': (96, 96, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (19170432, 199692, 66564, 258, 1), 'weight_stride': (2592, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.007986801762524844,99.57411085198193
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 3, 258, 258), (96, 96, 3, 3, 3), (96,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((19170432, 199692, 66564, 258, 1), (2592, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",134819,6,559.456,93.24266666666666,5.3653645418244125,32.614907904,49.039306640625,634.266716451348,matrix_bf16,0.3335532656843505,0.0011684041287883275,211.56173458723705,0.741079850254763,154.1641845703125,0.5414742684401492,924.985107421875,92.941,87.461,103.101,0.3339769356289489,0.3315308597171109,0.3348466374037974,211.83045433185663,210.27898979506438,212.38207722088165,153.967041015625,153.567138671875,155.10302734375,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.608), 'mean_duration_us': np.float64(0.7679999999999999), 'median_duration_us': np.float64(0.768), 'std_dev_duration_us': np.float64(0.03200000000000003), 'min_duration_us': np.float64(0.736), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(20.96), 'mean_duration_us': np.float64(3.4933333333333336), 'median_duration_us': np.float64(3.536), 'std_dev_duration_us': np.float64(0.11599233691163502), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.648)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(69.888), 'mean_duration_us': np.float64(11.648000000000001), 'median_duration_us': np.float64(11.6), 'std_dev_duration_us': np.float64(0.15567487487281534), 'min_duration_us': np.float64(11.52), 'max_duration_us': np.float64(11.968)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(95.2), 'mean_duration_us': np.float64(15.866666666666667), 'median_duration_us': np.float64(15.888), 'std_dev_duration_us': np.float64(0.062425066190504724), 'min_duration_us': np.float64(15.744), 'max_duration_us': np.float64(15.936)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(253.95), 'mean_duration_us': np.float64(42.324999999999996), 'median_duration_us': np.float64(42.352000000000004), 'std_dev_duration_us': np.float64(0.20668010708983695), 'min_duration_us': np.float64(42.015), 'max_duration_us': np.float64(42.656)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x32_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(480.379), 'mean_duration_us': np.float64(80.06316666666667), 'median_duration_us': np.float64(79.983), 'std_dev_duration_us': np.float64(0.3969082247685089), 'min_duration_us': np.float64(79.584), 'max_duration_us': np.float64(80.799)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.77)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.49)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.65)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.87)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.32)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.06)}]","{'convNd': 'conv3d', 'input_shape': (1, 96, 3, 258, 258), 'filter_shape': (96, 96, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (19170432, 199692, 66564, 258, 1), 'weight_stride': (2592, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.007986801762524844,99.57411085198193
 aten::bmm,GEMM,python3,CPU,thread 10586 (python3),"((64, 512, 512), (64, 512, 64))","('c10::BFloat16', 'c10::BFloat16')","((262144, 512, 1), (64, 4096, 1))","('', '')",215,48,1339.549,27.90727083333333,3.2634101126561648,2.147483648,40.0,51.2,matrix_bf16,2.291045759224885,0.062142092073413965,117.30154287231413,3.181675114158794,18.321060180664062,0.5155002027466918,879.410888671875,27.561,24.95,47.791,2.309636210368003,2.114055150925983,2.3874524637640877,118.25337397084175,108.23962372741032,122.2375661447213,18.1600341796875,17.568115234375,19.840087890625,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_32x6_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_32x6_nn_align8::Params)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(879.4110000000001), 'mean_duration_us': np.float64(18.3210625), 'median_duration_us': np.float64(18.159999999999997), 'std_dev_duration_us': np.float64(0.5100926143950885), 'min_duration_us': np.float64(17.568), 'max_duration_us': np.float64(19.84)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(18.32)}]","{'B': 64, 'M': 512, 'N': 64, 'K': 512, 'bias': False, 'stride_A': (262144, 512, 1), 'stride_B': (64, 4096, 1), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16')}",True,0.007593290291131846,99.58170414227305
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 2, 64, 64), (1, 192, 2, 64, 64))","('c10::BFloat16', 'c10::BFloat16')","((1572864, 4096, 786432, 64, 1), (8192, 0, 4096, 64, 1))","('', '')",136208,125,1448.099,11.584792,6.241402466329957,0.001572864,9.0,0.16666666666666666,vector_bf16,1.363983987183877,0.01888460015624812,0.22733066453064618,0.0031474333593746765,6.920154296875,0.09586724908146696,865.019287109375,10.86,10.021,79.761,1.3653117287369312,1.3107288889491708,1.4110646734321384,0.22755195478948856,0.21845481482486184,0.23517744557202308,6.912109375,6.68798828125,7.199951171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(865.0190000000001), 'mean_duration_us': np.float64(6.920152000000001), 'median_duration_us': np.float64(6.912), 'std_dev_duration_us': np.float64(0.09543945146531393), 'min_duration_us': np.float64(6.688), 'max_duration_us': np.float64(7.2)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.92)}]","{'shape_in1': (1, 192, 2, 64, 64), 'shape_in2': (1, 192, 2, 64, 64), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (1572864, 4096, 786432, 64, 1), 'stride_input2': (8192, 0, 4096, 64, 1), 'stride_output': None}",True,0.007469025729678203,99.58917316800273
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 10240), (1, 512, 10240))","('c10::BFloat16', 'c10::BFloat16')","((5242880, 10240, 1), (5242880, 10240, 1))","('', '')",270,96,932.324,9.711708333333332,1.9445434962406805,0.00524288,30.0,0.16666666666666666,vector_bf16,3.543690217481817,0.21215718719947602,0.5906150362469695,0.03535953119991269,8.908638000488281,0.5345586607333144,855.229248046875,10.195,6.95,17.28,3.4373894855636298,3.1609307185437774,3.8250020447663715,0.5728982475939384,0.5268217864239629,0.6375003407943953,9.151611328125,8.22412109375,9.951904296875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 3ul> >(int, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 3ul>)', 'stream': 7, 'count': 96, 'total_duration_us': np.float64(855.2280000000001), 'mean_duration_us': np.float64(8.908625), 'median_duration_us': np.float64(9.151499999999999), 'std_dev_duration_us': np.float64(0.5317951761486744), 'min_duration_us': np.float64(8.224), 'max_duration_us': np.float64(9.952)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Bi...', 'stream': 7, 'mean_duration_us': np.float64(8.91)}]","{'shape_in1': (1, 512, 10240), 'shape_in2': (1, 512, 10240), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (5242880, 10240, 1), 'stride_input2': (5242880, 10240, 1), 'stride_output': None}",True,0.00738449344844235,99.59655766145117
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 2, 64, 64), (192, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((1572864, 4096, 786432, 64, 1), (1, 1, 1, 1))","('', '')",136210,125,1221.163,9.769304,2.096697850092055,0.001572864,6.0003662109375,0.24998474214220323,vector_bf16,0.9483483391091755,0.013677064698882607,0.23707261501319396,0.003419057492012392,6.635900390625,0.09621578052530944,829.487548828125,8.76,8.01,19.51,0.9498517116320212,0.9060709714165173,0.9831150011444266,0.23744843520566122,0.22650391815209367,0.24576375005722134,6.6240234375,6.39990234375,6.944091796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(829.485), 'mean_duration_us': np.float64(6.63588), 'median_duration_us': np.float64(6.624), 'std_dev_duration_us': np.float64(0.09586303562896387), 'min_duration_us': np.float64(6.4), 'max_duration_us': np.float64(6.944)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.64)}]","{'shape_in1': (1, 192, 2, 64, 64), 'shape_in2': (192, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (1572864, 4096, 786432, 64, 1), 'stride_input2': (1, 1, 1, 1), 'stride_output': None}",True,0.007162226249715518,99.60371988770089
 aten::bmm,GEMM,python3,CPU,thread 10586 (python3),"((64, 512, 64), (64, 64, 512))","('c10::BFloat16', 'c10::BFloat16')","((64, 4096, 1), (64, 1, 4096))","('', '')",117,48,1724.109,35.9189375,3.929348830283864,2.147483648,40.0,51.2,matrix_bf16,2.4355642974451306,0.01757383136199424,124.7008920291907,0.89978016573411,17.221954345703125,0.12420286115001129,826.65380859375,34.811,32.08,54.66,2.44080771517063,2.4005630025431066,2.4777347136449515,124.96935501673627,122.90882573020707,126.86001733862152,17.18408203125,16.927978515625,17.47216796875,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(35.235), 'mean_duration_us': np.float64(0.7340625), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.012128489618112675), 'min_duration_us': np.float64(0.703), 'max_duration_us': np.float64(0.768)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(791.415), 'mean_duration_us': np.float64(16.4878125), 'median_duration_us': np.float64(16.448), 'std_dev_duration_us': np.float64(0.12022958181641505), 'min_duration_us': np.float64(16.191), 'max_duration_us': np.float64(16.736)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(16.49)}]","{'B': 64, 'M': 512, 'N': 512, 'K': 64, 'bias': False, 'stride_A': (64, 4096, 1), 'stride_B': (64, 1, 4096), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16')}",True,0.0071377582649697685,99.61085764596587
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 1, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((32768, 2048, 1024, 32, 1), (16384, 1024, 1024, 32, 1)), ())","('', '2')",137503,124,3674.907,29.636346774193548,8.864738983904363,,,,,,,,,6.580936554939516,0.11247082224149711,816.0361328125,27.775,24.77,97.291,,,,,,,6.56103515625,6.337890625,7.072021484375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(480.76599999999996), 'mean_duration_us': np.float64(3.8771451612903225), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.10933469578497643), 'min_duration_us': np.float64(3.679), 'max_duration_us': np.float64(4.384)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(335.27000000000004), 'mean_duration_us': np.float64(2.7037903225806454), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.030540632425151173), 'min_duration_us': np.float64(2.624), 'max_duration_us': np.float64(2.753)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.7)}]",,False,0.007046079738512232,99.61790372570438
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 1, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((32768, 2048, 1024, 32, 1), (16384, 1024, 1024, 32, 1)), ())","('', '2')",137503,124,3674.907,29.636346774193548,8.864738983904363,,,,,,,,,6.580936554939516,0.11247082224149711,816.0361328125,27.775,24.77,97.291,,,,,,,6.56103515625,6.337890625,7.072021484375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(335.27000000000004), 'mean_duration_us': np.float64(2.7037903225806454), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.030540632425151173), 'min_duration_us': np.float64(2.624), 'max_duration_us': np.float64(2.753)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(480.76599999999996), 'mean_duration_us': np.float64(3.8771451612903225), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.10933469578497643), 'min_duration_us': np.float64(3.679), 'max_duration_us': np.float64(4.384)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.7)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.88)}]",,False,0.007046079738512232,99.61790372570438
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((786432, 1024, 1024, 32, 1), (786432, 1024, 1024, 32, 1)), ())","('', '3')",136146,125,5926.513,47.412104,129.10687908066237,,,,,,,,,6.5173359375,0.05036303960161556,814.6669921875,34.751,30.231,1477.888,,,,,,,6.52685546875,6.39990234375,6.65576171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(404.3470000000001), 'mean_duration_us': np.float64(3.2347760000000005), 'median_duration_us': np.float64(3.232), 'std_dev_duration_us': np.float64(0.0388331536705428), 'min_duration_us': np.float64(3.167), 'max_duration_us': np.float64(3.328)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(410.338), 'mean_duration_us': np.float64(3.2827040000000003), 'median_duration_us': np.float64(3.296), 'std_dev_duration_us': np.float64(0.03089285328356698), 'min_duration_us': np.float64(3.2), 'max_duration_us': np.float64(3.36)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.23)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.28)}]",,False,0.007034257867360843,99.62493798357174
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 192, 2, 128, 128), (1, 192, 2, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((12582912, 16384, 3145728, 128, 1), (12582912, 16384, 3145728, 128, 1), ())","('', '', 'False')",136674,125,1647.858,13.182864,2.203431108682474,0.006291456,24.0,0.25,vector_bf16,3.8727517812605514,0.07683976457039038,0.9681879453151379,0.019209941142597595,6.500748046875,0.1307143278303918,812.593505859375,12.66,11.79,33.3,3.893160671677305,3.6074478583327503,4.053768094384144,0.9732901679193262,0.9018619645831876,1.013442023596036,6.464111328125,6.2080078125,6.97607421875,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(812.594), 'mean_duration_us': np.float64(6.500752), 'median_duration_us': np.float64(6.464), 'std_dev_duration_us': np.float64(0.13016805482144977), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.976)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(6.5)}]","{'op_shape': (1, 192, 2, 128, 128), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (12582912, 16384, 3145728, 128, 1), 'stride_output': (12582912, 16384, 3145728, 128, 1)}",True,0.007016354309641738,99.63195433788138
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 2, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((32768, 2048, 1024, 32, 1), (2064384, 129024, 1024, 32, 1)), ())","('', '2')",137511,124,3524.327,28.421991935483874,11.342668422869194,,,,,,,,,6.552543394027218,0.0935604254620646,812.515380859375,25.79,22.79,110.731,,,,,,,6.528076171875,6.367919921875,7.0400390625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(478.0789999999999), 'mean_duration_us': np.float64(3.855475806451612), 'median_duration_us': np.float64(3.8715), 'std_dev_duration_us': np.float64(0.0875803284465253), 'min_duration_us': np.float64(3.68), 'max_duration_us': np.float64(4.352)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(334.434), 'mean_duration_us': np.float64(2.6970483870967743), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.03112224980431864), 'min_duration_us': np.float64(2.624), 'max_duration_us': np.float64(2.784)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.86)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.7)}]",,False,0.0070156797378214016,99.6389700176192
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 2, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((32768, 2048, 1024, 32, 1), (2064384, 129024, 1024, 32, 1)), ())","('', '2')",137511,124,3524.327,28.421991935483874,11.342668422869194,,,,,,,,,6.552543394027218,0.0935604254620646,812.515380859375,25.79,22.79,110.731,,,,,,,6.528076171875,6.367919921875,7.0400390625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(334.434), 'mean_duration_us': np.float64(2.6970483870967743), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.03112224980431864), 'min_duration_us': np.float64(2.624), 'max_duration_us': np.float64(2.784)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(478.0789999999999), 'mean_duration_us': np.float64(3.855475806451612), 'median_duration_us': np.float64(3.8715), 'std_dev_duration_us': np.float64(0.0875803284465253), 'min_duration_us': np.float64(3.68), 'max_duration_us': np.float64(4.352)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.7)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.86)}]",,False,0.0070156797378214016,99.6389700176192
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 384, 4, 64, 64), (1, 384, 4, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 16384, 4096, 64, 1), (6291456, 16384, 4096, 64, 1), ())","('', '', 'False')",138878,124,1249.275,10.074798387096775,1.68738099841693,0.006291456,24.0,0.25,vector_bf16,3.858363990780246,0.09554846085812818,0.9645909976950615,0.023887115214532045,6.526379000756048,0.16173109096800017,809.27099609375,9.58,8.62,20.8,3.855013841355324,3.6240626904334987,4.0747604500138355,0.963753460338831,0.9060156726083747,1.0186901125034589,6.528076171875,6.176025390625,6.944091796875,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(809.272), 'mean_duration_us': np.float64(6.526387096774194), 'median_duration_us': np.float64(6.528), 'std_dev_duration_us': np.float64(0.1610693954669457), 'min_duration_us': np.float64(6.176), 'max_duration_us': np.float64(6.944)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(6.53)}]","{'op_shape': (1, 384, 4, 64, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (6291456, 16384, 4096, 64, 1), 'stride_output': (6291456, 16384, 4096, 64, 1)}",True,0.006987666034945012,99.64595768365415
 aten::pow,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1536), ())","('float', 'Scalar')","((786432, 1536, 1), ())","('', '2')",12136,300,77587.393,258.6246433333333,206.2423071731804,,,,,,,,,2.5700455729166665,0.07212060911829779,771.013671875,428.245,9.25,437.836,,,,,,,2.56005859375,2.49609375,3.199951171875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::pow_tensor_scalar_kernel_impl<float, float>(at::TensorIteratorBase&, float)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::pow_tensor_scalar_kernel_impl<float, float>(at::TensorIteratorBase&, float)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(770.997), 'mean_duration_us': np.float64(2.5699899999999998), 'median_duration_us': np.float64(2.56), 'std_dev_duration_us': np.float64(0.0720274709167736), 'min_duration_us': np.float64(2.496), 'max_duration_us': np.float64(3.2)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(2.57)}]",,False,0.006657332430600355,99.65261501608475
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1536), (1, 512, 1536), ())","('c10::BFloat16', 'float', 'Scalar')","((786432, 1536, 1), (786432, 1536, 1), ())","('', '', 'False')",12146,300,65958.294,219.86097999999998,177.32695599483534,0.000786432,4.5,0.16666666666666666,vector_bf16,1.8607847560909057,0.05071533489567816,0.3101307926818176,0.008452555815946361,2.53775634765625,0.07184835765020138,761.326904296875,363.08950000000004,5.93,376.995,1.843157813465573,1.6027326338834065,1.9403024628049392,0.30719296891092884,0.26712210564723443,0.32338374380082324,2.56005859375,2.431884765625,2.944091796875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 300, 'total_duration_us': np.float64(761.307), 'mean_duration_us': np.float64(2.53769), 'median_duration_us': np.float64(2.56), 'std_dev_duration_us': np.float64(0.07175583994816499), 'min_duration_us': np.float64(2.432), 'max_duration_us': np.float64(2.944)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(2.54)}]","{'op_shape': (1, 512, 1536), 'dtype_in_out': ('c10::BFloat16', 'float'), 'stride_input': (786432, 1536, 1), 'stride_output': (786432, 1536, 1)}",True,0.0065736918489895085,99.65918870793374
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((4096,), (1, 512, 4096))","('c10::BFloat16', 'c10::BFloat16')","((1,), (2097152, 4096, 1))","('', '')",69,98,863.798,8.814265306122449,0.8844152655154202,0.002097152,8.0078125,0.2497560975609756,vector_bf16,1.1216935030493231,0.025196575060083312,0.2801497919810992,0.0062929982589086135,7.48957669005102,0.1688506813528271,733.978515625,8.58,7.94,12.88,1.1213619640702945,1.0623410903474904,1.181981332050313,0.2800669880995077,0.26532616500386097,0.2952070448828098,7.488037109375,7.10400390625,7.904052734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 98, 'total_duration_us': np.float64(733.979), 'mean_duration_us': np.float64(7.489581632653062), 'median_duration_us': np.float64(7.488), 'std_dev_duration_us': np.float64(0.16799106654269064), 'min_duration_us': np.float64(7.104), 'max_duration_us': np.float64(7.904)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.49)}]","{'shape_in1': (4096,), 'shape_in2': (1, 512, 4096), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (1,), 'stride_input2': (2097152, 4096, 1), 'stride_output': None}",True,0.006337551659170081,99.66552625959291
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 3, 130, 130), (192, 192, 3, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((9734400, 50700, 16900, 130, 1), (5184, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",134488,6,545.896,90.98266666666666,4.889950579164034,32.614907904,26.46533203125,1175.273371340012,matrix_bf16,0.2310409277208885,0.0014189809493289278,271.5362500400527,1.6676905241850577,120.1163330078125,0.741683624284454,720.697998046875,91.131,84.801,97.421,0.2311992897748968,0.22845719593604596,0.23268823117392495,271.7223687451593,268.4996588746425,273.4722819229229,120.0302734375,119.26220703125,121.470947265625,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(106.75), 'mean_duration_us': np.float64(17.791666666666668), 'median_duration_us': np.float64(17.7755), 'std_dev_duration_us': np.float64(0.23426528172612768), 'min_duration_us': np.float64(17.408), 'max_duration_us': np.float64(18.111)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(29.279), 'mean_duration_us': np.float64(4.879833333333333), 'median_duration_us': np.float64(4.848), 'std_dev_duration_us': np.float64(0.1699729553651274), 'min_duration_us': np.float64(4.704), 'max_duration_us': np.float64(5.184)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.383), 'mean_duration_us': np.float64(0.7305), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.011856784274554952), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.736)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(485.596), 'mean_duration_us': np.float64(80.93266666666666), 'median_duration_us': np.float64(80.67099999999999), 'std_dev_duration_us': np.float64(0.7840205496173069), 'min_duration_us': np.float64(80.351), 'max_duration_us': np.float64(82.623)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(38.208), 'mean_duration_us': np.float64(6.367999999999999), 'median_duration_us': np.float64(6.4), 'std_dev_duration_us': np.float64(0.1621192976380869), 'min_duration_us': np.float64(6.112), 'max_duration_us': np.float64(6.56)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(56.481), 'mean_duration_us': np.float64(9.4135), 'median_duration_us': np.float64(9.44), 'std_dev_duration_us': np.float64(0.06258261206863584), 'min_duration_us': np.float64(9.28), 'max_duration_us': np.float64(9.473)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(17.79)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.88)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.93)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.37)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.41)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 3, 130, 130), 'filter_shape': (192, 192, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (9734400, 50700, 16900, 130, 1), 'weight_stride': (5184, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.006222880773823779,99.67174914036673
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 66, 66), (384, 384, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((5018112, 13068, 4356, 66, 1), (10368, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",134208,5,488.866,97.7732,4.985192493775939,32.614907904,20.1650390625,1542.471596687491,matrix_bf16,0.1526732630783961,0.0015885447644565902,235.49417187202297,2.4502851792409204,138.5076171875,1.4431180574160112,692.5380859375,95.722,92.681,103.901,0.15267487782933054,0.15044762328417322,0.15475114988537703,235.4966625794751,232.0611857049768,238.69925325292274,138.494140625,136.635986328125,140.54443359375,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(39.297), 'mean_duration_us': np.float64(7.859399999999999), 'median_duration_us': np.float64(7.872), 'std_dev_duration_us': np.float64(0.03232089107682514), 'min_duration_us': np.float64(7.809), 'max_duration_us': np.float64(7.904)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(53.086000000000006), 'mean_duration_us': np.float64(10.6172), 'median_duration_us': np.float64(10.624), 'std_dev_duration_us': np.float64(0.08153870246698759), 'min_duration_us': np.float64(10.496), 'max_duration_us': np.float64(10.719)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(3.9669999999999996), 'mean_duration_us': np.float64(0.7933999999999999), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.012705904139414883), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(545.052), 'mean_duration_us': np.float64(109.0104), 'median_duration_us': np.float64(108.735), 'std_dev_duration_us': np.float64(1.290723146147151), 'min_duration_us': np.float64(107.167), 'max_duration_us': np.float64(111.007)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(20.416), 'mean_duration_us': np.float64(4.0832), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.1241022159350913), 'min_duration_us': np.float64(3.935), 'max_duration_us': np.float64(4.224)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(30.719), 'mean_duration_us': np.float64(6.143800000000001), 'median_duration_us': np.float64(6.176), 'std_dev_duration_us': np.float64(0.08134961585649948), 'min_duration_us': np.float64(5.983), 'max_duration_us': np.float64(6.208)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(7.86)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.62)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.79)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(109.01)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.08)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.14)}]","{'convNd': 'conv3d', 'input_shape': (1, 384, 3, 66, 66), 'filter_shape': (384, 384, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (5018112, 13068, 4356, 66, 1), 'weight_stride': (10368, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.0059797334692206095,99.67772887383595
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 3, 130, 130), (192, 192, 3, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((9734400, 50700, 16900, 130, 1), (5184, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",134488,6,545.896,90.98266666666666,4.889950579164034,32.614907904,26.46533203125,1175.273371340012,matrix_bf16,0.2310409277208885,0.0014189809493289278,271.5362500400527,1.6676905241850577,120.1163330078125,0.741683624284454,720.697998046875,91.131,84.801,97.421,0.2311992897748968,0.22845719593604596,0.23268823117392495,271.7223687451593,268.4996588746425,273.4722819229229,120.0302734375,119.26220703125,121.470947265625,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(4.383), 'mean_duration_us': np.float64(0.7305), 'median_duration_us': np.float64(0.736), 'std_dev_duration_us': np.float64(0.011856784274554952), 'min_duration_us': np.float64(0.704), 'max_duration_us': np.float64(0.736)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(29.279), 'mean_duration_us': np.float64(4.879833333333333), 'median_duration_us': np.float64(4.848), 'std_dev_duration_us': np.float64(0.1699729553651274), 'min_duration_us': np.float64(4.704), 'max_duration_us': np.float64(5.184)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(38.208), 'mean_duration_us': np.float64(6.367999999999999), 'median_duration_us': np.float64(6.4), 'std_dev_duration_us': np.float64(0.1621192976380869), 'min_duration_us': np.float64(6.112), 'max_duration_us': np.float64(6.56)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(56.481), 'mean_duration_us': np.float64(9.4135), 'median_duration_us': np.float64(9.44), 'std_dev_duration_us': np.float64(0.06258261206863584), 'min_duration_us': np.float64(9.28), 'max_duration_us': np.float64(9.473)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(106.75), 'mean_duration_us': np.float64(17.791666666666668), 'median_duration_us': np.float64(17.7755), 'std_dev_duration_us': np.float64(0.23426528172612768), 'min_duration_us': np.float64(17.408), 'max_duration_us': np.float64(18.111)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(485.596), 'mean_duration_us': np.float64(80.93266666666666), 'median_duration_us': np.float64(80.67099999999999), 'std_dev_duration_us': np.float64(0.7840205496173069), 'min_duration_us': np.float64(80.351), 'max_duration_us': np.float64(82.623)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.73)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.88)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.37)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.41)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(17.79)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(80.93)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 3, 130, 130), 'filter_shape': (192, 192, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (9734400, 50700, 16900, 130, 1), 'weight_stride': (5184, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.006222880773823779,99.67174914036673
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 3, 66, 66), (384, 384, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((5018112, 13068, 4356, 66, 1), (10368, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",134208,5,488.866,97.7732,4.985192493775939,32.614907904,20.1650390625,1542.471596687491,matrix_bf16,0.1526732630783961,0.0015885447644565902,235.49417187202297,2.4502851792409204,138.5076171875,1.4431180574160112,692.5380859375,95.722,92.681,103.901,0.15267487782933054,0.15044762328417322,0.15475114988537703,235.4966625794751,232.0611857049768,238.69925325292274,138.494140625,136.635986328125,140.54443359375,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(3.9669999999999996), 'mean_duration_us': np.float64(0.7933999999999999), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.012705904139414883), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(20.416), 'mean_duration_us': np.float64(4.0832), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.1241022159350913), 'min_duration_us': np.float64(3.935), 'max_duration_us': np.float64(4.224)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(30.719), 'mean_duration_us': np.float64(6.143800000000001), 'median_duration_us': np.float64(6.176), 'std_dev_duration_us': np.float64(0.08134961585649948), 'min_duration_us': np.float64(5.983), 'max_duration_us': np.float64(6.208)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(39.297), 'mean_duration_us': np.float64(7.859399999999999), 'median_duration_us': np.float64(7.872), 'std_dev_duration_us': np.float64(0.03232089107682514), 'min_duration_us': np.float64(7.809), 'max_duration_us': np.float64(7.904)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(53.086000000000006), 'mean_duration_us': np.float64(10.6172), 'median_duration_us': np.float64(10.624), 'std_dev_duration_us': np.float64(0.08153870246698759), 'min_duration_us': np.float64(10.496), 'max_duration_us': np.float64(10.719)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(545.052), 'mean_duration_us': np.float64(109.0104), 'median_duration_us': np.float64(108.735), 'std_dev_duration_us': np.float64(1.290723146147151), 'min_duration_us': np.float64(107.167), 'max_duration_us': np.float64(111.007)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.79)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.08)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.14)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(7.86)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.62)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(109.01)}]","{'convNd': 'conv3d', 'input_shape': (1, 384, 3, 66, 66), 'filter_shape': (384, 384, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (5018112, 13068, 4356, 66, 1), 'weight_stride': (10368, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.0059797334692206095,99.67772887383595
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 5, 256, 256), (1, 96, 5, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((38340864, 399384, 66564, 258, 1), (31457280, 327680, 65536, 256, 1), ())","('', '', 'False')",137091,7,45.55,6.507142857142857,0.36854281911849746,0.03145728,120.0,0.24999999999999997,vector_bf16,1.3171954759684772,0.002214994934814155,0.3292988689921193,0.0005537487337035387,95.52828543526786,0.16085967546789462,668.697998046875,6.43,6.04,7.13,1.3173197311154619,1.3129203542924976,1.319532183414834,0.32932993277886546,0.3282300885731244,0.3298830458537085,95.51904296875,95.35888671875,95.839111328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(668.698), 'mean_duration_us': np.float64(95.52828571428572), 'median_duration_us': np.float64(95.519), 'std_dev_duration_us': np.float64(0.1488572799560666), 'min_duration_us': np.float64(95.359), 'max_duration_us': np.float64(95.839)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(95.53)}]","{'op_shape': (1, 96, 5, 256, 256), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (38340864, 399384, 66564, 258, 1), 'stride_output': (31457280, 327680, 65536, 256, 1)}",True,0.005773885770208145,99.68350275960616
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 4096), (1, 512, 4096), ())","('float', 'c10::BFloat16', 'Scalar')","((2097152, 4096, 1), (2097152, 4096, 1), ())","('', '', 'False')",57,98,987.913,10.080744897959184,1.214260194871754,0.002097152,12.0,0.16666666666666666,vector_fp32,1.8644876354406357,0.042460781158811724,0.3107479392401059,0.00707679685980196,6.752254563934949,0.15668733409141478,661.720947265625,9.875,8.73,16.91,1.872465306158038,1.7554362245231607,1.927506920677662,0.31207755102633966,0.29257270408719344,0.32125115344627697,6.719970703125,6.528076171875,7.16796875,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 98, 'total_duration_us': np.float64(661.721), 'mean_duration_us': np.float64(6.752255102040817), 'median_duration_us': np.float64(6.72), 'std_dev_duration_us': np.float64(0.15589244796048354), 'min_duration_us': np.float64(6.528), 'max_duration_us': np.float64(7.168)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(6.75)}]","{'op_shape': (1, 512, 4096), 'dtype_in_out': ('float', 'c10::BFloat16'), 'stride_input': (2097152, 4096, 1), 'stride_output': (2097152, 4096, 1)}",True,0.005713642290578263,99.68921640189673
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((2, 384, 64, 64), (2, 384, 64, 64), ())","('c10::BFloat16', 'float', 'Scalar')","((1572864, 4096, 64, 1), (1572864, 4096, 64, 1), ())","('', '', 'False')",136175,125,880.079,7.040632,0.7535586491291966,0.003145728,18.0,0.16666666666666666,vector_bf16,3.6110152424212556,0.038603556550079125,0.601835873736876,0.00643392609167984,5.2274921875,0.0570904976986874,653.4365234375,6.96,6.311,14.71,3.6185074340276153,3.469590311821201,3.663432276358811,0.603084572337936,0.5782650519702002,0.610572046059802,5.216064453125,5.152099609375,5.43994140625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(653.4289999999999), 'mean_duration_us': np.float64(5.2274319999999985), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.05689349150825608), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.44)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(5.23)}]","{'op_shape': (2, 384, 64, 64), 'dtype_in_out': ('c10::BFloat16', 'float'), 'stride_input': (1572864, 4096, 64, 1), 'stride_output': (1572864, 4096, 64, 1)}",True,0.0056421102731424476,99.69485851216987
@@ -189,210 +189,210 @@ aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 10240), (),
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 64, 64), (1, 512, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2097152, 4096, 64, 1), (2097152, 64, 32768, 1), ())","('', '', 'False')",223,48,487.497,10.1561875,1.3739508903895092,0.002097152,8.0,0.25,vector_bf16,1.2177005477821017,0.04473622435027562,0.3044251369455254,0.011184056087568905,6.8986867268880205,0.2732068674295325,331.136962890625,9.775,9.19,17.11,1.2192951869410928,1.0240131837634856,1.272535771564016,0.3048237967352732,0.2560032959408714,0.318133942891004,6.8798828125,6.592041015625,8.19189453125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(331.137), 'mean_duration_us': np.float64(6.8986875), 'median_duration_us': np.float64(6.88), 'std_dev_duration_us': np.float64(0.27036057375984035), 'min_duration_us': np.float64(6.592), 'max_duration_us': np.float64(8.192)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.9)}]","{'op_shape': (1, 512, 64, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (2097152, 4096, 64, 1), 'stride_output': (2097152, 64, 32768, 1)}",True,0.00285920849712204,99.78163651256084
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 5, 128, 128), (1, 192, 5, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19468800, 101400, 16900, 130, 1), (15728640, 81920, 16384, 128, 1), ())","('', '', 'False')",136702,6,38.491,6.415166666666667,0.4649216779917521,0.01572864,60.0,0.24999999999999997,vector_bf16,1.235535879231129,0.006357340211105148,0.30888396980778227,0.001589335052776287,50.9219970703125,0.2632109845404184,305.531982421875,6.2455,6.11,7.35,1.2377111651374637,1.2242070752771945,1.242020010121311,0.3094277912843659,0.30605176881929863,0.31050500253032776,50.8314208984375,50.655029296875,51.39208984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(305.532), 'mean_duration_us': np.float64(50.922), 'median_duration_us': np.float64(50.831500000000005), 'std_dev_duration_us': np.float64(0.24023738260312505), 'min_duration_us': np.float64(50.655), 'max_duration_us': np.float64(51.392)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(50.92)}]","{'op_shape': (1, 192, 5, 128, 128), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (19468800, 101400, 16900, 130, 1), 'stride_output': (15728640, 81920, 16384, 128, 1)}",True,0.002638121799080797,99.78427463435992
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 384, 3, 32, 32), (1, 384, 3, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1179648, 3072, 1024, 32, 1), (1179648, 3072, 1024, 32, 1), ())","('', '', 'False')",138425,124,1557.669,12.56184677419355,1.719498546889103,0.001179648,4.5,0.25,vector_bf16,2.005199185466754,0.031005719791689316,0.5012997963666885,0.007751429947922329,2.353736139112903,0.03635136603436274,291.86328125,11.98,10.151,21.48,1.9927160358799876,1.9393290018061409,2.076870065764023,0.4981790089699969,0.4848322504515352,0.5192175164410058,2.367919921875,2.27197265625,2.43310546875,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 124, 'total_duration_us': np.float64(291.87199999999996), 'mean_duration_us': np.float64(2.3538064516129027), 'median_duration_us': np.float64(2.368), 'std_dev_duration_us': np.float64(0.036220800791666605), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.433)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(2.35)}]","{'op_shape': (1, 384, 3, 32, 32), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (1179648, 3072, 1024, 32, 1), 'stride_output': (1179648, 3072, 1024, 32, 1)}",True,0.0025200991350022,99.78679473349492
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 497, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((97714176, 32571392, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",417947,1,38.871,38.871,,,,,,,,,,246.718017578125,,246.718017578125,38.871,38.871,38.871,,,,,,,246.718017578125,246.718017578125,246.718017578125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(241.438), 'mean_duration_us': np.float64(241.438), 'median_duration_us': np.float64(241.438), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(241.438), 'max_duration_us': np.float64(241.438)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(241.44)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",,False,0.002130291484510234,99.78892502497942
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 497, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((97714176, 32571392, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",417947,1,38.871,38.871,,,,,,,,,,246.718017578125,,246.718017578125,38.871,38.871,38.871,,,,,,,246.718017578125,246.718017578125,246.718017578125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(241.438), 'mean_duration_us': np.float64(241.438), 'median_duration_us': np.float64(241.438), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(241.438), 'max_duration_us': np.float64(241.438)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(241.44)}]",,False,0.002130291484510234,99.78892502497942
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (1, 384, 1, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((393216, 1024, 393216, 32, 1), (393216, 1024, 1024, 32, 1), ())","('', '', '1')",133667,126,1227.304,9.740507936507937,1.0159155929192678,0.000393216,2.25,0.16666666666666666,vector_bf16,1.2145717649693037,0.0193762549367744,0.202428627494884,0.0032293758227957344,1.942991226438492,0.03154762062422343,244.81689453125,9.53,8.9,16.06,1.209320037041672,1.1519461695076885,1.2496671946204576,0.20155333950694532,0.19199102825128145,0.2082778657700763,1.950927734375,1.887939453125,2.048095703125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(244.82499999999996), 'mean_duration_us': np.float64(1.9430555555555553), 'median_duration_us': np.float64(1.951), 'std_dev_duration_us': np.float64(0.03138048770842072), 'min_duration_us': np.float64(1.888), 'max_duration_us': np.float64(2.048)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(1.94)}]","{'shape_in1': (1, 384, 1, 32, 32), 'shape_in2': (1, 384, 1, 32, 32), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (393216, 1024, 393216, 32, 1), 'stride_input2': (393216, 1024, 1024, 32, 1), 'stride_output': None}",True,0.0021138762008697455,99.79103890118029
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 493, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((96927744, 32309248, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",415685,1,31.901,31.901,,,,,,,,,,244.573974609375,,244.573974609375,31.901,31.901,31.901,,,,,,,244.573974609375,244.573974609375,244.573974609375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(239.518), 'mean_duration_us': np.float64(239.518), 'median_duration_us': np.float64(239.518), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(239.518), 'max_duration_us': np.float64(239.518)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(239.52)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",,False,0.002111778704115888,99.7931506798844
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 489, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((96141312, 32047104, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",413423,1,34.521,34.521,,,,,,,,,,243.3251953125,,243.3251953125,34.521,34.521,34.521,,,,,,,243.3251953125,243.3251953125,243.3251953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(238.142), 'mean_duration_us': np.float64(238.142), 'median_duration_us': np.float64(238.142), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(238.142), 'max_duration_us': np.float64(238.142)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.183), 'mean_duration_us': np.float64(5.183), 'median_duration_us': np.float64(5.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.183), 'max_duration_us': np.float64(5.183)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(238.14)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0021009960951752053,99.79525167597959
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 485, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((95354880, 31784960, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",411161,1,31.22,31.22,,,,,,,,,,241.245849609375,,241.245849609375,31.22,31.22,31.22,,,,,,,241.245849609375,241.245849609375,241.245849609375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(235.806), 'mean_duration_us': np.float64(235.806), 'median_duration_us': np.float64(235.806), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(235.806), 'max_duration_us': np.float64(235.806)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.44), 'mean_duration_us': np.float64(5.44), 'median_duration_us': np.float64(5.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.44), 'max_duration_us': np.float64(5.44)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(235.81)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.44)}]",,False,0.0020830419445695752,99.79733471792416
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 481, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((94568448, 31522816, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",408899,1,34.081,34.081,,,,,,,,,,239.036865234375,,239.036865234375,34.081,34.081,34.081,,,,,,,239.036865234375,239.036865234375,239.036865234375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(233.949), 'mean_duration_us': np.float64(233.949), 'median_duration_us': np.float64(233.949), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(233.949), 'max_duration_us': np.float64(233.949)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(233.95)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",,False,0.002063968426349575,99.79939868635051
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 477, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((93782016, 31260672, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",406637,1,30.64,30.64,,,,,,,,,,236.990234375,,236.990234375,30.64,30.64,30.64,,,,,,,236.990234375,236.990234375,236.990234375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(231.87), 'mean_duration_us': np.float64(231.87), 'median_duration_us': np.float64(231.87), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(231.87), 'max_duration_us': np.float64(231.87)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(231.87)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",,False,0.0020462967526937107,99.80144498310321
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 493, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((96927744, 32309248, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",415685,1,31.901,31.901,,,,,,,,,,244.573974609375,,244.573974609375,31.901,31.901,31.901,,,,,,,244.573974609375,244.573974609375,244.573974609375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(239.518), 'mean_duration_us': np.float64(239.518), 'median_duration_us': np.float64(239.518), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(239.518), 'max_duration_us': np.float64(239.518)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(239.52)}]",,False,0.002111778704115888,99.7931506798844
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 489, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((96141312, 32047104, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",413423,1,34.521,34.521,,,,,,,,,,243.3251953125,,243.3251953125,34.521,34.521,34.521,,,,,,,243.3251953125,243.3251953125,243.3251953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.183), 'mean_duration_us': np.float64(5.183), 'median_duration_us': np.float64(5.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.183), 'max_duration_us': np.float64(5.183)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(238.142), 'mean_duration_us': np.float64(238.142), 'median_duration_us': np.float64(238.142), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(238.142), 'max_duration_us': np.float64(238.142)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(238.14)}]",,False,0.0021009960951752053,99.79525167597959
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 485, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((95354880, 31784960, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",411161,1,31.22,31.22,,,,,,,,,,241.245849609375,,241.245849609375,31.22,31.22,31.22,,,,,,,241.245849609375,241.245849609375,241.245849609375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.44), 'mean_duration_us': np.float64(5.44), 'median_duration_us': np.float64(5.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.44), 'max_duration_us': np.float64(5.44)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(235.806), 'mean_duration_us': np.float64(235.806), 'median_duration_us': np.float64(235.806), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(235.806), 'max_duration_us': np.float64(235.806)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.44)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(235.81)}]",,False,0.0020830419445695752,99.79733471792416
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 481, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((94568448, 31522816, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",408899,1,34.081,34.081,,,,,,,,,,239.036865234375,,239.036865234375,34.081,34.081,34.081,,,,,,,239.036865234375,239.036865234375,239.036865234375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(233.949), 'mean_duration_us': np.float64(233.949), 'median_duration_us': np.float64(233.949), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(233.949), 'max_duration_us': np.float64(233.949)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(233.95)}]",,False,0.002063968426349575,99.79939868635051
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 477, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((93782016, 31260672, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",406637,1,30.64,30.64,,,,,,,,,,236.990234375,,236.990234375,30.64,30.64,30.64,,,,,,,236.990234375,236.990234375,236.990234375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(231.87), 'mean_duration_us': np.float64(231.87), 'median_duration_us': np.float64(231.87), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(231.87), 'max_duration_us': np.float64(231.87)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(231.87)}]",,False,0.0020462967526937107,99.80144498310321
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 32, 32), ())","('c10::BFloat16', 'double')","((393216, 1024, 32, 1), ())","('', '')",133600,126,1225.212,9.723904761904762,0.9946908297843821,0.000393216,1.5000076293945312,0.24999872844071228,vector_bf16,0.8398395675152316,0.008033071727033866,0.2099588239730056,0.0020082577172315127,1.8729945591517858,0.01793731878482466,235.997314453125,9.39,8.81,13.34,0.8331157005043321,0.8192375015259411,0.8623321793601928,0.2082778657700763,0.20480833367243137,0.21558194833355643,1.887939453125,1.823974609375,1.919921875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(236.00399999999996), 'mean_duration_us': np.float64(1.8730476190476189), 'median_duration_us': np.float64(1.888), 'std_dev_duration_us': np.float64(0.017875609499146693), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(1.92)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(1.87)}]","{'shape_in1': (1, 384, 32, 32), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (393216, 1024, 32, 1), 'stride_input2': (), 'stride_output': None}",True,0.0020377233664646277,99.80348270646968
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 32, 32), (), ())","('c10::BFloat16', 'double', 'Scalar')","((393216, 1024, 32, 1), (), ())","('', '', '1')",133602,126,1105.913,8.777087301587303,1.3320711814004014,0.000393216,1.5000076293945312,0.24999872844071228,vector_bf16,0.8413305089011528,0.007581322739237729,0.21033155742366555,0.0018953210447081072,1.8696560329861112,0.0168412222930555,235.57666015625,8.33,7.87,17.991,0.8472493631886042,0.8326849828098747,0.8623321793601928,0.21181126346935425,0.20817018689414502,0.21558194833355643,1.8564453125,1.823974609375,1.888916015625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(235.583), 'mean_duration_us': np.float64(1.8697063492063493), 'median_duration_us': np.float64(1.8565), 'std_dev_duration_us': np.float64(0.016782486837458893), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(1.889)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(1.87)}]","{'shape_in1': (1, 384, 32, 32), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (393216, 1024, 32, 1), 'stride_input2': (), 'stride_output': None}",True,0.0020340912188195064,99.8055167976885
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 473, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((92995584, 30998528, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",404375,1,31.311,31.311,,,,,,,,,,235.5498046875,,235.5498046875,31.311,31.311,31.311,,,,,,,235.5498046875,235.5498046875,235.5498046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(230.462), 'mean_duration_us': np.float64(230.462), 'median_duration_us': np.float64(230.462), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(230.462), 'max_duration_us': np.float64(230.462)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(230.46)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",,False,0.002033859334756266,99.80755065702326
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 469, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((92209152, 30736384, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",402113,1,30.52,30.52,,,,,,,,,,233.086181640625,,233.086181640625,30.52,30.52,30.52,,,,,,,233.086181640625,233.086181640625,233.086181640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(227.902), 'mean_duration_us': np.float64(227.902), 'median_duration_us': np.float64(227.902), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(227.902), 'max_duration_us': np.float64(227.902)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(227.9)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.002012587134009358,99.80956324415726
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 465, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((91422720, 30474240, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",399851,1,35.27,35.27,,,,,,,,,,231.486083984375,,231.486083984375,35.27,35.27,35.27,,,,,,,231.486083984375,231.486083984375,231.486083984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(226.366), 'mean_duration_us': np.float64(226.366), 'median_duration_us': np.float64(226.366), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(226.366), 'max_duration_us': np.float64(226.366)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(226.37)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",,False,0.0019987710599141018,99.81156201521718
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 461, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((90636288, 30212096, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",397589,1,31.061,31.061,,,,,,,,,,229.43798828125,,229.43798828125,31.061,31.061,31.061,,,,,,,229.43798828125,229.43798828125,229.43798828125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(223.966), 'mean_duration_us': np.float64(223.966), 'median_duration_us': np.float64(223.966), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(223.966), 'max_duration_us': np.float64(223.966)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.472), 'mean_duration_us': np.float64(5.472), 'median_duration_us': np.float64(5.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.472), 'max_duration_us': np.float64(5.472)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(223.97)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}]",,False,0.001981086738036606,99.81354310195522
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 473, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((92995584, 30998528, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",404375,1,31.311,31.311,,,,,,,,,,235.5498046875,,235.5498046875,31.311,31.311,31.311,,,,,,,235.5498046875,235.5498046875,235.5498046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(230.462), 'mean_duration_us': np.float64(230.462), 'median_duration_us': np.float64(230.462), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(230.462), 'max_duration_us': np.float64(230.462)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(230.46)}]",,False,0.002033859334756266,99.80755065702326
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 469, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((92209152, 30736384, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",402113,1,30.52,30.52,,,,,,,,,,233.086181640625,,233.086181640625,30.52,30.52,30.52,,,,,,,233.086181640625,233.086181640625,233.086181640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(227.902), 'mean_duration_us': np.float64(227.902), 'median_duration_us': np.float64(227.902), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(227.902), 'max_duration_us': np.float64(227.902)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(227.9)}]",,False,0.002012587134009358,99.80956324415726
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 465, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((91422720, 30474240, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",399851,1,35.27,35.27,,,,,,,,,,231.486083984375,,231.486083984375,35.27,35.27,35.27,,,,,,,231.486083984375,231.486083984375,231.486083984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(226.366), 'mean_duration_us': np.float64(226.366), 'median_duration_us': np.float64(226.366), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(226.366), 'max_duration_us': np.float64(226.366)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(226.37)}]",,False,0.0019987710599141018,99.81156201521718
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 461, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((90636288, 30212096, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",397589,1,31.061,31.061,,,,,,,,,,229.43798828125,,229.43798828125,31.061,31.061,31.061,,,,,,,229.43798828125,229.43798828125,229.43798828125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.472), 'mean_duration_us': np.float64(5.472), 'median_duration_us': np.float64(5.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.472), 'max_duration_us': np.float64(5.472)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(223.966), 'mean_duration_us': np.float64(223.966), 'median_duration_us': np.float64(223.966), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(223.966), 'max_duration_us': np.float64(223.966)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(223.97)}]",,False,0.001981086738036606,99.81354310195522
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 1, 128, 128), (1, 192, 4, 128, 128)), ())","('TensorList', 'Scalar')","(((3145728, 16384, 16384, 128, 1), (12582912, 65536, 16384, 128, 1)), ())","('', '2')",136736,5,164.32,32.864,2.0808363703088215,,,,,,,,,45.535791015625,0.3839215775419915,227.678955078125,32.43,30.42,35.41,,,,,,,45.760009765625,45.055908203125,45.856201171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(54.175000000000004), 'mean_duration_us': np.float64(10.835), 'median_duration_us': np.float64(10.848), 'std_dev_duration_us': np.float64(0.05206918474491428), 'min_duration_us': np.float64(10.752), 'max_duration_us': np.float64(10.912)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(173.504), 'mean_duration_us': np.float64(34.7008), 'median_duration_us': np.float64(34.944), 'std_dev_duration_us': np.float64(0.3532197049995957), 'min_duration_us': np.float64(34.208), 'max_duration_us': np.float64(35.008)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.84)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(34.7)}]",,False,0.001965898331894354,99.81550900028711
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 457, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((89849856, 29949952, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",395327,1,32.43,32.43,,,,,,,,,,227.51806640625,,227.51806640625,32.43,32.43,32.43,,,,,,,227.51806640625,227.51806640625,227.51806640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(222.301), 'mean_duration_us': np.float64(222.301), 'median_duration_us': np.float64(222.301), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(222.301), 'max_duration_us': np.float64(222.301)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.217), 'mean_duration_us': np.float64(5.217), 'median_duration_us': np.float64(5.217), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.217), 'max_duration_us': np.float64(5.217)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(222.3)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0019645091355518494,99.81747350942265
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 453, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((89063424, 29687808, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",393065,1,31.87,31.87,,,,,,,,,,225.31005859375,,225.31005859375,31.87,31.87,31.87,,,,,,,225.31005859375,225.31005859375,225.31005859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(220.19), 'mean_duration_us': np.float64(220.19), 'median_duration_us': np.float64(220.19), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(220.19), 'max_duration_us': np.float64(220.19)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(220.19)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",,False,0.0019454440494796035,99.81941895347214
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 449, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((88276992, 29425664, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",390803,1,30.7,30.7,,,,,,,,,,224.254150390625,,224.254150390625,30.7,30.7,30.7,,,,,,,224.254150390625,224.254150390625,224.254150390625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(219.038), 'mean_duration_us': np.float64(219.038), 'median_duration_us': np.float64(219.038), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(219.038), 'max_duration_us': np.float64(219.038)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(219.04)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0019363267897203747,99.82135528026186
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 445, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((87490560, 29163520, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",388541,1,31.341,31.341,,,,,,,,,,221.5341796875,,221.5341796875,31.341,31.341,31.341,,,,,,,221.5341796875,221.5341796875,221.5341796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(216.318), 'mean_duration_us': np.float64(216.318), 'median_duration_us': np.float64(216.318), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(216.318), 'max_duration_us': np.float64(216.318)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(216.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0019128411501879898,99.82326812141204
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 441, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((86704128, 28901376, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",386279,1,31.351,31.351,,,,,,,,,,219.67822265625,,219.67822265625,31.351,31.351,31.351,,,,,,,219.67822265625,219.67822265625,219.67822265625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(214.558), 'mean_duration_us': np.float64(214.558), 'median_duration_us': np.float64(214.558), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(214.558), 'max_duration_us': np.float64(214.558)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(214.56)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",,False,0.0018968158533811327,99.82516493726543
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 437, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((85917696, 28639232, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",384017,1,30.881,30.881,,,,,,,,,,217.950927734375,,217.950927734375,30.881,30.881,30.881,,,,,,,217.950927734375,217.950927734375,217.950927734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(212.639), 'mean_duration_us': np.float64(212.639), 'median_duration_us': np.float64(212.639), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(212.639), 'max_duration_us': np.float64(212.639)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(212.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}]",,False,0.001881901492040892,99.82704683875747
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 433, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((85131264, 28377088, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",381755,1,31.99,31.99,,,,,,,,,,215.806884765625,,215.806884765625,31.99,31.99,31.99,,,,,,,215.806884765625,215.806884765625,215.806884765625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(210.719), 'mean_duration_us': np.float64(210.719), 'median_duration_us': np.float64(210.719), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(210.719), 'max_duration_us': np.float64(210.719)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(210.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",,False,0.001863388711646546,99.82891022746911
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 429, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((84344832, 28114944, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",379493,1,31.371,31.371,,,,,,,,,,213.630126953125,,213.630126953125,31.371,31.371,31.371,,,,,,,213.630126953125,213.630126953125,213.630126953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(208.446), 'mean_duration_us': np.float64(208.446), 'median_duration_us': np.float64(208.446), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(208.446), 'max_duration_us': np.float64(208.446)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(208.45)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0018445934543024347,99.83075482092342
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 425, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((83558400, 27852800, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",377231,1,30.96,30.96,,,,,,,,,,212.413818359375,,212.413818359375,30.96,30.96,30.96,,,,,,,212.413818359375,212.413818359375,212.413818359375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(206.878), 'mean_duration_us': np.float64(206.878), 'median_duration_us': np.float64(206.878), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(206.878), 'max_duration_us': np.float64(206.878)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.536), 'mean_duration_us': np.float64(5.536), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.536)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(206.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.54)}]",,False,0.001834091214274579,99.8325889121377
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 421, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((82771968, 27590656, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",374969,1,31.841,31.841,,,,,,,,,,210.27001953125,,210.27001953125,31.841,31.841,31.841,,,,,,,210.27001953125,210.27001953125,210.27001953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(205.086), 'mean_duration_us': np.float64(205.086), 'median_duration_us': np.float64(205.086), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(205.086), 'max_duration_us': np.float64(205.086)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(205.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0018155805419171717,99.83440449267961
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 457, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((89849856, 29949952, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",395327,1,32.43,32.43,,,,,,,,,,227.51806640625,,227.51806640625,32.43,32.43,32.43,,,,,,,227.51806640625,227.51806640625,227.51806640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.217), 'mean_duration_us': np.float64(5.217), 'median_duration_us': np.float64(5.217), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.217), 'max_duration_us': np.float64(5.217)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(222.301), 'mean_duration_us': np.float64(222.301), 'median_duration_us': np.float64(222.301), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(222.301), 'max_duration_us': np.float64(222.301)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(222.3)}]",,False,0.0019645091355518494,99.81747350942265
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 453, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((89063424, 29687808, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",393065,1,31.87,31.87,,,,,,,,,,225.31005859375,,225.31005859375,31.87,31.87,31.87,,,,,,,225.31005859375,225.31005859375,225.31005859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(220.19), 'mean_duration_us': np.float64(220.19), 'median_duration_us': np.float64(220.19), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(220.19), 'max_duration_us': np.float64(220.19)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(220.19)}]",,False,0.0019454440494796035,99.81941895347214
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 449, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((88276992, 29425664, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",390803,1,30.7,30.7,,,,,,,,,,224.254150390625,,224.254150390625,30.7,30.7,30.7,,,,,,,224.254150390625,224.254150390625,224.254150390625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(219.038), 'mean_duration_us': np.float64(219.038), 'median_duration_us': np.float64(219.038), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(219.038), 'max_duration_us': np.float64(219.038)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(219.04)}]",,False,0.0019363267897203747,99.82135528026186
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 445, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((87490560, 29163520, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",388541,1,31.341,31.341,,,,,,,,,,221.5341796875,,221.5341796875,31.341,31.341,31.341,,,,,,,221.5341796875,221.5341796875,221.5341796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(216.318), 'mean_duration_us': np.float64(216.318), 'median_duration_us': np.float64(216.318), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(216.318), 'max_duration_us': np.float64(216.318)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(216.32)}]",,False,0.0019128411501879898,99.82326812141204
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 441, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((86704128, 28901376, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",386279,1,31.351,31.351,,,,,,,,,,219.67822265625,,219.67822265625,31.351,31.351,31.351,,,,,,,219.67822265625,219.67822265625,219.67822265625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(214.558), 'mean_duration_us': np.float64(214.558), 'median_duration_us': np.float64(214.558), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(214.558), 'max_duration_us': np.float64(214.558)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(214.56)}]",,False,0.0018968158533811327,99.82516493726543
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 437, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((85917696, 28639232, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",384017,1,30.881,30.881,,,,,,,,,,217.950927734375,,217.950927734375,30.881,30.881,30.881,,,,,,,217.950927734375,217.950927734375,217.950927734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(212.639), 'mean_duration_us': np.float64(212.639), 'median_duration_us': np.float64(212.639), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(212.639), 'max_duration_us': np.float64(212.639)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(212.64)}]",,False,0.001881901492040892,99.82704683875747
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 433, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((85131264, 28377088, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",381755,1,31.99,31.99,,,,,,,,,,215.806884765625,,215.806884765625,31.99,31.99,31.99,,,,,,,215.806884765625,215.806884765625,215.806884765625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(210.719), 'mean_duration_us': np.float64(210.719), 'median_duration_us': np.float64(210.719), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(210.719), 'max_duration_us': np.float64(210.719)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(210.72)}]",,False,0.001863388711646546,99.82891022746911
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 429, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((84344832, 28114944, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",379493,1,31.371,31.371,,,,,,,,,,213.630126953125,,213.630126953125,31.371,31.371,31.371,,,,,,,213.630126953125,213.630126953125,213.630126953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(208.446), 'mean_duration_us': np.float64(208.446), 'median_duration_us': np.float64(208.446), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(208.446), 'max_duration_us': np.float64(208.446)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(208.45)}]",,False,0.0018445934543024347,99.83075482092342
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 425, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((83558400, 27852800, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",377231,1,30.96,30.96,,,,,,,,,,212.413818359375,,212.413818359375,30.96,30.96,30.96,,,,,,,212.413818359375,212.413818359375,212.413818359375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.536), 'mean_duration_us': np.float64(5.536), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.536)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(206.878), 'mean_duration_us': np.float64(206.878), 'median_duration_us': np.float64(206.878), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(206.878), 'max_duration_us': np.float64(206.878)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(206.88)}]",,False,0.001834091214274579,99.8325889121377
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 421, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((82771968, 27590656, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",374969,1,31.841,31.841,,,,,,,,,,210.27001953125,,210.27001953125,31.841,31.841,31.841,,,,,,,210.27001953125,210.27001953125,210.27001953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(205.086), 'mean_duration_us': np.float64(205.086), 'median_duration_us': np.float64(205.086), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(205.086), 'max_duration_us': np.float64(205.086)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(205.09)}]",,False,0.0018155805419171717,99.83440449267961
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1024, 64), (1024, 64), ())","('c10::complex<double>', 'c10::complex<double>', 'Scalar')","((64, 1), (64, 1), ())","('', '', 'False')",11746,10,1756084.666,175608.46659999999,184987.68341661955,6.5536e-05,,,,,,0.003146695360733774,2.9415219089822102e-05,20.828564453125,0.19442744483508767,208.28564453125,175050.364,104.801,352321.485,,,,0.0031387717149065986,0.003107899041355995,0.0031850811708729336,20.8795166015625,20.575927734375,21.0869140625,"[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(208.286), 'mean_duration_us': np.float64(20.8286), 'median_duration_us': np.float64(20.8795), 'std_dev_duration_us': np.float64(0.1844555230943221), 'min_duration_us': np.float64(20.576), 'max_duration_us': np.float64(21.087)}]","[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'mean_duration_us': np.float64(20.83)}]","{'op_shape': (1024, 64), 'dtype_in_out': ('c10::complex<double>', 'c10::complex<double>'), 'stride_input': (64, 1), 'stride_output': (64, 1)}",True,0.0017984464176806372,99.83620293909729
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 417, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((81985536, 27328512, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",372707,1,31.39,31.39,,,,,,,,,,207.80712890625,,207.80712890625,31.39,31.39,31.39,,,,,,,207.80712890625,207.80712890625,207.80712890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(202.622), 'mean_duration_us': np.float64(202.622), 'median_duration_us': np.float64(202.622), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(202.622), 'max_duration_us': np.float64(202.622)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(202.62)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0017943146652810796,99.83799725376257
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 413, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((81199104, 27066368, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",370445,1,31.07,31.07,,,,,,,,,,206.14208984375,,206.14208984375,31.07,31.07,31.07,,,,,,,206.14208984375,206.14208984375,206.14208984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(200.894), 'mean_duration_us': np.float64(200.894), 'median_duration_us': np.float64(200.894), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(200.894), 'max_duration_us': np.float64(200.894)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(200.89)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",,False,0.0017799378533601687,99.83977719161592
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 417, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((81985536, 27328512, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",372707,1,31.39,31.39,,,,,,,,,,207.80712890625,,207.80712890625,31.39,31.39,31.39,,,,,,,207.80712890625,207.80712890625,207.80712890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(202.622), 'mean_duration_us': np.float64(202.622), 'median_duration_us': np.float64(202.622), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(202.622), 'max_duration_us': np.float64(202.622)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(202.62)}]",,False,0.0017943146652810796,99.83799725376257
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 413, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((81199104, 27066368, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",370445,1,31.07,31.07,,,,,,,,,,206.14208984375,,206.14208984375,31.07,31.07,31.07,,,,,,,206.14208984375,206.14208984375,206.14208984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(200.894), 'mean_duration_us': np.float64(200.894), 'median_duration_us': np.float64(200.894), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(200.894), 'max_duration_us': np.float64(200.894)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(200.89)}]",,False,0.0017799378533601687,99.83977719161592
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (), ())","('long int', 'long int', 'Scalar')","((512, 1), (), ())","('', '', '1')",138,96,825.701,8.601052083333334,1.219832191822359,0.000262144,4.000007629394531,0.06249988079093782,,1.9613397611905805,0.03208341872094342,0.12258350126493774,0.0020052098454247033,2.1390762329101562,0.0360405224890834,205.351318359375,8.295,7.22,13.2,1.9562630325666137,1.795558314381271,2.0164204169014086,0.12226620633113186,0.11222218060200669,0.12602603568075119,2.14404296875,2.080078125,2.3359375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<long>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<long>, std::array<char*, 2ul>)', 'stream': 7, 'count': 96, 'total_duration_us': np.float64(205.347), 'mean_duration_us': np.float64(2.13903125), 'median_duration_us': np.float64(2.144), 'std_dev_duration_us': np.float64(0.03587201007430212), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.336)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(2.14)}]","{'shape_in1': (512, 512), 'shape_in2': (), 'dtype_in1_in2_out': ('long int', 'long int', None), 'stride_input1': (512, 1), 'stride_input2': (), 'stride_output': None}",True,0.0017731099217162055,99.84155030153764
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 409, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((80412672, 26804224, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",368183,1,32.18,32.18,,,,,,,,,,204.031005859375,,204.031005859375,32.18,32.18,32.18,,,,,,,204.031005859375,204.031005859375,204.031005859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(198.879), 'mean_duration_us': np.float64(198.879), 'median_duration_us': np.float64(198.879), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(198.879), 'max_duration_us': np.float64(198.879)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(198.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",,False,0.0017617096579525273,99.8433120111956
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 405, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((79626240, 26542080, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",365921,1,32.06,32.06,,,,,,,,,,202.110107421875,,202.110107421875,32.06,32.06,32.06,,,,,,,202.110107421875,202.110107421875,202.110107421875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(196.894), 'mean_duration_us': np.float64(196.894), 'median_duration_us': np.float64(196.894), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(196.894), 'max_duration_us': np.float64(196.894)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(196.89)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0017451236233200162,99.84505713481892
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 409, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((80412672, 26804224, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",368183,1,32.18,32.18,,,,,,,,,,204.031005859375,,204.031005859375,32.18,32.18,32.18,,,,,,,204.031005859375,204.031005859375,204.031005859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(198.879), 'mean_duration_us': np.float64(198.879), 'median_duration_us': np.float64(198.879), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(198.879), 'max_duration_us': np.float64(198.879)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(198.88)}]",,False,0.0017617096579525273,99.8433120111956
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 405, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((79626240, 26542080, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",365921,1,32.06,32.06,,,,,,,,,,202.110107421875,,202.110107421875,32.06,32.06,32.06,,,,,,,202.110107421875,202.110107421875,202.110107421875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(196.894), 'mean_duration_us': np.float64(196.894), 'median_duration_us': np.float64(196.894), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(196.894), 'max_duration_us': np.float64(196.894)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(196.89)}]",,False,0.0017451236233200162,99.84505713481892
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((1536,), (512, 4096), (4096, 1536), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (4096, 1), (1, 4096), (), ())","('', '', '', '1', '1')",11845,10,815.439,81.5439,7.319777143693196,6.443237376,17.5029296875,351.06979858282654,matrix_bf16,0.9087376362124789,0.015042430661435026,319.0303389097488,5.280943102506133,20.2012451171875,0.330968715991367,202.012451171875,82.58600000000001,62.13,90.651,0.9038934008585031,0.8851245198101989,0.940269050556598,317.3296741797408,310.74048689048755,330.1000661925704,20.3045654296875,19.51904296875,20.735107421875,"[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x64x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(202.012), 'mean_duration_us': np.float64(20.2012), 'median_duration_us': np.float64(20.3045), 'std_dev_duration_us': np.float64(0.31397190957154153), 'min_duration_us': np.float64(19.519), 'max_duration_us': np.float64(20.735)}]","[{'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x64x64_warpg...', 'stream': 7, 'mean_duration_us': np.float64(20.2)}]","{'M': 512, 'N': 1536, 'K': 4096, 'bias': True, 'stride_A': (4096, 1), 'stride_B': (1, 4096), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.0017442804085445963,99.84680141522746
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 401, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((78839808, 26279936, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",363659,1,31.57,31.57,,,,,,,,,,200.5419921875,,200.5419921875,31.57,31.57,31.57,,,,,,,200.5419921875,200.5419921875,200.5419921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(195.166), 'mean_duration_us': np.float64(195.166), 'median_duration_us': np.float64(195.166), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(195.166), 'max_duration_us': np.float64(195.166)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(195.17)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}]",,False,0.0017315837020637095,99.84853299892953
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 401, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((78839808, 26279936, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",363659,1,31.57,31.57,,,,,,,,,,200.5419921875,,200.5419921875,31.57,31.57,31.57,,,,,,,200.5419921875,200.5419921875,200.5419921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(195.166), 'mean_duration_us': np.float64(195.166), 'median_duration_us': np.float64(195.166), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(195.166), 'max_duration_us': np.float64(195.166)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(195.17)}]",,False,0.0017315837020637095,99.84853299892953
 aten::sub,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 126, 32, 32), ())","('float', 'float', 'Scalar')","((2064384, 129024, 1024, 32, 1), (2064384, 129024, 1024, 32, 1), ())","('', '', '1')",35903,26,3047.456,117.20984615384616,300.2458250024726,,,,,,,,,7.646597055288462,1.8691362373908282,198.8115234375,9.4205,6.891,961.381,,,,,,,6.719970703125,5.43896484375,10.847900390625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>)', 'stream': 7, 'count': 26, 'total_duration_us': np.float64(198.81199999999998), 'mean_duration_us': np.float64(7.646615384615384), 'median_duration_us': np.float64(6.72), 'std_dev_duration_us': np.float64(1.83283238305599), 'min_duration_us': np.float64(5.439), 'max_duration_us': np.float64(10.848)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(7.65)}]",,False,0.0017166419362432677,99.85024964086577
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 397, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((78053376, 26017792, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",361397,1,30.48,30.48,,,,,,,,,,198.43017578125,,198.43017578125,30.48,30.48,30.48,,,,,,,198.43017578125,198.43017578125,198.43017578125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(193.246), 'mean_duration_us': np.float64(193.246), 'median_duration_us': np.float64(193.246), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(193.246), 'max_duration_us': np.float64(193.246)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(193.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0017133491825452526,99.85196299004832
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 393, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((77266944, 25755648, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",359135,1,30.79,30.79,,,,,,,,,,196.670166015625,,196.670166015625,30.79,30.79,30.79,,,,,,,196.670166015625,196.670166015625,196.670166015625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(191.486), 'mean_duration_us': np.float64(191.486), 'median_duration_us': np.float64(191.486), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(191.486), 'max_duration_us': np.float64(191.486)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(191.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0016981523442552457,99.85366114239258
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 389, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((76480512, 25493504, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",356873,1,33.721,33.721,,,,,,,,,,194.973876953125,,194.973876953125,33.721,33.721,33.721,,,,,,,194.973876953125,194.973876953125,194.973876953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(189.502), 'mean_duration_us': np.float64(189.502), 'median_duration_us': np.float64(189.502), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(189.502), 'max_duration_us': np.float64(189.502)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.472), 'mean_duration_us': np.float64(5.472), 'median_duration_us': np.float64(5.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.472), 'max_duration_us': np.float64(5.472)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(189.5)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}]",,False,0.0016835057036062007,99.85534464809619
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 385, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((75694080, 25231360, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",354611,1,30.91,30.91,,,,,,,,,,192.9580078125,,192.9580078125,30.91,30.91,30.91,,,,,,,192.9580078125,192.9580078125,192.9580078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(187.454), 'mean_duration_us': np.float64(187.454), 'median_duration_us': np.float64(187.454), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(187.454), 'max_duration_us': np.float64(187.454)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.504), 'mean_duration_us': np.float64(5.504), 'median_duration_us': np.float64(5.504), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.504), 'max_duration_us': np.float64(5.504)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(187.45)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.5)}]",,False,0.0016660996426045938,99.8570107477388
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 397, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((78053376, 26017792, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",361397,1,30.48,30.48,,,,,,,,,,198.43017578125,,198.43017578125,30.48,30.48,30.48,,,,,,,198.43017578125,198.43017578125,198.43017578125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(193.246), 'mean_duration_us': np.float64(193.246), 'median_duration_us': np.float64(193.246), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(193.246), 'max_duration_us': np.float64(193.246)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(193.25)}]",,False,0.0017133491825452526,99.85196299004832
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 393, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((77266944, 25755648, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",359135,1,30.79,30.79,,,,,,,,,,196.670166015625,,196.670166015625,30.79,30.79,30.79,,,,,,,196.670166015625,196.670166015625,196.670166015625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(191.486), 'mean_duration_us': np.float64(191.486), 'median_duration_us': np.float64(191.486), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(191.486), 'max_duration_us': np.float64(191.486)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(191.49)}]",,False,0.0016981523442552457,99.85366114239258
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 389, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((76480512, 25493504, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",356873,1,33.721,33.721,,,,,,,,,,194.973876953125,,194.973876953125,33.721,33.721,33.721,,,,,,,194.973876953125,194.973876953125,194.973876953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.472), 'mean_duration_us': np.float64(5.472), 'median_duration_us': np.float64(5.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.472), 'max_duration_us': np.float64(5.472)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(189.502), 'mean_duration_us': np.float64(189.502), 'median_duration_us': np.float64(189.502), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(189.502), 'max_duration_us': np.float64(189.502)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(189.5)}]",,False,0.0016835057036062007,99.85534464809619
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 385, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((75694080, 25231360, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",354611,1,30.91,30.91,,,,,,,,,,192.9580078125,,192.9580078125,30.91,30.91,30.91,,,,,,,192.9580078125,192.9580078125,192.9580078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.504), 'mean_duration_us': np.float64(5.504), 'median_duration_us': np.float64(5.504), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.504), 'max_duration_us': np.float64(5.504)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(187.454), 'mean_duration_us': np.float64(187.454), 'median_duration_us': np.float64(187.454), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(187.454), 'max_duration_us': np.float64(187.454)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.5)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(187.45)}]",,False,0.0016660996426045938,99.8570107477388
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((9216,), (1, 1536), (1536, 9216), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (1536, 1), (1, 1536), (), ())","('', '', '', '1', '1')",11837,10,478.645,47.8645,8.267741479186844,0.028320768,27.0380859375,0.9989164589879727,matrix_bf16,1.4872589982806343,0.018189369309396873,1.4856474921604907,0.01816966038176725,19.065478515625,0.23314521563266258,190.65478515625,45.8305,35.19,64.891,1.4902983977761906,1.4596057722753608,1.5145049343088541,1.4886835983420417,1.4580242295597088,1.5128639060996127,19.0240478515625,18.719970703125,19.424072265625,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x4_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x4_tn_align8::Params)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(190.655), 'mean_duration_us': np.float64(19.0655), 'median_duration_us': np.float64(19.024), 'std_dev_duration_us': np.float64(0.22117380043757456), 'min_duration_us': np.float64(18.72), 'max_duration_us': np.float64(19.424)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(19.07)}]","{'M': 1, 'N': 9216, 'K': 1536, 'bias': True, 'stride_A': (1536, 1), 'stride_B': (1, 1536), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.0016462124221263135,99.85865696016093
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 381, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((74907648, 24969216, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",352349,1,37.43,37.43,,,,,,,,,,190.65283203125,,190.65283203125,37.43,37.43,37.43,,,,,,,190.65283203125,190.65283203125,190.65283203125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(185.182), 'mean_duration_us': np.float64(185.182), 'median_duration_us': np.float64(185.182), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(185.182), 'max_duration_us': np.float64(185.182)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.471), 'mean_duration_us': np.float64(5.471), 'median_duration_us': np.float64(5.471), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.471), 'max_duration_us': np.float64(5.471)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(185.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}]",,False,0.001646195557830805,99.86030315571875
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 377, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((74121216, 24707072, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",350087,1,31.541,31.541,,,,,,,,,,188.927001953125,,188.927001953125,31.541,31.541,31.541,,,,,,,188.927001953125,188.927001953125,188.927001953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(183.807), 'mean_duration_us': np.float64(183.807), 'median_duration_us': np.float64(183.807), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(183.807), 'max_duration_us': np.float64(183.807)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(183.81)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",,False,0.0016312938447121952,99.86193444956346
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 381, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((74907648, 24969216, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",352349,1,37.43,37.43,,,,,,,,,,190.65283203125,,190.65283203125,37.43,37.43,37.43,,,,,,,190.65283203125,190.65283203125,190.65283203125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.471), 'mean_duration_us': np.float64(5.471), 'median_duration_us': np.float64(5.471), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.471), 'max_duration_us': np.float64(5.471)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(185.182), 'mean_duration_us': np.float64(185.182), 'median_duration_us': np.float64(185.182), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(185.182), 'max_duration_us': np.float64(185.182)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.47)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(185.18)}]",,False,0.001646195557830805,99.86030315571875
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 377, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((74121216, 24707072, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",350087,1,31.541,31.541,,,,,,,,,,188.927001953125,,188.927001953125,31.541,31.541,31.541,,,,,,,188.927001953125,188.927001953125,188.927001953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(183.807), 'mean_duration_us': np.float64(183.807), 'median_duration_us': np.float64(183.807), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(183.807), 'max_duration_us': np.float64(183.807)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(183.81)}]",,False,0.0016312938447121952,99.86193444956346
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 32, 32), ())","('c10::BFloat16', 'Scalar')","((1024, 1024, 32, 1), ())","('', '9.9999999999999998e-13')",133595,126,1213.961,9.634611111111111,1.4658080964285733,1.024e-06,0.00390625,0.25,vector_bf16,0.0027503370285301356,0.00021421160684349512,0.0006875842571325339,5.355290171087378e-05,1.4983084542410714,0.11733577524842156,188.786865234375,9.295,8.75,20.43,0.0026685567043104818,0.0023272598141212374,0.0030498483912015997,0.0006671391760776204,0.0005818149535303093,0.0007624620978003999,1.534912109375,1.343017578125,1.760009765625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(188.79000000000002), 'mean_duration_us': np.float64(1.4983333333333335), 'median_duration_us': np.float64(1.535), 'std_dev_duration_us': np.float64(0.11685658012050631), 'min_duration_us': np.float64(1.343), 'max_duration_us': np.float64(1.76)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.5)}]","{'op_shape': (1, 1, 32, 32), 'dtype_in_out': ('c10::BFloat16', None), 'stride_input': (1024, 1024, 32, 1), 'stride_output': None}",True,0.0016300838315094677,99.86356453339498
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 373, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((73334784, 24444928, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",347825,1,30.23,30.23,,,,,,,,,,187.261962890625,,187.261962890625,30.23,30.23,30.23,,,,,,,187.261962890625,187.261962890625,187.261962890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(182.078), 'mean_duration_us': np.float64(182.078), 'median_duration_us': np.float64(182.078), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(182.078), 'max_duration_us': np.float64(182.078)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(182.08)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0016169170327912847,99.86518145042777
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 369, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((72548352, 24182784, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",345563,1,31.2,31.2,,,,,,,,,,184.86083984375,,184.86083984375,31.2,31.2,31.2,,,,,,,184.86083984375,184.86083984375,184.86083984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(179.742), 'mean_duration_us': np.float64(179.742), 'median_duration_us': np.float64(179.742), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(179.742), 'max_duration_us': np.float64(179.742)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.119), 'mean_duration_us': np.float64(5.119), 'median_duration_us': np.float64(5.119), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.119), 'max_duration_us': np.float64(5.119)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(179.74)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",,False,0.0015961844895006458,99.86677763491727
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 365, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((71761920, 23920640, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",343301,1,30.751,30.751,,,,,,,,,,183.16796875,,183.16796875,30.751,30.751,30.751,,,,,,,183.16796875,183.16796875,183.16796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(177.983), 'mean_duration_us': np.float64(177.983), 'median_duration_us': np.float64(177.983), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(177.983), 'max_duration_us': np.float64(177.983)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(177.98)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0015815673613687404,99.86835920227864
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 361, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((70975488, 23658496, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",341039,1,31.02,31.02,,,,,,,,,,180.5419921875,,180.5419921875,31.02,31.02,31.02,,,,,,,180.5419921875,180.5419921875,180.5419921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(175.198), 'mean_duration_us': np.float64(175.198), 'median_duration_us': np.float64(175.198), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(175.198), 'max_duration_us': np.float64(175.198)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(175.2)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",,False,0.001558893316057697,99.8699180955947
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 357, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((70189056, 23396352, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",338777,1,31.23,31.23,,,,,,,,,,178.4951171875,,178.4951171875,31.23,31.23,31.23,,,,,,,178.4951171875,178.4951171875,178.4951171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(173.215), 'mean_duration_us': np.float64(173.215), 'median_duration_us': np.float64(173.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(173.215), 'max_duration_us': np.float64(173.215)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(173.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",,False,0.0015412195343648938,99.87145931512906
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 353, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((69402624, 23134208, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",336515,1,31.29,31.29,,,,,,,,,,177.343017578125,,177.343017578125,31.29,31.29,31.29,,,,,,,177.343017578125,177.343017578125,177.343017578125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(172.063), 'mean_duration_us': np.float64(172.063), 'median_duration_us': np.float64(172.063), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(172.063), 'max_duration_us': np.float64(172.063)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(172.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",,False,0.0015312717080518765,99.8729905868371
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 373, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((73334784, 24444928, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",347825,1,30.23,30.23,,,,,,,,,,187.261962890625,,187.261962890625,30.23,30.23,30.23,,,,,,,187.261962890625,187.261962890625,187.261962890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(182.078), 'mean_duration_us': np.float64(182.078), 'median_duration_us': np.float64(182.078), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(182.078), 'max_duration_us': np.float64(182.078)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(182.08)}]",,False,0.0016169170327912847,99.86518145042777
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 369, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((72548352, 24182784, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",345563,1,31.2,31.2,,,,,,,,,,184.86083984375,,184.86083984375,31.2,31.2,31.2,,,,,,,184.86083984375,184.86083984375,184.86083984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.119), 'mean_duration_us': np.float64(5.119), 'median_duration_us': np.float64(5.119), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.119), 'max_duration_us': np.float64(5.119)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(179.742), 'mean_duration_us': np.float64(179.742), 'median_duration_us': np.float64(179.742), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(179.742), 'max_duration_us': np.float64(179.742)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(179.74)}]",,False,0.0015961844895006458,99.86677763491727
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 365, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((71761920, 23920640, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",343301,1,30.751,30.751,,,,,,,,,,183.16796875,,183.16796875,30.751,30.751,30.751,,,,,,,183.16796875,183.16796875,183.16796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(177.983), 'mean_duration_us': np.float64(177.983), 'median_duration_us': np.float64(177.983), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(177.983), 'max_duration_us': np.float64(177.983)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(177.98)}]",,False,0.0015815673613687404,99.86835920227864
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 361, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((70975488, 23658496, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",341039,1,31.02,31.02,,,,,,,,,,180.5419921875,,180.5419921875,31.02,31.02,31.02,,,,,,,180.5419921875,180.5419921875,180.5419921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(175.198), 'mean_duration_us': np.float64(175.198), 'median_duration_us': np.float64(175.198), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(175.198), 'max_duration_us': np.float64(175.198)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(175.2)}]",,False,0.001558893316057697,99.8699180955947
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 357, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((70189056, 23396352, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",338777,1,31.23,31.23,,,,,,,,,,178.4951171875,,178.4951171875,31.23,31.23,31.23,,,,,,,178.4951171875,178.4951171875,178.4951171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(173.215), 'mean_duration_us': np.float64(173.215), 'median_duration_us': np.float64(173.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(173.215), 'max_duration_us': np.float64(173.215)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(173.22)}]",,False,0.0015412195343648938,99.87145931512906
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 353, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((69402624, 23134208, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",336515,1,31.29,31.29,,,,,,,,,,177.343017578125,,177.343017578125,31.29,31.29,31.29,,,,,,,177.343017578125,177.343017578125,177.343017578125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(172.063), 'mean_duration_us': np.float64(172.063), 'median_duration_us': np.float64(172.063), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(172.063), 'max_duration_us': np.float64(172.063)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(172.06)}]",,False,0.0015312717080518765,99.8729905868371
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 3, 34, 34), ())","('c10::BFloat16', 'Scalar')","((55488, 3468, 1156, 34, 1), ())","('', '0.')",133464,126,868.522,6.893031746031746,1.123560390448207,,,,,,,,,1.4029017857142858,0.05095912223686197,176.765625,6.71,6.09,16.88,,,,,,,1.376953125,1.343017578125,1.60009765625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 126, 'total_duration_us': np.float64(176.76899999999998), 'mean_duration_us': np.float64(1.4029285714285713), 'median_duration_us': np.float64(1.377), 'std_dev_duration_us': np.float64(0.050745424153930956), 'min_duration_us': np.float64(1.343), 'max_duration_us': np.float64(1.6)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(1.4)}]",,False,0.001526286200692206,99.87451687303779
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 349, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((68616192, 22872064, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",334253,1,30.66,30.66,,,,,,,,,,175.1669921875,,175.1669921875,30.66,30.66,30.66,,,,,,,175.1669921875,175.1669921875,175.1669921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(169.855), 'mean_duration_us': np.float64(169.855), 'median_duration_us': np.float64(169.855), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(169.855), 'max_duration_us': np.float64(169.855)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(169.86)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}]",,False,0.001512482774818581,99.8760293558126
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 345, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((67829760, 22609920, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",331991,1,31.931,31.931,,,,,,,,,,173.053955078125,,173.053955078125,31.931,31.931,31.931,,,,,,,173.053955078125,173.053955078125,173.053955078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(167.838), 'mean_duration_us': np.float64(167.838), 'median_duration_us': np.float64(167.838), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(167.838), 'max_duration_us': np.float64(167.838)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(167.84)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.001494237715115431,99.87752359352773
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 341, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((67043328, 22347776, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",329729,1,31.711,31.711,,,,,,,,,,171.422119140625,,171.422119140625,31.711,31.711,31.711,,,,,,,171.422119140625,171.422119140625,171.422119140625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(166.238), 'mean_duration_us': np.float64(166.238), 'median_duration_us': np.float64(166.238), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(166.238), 'max_duration_us': np.float64(166.238)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(166.24)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.001480147596218163,99.87900374112394
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 337, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((66256896, 22085632, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",327467,1,32.12,32.12,,,,,,,,,,169.43798828125,,169.43798828125,32.12,32.12,32.12,,,,,,,169.43798828125,169.43798828125,169.43798828125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(164.35), 'mean_duration_us': np.float64(164.35), 'median_duration_us': np.float64(164.35), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(164.35), 'max_duration_us': np.float64(164.35)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(164.35)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",,False,0.0014630155800185675,99.88046675670395
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 349, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((68616192, 22872064, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",334253,1,30.66,30.66,,,,,,,,,,175.1669921875,,175.1669921875,30.66,30.66,30.66,,,,,,,175.1669921875,175.1669921875,175.1669921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(169.855), 'mean_duration_us': np.float64(169.855), 'median_duration_us': np.float64(169.855), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(169.855), 'max_duration_us': np.float64(169.855)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(169.86)}]",,False,0.001512482774818581,99.8760293558126
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 345, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((67829760, 22609920, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",331991,1,31.931,31.931,,,,,,,,,,173.053955078125,,173.053955078125,31.931,31.931,31.931,,,,,,,173.053955078125,173.053955078125,173.053955078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(167.838), 'mean_duration_us': np.float64(167.838), 'median_duration_us': np.float64(167.838), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(167.838), 'max_duration_us': np.float64(167.838)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(167.84)}]",,False,0.001494237715115431,99.87752359352773
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 341, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((67043328, 22347776, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",329729,1,31.711,31.711,,,,,,,,,,171.422119140625,,171.422119140625,31.711,31.711,31.711,,,,,,,171.422119140625,171.422119140625,171.422119140625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(166.238), 'mean_duration_us': np.float64(166.238), 'median_duration_us': np.float64(166.238), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(166.238), 'max_duration_us': np.float64(166.238)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(166.24)}]",,False,0.001480147596218163,99.87900374112394
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 337, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((66256896, 22085632, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",327467,1,32.12,32.12,,,,,,,,,,169.43798828125,,169.43798828125,32.12,32.12,32.12,,,,,,,169.43798828125,169.43798828125,169.43798828125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(164.35), 'mean_duration_us': np.float64(164.35), 'median_duration_us': np.float64(164.35), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(164.35), 'max_duration_us': np.float64(164.35)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(164.35)}]",,False,0.0014630155800185675,99.88046675670395
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((), (1, 16, 126, 32, 32))","('float', 'float')","((), (2064384, 129024, 1024, 32, 1))","('', '')",35900,29,409.035,14.104655172413795,7.860967671603168,0.002064384,15.750003814697266,0.12499996972463219,vector_fp32,2.9097913578824497,0.4898481080099894,0.3637238316403026,0.061230998670917025,5.837158203125,1.00286243535331,169.277587890625,10.8,8.2,39.361,2.8513636526723998,2.2149885820563195,3.6337425492049853,0.3564203702579666,0.2768735056974459,0.45421770863773087,5.7919921875,4.544921875,7.4560546875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 29, 'total_duration_us': np.float64(169.27799999999996), 'mean_duration_us': np.float64(5.837172413793102), 'median_duration_us': np.float64(5.792), 'std_dev_duration_us': np.float64(0.9854236641463869), 'min_duration_us': np.float64(4.545), 'max_duration_us': np.float64(7.456)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(5.84)}]","{'shape_in1': (), 'shape_in2': (1, 16, 126, 32, 32), 'dtype_in1_in2_out': ('float', 'float', None), 'stride_input1': (), 'stride_input2': (2064384, 129024, 1024, 32, 1), 'stride_output': None}",True,0.0014616305997499403,99.8819283873037
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 333, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((65470464, 21823488, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",325205,1,31.03,31.03,,,,,,,,,,167.197998046875,,167.197998046875,31.03,31.03,31.03,,,,,,,167.197998046875,167.197998046875,167.197998046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(161.982), 'mean_duration_us': np.float64(161.982), 'median_duration_us': np.float64(161.982), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(161.982), 'max_duration_us': np.float64(161.982)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(161.98)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0014436743411073718,99.8833720616448
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 329, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((64684032, 21561344, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",322943,1,30.911,30.911,,,,,,,,,,165.2470703125,,165.2470703125,30.911,30.911,30.911,,,,,,,165.2470703125,165.2470703125,165.2470703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(160.127), 'mean_duration_us': np.float64(160.127), 'median_duration_us': np.float64(160.127), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(160.127), 'max_duration_us': np.float64(160.127)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(160.13)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",,False,0.0014268290179314188,99.88479889066274
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 325, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((63897600, 21299200, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",320681,1,31.62,31.62,,,,,,,,,,163.51904296875,,163.51904296875,31.62,31.62,31.62,,,,,,,163.51904296875,163.51904296875,163.51904296875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(158.207), 'mean_duration_us': np.float64(158.207), 'median_duration_us': np.float64(158.207), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(158.207), 'max_duration_us': np.float64(158.207)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(158.21)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}]",,False,0.0014119083324803622,99.88621079899522
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 321, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((63111168, 21037056, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",318419,1,31.911,31.911,,,,,,,,,,161.85498046875,,161.85498046875,31.911,31.911,31.911,,,,,,,161.85498046875,161.85498046875,161.85498046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(156.799), 'mean_duration_us': np.float64(156.799), 'median_duration_us': np.float64(156.799), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(156.799), 'max_duration_us': np.float64(156.799)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(156.8)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",,False,0.0013975399527072056,99.88760833894793
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 333, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((65470464, 21823488, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",325205,1,31.03,31.03,,,,,,,,,,167.197998046875,,167.197998046875,31.03,31.03,31.03,,,,,,,167.197998046875,167.197998046875,167.197998046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(161.982), 'mean_duration_us': np.float64(161.982), 'median_duration_us': np.float64(161.982), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(161.982), 'max_duration_us': np.float64(161.982)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(161.98)}]",,False,0.0014436743411073718,99.8833720616448
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 329, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((64684032, 21561344, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",322943,1,30.911,30.911,,,,,,,,,,165.2470703125,,165.2470703125,30.911,30.911,30.911,,,,,,,165.2470703125,165.2470703125,165.2470703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(160.127), 'mean_duration_us': np.float64(160.127), 'median_duration_us': np.float64(160.127), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(160.127), 'max_duration_us': np.float64(160.127)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(160.13)}]",,False,0.0014268290179314188,99.88479889066274
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 325, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((63897600, 21299200, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",320681,1,31.62,31.62,,,,,,,,,,163.51904296875,,163.51904296875,31.62,31.62,31.62,,,,,,,163.51904296875,163.51904296875,163.51904296875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(158.207), 'mean_duration_us': np.float64(158.207), 'median_duration_us': np.float64(158.207), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(158.207), 'max_duration_us': np.float64(158.207)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(158.21)}]",,False,0.0014119083324803622,99.88621079899522
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 321, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((63111168, 21037056, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",318419,1,31.911,31.911,,,,,,,,,,161.85498046875,,161.85498046875,31.911,31.911,31.911,,,,,,,161.85498046875,161.85498046875,161.85498046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(156.799), 'mean_duration_us': np.float64(156.799), 'median_duration_us': np.float64(156.799), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(156.799), 'max_duration_us': np.float64(156.799)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(156.8)}]",,False,0.0013975399527072056,99.88760833894793
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((126, 16, 16, 22), (126, 16, 16, 21), (126, 16, 16, 21)), ())","('TensorList', 'Scalar')","(((64, 0, 0, 1), (0, 64, 0, 1), (0, 0, 64, 1)), ())","('', '-1')",11766,10,638.276,63.8276,37.04581603066367,,,,,,,,,16.1052734375,1.6144847134240268,161.052734375,61.936,27.91,101.441,,,,,,,15.0400390625,14.68798828125,18.431884765625,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy<at::native::(anonymous namespace)::OpaqueType<16u>, unsigned int, 4, 64, 64>(at::native::(anonymous namespace)::OpaqueType<16u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<16u>, unsigned int, 64, 64>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(161.05300000000003), 'mean_duration_us': np.float64(16.105300000000003), 'median_duration_us': np.float64(15.04), 'std_dev_duration_us': np.float64(1.5316324004146686), 'min_duration_us': np.float64(14.688), 'max_duration_us': np.float64(18.432)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy<at::...', 'stream': 7, 'mean_duration_us': np.float64(16.11)}]",,False,0.0013906129433271304,99.88899895189125
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 317, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((62324736, 20774912, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",316157,1,31.191,31.191,,,,,,,,,,159.328125,,159.328125,31.191,31.191,31.191,,,,,,,159.328125,159.328125,159.328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(154.143), 'mean_duration_us': np.float64(154.143), 'median_duration_us': np.float64(154.143), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(154.143), 'max_duration_us': np.float64(154.143)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(154.14)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0013757217703932135,99.89037467366164
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 313, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((61538304, 20512768, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",313895,1,31.52,31.52,,,,,,,,,,157.53515625,,157.53515625,31.52,31.52,31.52,,,,,,,157.53515625,157.53515625,157.53515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(152.319), 'mean_duration_us': np.float64(152.319), 'median_duration_us': np.float64(152.319), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(152.319), 'max_duration_us': np.float64(152.319)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(152.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0013602403471165026,99.89173491400875
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 309, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((60751872, 20250624, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",311633,1,31.41,31.41,,,,,,,,,,155.903076171875,,155.903076171875,31.41,31.41,31.41,,,,,,,155.903076171875,155.903076171875,155.903076171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(150.655), 'mean_duration_us': np.float64(150.655), 'median_duration_us': np.float64(150.655), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(150.655), 'max_duration_us': np.float64(150.655)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(150.66)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",,False,0.0013461481201822961,99.89308106212893
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 317, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((62324736, 20774912, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",316157,1,31.191,31.191,,,,,,,,,,159.328125,,159.328125,31.191,31.191,31.191,,,,,,,159.328125,159.328125,159.328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(154.143), 'mean_duration_us': np.float64(154.143), 'median_duration_us': np.float64(154.143), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(154.143), 'max_duration_us': np.float64(154.143)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(154.14)}]",,False,0.0013757217703932135,99.89037467366164
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 313, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((61538304, 20512768, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",313895,1,31.52,31.52,,,,,,,,,,157.53515625,,157.53515625,31.52,31.52,31.52,,,,,,,157.53515625,157.53515625,157.53515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(152.319), 'mean_duration_us': np.float64(152.319), 'median_duration_us': np.float64(152.319), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(152.319), 'max_duration_us': np.float64(152.319)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(152.32)}]",,False,0.0013602403471165026,99.89173491400875
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 309, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((60751872, 20250624, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",311633,1,31.41,31.41,,,,,,,,,,155.903076171875,,155.903076171875,31.41,31.41,31.41,,,,,,,155.903076171875,155.903076171875,155.903076171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(150.655), 'mean_duration_us': np.float64(150.655), 'median_duration_us': np.float64(150.655), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(150.655), 'max_duration_us': np.float64(150.655)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(150.66)}]",,False,0.0013461481201822961,99.89308106212893
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512), ())","('long int', 'bool', 'Scalar')","((512, 1), (512, 1), ())","('', '', 'False')",136,48,432.105,9.0021875,1.3923558431245147,0.000262144,,,,,,0.08138463275896599,0.0018450445325730131,3.2227071126302085,0.07466773906629288,154.68994140625,8.6655,8.17,17.26,,,,0.08192125001907377,0.07585065159649618,0.08442694008491901,3.199951171875,3.10498046875,3.4560546875,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(154.692), 'mean_duration_us': np.float64(3.22275), 'median_duration_us': np.float64(3.2), 'std_dev_duration_us': np.float64(0.07388180312724722), 'min_duration_us': np.float64(3.105), 'max_duration_us': np.float64(3.456)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(3.22)}]","{'op_shape': (512, 512), 'dtype_in_out': ('long int', 'bool'), 'stride_input': (512, 1), 'stride_output': (512, 1)}",True,0.0013356732846346413,99.89441673541356
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 305, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((59965440, 19988480, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",309371,1,30.81,30.81,,,,,,,,,,153.759033203125,,153.759033203125,30.81,30.81,30.81,,,,,,,153.759033203125,153.759033203125,153.759033203125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(148.479), 'mean_duration_us': np.float64(148.479), 'median_duration_us': np.float64(148.479), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(148.479), 'max_duration_us': np.float64(148.479)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(148.48)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",,False,0.0013276353397879504,99.89574437075335
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 305, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((59965440, 19988480, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",309371,1,30.81,30.81,,,,,,,,,,153.759033203125,,153.759033203125,30.81,30.81,30.81,,,,,,,153.759033203125,153.759033203125,153.759033203125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(148.479), 'mean_duration_us': np.float64(148.479), 'median_duration_us': np.float64(148.479), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(148.479), 'max_duration_us': np.float64(148.479)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(148.48)}]",,False,0.0013276353397879504,99.89574437075335
 aten::sub,elementwise,python3,CPU,thread 10586 (python3),"((1, 512), (512, 1), ())","('long int', 'long int', 'Scalar')","((512, 1), (1, 1), ())","('', '', '1')",131,48,642.118,13.377458333333335,1.4974423436964235,,,,,,,,,3.175237019856771,0.04431222073986212,152.411376953125,13.1055,12.221,22.4,,,,,,,3.16796875,3.10400390625,3.263916015625,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<long> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<long> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<long> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<long> const&)::{lambda(int)#1})', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(152.413), 'mean_duration_us': np.float64(3.1752708333333337), 'median_duration_us': np.float64(3.168), 'std_dev_duration_us': np.float64(0.04387089942059792), 'min_duration_us': np.float64(3.104), 'max_duration_us': np.float64(3.264)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.18)}]",,False,0.0013159989758871546,99.89706036972923
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 301, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((59179008, 19726336, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",307109,1,32.401,32.401,,,,,,,,,,151.517822265625,,151.517822265625,32.401,32.401,32.401,,,,,,,151.517822265625,151.517822265625,151.517822265625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(146.43), 'mean_duration_us': np.float64(146.43), 'median_duration_us': np.float64(146.43), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(146.43), 'max_duration_us': np.float64(146.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(146.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",,False,0.0013082835606920617,99.89836865328992
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 297, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((58392576, 19464192, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",304847,1,31.11,31.11,,,,,,,,,,150.4951171875,,150.4951171875,31.11,31.11,31.11,,,,,,,150.4951171875,150.4951171875,150.4951171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(145.247), 'mean_duration_us': np.float64(145.247), 'median_duration_us': np.float64(145.247), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(145.247), 'max_duration_us': np.float64(145.247)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(145.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",,False,0.001299452993956476,99.89966810628388
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 293, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((57606144, 19202048, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",302585,1,46.74,46.74,,,,,,,,,,147.77490234375,,147.77490234375,46.74,46.74,46.74,,,,,,,147.77490234375,147.77490234375,147.77490234375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(142.399), 'mean_duration_us': np.float64(142.399), 'median_duration_us': np.float64(142.399), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(142.399), 'max_duration_us': np.float64(142.399)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(142.4)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}]",,False,0.0012759652463871524,99.90094407153028
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 289, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((56819712, 18939904, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",300323,1,35.591,35.591,,,,,,,,,,145.981201171875,,145.981201171875,35.591,35.591,35.591,,,,,,,145.981201171875,145.981201171875,145.981201171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(140.798), 'mean_duration_us': np.float64(140.798), 'median_duration_us': np.float64(140.798), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(140.798), 'max_duration_us': np.float64(140.798)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.183), 'mean_duration_us': np.float64(5.183), 'median_duration_us': np.float64(5.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.183), 'max_duration_us': np.float64(5.183)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(140.8)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0012604774989996256,99.90220454902928
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 285, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((56033280, 18677760, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",298061,1,31.98,31.98,,,,,,,,,,143.7431640625,,143.7431640625,31.98,31.98,31.98,,,,,,,143.7431640625,143.7431640625,143.7431640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(138.623), 'mean_duration_us': np.float64(138.623), 'median_duration_us': np.float64(138.623), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(138.623), 'max_duration_us': np.float64(138.623)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(138.62)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",,False,0.0012411531243839383,99.90344570215366
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 301, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((59179008, 19726336, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",307109,1,32.401,32.401,,,,,,,,,,151.517822265625,,151.517822265625,32.401,32.401,32.401,,,,,,,151.517822265625,151.517822265625,151.517822265625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(146.43), 'mean_duration_us': np.float64(146.43), 'median_duration_us': np.float64(146.43), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(146.43), 'max_duration_us': np.float64(146.43)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(146.43)}]",,False,0.0013082835606920617,99.89836865328992
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 297, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((58392576, 19464192, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",304847,1,31.11,31.11,,,,,,,,,,150.4951171875,,150.4951171875,31.11,31.11,31.11,,,,,,,150.4951171875,150.4951171875,150.4951171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(145.247), 'mean_duration_us': np.float64(145.247), 'median_duration_us': np.float64(145.247), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(145.247), 'max_duration_us': np.float64(145.247)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(145.25)}]",,False,0.001299452993956476,99.89966810628388
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 293, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((57606144, 19202048, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",302585,1,46.74,46.74,,,,,,,,,,147.77490234375,,147.77490234375,46.74,46.74,46.74,,,,,,,147.77490234375,147.77490234375,147.77490234375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(142.399), 'mean_duration_us': np.float64(142.399), 'median_duration_us': np.float64(142.399), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(142.399), 'max_duration_us': np.float64(142.399)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(142.4)}]",,False,0.0012759652463871524,99.90094407153028
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 289, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((56819712, 18939904, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",300323,1,35.591,35.591,,,,,,,,,,145.981201171875,,145.981201171875,35.591,35.591,35.591,,,,,,,145.981201171875,145.981201171875,145.981201171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.183), 'mean_duration_us': np.float64(5.183), 'median_duration_us': np.float64(5.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.183), 'max_duration_us': np.float64(5.183)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(140.798), 'mean_duration_us': np.float64(140.798), 'median_duration_us': np.float64(140.798), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(140.798), 'max_duration_us': np.float64(140.798)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(140.8)}]",,False,0.0012604774989996256,99.90220454902928
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 285, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((56033280, 18677760, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",298061,1,31.98,31.98,,,,,,,,,,143.7431640625,,143.7431640625,31.98,31.98,31.98,,,,,,,143.7431640625,143.7431640625,143.7431640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(138.623), 'mean_duration_us': np.float64(138.623), 'median_duration_us': np.float64(138.623), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(138.623), 'max_duration_us': np.float64(138.623)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(138.62)}]",,False,0.0012411531243839383,99.90344570215366
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512), ())","('float', 'long int', 'Scalar')","((512, 1), (512, 1), ())","('', '', 'False')",147,48,321.702,6.702125,0.3089958083444951,0.000262144,3.0,0.08333333333333333,vector_fp32,1.0557086012585504,0.011287323313962556,0.08797571677154586,0.0009406102761635478,2.980066935221354,0.03206036266987516,143.043212890625,6.68,6.39,8.41,1.057005897292863,1.0243184583830194,1.0806761627107273,0.08808382477440525,0.08535987153191828,0.0900563468925606,2.97607421875,2.910888671875,3.071044921875,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(143.04), 'mean_duration_us': np.float64(2.98), 'median_duration_us': np.float64(2.976), 'std_dev_duration_us': np.float64(0.031730637140362235), 'min_duration_us': np.float64(2.911), 'max_duration_us': np.float64(3.071)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(2.98)}]","{'op_shape': (512, 512), 'dtype_in_out': ('float', 'long int'), 'stride_input': (512, 1), 'stride_output': (512, 1)}",True,0.0012351093824811154,99.90468081153614
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 281, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((55246848, 18415616, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",295799,1,35.741,35.741,,,,,,,,,,142.429931640625,,142.429931640625,35.741,35.741,35.741,,,,,,,142.429931640625,142.429931640625,142.429931640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(137.086), 'mean_duration_us': np.float64(137.086), 'median_duration_us': np.float64(137.086), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(137.086), 'max_duration_us': np.float64(137.086)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(137.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",,False,0.001229813993691478,99.90591062552983
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 281, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((55246848, 18415616, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",295799,1,35.741,35.741,,,,,,,,,,142.429931640625,,142.429931640625,35.741,35.741,35.741,,,,,,,142.429931640625,142.429931640625,142.429931640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(137.086), 'mean_duration_us': np.float64(137.086), 'median_duration_us': np.float64(137.086), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(137.086), 'max_duration_us': np.float64(137.086)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(137.09)}]",,False,0.001229813993691478,99.90591062552983
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19170432, 199692, 66564, 258, 1), (6291456, 65536, 65536, 256, 1), ())","('', '', 'False')",134817,7,59.832,8.547428571428572,0.2053840769086526,0.006291456,24.0,0.25,vector_bf16,1.2371872928841217,0.01226957372126999,0.3092968232210304,0.0030673934303174976,20.342878069196427,0.20218641417145733,142.400146484375,8.47,8.33,8.88,1.234585116165427,1.2173799806786108,1.2542797097174563,0.3086462790413568,0.3043449951696527,0.31356992742936407,20.384033203125,20.06396484375,20.672119140625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(142.4), 'mean_duration_us': np.float64(20.342857142857145), 'median_duration_us': np.float64(20.384), 'std_dev_duration_us': np.float64(0.1871496181984799), 'min_duration_us': np.float64(20.064), 'max_duration_us': np.float64(20.672)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(20.34)}]","{'op_shape': (1, 96, 1, 256, 256), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (19170432, 199692, 66564, 258, 1), 'stride_output': (6291456, 65536, 65536, 256, 1)}",True,0.0012295568131849748,99.90714018234301
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 256, 256), (96, 192, 3, 3), (96,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((12582912, 65536, 256, 1), (1728, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",134766,1,90.422,90.422,,21.743271936,36.31640625,570.9816069699904,matrix_bf16,0.2686890878635141,,153.41652716361017,,141.72705078125,,141.72705078125,90.422,90.422,90.422,0.2686890878635141,0.2686890878635141,0.2686890878635141,153.41652716361017,153.41652716361017,153.41652716361017,141.72705078125,141.72705078125,141.72705078125,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(25.568), 'mean_duration_us': np.float64(25.568), 'median_duration_us': np.float64(25.568), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(25.568), 'max_duration_us': np.float64(25.568)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.296), 'mean_duration_us': np.float64(3.296), 'median_duration_us': np.float64(3.296), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.296)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(86.047), 'mean_duration_us': np.float64(86.047), 'median_duration_us': np.float64(86.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(86.047), 'max_duration_us': np.float64(86.047)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.816), 'mean_duration_us': np.float64(10.816), 'median_duration_us': np.float64(10.816), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.816), 'max_duration_us': np.float64(10.816)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(16.0), 'mean_duration_us': np.float64(16.0), 'median_duration_us': np.float64(16.0), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.0), 'max_duration_us': np.float64(16.0)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.57)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.3)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(86.05)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.82)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(16.0)}]","{'convNd': 'conv2d', 'input_shape': (1, 192, 256, 256), 'filter_shape': (96, 192, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (12582912, 65536, 256, 1), 'weight_stride': (1728, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.0012237449553453926,99.90836392729835
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((393216, 1024, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",135246,21,751.002,35.762,9.838659888419764,,,,,,,,,6.711065383184524,0.7018577159265377,140.932373046875,35.291,25.68,70.141,,,,,,,6.3359375,5.920166015625,7.552001953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 21, 'total_duration_us': np.float64(77.60300000000001), 'mean_duration_us': np.float64(3.695380952380953), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.6890610226754388), 'min_duration_us': np.float64(2.976), 'max_duration_us': np.float64(4.545)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 21, 'total_duration_us': np.float64(63.32800000000001), 'mean_duration_us': np.float64(3.0156190476190483), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.0354340113591128), 'min_duration_us': np.float64(2.944), 'max_duration_us': np.float64(3.104)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.7)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.02)}]",,False,0.0012168832951104124,99.90958081059347
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 277, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((54460416, 18153472, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",293537,1,31.421,31.421,,,,,,,,,,140.447021484375,,140.447021484375,31.421,31.421,31.421,,,,,,,140.447021484375,140.447021484375,140.447021484375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(135.391), 'mean_duration_us': np.float64(135.391), 'median_duration_us': np.float64(135.391), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(135.391), 'max_duration_us': np.float64(135.391)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(135.39)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",,False,0.0012126925176765752,99.91079350311115
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 256, 256), (96, 192, 3, 3), (96,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((12582912, 65536, 256, 1), (1728, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",134766,1,90.422,90.422,,21.743271936,36.31640625,570.9816069699904,matrix_bf16,0.2686890878635141,,153.41652716361017,,141.72705078125,,141.72705078125,90.422,90.422,90.422,0.2686890878635141,0.2686890878635141,0.2686890878635141,153.41652716361017,153.41652716361017,153.41652716361017,141.72705078125,141.72705078125,141.72705078125,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.296), 'mean_duration_us': np.float64(3.296), 'median_duration_us': np.float64(3.296), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.296), 'max_duration_us': np.float64(3.296)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.816), 'mean_duration_us': np.float64(10.816), 'median_duration_us': np.float64(10.816), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.816), 'max_duration_us': np.float64(10.816)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(16.0), 'mean_duration_us': np.float64(16.0), 'median_duration_us': np.float64(16.0), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.0), 'max_duration_us': np.float64(16.0)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(25.568), 'mean_duration_us': np.float64(25.568), 'median_duration_us': np.float64(25.568), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(25.568), 'max_duration_us': np.float64(25.568)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(86.047), 'mean_duration_us': np.float64(86.047), 'median_duration_us': np.float64(86.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(86.047), 'max_duration_us': np.float64(86.047)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.3)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.82)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(16.0)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(25.57)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(86.05)}]","{'convNd': 'conv2d', 'input_shape': (1, 192, 256, 256), 'filter_shape': (96, 192, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (12582912, 65536, 256, 1), 'weight_stride': (1728, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.0012237449553453926,99.90836392729835
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 32, 32), (1, 384, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((393216, 1024, 1024, 32, 1), (393216, 1024, 1024, 32, 1)), ())","('', '2')",135246,21,751.002,35.762,9.838659888419764,,,,,,,,,6.711065383184524,0.7018577159265377,140.932373046875,35.291,25.68,70.141,,,,,,,6.3359375,5.920166015625,7.552001953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 21, 'total_duration_us': np.float64(63.32800000000001), 'mean_duration_us': np.float64(3.0156190476190483), 'median_duration_us': np.float64(3.008), 'std_dev_duration_us': np.float64(0.0354340113591128), 'min_duration_us': np.float64(2.944), 'max_duration_us': np.float64(3.104)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 21, 'total_duration_us': np.float64(77.60300000000001), 'mean_duration_us': np.float64(3.695380952380953), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.6890610226754388), 'min_duration_us': np.float64(2.976), 'max_duration_us': np.float64(4.545)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.02)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.7)}]",,False,0.0012168832951104124,99.90958081059347
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 277, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((54460416, 18153472, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",293537,1,31.421,31.421,,,,,,,,,,140.447021484375,,140.447021484375,31.421,31.421,31.421,,,,,,,140.447021484375,140.447021484375,140.447021484375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(135.391), 'mean_duration_us': np.float64(135.391), 'median_duration_us': np.float64(135.391), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(135.391), 'max_duration_us': np.float64(135.391)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(135.39)}]",,False,0.0012126925176765752,99.91079350311115
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512), ())","('long int', 'float', 'Scalar')","((512, 1), (512, 1), ())","('', '', 'False')",155,48,320.231,6.671479166666667,1.5252228018559848,0.000262144,3.0,0.08333333333333333,,1.0850738872400782,0.008158773139856884,0.09042282393667317,0.0006798977616547276,2.8992513020833335,0.02176664312934252,139.1640625,6.355,6.08,14.87,1.0802231629778674,1.0684884225889377,1.1049568551582198,0.09001859691482227,0.08904070188241148,0.09207973792985165,2.912109375,2.846923828125,2.944091796875,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(139.164), 'mean_duration_us': np.float64(2.89925), 'median_duration_us': np.float64(2.912), 'std_dev_duration_us': np.float64(0.021452952399766963), 'min_duration_us': np.float64(2.847), 'max_duration_us': np.float64(2.944)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(2.9)}]","{'op_shape': (512, 512), 'dtype_in_out': ('long int', 'float'), 'stride_input': (512, 1), 'stride_output': (512, 1)}",True,0.0012016147835644951,99.91199511789472
 aten::clamp,elementwise,python3,CPU,thread 10586 (python3),"((501, 3, 256, 256), (), ())","('c10::BFloat16', 'Scalar', 'Scalar')","((65536, 32833536, 256, 1), (), ())","('', '0', '1')",417962,1,10.27,10.27,,,,,,,,,,139.0380859375,,139.0380859375,10.27,10.27,10.27,,,,,,,139.0380859375,139.0380859375,139.0380859375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(139.038), 'mean_duration_us': np.float64(139.038), 'median_duration_us': np.float64(139.038), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(139.038), 'max_duration_us': np.float64(139.038)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(139.04)}]",,False,0.0012005270365042034,99.91319564493122
 aten::clamp,elementwise,python3,CPU,thread 10586 (python3),"((1, 3, 501, 256, 256), (), ())","('c10::BFloat16', 'Scalar', 'Scalar')","((98500608, 32833536, 65536, 256, 1), (), ())","('', '-1.', '1.')",417954,1,13.97,13.97,,,,,,,,,,138.655029296875,,138.655029296875,13.97,13.97,13.97,,,,,,,138.655029296875,138.655029296875,138.655029296875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(138.655), 'mean_duration_us': np.float64(138.655), 'median_duration_us': np.float64(138.655), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(138.655), 'max_duration_us': np.float64(138.655)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(138.66)}]",,False,0.0011972195265476185,99.91439286445777
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 273, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((53673984, 17891328, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",291275,1,31.47,31.47,,,,,,,,,,138.335205078125,,138.335205078125,31.47,31.47,31.47,,,,,,,138.335205078125,138.335205078125,138.335205078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(133.183), 'mean_duration_us': np.float64(133.183), 'median_duration_us': np.float64(133.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(133.183), 'max_duration_us': np.float64(133.183)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(133.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",,False,0.001194457998158118,99.91558732245592
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 273, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((53673984, 17891328, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",291275,1,31.47,31.47,,,,,,,,,,138.335205078125,,138.335205078125,31.47,31.47,31.47,,,,,,,138.335205078125,138.335205078125,138.335205078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(133.183), 'mean_duration_us': np.float64(133.183), 'median_duration_us': np.float64(133.183), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(133.183), 'max_duration_us': np.float64(133.183)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(133.18)}]",,False,0.001194457998158118,99.91558732245592
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((501, 3, 256, 256), (), ())","('c10::BFloat16', 'double', 'Scalar')","((65536, 32833536, 256, 1), (), ())","('', '', '1')",417961,1,9.87,9.87,,0.098500608,375.75000762939453,0.2499999949238893,vector_bf16,2.8614331585209087,,0.7153582751052757,,137.694091796875,,137.694091796875,9.87,9.87,9.87,2.8614331585209087,2.8614331585209087,2.8614331585209087,0.7153582751052757,0.7153582751052757,0.7153582751052757,137.694091796875,137.694091796875,137.694091796875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(137.694), 'mean_duration_us': np.float64(137.694), 'median_duration_us': np.float64(137.694), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(137.694), 'max_duration_us': np.float64(137.694)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(137.69)}]","{'shape_in1': (501, 3, 256, 256), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (65536, 32833536, 256, 1), 'stride_input2': (), 'stride_output': None}",True,0.0011889222931574857,99.91677624474907
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((501, 3, 256, 256), ())","('c10::BFloat16', 'double')","((65536, 32833536, 256, 1), ())","('', '')",417960,1,16.281,16.281,,0.098500608,375.75000762939453,0.2499999949238893,vector_bf16,2.8889397972521813,,0.7222349346484672,,136.383056640625,,136.383056640625,16.281,16.281,16.281,2.8889397972521813,2.8889397972521813,2.8889397972521813,0.7222349346484672,0.7222349346484672,0.7222349346484672,136.383056640625,136.383056640625,136.383056640625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(136.383), 'mean_duration_us': np.float64(136.383), 'median_duration_us': np.float64(136.383), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(136.383), 'max_duration_us': np.float64(136.383)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(136.38)}]","{'shape_in1': (501, 3, 256, 256), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (65536, 32833536, 256, 1), 'stride_input2': (), 'stride_output': None}",True,0.0011776021347974725,99.91795384688388
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 269, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((52887552, 17629184, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",289013,1,30.36,30.36,,,,,,,,,,136.1591796875,,136.1591796875,30.36,30.36,30.36,,,,,,,136.1591796875,136.1591796875,136.1591796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(130.975), 'mean_duration_us': np.float64(130.975), 'median_duration_us': np.float64(130.975), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(130.975), 'max_duration_us': np.float64(130.975)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(130.98)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.001175669064924822,99.9191295159488
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 265, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((52101120, 17367040, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",286751,1,31.101,31.101,,,,,,,,,,134.97509765625,,134.97509765625,31.101,31.101,31.101,,,,,,,134.97509765625,134.97509765625,134.97509765625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(129.247), 'mean_duration_us': np.float64(129.247), 'median_duration_us': np.float64(129.247), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(129.247), 'max_duration_us': np.float64(129.247)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.728), 'mean_duration_us': np.float64(5.728), 'median_duration_us': np.float64(5.728), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.728), 'max_duration_us': np.float64(5.728)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(129.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.73)}]",,False,0.001165445085772855,99.92029496103457
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 261, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((51314688, 17104896, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",284489,1,35.54,35.54,,,,,,,,,,132.287109375,,132.287109375,35.54,35.54,35.54,,,,,,,132.287109375,132.287109375,132.287109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(127.135), 'mean_duration_us': np.float64(127.135), 'median_duration_us': np.float64(127.135), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(127.135), 'max_duration_us': np.float64(127.135)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(127.14)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",,False,0.0011422355990794197,99.92143719663365
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 257, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((50528256, 16842752, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",282227,1,31.351,31.351,,,,,,,,,,130.27099609375,,130.27099609375,31.351,31.351,31.351,,,,,,,130.27099609375,130.27099609375,130.27099609375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(124.927), 'mean_duration_us': np.float64(124.927), 'median_duration_us': np.float64(124.927), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(124.927), 'max_duration_us': np.float64(124.927)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(124.93)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",,False,0.0011248274300408741,99.9225620240637
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 253, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((49741824, 16580608, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",279965,1,31.39,31.39,,,,,,,,,,128.3828125,,128.3828125,31.39,31.39,31.39,,,,,,,128.3828125,128.3828125,128.3828125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(123.327), 'mean_duration_us': np.float64(123.327), 'median_duration_us': np.float64(123.327), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(123.327), 'max_duration_us': np.float64(123.327)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(123.33)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",,False,0.0011085238723581288,99.92367054793606
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 249, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((48955392, 16318464, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",277703,1,34.081,34.081,,,,,,,,,,126.430908203125,,126.430908203125,34.081,34.081,34.081,,,,,,,126.430908203125,126.430908203125,126.430908203125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(121.343), 'mean_duration_us': np.float64(121.343), 'median_duration_us': np.float64(121.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(121.343), 'max_duration_us': np.float64(121.343)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(121.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",,False,0.001091670117034422,99.92476221805309
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 128, 128), (192, 384, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((6291456, 16384, 128, 1), (3456, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",134435,1,90.581,90.581,,21.743271936,19.265625,1076.3211678832117,matrix_bf16,0.16141662582151656,,173.73613121998207,,125.151123046875,,125.151123046875,90.581,90.581,90.581,0.16141662582151656,0.16141662582151656,0.16141662582151656,173.73613121998207,173.73613121998207,173.73613121998207,125.151123046875,125.151123046875,125.151123046875,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(9.472), 'mean_duration_us': np.float64(9.472), 'median_duration_us': np.float64(9.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.472), 'max_duration_us': np.float64(9.472)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(93.407), 'mean_duration_us': np.float64(93.407), 'median_duration_us': np.float64(93.407), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(93.407), 'max_duration_us': np.float64(93.407)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.208), 'mean_duration_us': np.float64(6.208), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.208)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(9.248), 'mean_duration_us': np.float64(9.248), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.248), 'max_duration_us': np.float64(9.248)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.47)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(93.41)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.21)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.25)}]","{'convNd': 'conv2d', 'input_shape': (1, 384, 128, 128), 'filter_shape': (192, 384, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (6291456, 16384, 128, 1), 'weight_stride': (3456, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.001080619787402543,99.92584283784049
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 245, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((48168960, 16056320, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",275441,1,33.37,33.37,,,,,,,,,,124.76513671875,,124.76513671875,33.37,33.37,33.37,,,,,,,124.76513671875,124.76513671875,124.76513671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(119.486), 'mean_duration_us': np.float64(119.486), 'median_duration_us': np.float64(119.486), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(119.486), 'max_duration_us': np.float64(119.486)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.279), 'mean_duration_us': np.float64(5.279), 'median_duration_us': np.float64(5.279), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.279), 'max_duration_us': np.float64(5.279)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(119.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",,False,0.0010772869810026955,99.92692012482149
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 241, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((47382528, 15794176, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",273179,1,37.351,37.351,,,,,,,,,,122.68701171875,,122.68701171875,37.351,37.351,37.351,,,,,,,122.68701171875,122.68701171875,122.68701171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(117.471), 'mean_duration_us': np.float64(117.471), 'median_duration_us': np.float64(117.471), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(117.471), 'max_duration_us': np.float64(117.471)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(117.47)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0010593433705817583,99.92797946819208
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 269, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((52887552, 17629184, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",289013,1,30.36,30.36,,,,,,,,,,136.1591796875,,136.1591796875,30.36,30.36,30.36,,,,,,,136.1591796875,136.1591796875,136.1591796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(130.975), 'mean_duration_us': np.float64(130.975), 'median_duration_us': np.float64(130.975), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(130.975), 'max_duration_us': np.float64(130.975)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(130.98)}]",,False,0.001175669064924822,99.9191295159488
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 265, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((52101120, 17367040, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",286751,1,31.101,31.101,,,,,,,,,,134.97509765625,,134.97509765625,31.101,31.101,31.101,,,,,,,134.97509765625,134.97509765625,134.97509765625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.728), 'mean_duration_us': np.float64(5.728), 'median_duration_us': np.float64(5.728), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.728), 'max_duration_us': np.float64(5.728)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(129.247), 'mean_duration_us': np.float64(129.247), 'median_duration_us': np.float64(129.247), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(129.247), 'max_duration_us': np.float64(129.247)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.73)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(129.25)}]",,False,0.001165445085772855,99.92029496103457
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 261, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((51314688, 17104896, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",284489,1,35.54,35.54,,,,,,,,,,132.287109375,,132.287109375,35.54,35.54,35.54,,,,,,,132.287109375,132.287109375,132.287109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(127.135), 'mean_duration_us': np.float64(127.135), 'median_duration_us': np.float64(127.135), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(127.135), 'max_duration_us': np.float64(127.135)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(127.14)}]",,False,0.0011422355990794197,99.92143719663365
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 257, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((50528256, 16842752, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",282227,1,31.351,31.351,,,,,,,,,,130.27099609375,,130.27099609375,31.351,31.351,31.351,,,,,,,130.27099609375,130.27099609375,130.27099609375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(124.927), 'mean_duration_us': np.float64(124.927), 'median_duration_us': np.float64(124.927), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(124.927), 'max_duration_us': np.float64(124.927)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(124.93)}]",,False,0.0011248274300408741,99.9225620240637
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 253, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((49741824, 16580608, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",279965,1,31.39,31.39,,,,,,,,,,128.3828125,,128.3828125,31.39,31.39,31.39,,,,,,,128.3828125,128.3828125,128.3828125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(123.327), 'mean_duration_us': np.float64(123.327), 'median_duration_us': np.float64(123.327), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(123.327), 'max_duration_us': np.float64(123.327)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(123.33)}]",,False,0.0011085238723581288,99.92367054793606
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 249, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((48955392, 16318464, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",277703,1,34.081,34.081,,,,,,,,,,126.430908203125,,126.430908203125,34.081,34.081,34.081,,,,,,,126.430908203125,126.430908203125,126.430908203125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(121.343), 'mean_duration_us': np.float64(121.343), 'median_duration_us': np.float64(121.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(121.343), 'max_duration_us': np.float64(121.343)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(121.34)}]",,False,0.001091670117034422,99.92476221805309
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 128, 128), (192, 384, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((6291456, 16384, 128, 1), (3456, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",134435,1,90.581,90.581,,21.743271936,19.265625,1076.3211678832117,matrix_bf16,0.16141662582151656,,173.73613121998207,,125.151123046875,,125.151123046875,90.581,90.581,90.581,0.16141662582151656,0.16141662582151656,0.16141662582151656,173.73613121998207,173.73613121998207,173.73613121998207,125.151123046875,125.151123046875,125.151123046875,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.208), 'mean_duration_us': np.float64(6.208), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.208)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(9.248), 'mean_duration_us': np.float64(9.248), 'median_duration_us': np.float64(9.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.248), 'max_duration_us': np.float64(9.248)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(9.472), 'mean_duration_us': np.float64(9.472), 'median_duration_us': np.float64(9.472), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.472), 'max_duration_us': np.float64(9.472)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(93.407), 'mean_duration_us': np.float64(93.407), 'median_duration_us': np.float64(93.407), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(93.407), 'max_duration_us': np.float64(93.407)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.21)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.25)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.47)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(93.41)}]","{'convNd': 'conv2d', 'input_shape': (1, 384, 128, 128), 'filter_shape': (192, 384, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (6291456, 16384, 128, 1), 'weight_stride': (3456, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.001080619787402543,99.92584283784049
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 245, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((48168960, 16056320, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",275441,1,33.37,33.37,,,,,,,,,,124.76513671875,,124.76513671875,33.37,33.37,33.37,,,,,,,124.76513671875,124.76513671875,124.76513671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.279), 'mean_duration_us': np.float64(5.279), 'median_duration_us': np.float64(5.279), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.279), 'max_duration_us': np.float64(5.279)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(119.486), 'mean_duration_us': np.float64(119.486), 'median_duration_us': np.float64(119.486), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(119.486), 'max_duration_us': np.float64(119.486)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(119.49)}]",,False,0.0010772869810026955,99.92692012482149
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 241, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((47382528, 15794176, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",273179,1,37.351,37.351,,,,,,,,,,122.68701171875,,122.68701171875,37.351,37.351,37.351,,,,,,,122.68701171875,122.68701171875,122.68701171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(117.471), 'mean_duration_us': np.float64(117.471), 'median_duration_us': np.float64(117.471), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(117.471), 'max_duration_us': np.float64(117.471)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(117.47)}]",,False,0.0010593433705817583,99.92797946819208
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('long int', 'Scalar')","((512, 1), ())","('', '15')",160,48,331.493,6.906104166666666,1.777699173263173,,,,,,,,,2.5220540364583335,0.05546431652805965,121.05859375,6.470000000000001,5.99,15.55,,,,,,,2.528076171875,2.39990234375,2.719970703125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<long>, std::array<char*, 1ul> >(int, at::native::FillFunctor<long>, std::array<char*, 1ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(121.05600000000001), 'mean_duration_us': np.float64(2.5220000000000002), 'median_duration_us': np.float64(2.528), 'std_dev_duration_us': np.float64(0.05487106098239161), 'min_duration_us': np.float64(2.4), 'max_duration_us': np.float64(2.72)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(2.52)}]",,False,0.00104528276420163,99.92902475095627
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 237, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((46596096, 15532032, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",270917,1,33.771,33.771,,,,,,,,,,120.6708984375,,120.6708984375,33.771,33.771,33.771,,,,,,,120.6708984375,120.6708984375,120.6708984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(115.615), 'mean_duration_us': np.float64(115.615), 'median_duration_us': np.float64(115.615), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(115.615), 'max_duration_us': np.float64(115.615)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(115.62)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",,False,0.0010419352015432126,99.93006668615782
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 3, 258, 258), (3, 96, 3, 3, 3), (3,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((19170432, 199692, 66564, 258, 1), (2592, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",135125,1,123.671,123.671,,1.019215872,36.95452880859375,26.302594873675186,matrix_bf16,0.32456309260524063,,8.536851535742768,,119.39013671875,,119.39013671875,123.671,123.671,123.671,0.32456309260524063,0.32456309260524063,0.32456309260524063,8.536851535742768,8.536851535742768,8.536851535742768,119.39013671875,119.39013671875,119.39013671875,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(42.847), 'mean_duration_us': np.float64(42.847), 'median_duration_us': np.float64(42.847), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(42.847), 'max_duration_us': np.float64(42.847)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(1.824), 'mean_duration_us': np.float64(1.824), 'median_duration_us': np.float64(1.824), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(1.824)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.528), 'mean_duration_us': np.float64(10.528), 'median_duration_us': np.float64(10.528), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.528), 'max_duration_us': np.float64(10.528)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(55.871), 'mean_duration_us': np.float64(55.871), 'median_duration_us': np.float64(55.871), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(55.871), 'max_duration_us': np.float64(55.871)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.863), 'mean_duration_us': np.float64(4.863), 'median_duration_us': np.float64(4.863), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.863), 'max_duration_us': np.float64(4.863)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.457), 'mean_duration_us': np.float64(3.457), 'median_duration_us': np.float64(3.457), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.457), 'max_duration_us': np.float64(3.457)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.85)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.82)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.53)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(55.87)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.86)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.46)}]","{'convNd': 'conv3d', 'input_shape': (1, 96, 3, 258, 258), 'filter_shape': (3, 96, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (19170432, 199692, 66564, 258, 1), 'weight_stride': (2592, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.0010308764397635795,99.93109756259759
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 233, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((45809664, 15269888, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",268655,1,32.041,32.041,,,,,,,,,,118.65380859375,,118.65380859375,32.041,32.041,32.041,,,,,,,118.65380859375,118.65380859375,118.65380859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(113.566), 'mean_duration_us': np.float64(113.566), 'median_duration_us': np.float64(113.566), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(113.566), 'max_duration_us': np.float64(113.566)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(113.57)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}]",,False,0.0010245186003569127,99.93212208119795
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 237, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((46596096, 15532032, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",270917,1,33.771,33.771,,,,,,,,,,120.6708984375,,120.6708984375,33.771,33.771,33.771,,,,,,,120.6708984375,120.6708984375,120.6708984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(115.615), 'mean_duration_us': np.float64(115.615), 'median_duration_us': np.float64(115.615), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(115.615), 'max_duration_us': np.float64(115.615)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(115.62)}]",,False,0.0010419352015432126,99.93006668615782
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 96, 3, 258, 258), (3, 96, 3, 3, 3), (3,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((19170432, 199692, 66564, 258, 1), (2592, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",135125,1,123.671,123.671,,1.019215872,36.95452880859375,26.302594873675186,matrix_bf16,0.32456309260524063,,8.536851535742768,,119.39013671875,,119.39013671875,123.671,123.671,123.671,0.32456309260524063,0.32456309260524063,0.32456309260524063,8.536851535742768,8.536851535742768,8.536851535742768,119.39013671875,119.39013671875,119.39013671875,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(1.824), 'mean_duration_us': np.float64(1.824), 'median_duration_us': np.float64(1.824), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(1.824), 'max_duration_us': np.float64(1.824)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.457), 'mean_duration_us': np.float64(3.457), 'median_duration_us': np.float64(3.457), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.457), 'max_duration_us': np.float64(3.457)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.863), 'mean_duration_us': np.float64(4.863), 'median_duration_us': np.float64(4.863), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.863), 'max_duration_us': np.float64(4.863)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float, true, false, false, (cudnnKernelDataType_t)0>(cudnnTensorTransformStruct, tensorTransformParams, int, unsigned long, __nv_bfloat16 const*, __nv_bfloat16*, float, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.528), 'mean_duration_us': np.float64(10.528), 'median_duration_us': np.float64(10.528), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.528), 'max_duration_us': np.float64(10.528)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(42.847), 'mean_duration_us': np.float64(42.847), 'median_duration_us': np.float64(42.847), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(42.847), 'max_duration_us': np.float64(42.847)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x32x32_stage4_warpsize4x1x1_g1_tensor16x8x16_execute_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(55.871), 'mean_duration_us': np.float64(55.871), 'median_duration_us': np.float64(55.871), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(55.871), 'max_duration_us': np.float64(55.871)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(1.82)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.46)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.86)}, {'name': 'void tensorTransformGeneric<__nv_bfloat16, __nv_bfloat16, float,...', 'stream': 7, 'mean_duration_us': np.float64(10.53)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(42.85)}, {'name': 'sm80_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(55.87)}]","{'convNd': 'conv3d', 'input_shape': (1, 96, 3, 258, 258), 'filter_shape': (3, 96, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (19170432, 199692, 66564, 258, 1), 'weight_stride': (2592, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.0010308764397635795,99.93109756259759
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 233, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((45809664, 15269888, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",268655,1,32.041,32.041,,,,,,,,,,118.65380859375,,118.65380859375,32.041,32.041,32.041,,,,,,,118.65380859375,118.65380859375,118.65380859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.088), 'mean_duration_us': np.float64(5.088), 'median_duration_us': np.float64(5.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.088), 'max_duration_us': np.float64(5.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(113.566), 'mean_duration_us': np.float64(113.566), 'median_duration_us': np.float64(113.566), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(113.566), 'max_duration_us': np.float64(113.566)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(113.57)}]",,False,0.0010245186003569127,99.93212208119795
 aten::where,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512), (512, 512))","('bool', 'long int', 'long int')","((512, 1), (512, 1), (512, 1))","('', '', '')",163,48,757.849,15.788520833333335,3.0968619806533697,,,,,,,,,2.455805460611979,0.03710580326618019,117.878662109375,15.01,12.99,29.42,,,,,,,2.462890625,2.39990234375,2.56005859375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(bool, long, long)#1}, std::array<char*, 4ul> >(int, at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(bool, long, long)#1}, std::array<char*, 4ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(117.879), 'mean_duration_us': np.float64(2.4558125), 'median_duration_us': np.float64(2.463), 'std_dev_duration_us': np.float64(0.03663994646670947), 'min_duration_us': np.float64(2.4), 'max_duration_us': np.float64(2.56)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(2.46)}]",,False,0.0010178255830770166,99.93313990678102
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 229, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((45023232, 15007744, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",266393,1,36.09,36.09,,,,,,,,,,117.534912109375,,117.534912109375,36.09,36.09,36.09,,,,,,,117.534912109375,117.534912109375,117.534912109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(111.551), 'mean_duration_us': np.float64(111.551), 'median_duration_us': np.float64(111.551), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(111.551), 'max_duration_us': np.float64(111.551)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.984), 'mean_duration_us': np.float64(5.984), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.984), 'max_duration_us': np.float64(5.984)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(111.55)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}]",,False,0.0010148574670675384,99.93415476424809
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 225, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((44236800, 14745600, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",264131,1,32.001,32.001,,,,,,,,,,115.4228515625,,115.4228515625,32.001,32.001,32.001,,,,,,,115.4228515625,115.4228515625,115.4228515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(109.887), 'mean_duration_us': np.float64(109.887), 'median_duration_us': np.float64(109.887), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(109.887), 'max_duration_us': np.float64(109.887)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.536), 'mean_duration_us': np.float64(5.536), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.536)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(109.89)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.54)}]",,False,0.0009966208395121427,99.93515138508761
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 229, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((45023232, 15007744, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",266393,1,36.09,36.09,,,,,,,,,,117.534912109375,,117.534912109375,36.09,36.09,36.09,,,,,,,117.534912109375,117.534912109375,117.534912109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.984), 'mean_duration_us': np.float64(5.984), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.984), 'max_duration_us': np.float64(5.984)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(111.551), 'mean_duration_us': np.float64(111.551), 'median_duration_us': np.float64(111.551), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(111.551), 'max_duration_us': np.float64(111.551)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(111.55)}]",,False,0.0010148574670675384,99.93415476424809
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 225, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((44236800, 14745600, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",264131,1,32.001,32.001,,,,,,,,,,115.4228515625,,115.4228515625,32.001,32.001,32.001,,,,,,,115.4228515625,115.4228515625,115.4228515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.536), 'mean_duration_us': np.float64(5.536), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.536)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(109.887), 'mean_duration_us': np.float64(109.887), 'median_duration_us': np.float64(109.887), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(109.887), 'max_duration_us': np.float64(109.887)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(109.89)}]",,False,0.0009966208395121427,99.93515138508761
 aten::add_,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512), ())","('long int', 'long int', 'Scalar')","((512, 1), (512, 1), ())","('', '', '1')",166,48,321.122,6.690041666666667,0.7556327757872678,0.000262144,6.0,0.041666666666666664,,2.617045881220496,0.03929923487638038,0.10904357838418734,0.0016374681198491766,2.4045613606770835,0.036167887473489,115.4189453125,6.46,6.19,10.63,2.621546671007121,2.5205207136150234,2.6933323344481606,0.10923111129196338,0.10502169640062597,0.11222218060200669,2.39990234375,2.3359375,2.49609375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<long>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<long>, std::array<char*, 3ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(115.423), 'mean_duration_us': np.float64(2.4046458333333334), 'median_duration_us': np.float64(2.4), 'std_dev_duration_us': np.float64(0.035774461085699455), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.496)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(2.4)}]","{'shape_in1': (512, 512), 'shape_in2': (512, 512), 'dtype_in1_in2_out': ('long int', 'long int', None), 'stride_input1': (512, 1), 'stride_input2': (512, 1), 'stride_output': None}",True,0.0009965871109211258,99.93614797219853
 aten::min,reduce,python3,CPU,thread 10586 (python3),"((512, 512), (512, 512))","('long int', 'long int')","((512, 1), (512, 1))","('', '')",161,48,582.997,12.145770833333332,10.513763389288334,0.000262144,2.0000076293945312,0.12499952316466079,,0.8733742099079556,0.014250191173570952,0.10917135978280679,0.0017812671017016254,2.4018452962239585,0.03941407629488933,115.28857421875,9.685500000000001,9.01,79.76,0.8738522238046796,0.8295477894736843,0.9106294243612849,0.10923111129196338,0.10369307812650894,0.11382824382487013,2.39990234375,2.302978515625,2.528076171875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BinaryFunctor<long, long, long, at::native::minimum_kernel_cuda(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(long, long)#1}>, std::array<char*, 3ul> >(int, at::native::BinaryFunctor<long, long, long, at::native::minimum_kernel_cuda(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(long, long)#1}>, std::array<char*, 3ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(115.292), 'mean_duration_us': np.float64(2.4019166666666667), 'median_duration_us': np.float64(2.4), 'std_dev_duration_us': np.float64(0.03897639955437422), 'min_duration_us': np.float64(2.303), 'max_duration_us': np.float64(2.528)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Bi...', 'stream': 7, 'mean_duration_us': np.float64(2.4)}]","{'num_input_elems': 262144, 'num_output_elems': 1, 'dtype_in_out': ('long int', None), 'reduce_type': 'min'}",True,0.0009954614191959401,99.93714343361772
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 1, 16, 2, 16, 2), (1, 16, 126, 1, 16, 2, 16, 2), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2064384, 129024, 1024, 1024, 64, 32, 2, 1), (2064384, 1, 16384, 64, 1024, 32, 64, 16), ())","('', '', 'False')",23766,10,1107.034,110.70340000000002,5.784002136160664,0.002064384,7.875,0.24999999999999997,vector_bf16,0.7223775511068675,0.010819064376351998,0.18059438777671685,0.0027047660940879995,11.4333984375,0.17404195180645385,114.333984375,110.6465,100.901,119.441,0.7258685585491518,0.6974218499288616,0.7372832142997275,0.18146713963728792,0.17435546248221537,0.18432080357493186,11.3760986328125,11.199951171875,11.840087890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(114.334), 'mean_duration_us': np.float64(11.4334), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.16506435108768958), 'min_duration_us': np.float64(11.2), 'max_duration_us': np.float64(11.84)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(11.43)}]","{'op_shape': (1, 16, 126, 1, 16, 2, 16, 2), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (2064384, 129024, 1024, 1024, 64, 32, 2, 1), 'stride_output': (2064384, 1, 16384, 64, 1024, 32, 64, 16)}",True,0.0009872189947662097,99.93813065261249
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 221, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((43450368, 14483456, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",261869,1,31.07,31.07,,,,,,,,,,113.152099609375,,113.152099609375,31.07,31.07,31.07,,,,,,,113.152099609375,113.152099609375,113.152099609375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(107.967), 'mean_duration_us': np.float64(107.967), 'median_duration_us': np.float64(107.967), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(107.967), 'max_duration_us': np.float64(107.967)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(107.97)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0009770139879466894,99.93910766660044
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 217, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((42663936, 14221312, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",259607,1,31.941,31.941,,,,,,,,,,111.4228515625,,111.4228515625,31.941,31.941,31.941,,,,,,,111.4228515625,111.4228515625,111.4228515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(105.535), 'mean_duration_us': np.float64(105.535), 'median_duration_us': np.float64(105.535), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(105.535), 'max_duration_us': np.float64(105.535)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.888), 'mean_duration_us': np.float64(5.888), 'median_duration_us': np.float64(5.888), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(5.888)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(105.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.89)}]",,False,0.0009620827623109399,99.94006974936275
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 213, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((41877504, 13959168, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",257345,1,51.601,51.601,,,,,,,,,,109.18310546875,,109.18310546875,51.601,51.601,51.601,,,,,,,109.18310546875,109.18310546875,109.18310546875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(103.583), 'mean_duration_us': np.float64(103.583), 'median_duration_us': np.float64(103.583), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(103.583), 'max_duration_us': np.float64(103.583)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.6), 'mean_duration_us': np.float64(5.6), 'median_duration_us': np.float64(5.6), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(5.6)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(103.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.6)}]",,False,0.0009427436314366826,99.94101249299419
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 209, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((41091072, 13697024, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",255083,1,34.9,34.9,,,,,,,,,,106.815185546875,,106.815185546875,34.9,34.9,34.9,,,,,,,106.815185546875,106.815185546875,106.815185546875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(101.599), 'mean_duration_us': np.float64(101.599), 'median_duration_us': np.float64(101.599), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(101.599), 'max_duration_us': np.float64(101.599)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(101.6)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0009222977811696865,99.94193479077536
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 221, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((43450368, 14483456, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",261869,1,31.07,31.07,,,,,,,,,,113.152099609375,,113.152099609375,31.07,31.07,31.07,,,,,,,113.152099609375,113.152099609375,113.152099609375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.185), 'mean_duration_us': np.float64(5.185), 'median_duration_us': np.float64(5.185), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.185), 'max_duration_us': np.float64(5.185)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(107.967), 'mean_duration_us': np.float64(107.967), 'median_duration_us': np.float64(107.967), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(107.967), 'max_duration_us': np.float64(107.967)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(107.97)}]",,False,0.0009770139879466894,99.93910766660044
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 217, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((42663936, 14221312, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",259607,1,31.941,31.941,,,,,,,,,,111.4228515625,,111.4228515625,31.941,31.941,31.941,,,,,,,111.4228515625,111.4228515625,111.4228515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.888), 'mean_duration_us': np.float64(5.888), 'median_duration_us': np.float64(5.888), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(5.888)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(105.535), 'mean_duration_us': np.float64(105.535), 'median_duration_us': np.float64(105.535), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(105.535), 'max_duration_us': np.float64(105.535)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.89)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(105.54)}]",,False,0.0009620827623109399,99.94006974936275
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 213, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((41877504, 13959168, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",257345,1,51.601,51.601,,,,,,,,,,109.18310546875,,109.18310546875,51.601,51.601,51.601,,,,,,,109.18310546875,109.18310546875,109.18310546875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.6), 'mean_duration_us': np.float64(5.6), 'median_duration_us': np.float64(5.6), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(5.6)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(103.583), 'mean_duration_us': np.float64(103.583), 'median_duration_us': np.float64(103.583), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(103.583), 'max_duration_us': np.float64(103.583)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.6)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(103.58)}]",,False,0.0009427436314366826,99.94101249299419
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 209, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((41091072, 13697024, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",255083,1,34.9,34.9,,,,,,,,,,106.815185546875,,106.815185546875,34.9,34.9,34.9,,,,,,,106.815185546875,106.815185546875,106.815185546875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(101.599), 'mean_duration_us': np.float64(101.599), 'median_duration_us': np.float64(101.599), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(101.599), 'max_duration_us': np.float64(101.599)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(101.6)}]",,False,0.0009222977811696865,99.94193479077536
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256))","('c10::BFloat16', 'c10::BFloat16')","((6291456, 65536, 65536, 256, 1), (65536, 0, 65536, 256, 1))","('', '')",134830,6,65.92,10.986666666666666,2.7350222424445954,0.006291456,36.0,0.16666666666666666,vector_bf16,2.145113898199573,0.026294514189649475,0.3575189830332621,0.004382419031608237,17.599772135416668,0.218143421404457,105.5986328125,9.915,9.71,16.56,2.156596446862815,2.0990310153946403,2.1685973527819464,0.3594327411438025,0.34983850256577337,0.3614328921303244,17.50390625,17.406982421875,17.98388671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(105.59900000000002), 'mean_duration_us': np.float64(17.599833333333336), 'median_duration_us': np.float64(17.504), 'std_dev_duration_us': np.float64(0.1991451871262665), 'min_duration_us': np.float64(17.407), 'max_duration_us': np.float64(17.984)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(17.6)}]","{'shape_in1': (1, 96, 1, 256, 256), 'shape_in2': (1, 96, 1, 256, 256), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (6291456, 65536, 65536, 256, 1), 'stride_input2': (65536, 0, 65536, 256, 1), 'stride_output': None}",True,0.0009117934331048922,99.94284658420847
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 205, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((40304640, 13434880, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",252821,1,33.111,33.111,,,,,,,,,,105.2470703125,,105.2470703125,33.111,33.111,33.111,,,,,,,105.2470703125,105.2470703125,105.2470703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(100.095), 'mean_duration_us': np.float64(100.095), 'median_duration_us': np.float64(100.095), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(100.095), 'max_duration_us': np.float64(100.095)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(100.1)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",,False,0.0009087578599133802,99.94375534206839
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 205, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((40304640, 13434880, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",252821,1,33.111,33.111,,,,,,,,,,105.2470703125,,105.2470703125,33.111,33.111,33.111,,,,,,,105.2470703125,105.2470703125,105.2470703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(100.095), 'mean_duration_us': np.float64(100.095), 'median_duration_us': np.float64(100.095), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(100.095), 'max_duration_us': np.float64(100.095)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(100.1)}]",,False,0.0009087578599133802,99.94375534206839
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('long int', 'long int')","((512, 1), ())","('', '')",137,48,473.964,9.87425,1.7828078320327876,0.000262144,4.000007629394531,0.06249988079093782,,1.9395762351452086,0.03850090503182668,0.12122328348151151,0.002406301974832385,2.1633453369140625,0.04409398121392598,103.840576171875,9.135000000000002,8.64,17.15,1.9553724051900752,1.795558314381271,1.9858862503756791,0.12221054222626905,0.11222218060200669,0.12411765391284243,2.14501953125,2.112060546875,2.3359375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<long, long, long, at::native::binary_internal::MulFunctor<long> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<long, long, long, at::native::binary_internal::MulFunctor<long> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(103.839), 'mean_duration_us': np.float64(2.1633125), 'median_duration_us': np.float64(2.145), 'std_dev_duration_us': np.float64(0.04365544842380309), 'min_duration_us': np.float64(2.112), 'max_duration_us': np.float64(2.336)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(2.16)}]","{'shape_in1': (512, 512), 'shape_in2': (), 'dtype_in1_in2_out': ('long int', 'long int', None), 'stride_input1': (512, 1), 'stride_input2': (), 'stride_output': None}",True,0.0008966134591103938,99.94465195552749
 aten::abs,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), (0,))","('long int', 'long int')","((512, 1), (1,))","('', '')",141,48,558.115,11.627395833333333,2.6839772784939204,,,,,,,,,2.1493733723958335,0.052905619055956046,103.169921875,10.92,9.39,22.44,,,,,,,2.14404296875,2.0791015625,2.3359375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AbsFunctor<long>, std::array<char*, 2ul> >(int, at::native::AbsFunctor<long>, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(103.168), 'mean_duration_us': np.float64(2.1493333333333333), 'median_duration_us': np.float64(2.144), 'std_dev_duration_us': np.float64(0.05238015421469807), 'min_duration_us': np.float64(2.079), 'max_duration_us': np.float64(2.336)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Ab...', 'stream': 7, 'mean_duration_us': np.float64(2.15)}]",,False,0.0008908226816401971,99.94554277820913
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 201, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((39518208, 13172736, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",250559,1,31.801,31.801,,,,,,,,,,103.10302734375,,103.10302734375,31.801,31.801,31.801,,,,,,,103.10302734375,103.10302734375,103.10302734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(97.919), 'mean_duration_us': np.float64(97.919), 'median_duration_us': np.float64(97.919), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(97.919), 'max_duration_us': np.float64(97.919)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(97.92)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0008902450795190345,99.94643302328865
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 197, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((38731776, 12910592, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",248297,1,38.87,38.87,,,,,,,,,,101.822998046875,,101.822998046875,38.87,38.87,38.87,,,,,,,101.822998046875,101.822998046875,101.822998046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(96.415), 'mean_duration_us': np.float64(96.415), 'median_duration_us': np.float64(96.415), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(96.415), 'max_duration_us': np.float64(96.415)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(96.42)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}]",,False,0.000879192641850217,99.9473122159305
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 201, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((39518208, 13172736, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",250559,1,31.801,31.801,,,,,,,,,,103.10302734375,,103.10302734375,31.801,31.801,31.801,,,,,,,103.10302734375,103.10302734375,103.10302734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(97.919), 'mean_duration_us': np.float64(97.919), 'median_duration_us': np.float64(97.919), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(97.919), 'max_duration_us': np.float64(97.919)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(97.92)}]",,False,0.0008902450795190345,99.94643302328865
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 197, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((38731776, 12910592, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",248297,1,38.87,38.87,,,,,,,,,,101.822998046875,,101.822998046875,38.87,38.87,38.87,,,,,,,101.822998046875,101.822998046875,101.822998046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(96.415), 'mean_duration_us': np.float64(96.415), 'median_duration_us': np.float64(96.415), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(96.415), 'max_duration_us': np.float64(96.415)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(96.42)}]",,False,0.000879192641850217,99.9473122159305
 aten::gt,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('long int', 'Scalar')","((512, 1), ())","('', '0')",132,48,778.639,16.221645833333334,3.705138349784809,,,,,,,,,2.091283162434896,0.05679149480364359,100.381591796875,15.035,12.571,31.26,,,,,,,2.080078125,2.01611328125,2.27099609375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::compare_scalar_kernel<long>(at::TensorIteratorBase&, at::native::(anonymous namespace)::OpType, long)::{lambda(long)#1}, std::array<char*, 2ul> >(int, at::native::compare_scalar_kernel<long>(at::TensorIteratorBase&, at::native::(anonymous namespace)::OpType, long)::{lambda(long)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(100.378), 'mean_duration_us': np.float64(2.0912083333333333), 'median_duration_us': np.float64(2.08), 'std_dev_duration_us': np.float64(0.056224237927743906), 'min_duration_us': np.float64(2.016), 'max_duration_us': np.float64(2.271)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::co...', 'stream': 7, 'mean_duration_us': np.float64(2.09)}]",,False,0.000866746791765018,99.94817896272227
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 193, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((37945344, 12648448, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",246035,1,30.5,30.5,,,,,,,,,,99.678955078125,,99.678955078125,30.5,30.5,30.5,,,,,,,99.678955078125,99.678955078125,99.678955078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(94.431), 'mean_duration_us': np.float64(94.431), 'median_duration_us': np.float64(94.431), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(94.431), 'max_duration_us': np.float64(94.431)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(94.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",,False,0.0008606798614558712,99.94903964258373
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 189, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((37158912, 12386304, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",243773,1,30.66,30.66,,,,,,,,,,97.631103515625,,97.631103515625,30.66,30.66,30.66,,,,,,,97.631103515625,97.631103515625,97.631103515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(92.447), 'mean_duration_us': np.float64(92.447), 'median_duration_us': np.float64(92.447), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(92.447), 'max_duration_us': np.float64(92.447)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(92.45)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0008429976476153141,99.94988264023134
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 185, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((36372480, 12124160, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",241511,1,31.99,31.99,,,,,,,,,,95.839111328125,,95.839111328125,31.99,31.99,31.99,,,,,,,95.839111328125,95.839111328125,95.839111328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(90.495), 'mean_duration_us': np.float64(90.495), 'median_duration_us': np.float64(90.495), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(90.495), 'max_duration_us': np.float64(90.495)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(90.5)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",,False,0.0008275246564863574,99.95071016488782
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 193, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((37945344, 12648448, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",246035,1,30.5,30.5,,,,,,,,,,99.678955078125,,99.678955078125,30.5,30.5,30.5,,,,,,,99.678955078125,99.678955078125,99.678955078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(94.431), 'mean_duration_us': np.float64(94.431), 'median_duration_us': np.float64(94.431), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(94.431), 'max_duration_us': np.float64(94.431)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(94.43)}]",,False,0.0008606798614558712,99.94903964258373
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 189, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((37158912, 12386304, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",243773,1,30.66,30.66,,,,,,,,,,97.631103515625,,97.631103515625,30.66,30.66,30.66,,,,,,,97.631103515625,97.631103515625,97.631103515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(92.447), 'mean_duration_us': np.float64(92.447), 'median_duration_us': np.float64(92.447), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(92.447), 'max_duration_us': np.float64(92.447)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(92.45)}]",,False,0.0008429976476153141,99.94988264023134
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 185, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((36372480, 12124160, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",241511,1,31.99,31.99,,,,,,,,,,95.839111328125,,95.839111328125,31.99,31.99,31.99,,,,,,,95.839111328125,95.839111328125,95.839111328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(90.495), 'mean_duration_us': np.float64(90.495), 'median_duration_us': np.float64(90.495), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(90.495), 'max_duration_us': np.float64(90.495)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(90.5)}]",,False,0.0008275246564863574,99.95071016488782
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (96, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((6291456, 65536, 65536, 256, 1), (1, 1, 1, 1))","('', '')",134832,6,52.519999999999996,8.753333333333332,0.3437246960383648,0.006291456,24.00018310546875,0.249998092665919,vector_bf16,1.6033980764238027,0.005816635519149079,0.40084646089015413,0.0014541477855201262,15.695597330729166,0.056644921852327286,94.173583984375,8.72,8.43,9.36,1.6017154816334143,1.5984617292787693,1.6149652430908066,0.40042581540182737,0.3996123835191589,0.4037382304944539,15.7119140625,15.5830078125,15.743896484375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(94.174), 'mean_duration_us': np.float64(15.695666666666668), 'median_duration_us': np.float64(15.712), 'std_dev_duration_us': np.float64(0.051745101754229285), 'min_duration_us': np.float64(15.583), 'max_duration_us': np.float64(15.744)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.7)}]","{'shape_in1': (1, 96, 1, 256, 256), 'shape_in2': (96, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (6291456, 65536, 65536, 256, 1), 'stride_input2': (1, 1, 1, 1), 'stride_output': None}",True,0.0008131436284915697,99.95152330851631
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 181, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((35586048, 11862016, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",239249,1,42.071,42.071,,,,,,,,,,94.14404296875,,94.14404296875,42.071,42.071,42.071,,,,,,,94.14404296875,94.14404296875,94.14404296875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(88.544), 'mean_duration_us': np.float64(88.544), 'median_duration_us': np.float64(88.544), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(88.544), 'max_duration_us': np.float64(88.544)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.6), 'mean_duration_us': np.float64(5.6), 'median_duration_us': np.float64(5.6), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(5.6)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(88.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.6)}]",,False,0.0008128885560220051,99.95233619707234
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 181, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((35586048, 11862016, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",239249,1,42.071,42.071,,,,,,,,,,94.14404296875,,94.14404296875,42.071,42.071,42.071,,,,,,,94.14404296875,94.14404296875,94.14404296875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.6), 'mean_duration_us': np.float64(5.6), 'median_duration_us': np.float64(5.6), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.6), 'max_duration_us': np.float64(5.6)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(88.544), 'mean_duration_us': np.float64(88.544), 'median_duration_us': np.float64(88.544), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(88.544), 'max_duration_us': np.float64(88.544)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.6)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(88.54)}]",,False,0.0008128885560220051,99.95233619707234
 aten::lt,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('long int', 'Scalar')","((512, 1), ())","('', '8')",143,48,494.033,10.292354166666668,1.665822759972334,,,,,,,,,1.9519449869791667,0.05039743910826609,93.693359375,9.754999999999999,8.67,16.85,,,,,,,1.951904296875,1.887939453125,2.177001953125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::compare_scalar_kernel<long>(at::TensorIteratorBase&, at::native::(anonymous namespace)::OpType, long)::{lambda(long)#1}, std::array<char*, 2ul> >(int, at::native::compare_scalar_kernel<long>(at::TensorIteratorBase&, at::native::(anonymous namespace)::OpType, long)::{lambda(long)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(93.69699999999999), 'mean_duration_us': np.float64(1.952020833333333), 'median_duration_us': np.float64(1.952), 'std_dev_duration_us': np.float64(0.04984036582903687), 'min_duration_us': np.float64(1.888), 'max_duration_us': np.float64(2.177)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::co...', 'stream': 7, 'mean_duration_us': np.float64(1.95)}]",,False,0.0008089971198334418,99.95314519419217
 aten::log,elementwise,python3,CPU,thread 10586 (python3),"((512, 512),)","('float',)","((512, 1),)","('',)",149,48,402.938,8.394541666666667,1.5399940447292058,,,,,,,,,1.9432017008463542,0.025263917601855746,93.273681640625,8.02,7.52,15.9,,,,,,,1.951904296875,1.887939453125,1.98388671875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::log_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::log_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(93.27799999999999), 'mean_duration_us': np.float64(1.9432916666666664), 'median_duration_us': np.float64(1.952), 'std_dev_duration_us': np.float64(0.02501162923966017), 'min_duration_us': np.float64(1.888), 'max_duration_us': np.float64(1.984)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::lo...', 'stream': 7, 'mean_duration_us': np.float64(1.94)}]",,False,0.0008053734043360743,99.95395056759651
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 177, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((34799616, 11599872, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",236987,1,32.39,32.39,,,,,,,,,,92.031005859375,,92.031005859375,32.39,32.39,32.39,,,,,,,92.031005859375,92.031005859375,92.031005859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(86.815), 'mean_duration_us': np.float64(86.815), 'median_duration_us': np.float64(86.815), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(86.815), 'max_duration_us': np.float64(86.815)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(86.82)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0007946434963188551,99.95474521109283
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 177, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((34799616, 11599872, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",236987,1,32.39,32.39,,,,,,,,,,92.031005859375,,92.031005859375,32.39,32.39,32.39,,,,,,,92.031005859375,92.031005859375,92.031005859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(86.815), 'mean_duration_us': np.float64(86.815), 'median_duration_us': np.float64(86.815), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(86.815), 'max_duration_us': np.float64(86.815)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(86.82)}]",,False,0.0007946434963188551,99.95474521109283
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 3, 258, 258), ())","('c10::BFloat16', 'Scalar')","((19170432, 199692, 66564, 258, 1), ())","('', '0.')",134801,7,58.4,8.342857142857143,0.5404847912049046,,,,,,,,,13.005719866071429,0.3572081841031708,91.0400390625,8.24,7.87,9.45,,,,,,,12.89599609375,12.736083984375,13.7919921875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(91.04000000000002), 'mean_duration_us': np.float64(13.005714285714289), 'median_duration_us': np.float64(12.896), 'std_dev_duration_us': np.float64(0.33072634967197084), 'min_duration_us': np.float64(12.736), 'max_duration_us': np.float64(13.792)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(13.01)}]",,False,0.0007860869743852808,99.95553129806721
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 173, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((34013184, 11337728, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",234725,1,31.21,31.21,,,,,,,,,,89.9521484375,,89.9521484375,31.21,31.21,31.21,,,,,,,89.9521484375,89.9521484375,89.9521484375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(84.768), 'mean_duration_us': np.float64(84.768), 'median_duration_us': np.float64(84.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(84.768), 'max_duration_us': np.float64(84.768)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(84.77)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0007766935617871021,99.956307991629
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 169, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((33226752, 11075584, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",232463,1,32.41,32.41,,,,,,,,,,88.287109375,,88.287109375,32.41,32.41,32.41,,,,,,,88.287109375,88.287109375,88.287109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(83.007), 'mean_duration_us': np.float64(83.007), 'median_duration_us': np.float64(83.007), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(83.007), 'max_duration_us': np.float64(83.007)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(83.01)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",,False,0.0007623167498661915,99.95707030837887
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 173, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((34013184, 11337728, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",234725,1,31.21,31.21,,,,,,,,,,89.9521484375,,89.9521484375,31.21,31.21,31.21,,,,,,,89.9521484375,89.9521484375,89.9521484375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(84.768), 'mean_duration_us': np.float64(84.768), 'median_duration_us': np.float64(84.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(84.768), 'max_duration_us': np.float64(84.768)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(84.77)}]",,False,0.0007766935617871021,99.956307991629
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 169, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((33226752, 11075584, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",232463,1,32.41,32.41,,,,,,,,,,88.287109375,,88.287109375,32.41,32.41,32.41,,,,,,,88.287109375,88.287109375,88.287109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(83.007), 'mean_duration_us': np.float64(83.007), 'median_duration_us': np.float64(83.007), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(83.007), 'max_duration_us': np.float64(83.007)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(83.01)}]",,False,0.0007623167498661915,99.95707030837887
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 96, 1, 256, 256), (1, 96, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((6291456, 65536, 65536, 256, 1), (25165824, 65536, 6291456, 256, 1)), ())","('', '2')",137065,1,42.701,42.701,,,,,,,,,,88.2548828125,,88.2548828125,42.701,42.701,42.701,,,,,,,88.2548828125,88.2548828125,88.2548828125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(19.712), 'mean_duration_us': np.float64(19.712), 'median_duration_us': np.float64(19.712), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(19.712), 'max_duration_us': np.float64(19.712)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(68.543), 'mean_duration_us': np.float64(68.543), 'median_duration_us': np.float64(68.543), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(68.543), 'max_duration_us': np.float64(68.543)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(19.71)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(68.54)}]",,False,0.0007620384889903028,99.95783234686786
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('float', 'long int')","((512, 1), ())","('', '')",148,48,506.076,10.54325,2.0619856109038364,0.000262144,2.0000076293945312,0.12499952316466079,vector_fp32,1.1590695958014121,0.022238689102381703,0.14488314678983258,0.002779825533604853,1.8100026448567708,0.034863572240989384,86.880126953125,10.0,8.69,19.08,1.170295280653951,1.1108195215311005,1.191561570259398,0.14628635204359672,0.1388519105133842,0.1489446281037592,1.7919921875,1.760009765625,1.887939453125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(86.881), 'mean_duration_us': np.float64(1.8100208333333334), 'median_duration_us': np.float64(1.792), 'std_dev_duration_us': np.float64(0.03451780312590721), 'min_duration_us': np.float64(1.76), 'max_duration_us': np.float64(1.888)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BU...', 'stream': 7, 'mean_duration_us': np.float64(1.81)}]","{'shape_in1': (512, 512), 'shape_in2': (), 'dtype_in1_in2_out': ('float', 'long int', None), 'stride_input1': (512, 1), 'stride_input2': (), 'stride_output': None}",True,0.000750168132989328,99.95858251500086
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('float', 'long int')","((512, 1), ())","('', '')",151,48,410.514,8.552375,1.046043948163442,0.000262144,2.0000076293945312,0.12499952316466079,vector_fp32,1.170898691113112,0.015257853572397985,0.14636177806326442,0.001907224421065962,1.7913665771484375,0.023347229299725894,85.985595703125,8.129999999999999,7.45,11.4,1.170295280653951,1.1491595130434784,1.191561570259398,0.14628635204359672,0.14364439117056857,0.1489446281037592,1.7919921875,1.760009765625,1.824951171875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(85.986), 'mean_duration_us': np.float64(1.7913750000000002), 'median_duration_us': np.float64(1.792), 'std_dev_duration_us': np.float64(0.023116214547369136), 'min_duration_us': np.float64(1.76), 'max_duration_us': np.float64(1.825)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(1.79)}]","{'shape_in1': (512, 512), 'shape_in2': (), 'dtype_in1_in2_out': ('float', 'long int', None), 'stride_input1': (512, 1), 'stride_input2': (), 'stride_output': None}",True,0.000742444285646481,99.9593249592865
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 165, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((32440320, 10813440, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",230201,1,32.821,32.821,,,,,,,,,,85.696044921875,,85.696044921875,32.821,32.821,32.821,,,,,,,85.696044921875,85.696044921875,85.696044921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(80.32), 'mean_duration_us': np.float64(80.32), 'median_duration_us': np.float64(80.32), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(80.32), 'max_duration_us': np.float64(80.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(80.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}]",,False,0.0007399441538373607,99.96006490344034
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 161, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((31653888, 10551296, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",227939,1,31.66,31.66,,,,,,,,,,83.8720703125,,83.8720703125,31.66,31.66,31.66,,,,,,,83.8720703125,83.8720703125,83.8720703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(78.688), 'mean_duration_us': np.float64(78.688), 'median_duration_us': np.float64(78.688), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(78.688), 'max_duration_us': np.float64(78.688)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(78.69)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.000724195009869454,99.9607890984502
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 165, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((32440320, 10813440, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",230201,1,32.821,32.821,,,,,,,,,,85.696044921875,,85.696044921875,32.821,32.821,32.821,,,,,,,85.696044921875,85.696044921875,85.696044921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.376), 'mean_duration_us': np.float64(5.376), 'median_duration_us': np.float64(5.376), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.376), 'max_duration_us': np.float64(5.376)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(80.32), 'mean_duration_us': np.float64(80.32), 'median_duration_us': np.float64(80.32), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(80.32), 'max_duration_us': np.float64(80.32)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.38)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(80.32)}]",,False,0.0007399441538373607,99.96006490344034
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 161, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((31653888, 10551296, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",227939,1,31.66,31.66,,,,,,,,,,83.8720703125,,83.8720703125,31.66,31.66,31.66,,,,,,,83.8720703125,83.8720703125,83.8720703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(78.688), 'mean_duration_us': np.float64(78.688), 'median_duration_us': np.float64(78.688), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(78.688), 'max_duration_us': np.float64(78.688)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(78.69)}]",,False,0.000724195009869454,99.9607890984502
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((512, 512), ())","('float', 'double')","((512, 1), ())","('', '')",150,48,364.873,7.601520833333333,0.966821420496674,0.000262144,2.0000076293945312,0.12499952316466079,vector_fp32,1.212901077929107,0.016019102054901292,0.15161205638704142,0.0020023801183886893,1.729339599609375,0.022817132279942493,83.00830078125,7.18,6.8,11.72,1.2136150551003109,1.191561570259398,1.2372126400691343,0.15170130319299235,0.1489446281037592,0.15465099006193286,1.72802734375,1.695068359375,1.760009765625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 48, 'total_duration_us': np.float64(83.007), 'mean_duration_us': np.float64(1.7293125), 'median_duration_us': np.float64(1.728), 'std_dev_duration_us': np.float64(0.022590702595315634), 'min_duration_us': np.float64(1.695), 'max_duration_us': np.float64(1.76)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BU...', 'stream': 7, 'mean_duration_us': np.float64(1.73)}]","{'shape_in1': (512, 512), 'shape_in2': (), 'dtype_in1_in2_out': ('float', 'double', None), 'stride_input1': (512, 1), 'stride_input2': (), 'stride_output': None}",True,0.0007167367751808642,99.96150583522538
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 157, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((30867456, 10289152, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",225677,1,31.401,31.401,,,,,,,,,,82.56005859375,,82.56005859375,31.401,31.401,31.401,,,,,,,82.56005859375,82.56005859375,82.56005859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(77.312), 'mean_duration_us': np.float64(77.312), 'median_duration_us': np.float64(77.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(77.312), 'max_duration_us': np.float64(77.312)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(77.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",,False,0.0007128664193616865,99.96221870164474
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 3, 66, 66), (384, 192, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((2509056, 13068, 4356, 66, 1), (5184, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",134157,1,115.601,115.601,,16.307453952,11.58251953125,1342.7130390792968,matrix_bf16,0.15043392268822178,,201.98958951332224,,80.734130859375,,80.734130859375,115.601,115.601,115.601,0.15043392268822178,0.15043392268822178,0.15043392268822178,201.98958951332224,201.98958951332224,201.98958951332224,80.734130859375,80.734130859375,80.734130859375,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.928), 'mean_duration_us': np.float64(4.928), 'median_duration_us': np.float64(4.928), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.928), 'max_duration_us': np.float64(4.928)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.623), 'mean_duration_us': np.float64(6.623), 'median_duration_us': np.float64(6.623), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.623), 'max_duration_us': np.float64(6.623)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(58.047), 'mean_duration_us': np.float64(58.047), 'median_duration_us': np.float64(58.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(58.047), 'max_duration_us': np.float64(58.047)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.128), 'mean_duration_us': np.float64(4.128), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.128), 'max_duration_us': np.float64(4.128)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.208), 'mean_duration_us': np.float64(6.208), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.208)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.93)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.62)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(58.05)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.13)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.21)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 3, 66, 66), 'filter_shape': (384, 192, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (2509056, 13068, 4356, 66, 1), 'weight_stride': (5184, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.0006971004110982713,99.96291580205585
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 153, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((30081024, 10027008, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",223415,1,32.701,32.701,,,,,,,,,,80.60693359375,,80.60693359375,32.701,32.701,32.701,,,,,,,80.60693359375,80.60693359375,80.60693359375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(75.167), 'mean_duration_us': np.float64(75.167), 'median_duration_us': np.float64(75.167), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(75.167), 'max_duration_us': np.float64(75.167)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.44), 'mean_duration_us': np.float64(5.44), 'median_duration_us': np.float64(5.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.44), 'max_duration_us': np.float64(5.44)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(75.17)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.44)}]",,False,0.0006960021238532867,99.9636118041797
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 149, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((29294592, 9764864, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",221153,1,31.77,31.77,,,,,,,,,,78.4951171875,,78.4951171875,31.77,31.77,31.77,,,,,,,78.4951171875,78.4951171875,78.4951171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(73.279), 'mean_duration_us': np.float64(73.279), 'median_duration_us': np.float64(73.279), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(73.279), 'max_duration_us': np.float64(73.279)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(73.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0006777676043348296,99.96428957178404
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 145, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((28508160, 9502720, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",218891,1,32.15,32.15,,,,,,,,,,76.094970703125,,76.094970703125,32.15,32.15,32.15,,,,,,,76.094970703125,76.094970703125,76.094970703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(70.911), 'mean_duration_us': np.float64(70.911), 'median_duration_us': np.float64(70.911), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(70.911), 'max_duration_us': np.float64(70.911)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(70.91)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.0006570434931919449,99.96494661527723
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 157, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((30867456, 10289152, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",225677,1,31.401,31.401,,,,,,,,,,82.56005859375,,82.56005859375,31.401,31.401,31.401,,,,,,,82.56005859375,82.56005859375,82.56005859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(77.312), 'mean_duration_us': np.float64(77.312), 'median_duration_us': np.float64(77.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(77.312), 'max_duration_us': np.float64(77.312)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(77.31)}]",,False,0.0007128664193616865,99.96221870164474
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 3, 66, 66), (384, 192, 3, 3, 3), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((2509056, 13068, 4356, 66, 1), (5184, 27, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",134157,1,115.601,115.601,,16.307453952,11.58251953125,1342.7130390792968,matrix_bf16,0.15043392268822178,,201.98958951332224,,80.734130859375,,80.734130859375,115.601,115.601,115.601,0.15043392268822178,0.15043392268822178,0.15043392268822178,201.98958951332224,201.98958951332224,201.98958951332224,80.734130859375,80.734130859375,80.734130859375,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(0.8), 'mean_duration_us': np.float64(0.8), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(0.8), 'max_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.128), 'mean_duration_us': np.float64(4.128), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.128), 'max_duration_us': np.float64(4.128)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.928), 'mean_duration_us': np.float64(4.928), 'median_duration_us': np.float64(4.928), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.928), 'max_duration_us': np.float64(4.928)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.208), 'mean_duration_us': np.float64(6.208), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.208), 'max_duration_us': np.float64(6.208)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.623), 'mean_duration_us': np.float64(6.623), 'median_duration_us': np.float64(6.623), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.623), 'max_duration_us': np.float64(6.623)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize128x64x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(58.047), 'mean_duration_us': np.float64(58.047), 'median_duration_us': np.float64(58.047), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(58.047), 'max_duration_us': np.float64(58.047)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.8)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.13)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(4.93)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.21)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.62)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(58.05)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 3, 66, 66), 'filter_shape': (384, 192, 3, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (2509056, 13068, 4356, 66, 1), 'weight_stride': (5184, 27, 9, 3, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.0006971004110982713,99.96291580205585
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 153, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((30081024, 10027008, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",223415,1,32.701,32.701,,,,,,,,,,80.60693359375,,80.60693359375,32.701,32.701,32.701,,,,,,,80.60693359375,80.60693359375,80.60693359375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.44), 'mean_duration_us': np.float64(5.44), 'median_duration_us': np.float64(5.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.44), 'max_duration_us': np.float64(5.44)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(75.167), 'mean_duration_us': np.float64(75.167), 'median_duration_us': np.float64(75.167), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(75.167), 'max_duration_us': np.float64(75.167)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.44)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(75.17)}]",,False,0.0006960021238532867,99.9636118041797
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 149, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((29294592, 9764864, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",221153,1,31.77,31.77,,,,,,,,,,78.4951171875,,78.4951171875,31.77,31.77,31.77,,,,,,,78.4951171875,78.4951171875,78.4951171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(73.279), 'mean_duration_us': np.float64(73.279), 'median_duration_us': np.float64(73.279), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(73.279), 'max_duration_us': np.float64(73.279)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(73.28)}]",,False,0.0006777676043348296,99.96428957178404
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 145, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((28508160, 9502720, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",218891,1,32.15,32.15,,,,,,,,,,76.094970703125,,76.094970703125,32.15,32.15,32.15,,,,,,,76.094970703125,76.094970703125,76.094970703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(70.911), 'mean_duration_us': np.float64(70.911), 'median_duration_us': np.float64(70.911), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(70.911), 'max_duration_us': np.float64(70.911)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(70.91)}]",,False,0.0006570434931919449,99.96494661527723
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 384, 1, 64, 64), (1, 384, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((1572864, 4096, 4096, 64, 1), (3145728, 8192, 4096, 64, 1)), ())","('', '2')",136286,5,207.962,41.5924,2.81331358010443,,,,,,,,,14.9947265625,0.24875159890892634,74.9736328125,40.89,39.42,46.451,,,,,,,15.008056640625,14.5908203125,15.199951171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(35.136), 'mean_duration_us': np.float64(7.027200000000001), 'median_duration_us': np.float64(7.008), 'std_dev_duration_us': np.float64(0.19684552319014031), 'min_duration_us': np.float64(6.816), 'max_duration_us': np.float64(7.36)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(39.838), 'mean_duration_us': np.float64(7.9676), 'median_duration_us': np.float64(8.095), 'std_dev_duration_us': np.float64(0.2151990706299636), 'min_duration_us': np.float64(7.648), 'max_duration_us': np.float64(8.192)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.03)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.97)}]",,False,0.0006473612795331848,99.96559397655676
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 141, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((27721728, 9240576, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",216629,1,36.271,36.271,,,,,,,,,,73.98388671875,,73.98388671875,36.271,36.271,36.271,,,,,,,73.98388671875,73.98388671875,73.98388671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(68.928), 'mean_duration_us': np.float64(68.928), 'median_duration_us': np.float64(68.928), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(68.928), 'max_duration_us': np.float64(68.928)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(68.93)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",,False,0.0006388152977843033,99.96623279185455
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 137, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((26935296, 8978432, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",214367,1,32.89,32.89,,,,,,,,,,72.2548828125,,72.2548828125,32.89,32.89,32.89,,,,,,,72.2548828125,72.2548828125,72.2548828125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(66.911), 'mean_duration_us': np.float64(66.911), 'median_duration_us': np.float64(66.911), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(66.911), 'max_duration_us': np.float64(66.911)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(66.91)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",,False,0.0006238861801854925,99.96685667803473
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 141, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((27721728, 9240576, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",216629,1,36.271,36.271,,,,,,,,,,73.98388671875,,73.98388671875,36.271,36.271,36.271,,,,,,,73.98388671875,73.98388671875,73.98388671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(68.928), 'mean_duration_us': np.float64(68.928), 'median_duration_us': np.float64(68.928), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(68.928), 'max_duration_us': np.float64(68.928)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(68.93)}]",,False,0.0006388152977843033,99.96623279185455
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 137, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((26935296, 8978432, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",214367,1,32.89,32.89,,,,,,,,,,72.2548828125,,72.2548828125,32.89,32.89,32.89,,,,,,,72.2548828125,72.2548828125,72.2548828125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.344), 'mean_duration_us': np.float64(5.344), 'median_duration_us': np.float64(5.344), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.344), 'max_duration_us': np.float64(5.344)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(66.911), 'mean_duration_us': np.float64(66.911), 'median_duration_us': np.float64(66.911), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(66.911), 'max_duration_us': np.float64(66.911)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(66.91)}]",,False,0.0006238861801854925,99.96685667803473
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 3, 64, 64), (1, 384, 3, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6690816, 17424, 4356, 66, 1), (4718592, 12288, 4096, 64, 1), ())","('', '', 'False')",136312,5,32.751,6.550199999999999,0.185432467491537,0.004718592,18.0,0.25,vector_bf16,1.3320905862478747,0.010058594151316646,0.33302264656196867,0.0025146485378291614,14.16962890625,0.10703365573824612,70.84814453125,6.48,6.32,6.76,1.331428766520279,1.3195209224939835,1.3435534893032792,0.33285719163006977,0.32988023062349586,0.3358883723258198,14.176025390625,14.048095703125,14.303955078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(70.848), 'mean_duration_us': np.float64(14.169599999999999), 'median_duration_us': np.float64(14.176), 'std_dev_duration_us': np.float64(0.09578642910141298), 'min_duration_us': np.float64(14.048), 'max_duration_us': np.float64(14.304)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(14.17)}]","{'op_shape': (1, 384, 3, 64, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (6690816, 17424, 4356, 66, 1), 'stride_output': (4718592, 12288, 4096, 64, 1)}",True,0.0006117396713455677,99.96746841770607
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 133, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((26148864, 8716288, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",212105,1,42.84,42.84,,,,,,,,,,70.14306640625,,70.14306640625,42.84,42.84,42.84,,,,,,,70.14306640625,70.14306640625,70.14306640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(64.895), 'mean_duration_us': np.float64(64.895), 'median_duration_us': np.float64(64.895), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(64.895), 'max_duration_us': np.float64(64.895)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(64.9)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",,False,0.0006056516606670353,99.96807406936674
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 133, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((26148864, 8716288, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",212105,1,42.84,42.84,,,,,,,,,,70.14306640625,,70.14306640625,42.84,42.84,42.84,,,,,,,70.14306640625,70.14306640625,70.14306640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(64.895), 'mean_duration_us': np.float64(64.895), 'median_duration_us': np.float64(64.895), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(64.895), 'max_duration_us': np.float64(64.895)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(64.9)}]",,False,0.0006056516606670353,99.96807406936674
 aten::arange,other,python3,CPU,thread 10586 (python3),"((), (), (), (0,))","('Scalar', 'Scalar', 'Scalar', 'long int')","((), (), (), (1,))","('0', '512', '1', '')",36,50,725.596,14.51192,2.4657911827108743,,,,,,,,,1.3919189453125,0.10272110774693352,69.595947265625,13.69,12.0,21.69,,,,,,,1.3919677734375,1.280029296875,1.633056640625,"[{'name': 'void (anonymous namespace)::elementwise_kernel_with_index<int, at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}>(int, at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}, function_traits<at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(long)#1}>::result_type*)', 'stream': 7, 'count': 50, 'total_duration_us': np.float64(69.597), 'mean_duration_us': np.float64(1.39194), 'median_duration_us': np.float64(1.392), 'std_dev_duration_us': np.float64(0.10172638005945162), 'min_duration_us': np.float64(1.28), 'max_duration_us': np.float64(1.633)}]","[{'name': 'void (anonymous namespace)::elementwise_kernel_with_index<int, a...', 'stream': 7, 'mean_duration_us': np.float64(1.39)}]",,False,0.0006009275498877449,99.96867499691662
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 129, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((25362432, 8454144, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",209843,1,39.59,39.59,,,,,,,,,,68.864013671875,,68.864013671875,39.59,39.59,39.59,,,,,,,68.864013671875,68.864013671875,68.864013671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(63.648), 'mean_duration_us': np.float64(63.648), 'median_duration_us': np.float64(63.648), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(63.648), 'max_duration_us': np.float64(63.648)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(63.65)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0005946076551459721,99.96926960457176
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 125, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((24576000, 8192000, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",207581,1,40.25,40.25,,,,,,,,,,66.719970703125,,66.719970703125,40.25,40.25,40.25,,,,,,,66.719970703125,66.719970703125,66.719970703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(61.696), 'mean_duration_us': np.float64(61.696), 'median_duration_us': np.float64(61.696), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(61.696), 'max_duration_us': np.float64(61.696)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.024), 'mean_duration_us': np.float64(5.024), 'median_duration_us': np.float64(5.024), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.024), 'max_duration_us': np.float64(5.024)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(61.7)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.02)}]",,False,0.0005760948747516264,99.96984569944651
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 121, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((23789568, 7929856, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",205319,1,35.57,35.57,,,,,,,,,,64.63916015625,,64.63916015625,35.57,35.57,35.57,,,,,,,64.63916015625,64.63916015625,64.63916015625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(59.391), 'mean_duration_us': np.float64(59.391), 'median_duration_us': np.float64(59.391), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(59.391), 'max_duration_us': np.float64(59.391)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(59.39)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",,False,0.0005581280759243651,99.97040382752243
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 129, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((25362432, 8454144, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",209843,1,39.59,39.59,,,,,,,,,,68.864013671875,,68.864013671875,39.59,39.59,39.59,,,,,,,68.864013671875,68.864013671875,68.864013671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(63.648), 'mean_duration_us': np.float64(63.648), 'median_duration_us': np.float64(63.648), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(63.648), 'max_duration_us': np.float64(63.648)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(63.65)}]",,False,0.0005946076551459721,99.96926960457176
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 125, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((24576000, 8192000, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",207581,1,40.25,40.25,,,,,,,,,,66.719970703125,,66.719970703125,40.25,40.25,40.25,,,,,,,66.719970703125,66.719970703125,66.719970703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.024), 'mean_duration_us': np.float64(5.024), 'median_duration_us': np.float64(5.024), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.024), 'max_duration_us': np.float64(5.024)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(61.696), 'mean_duration_us': np.float64(61.696), 'median_duration_us': np.float64(61.696), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(61.696), 'max_duration_us': np.float64(61.696)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.02)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(61.7)}]",,False,0.0005760948747516264,99.96984569944651
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 121, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((23789568, 7929856, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",205319,1,35.57,35.57,,,,,,,,,,64.63916015625,,64.63916015625,35.57,35.57,35.57,,,,,,,64.63916015625,64.63916015625,64.63916015625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(59.391), 'mean_duration_us': np.float64(59.391), 'median_duration_us': np.float64(59.391), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(59.391), 'max_duration_us': np.float64(59.391)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(59.39)}]",,False,0.0005581280759243651,99.97040382752243
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((1536,), (1, 1536), (1536, 1536), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (1536, 1), (1, 1536), (), ())","('', '', '', '1', '1')",11828,10,275.092,27.5092,2.1801160927294165,0.004720128,4.5087890625,0.9983755685510072,matrix_bf16,0.7337507692909802,0.01088589454230261,0.7325588414656212,0.010868211152857691,6.4446044921875,0.0944805958845497,64.446044921875,27.6605,24.32,31.73,0.7314624163130894,0.7206960017863788,0.7576627242067374,0.7302742057602741,0.7195252805359136,0.7564319530498064,6.4635009765625,6.239990234375,6.56005859375,"[{'name': 'std::enable_if<!(false), void>::type internal::gemvx::kernel<int, int, __nv_bfloat16, __nv_bfloat16, __nv_bfloat16, float, false, true, true, false, 6, false, cublasGemvParamsEx<int, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16>, float> >(cublasGemvParamsEx<int, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16>, float>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(64.446), 'mean_duration_us': np.float64(6.444599999999999), 'median_duration_us': np.float64(6.4635), 'std_dev_duration_us': np.float64(0.08959374978200195), 'min_duration_us': np.float64(6.24), 'max_duration_us': np.float64(6.56)}]","[{'name': 'std::enable_if<!(false), void>::type internal::gemvx::kernel<int...', 'stream': 7, 'mean_duration_us': np.float64(6.44)}]","{'M': 1, 'N': 1536, 'K': 1536, 'bias': True, 'stride_A': (1536, 1), 'stride_B': (1, 1536), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.000556460618705972,99.97096028814114
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 117, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((23003136, 7667712, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",203057,1,34.901,34.901,,,,,,,,,,62.4951171875,,62.4951171875,34.901,34.901,34.901,,,,,,,62.4951171875,62.4951171875,62.4951171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(57.28), 'mean_duration_us': np.float64(57.28), 'median_duration_us': np.float64(57.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(57.28), 'max_duration_us': np.float64(57.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.215), 'mean_duration_us': np.float64(5.215), 'median_duration_us': np.float64(5.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.215), 'max_duration_us': np.float64(5.215)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(57.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0005396152955300192,99.97149990343668
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 113, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((22216704, 7405568, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",200795,1,38.96,38.96,,,,,,,,,,60.447998046875,,60.447998046875,38.96,38.96,38.96,,,,,,,60.447998046875,60.447998046875,60.447998046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(55.232), 'mean_duration_us': np.float64(55.232), 'median_duration_us': np.float64(55.232), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(55.232), 'max_duration_us': np.float64(55.232)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(55.23)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.0005219394058002778,99.97202184284248
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 109, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((21430272, 7143424, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",198533,1,34.63,34.63,,,,,,,,,,58.623046875,,58.623046875,34.63,34.63,34.63,,,,,,,58.623046875,58.623046875,58.623046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(53.215), 'mean_duration_us': np.float64(53.215), 'median_duration_us': np.float64(53.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(53.215), 'max_duration_us': np.float64(53.215)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(53.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}]",,False,0.0005061818296846169,99.97252802467216
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 117, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((23003136, 7667712, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",203057,1,34.901,34.901,,,,,,,,,,62.4951171875,,62.4951171875,34.901,34.901,34.901,,,,,,,62.4951171875,62.4951171875,62.4951171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.215), 'mean_duration_us': np.float64(5.215), 'median_duration_us': np.float64(5.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.215), 'max_duration_us': np.float64(5.215)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(57.28), 'mean_duration_us': np.float64(57.28), 'median_duration_us': np.float64(57.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(57.28), 'max_duration_us': np.float64(57.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(57.28)}]",,False,0.0005396152955300192,99.97149990343668
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 113, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((22216704, 7405568, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",200795,1,38.96,38.96,,,,,,,,,,60.447998046875,,60.447998046875,38.96,38.96,38.96,,,,,,,60.447998046875,60.447998046875,60.447998046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(55.232), 'mean_duration_us': np.float64(55.232), 'median_duration_us': np.float64(55.232), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(55.232), 'max_duration_us': np.float64(55.232)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(55.23)}]",,False,0.0005219394058002778,99.97202184284248
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 109, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((21430272, 7143424, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",198533,1,34.63,34.63,,,,,,,,,,58.623046875,,58.623046875,34.63,34.63,34.63,,,,,,,58.623046875,58.623046875,58.623046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(53.215), 'mean_duration_us': np.float64(53.215), 'median_duration_us': np.float64(53.215), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(53.215), 'max_duration_us': np.float64(53.215)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(53.22)}]",,False,0.0005061818296846169,99.97252802467216
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((9734400, 50700, 16900, 130, 1), (3145728, 16384, 16384, 128, 1), ())","('', '', 'False')",134486,6,52.541,8.756833333333333,0.25037605050536854,0.003145728,12.0,0.25,vector_bf16,1.2920321325724566,0.03298086915292639,0.32300803314311416,0.008245217288231597,9.743977864583334,0.24091975336814547,58.4638671875,8.79,8.37,9.111,1.2829561937365113,1.2684486993502657,1.3559129607745126,0.3207390484341278,0.31711217483756643,0.33897824019362816,9.8079833984375,9.280029296875,9.919921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(58.464000000000006), 'mean_duration_us': np.float64(9.744000000000002), 'median_duration_us': np.float64(9.808), 'std_dev_duration_us': np.float64(0.21996363335788052), 'min_duration_us': np.float64(9.28), 'max_duration_us': np.float64(9.92)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.74)}]","{'op_shape': (1, 192, 1, 128, 128), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (9734400, 50700, 16900, 130, 1), 'stride_output': (3145728, 16384, 16384, 128, 1)}",True,0.0005048073896006824,99.97303283206176
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 105, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((20643840, 6881280, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",196271,1,33.04,33.04,,,,,,,,,,56.4169921875,,56.4169921875,33.04,33.04,33.04,,,,,,,56.4169921875,56.4169921875,56.4169921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(51.296), 'mean_duration_us': np.float64(51.296), 'median_duration_us': np.float64(51.296), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(51.296), 'max_duration_us': np.float64(51.296)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.121), 'mean_duration_us': np.float64(5.121), 'median_duration_us': np.float64(5.121), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.121), 'max_duration_us': np.float64(5.121)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(51.3)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",,False,0.0004871336079078794,99.97351996566967
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 105, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((20643840, 6881280, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",196271,1,33.04,33.04,,,,,,,,,,56.4169921875,,56.4169921875,33.04,33.04,33.04,,,,,,,56.4169921875,56.4169921875,56.4169921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.121), 'mean_duration_us': np.float64(5.121), 'median_duration_us': np.float64(5.121), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.121), 'max_duration_us': np.float64(5.121)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(51.296), 'mean_duration_us': np.float64(51.296), 'median_duration_us': np.float64(51.296), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(51.296), 'max_duration_us': np.float64(51.296)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(51.3)}]",,False,0.0004871336079078794,99.97351996566967
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((1572864, 4096, 4096, 64, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",134163,5,80.342,16.0684,1.289997015500424,,,,,,,,,11.193603515625,0.13840480392503354,55.968017578125,15.41,15.141,18.241,,,,,,,11.16796875,11.072021484375,11.424072265625,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(55.967999999999996), 'mean_duration_us': np.float64(11.1936), 'median_duration_us': np.float64(11.168), 'std_dev_duration_us': np.float64(0.1237701094772079), 'min_duration_us': np.float64(11.072), 'max_duration_us': np.float64(11.424)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(11.19)}]",,False,0.00048325692797788604,99.97400322259764
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256),)","('c10::BFloat16',)","((6291456, 65536, 65536, 256, 1),)","('',)",134834,6,55.84,9.306666666666667,1.9282807541088687,,,,,,,,,9.301513671875,0.0259566381236691,55.80908203125,8.52,8.31,13.23,,,,,,,9.2965087890625,9.280029296875,9.343994140625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(55.809), 'mean_duration_us': np.float64(9.301499999999999), 'median_duration_us': np.float64(9.2965), 'std_dev_duration_us': np.float64(0.023704781514847575), 'min_duration_us': np.float64(9.28), 'max_duration_us': np.float64(9.344)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(9.3)}]",,False,0.00048188459593089,99.97448510719357
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 101, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((19857408, 6619136, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",194009,1,35.26,35.26,,,,,,,,,,54.912109375,,54.912109375,35.26,35.26,35.26,,,,,,,54.912109375,54.912109375,54.912109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(49.792), 'mean_duration_us': np.float64(49.792), 'median_duration_us': np.float64(49.792), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(49.792), 'max_duration_us': np.float64(49.792)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(49.79)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}]",,False,0.0004741396682186575,99.97495924686179
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 101, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((19857408, 6619136, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",194009,1,35.26,35.26,,,,,,,,,,54.912109375,,54.912109375,35.26,35.26,35.26,,,,,,,54.912109375,54.912109375,54.912109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.12), 'mean_duration_us': np.float64(5.12), 'median_duration_us': np.float64(5.12), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.12), 'max_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(49.792), 'mean_duration_us': np.float64(49.792), 'median_duration_us': np.float64(49.792), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(49.792), 'max_duration_us': np.float64(49.792)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.12)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(49.79)}]",,False,0.0004741396682186575,99.97495924686179
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), ())","('c10::BFloat16', 'double')","((6291456, 65536, 65536, 256, 1), ())","('', '')",134831,6,57.599999999999994,9.6,1.0039521900967203,0.006291456,24.00000762939453,0.24999992052716558,vector_bf16,2.8055091367420832,0.023132648017142595,0.7013770612237576,0.005783160165868596,8.970662434895834,0.0748778009968087,53.823974609375,9.155,8.87,11.47,2.813575465367669,2.7593759468893886,2.8190687234240395,0.7033936427391001,0.6898437674269194,0.7047669568166279,8.9444580078125,8.927001953125,9.1201171875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(53.824), 'mean_duration_us': np.float64(8.970666666666666), 'median_duration_us': np.float64(8.944500000000001), 'std_dev_duration_us': np.float64(0.06830243203738917), 'min_duration_us': np.float64(8.927), 'max_duration_us': np.float64(9.12)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(8.97)}]","{'shape_in1': (1, 96, 1, 256, 256), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (6291456, 65536, 65536, 256, 1), 'stride_input2': (), 'stride_output': None}",True,0.0004647441475835403,99.97542399100936
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (), ())","('c10::BFloat16', 'double', 'Scalar')","((6291456, 65536, 65536, 256, 1), (), ())","('', '', '1')",134833,6,54.061,9.010166666666667,1.0404595939615655,0.006291456,24.00000762939453,0.24999992052716558,vector_bf16,2.812001675191613,0.005236602456632015,0.7030001953201596,0.0013091501979903316,8.949462890625,0.016646022727121266,53.69677734375,8.7505,8.05,10.57,2.8086988520980922,2.808392760244115,2.8187603673056416,0.7021744898092642,0.702097966870096,0.7046898678115344,8.9599609375,8.927978515625,8.9609375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(53.697), 'mean_duration_us': np.float64(8.9495), 'median_duration_us': np.float64(8.96), 'std_dev_duration_us': np.float64(0.015206906325745492), 'min_duration_us': np.float64(8.928), 'max_duration_us': np.float64(8.961)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(8.95)}]","{'shape_in1': (1, 96, 1, 256, 256), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (6291456, 65536, 65536, 256, 1), 'stride_input2': (), 'stride_output': None}",True,0.0004636458603385557,99.9758876368697
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 97, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((19070976, 6356992, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",191747,1,34.31,34.31,,,,,,,,,,52.76806640625,,52.76806640625,34.31,34.31,34.31,,,,,,,52.76806640625,52.76806640625,52.76806640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(47.52), 'mean_duration_us': np.float64(47.52), 'median_duration_us': np.float64(47.52), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(47.52), 'max_duration_us': np.float64(47.52)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(47.52)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}]",,False,0.00045562688782431167,99.97634326375753
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 97, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((19070976, 6356992, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",191747,1,34.31,34.31,,,,,,,,,,52.76806640625,,52.76806640625,34.31,34.31,34.31,,,,,,,52.76806640625,52.76806640625,52.76806640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.248), 'mean_duration_us': np.float64(5.248), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.248)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(47.52), 'mean_duration_us': np.float64(47.52), 'median_duration_us': np.float64(47.52), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(47.52), 'max_duration_us': np.float64(47.52)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.25)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(47.52)}]",,False,0.00045562688782431167,99.97634326375753
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 1, 1, 1), (1, 16, 126, 32, 32, 1))","('float', 'float')","((1, 1, 1, 1, 1, 1), (2064384, 129024, 1024, 32, 1, 2064384))","('', '')",60217,6,134.081,22.346833333333333,8.495552728732056,0.002064384,15.750003814697266,0.12499996972463219,vector_fp32,1.884457089442322,0.06640427217270199,0.23555707912765875,0.008300532011173981,8.773356119791666,0.32423160634729187,52.64013671875,20.560499999999998,13.95,37.04,1.9078042234432546,1.7556188859879058,1.9402194549261438,0.23847547017093224,0.2194523075964807,0.24252737312491032,8.6566162109375,8.511962890625,9.406982421875,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(52.64), 'mean_duration_us': np.float64(8.773333333333333), 'median_duration_us': np.float64(8.656500000000001), 'std_dev_duration_us': np.float64(0.2959885508296261), 'min_duration_us': np.float64(8.512), 'max_duration_us': np.float64(9.407)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.77)}]","{'shape_in1': (1, 1, 1, 1, 1, 1), 'shape_in2': (1, 16, 126, 32, 32, 1), 'dtype_in1_in2_out': ('float', 'float', None), 'stride_input1': (1, 1, 1, 1, 1, 1), 'stride_input2': (2064384, 129024, 1024, 32, 1, 2064384), 'stride_output': None}",True,0.0004545222764685115,99.976797786034
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((6291456, 65536, 65536, 256, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",134825,6,101.762,16.960333333333335,2.542781993539098,,,,,,,,,8.5653076171875,0.21102314376005626,51.391845703125,15.925,14.4,21.14,,,,,,,8.639892578125,8.19189453125,8.736083984375,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(51.392), 'mean_duration_us': np.float64(8.565333333333333), 'median_duration_us': np.float64(8.64), 'std_dev_duration_us': np.float64(0.19259168090952322), 'min_duration_us': np.float64(8.192), 'max_duration_us': np.float64(8.736)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(8.57)}]",,False,0.00044374388360170555,99.9772415299176
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 93, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((18284544, 6094848, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",189485,1,33.03,33.03,,,,,,,,,,51.2939453125,,51.2939453125,33.03,33.03,33.03,,,,,,,51.2939453125,51.2939453125,51.2939453125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(45.951), 'mean_duration_us': np.float64(45.951), 'median_duration_us': np.float64(45.951), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(45.951), 'max_duration_us': np.float64(45.951)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.343), 'mean_duration_us': np.float64(5.343), 'median_duration_us': np.float64(5.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.343), 'max_duration_us': np.float64(5.343)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(45.95)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}]",,False,0.00044289856078934703,99.9776844284784
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 93, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((18284544, 6094848, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",189485,1,33.03,33.03,,,,,,,,,,51.2939453125,,51.2939453125,33.03,33.03,33.03,,,,,,,51.2939453125,51.2939453125,51.2939453125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.343), 'mean_duration_us': np.float64(5.343), 'median_duration_us': np.float64(5.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.343), 'max_duration_us': np.float64(5.343)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(45.951), 'mean_duration_us': np.float64(45.951), 'median_duration_us': np.float64(45.951), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(45.951), 'max_duration_us': np.float64(45.951)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.34)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(45.95)}]",,False,0.00044289856078934703,99.9776844284784
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 128, 128))","('c10::BFloat16', 'c10::BFloat16')","((3145728, 16384, 16384, 128, 1), (16384, 0, 16384, 128, 1))","('', '')",134499,5,56.769999999999996,11.354,2.145607140182004,0.003145728,18.0,0.16666666666666666,vector_bf16,1.849316920484013,0.028006201547108287,0.3082194867473355,0.0046677002578514055,10.2080078125,0.1550405423148289,51.0400390625,10.65,9.94,15.11,1.8547878248602478,1.8148601185032163,1.8784024911436694,0.3091313041433747,0.3024766864172027,0.3130670818572783,10.176025390625,10.048095703125,10.39990234375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(51.04), 'mean_duration_us': np.float64(10.208), 'median_duration_us': np.float64(10.176), 'std_dev_duration_us': np.float64(0.13874869368754444), 'min_duration_us': np.float64(10.048), 'max_duration_us': np.float64(10.4)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.21)}]","{'shape_in1': (1, 192, 1, 128, 128), 'shape_in2': (1, 192, 1, 128, 128), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (3145728, 16384, 16384, 128, 1), 'stride_input2': (16384, 0, 16384, 128, 1), 'stride_output': None}",True,0.000440706202373255,99.97812513468077
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 89, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((17498112, 5832704, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",187223,1,32.9,32.9,,,,,,,,,,49.725830078125,,49.725830078125,32.9,32.9,32.9,,,,,,,49.725830078125,49.725830078125,49.725830078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(43.775), 'mean_duration_us': np.float64(43.775), 'median_duration_us': np.float64(43.775), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(43.775), 'max_duration_us': np.float64(43.775)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.951), 'mean_duration_us': np.float64(5.951), 'median_duration_us': np.float64(5.951), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.951), 'max_duration_us': np.float64(5.951)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(43.78)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.95)}]",,False,0.0004293586395330406,99.9785544933203
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 89, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((17498112, 5832704, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",187223,1,32.9,32.9,,,,,,,,,,49.725830078125,,49.725830078125,32.9,32.9,32.9,,,,,,,49.725830078125,49.725830078125,49.725830078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.951), 'mean_duration_us': np.float64(5.951), 'median_duration_us': np.float64(5.951), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.951), 'max_duration_us': np.float64(5.951)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(43.775), 'mean_duration_us': np.float64(43.775), 'median_duration_us': np.float64(43.775), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(43.775), 'max_duration_us': np.float64(43.775)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.95)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(43.78)}]",,False,0.0004293586395330406,99.9785544933203
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 1, 128, 128), (1, 192, 4, 128, 128)), ())","('TensorList', 'Scalar')","(((3145728, 16384, 16384, 128, 1), (12582912, 16384, 3145728, 128, 1)), ())","('', '2')",136676,1,39.631,39.631,,,,,,,,,,47.008056640625,,47.008056640625,39.631,39.631,39.631,,,,,,,47.008056640625,47.008056640625,47.008056640625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(11.168), 'mean_duration_us': np.float64(11.168), 'median_duration_us': np.float64(11.168), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(11.168), 'max_duration_us': np.float64(11.168)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(35.84), 'mean_duration_us': np.float64(35.84), 'median_duration_us': np.float64(35.84), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(35.84), 'max_duration_us': np.float64(35.84)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(11.17)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(35.84)}]",,False,0.00040589197233310246,99.97896038529264
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 85, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((16711680, 5570560, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",184961,1,33.081,33.081,,,,,,,,,,46.81494140625,,46.81494140625,33.081,33.081,33.081,,,,,,,46.81494140625,46.81494140625,46.81494140625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(41.759), 'mean_duration_us': np.float64(41.759), 'median_duration_us': np.float64(41.759), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(41.759), 'max_duration_us': np.float64(41.759)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(41.76)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]",,False,0.0004042245151147094,99.97936460980775
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 85, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((16711680, 5570560, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",184961,1,33.081,33.081,,,,,,,,,,46.81494140625,,46.81494140625,33.081,33.081,33.081,,,,,,,46.81494140625,46.81494140625,46.81494140625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(41.759), 'mean_duration_us': np.float64(41.759), 'median_duration_us': np.float64(41.759), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(41.759), 'max_duration_us': np.float64(41.759)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(41.76)}]",,False,0.0004042245151147094,99.97936460980775
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (192, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((3145728, 16384, 16384, 128, 1), (1, 1, 1, 1))","('', '')",134501,5,42.951,8.5902,0.42476487613737546,0.003145728,12.0003662109375,0.2499923708382923,vector_bf16,1.3486649633270336,0.014174080087323153,0.3371559516486637,0.003543411885481741,9.331005859375,0.09742211312002604,46.655029296875,8.57,8.141,9.19,1.34221824,1.3375160351887894,1.3701201663033653,0.33554432000000006,0.33436880467107827,0.34251958870753363,9.375,9.18408203125,9.407958984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(46.655), 'mean_duration_us': np.float64(9.331), 'median_duration_us': np.float64(9.375), 'std_dev_duration_us': np.float64(0.08718256706475225), 'min_duration_us': np.float64(9.184), 'max_duration_us': np.float64(9.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(9.33)}]","{'shape_in1': (1, 192, 1, 128, 128), 'shape_in2': (192, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (3145728, 16384, 16384, 128, 1), 'stride_input2': (1, 1, 1, 1), 'stride_output': None}",True,0.0004028437509199592,99.97976745355867
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((3145728, 16384, 16384, 128, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",134494,5,77.31099999999999,15.4622,0.6086248433969812,,,,,,,,,9.25439453125,0.16219805394638606,46.27197265625,15.52,14.79,16.31,,,,,,,9.216064453125,9.087890625,9.50390625,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(46.272), 'mean_duration_us': np.float64(9.2544), 'median_duration_us': np.float64(9.216), 'std_dev_duration_us': np.float64(0.14509803582405945), 'min_duration_us': np.float64(9.088), 'max_duration_us': np.float64(9.504)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(9.25)}]",,False,0.0003995362409633743,99.98016698979963
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 2, 1536), (1, 1, 1536), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3072, 1536, 1), (1536, 1536, 1), ())","('', '', '1')",23712,10,736.578,73.6578,34.055727336235236,3.072e-06,0.0146484375,0.2,vector_bf16,0.0033697463155384537,0.00011811442369592741,0.0006739492631076909,2.3622884739185494e-05,4.563134765625,0.15630022725154996,45.63134765625,89.411,11.26,100.681,0.0033453719203487627,0.003243185731223259,0.0036089347788676646,0.0006690743840697526,0.0006486371462446518,0.000721786955773533,4.5919189453125,4.256103515625,4.736083984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(45.631), 'mean_duration_us': np.float64(4.5631), 'median_duration_us': np.float64(4.592), 'std_dev_duration_us': np.float64(0.14827032744281624), 'min_duration_us': np.float64(4.256), 'max_duration_us': np.float64(4.736)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.56)}]","{'shape_in1': (1, 2, 1536), 'shape_in2': (1, 1, 1536), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (3072, 1536, 1), 'stride_input2': (1536, 1536, 1), 'stride_output': None}",True,0.00039400475203661917,99.98056099455167
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 81, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((15925248, 5308416, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",182699,1,35.99,35.99,,,,,,,,,,45.5029296875,,45.5029296875,35.99,35.99,35.99,,,,,,,45.5029296875,45.5029296875,45.5029296875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(40.223), 'mean_duration_us': np.float64(40.223), 'median_duration_us': np.float64(40.223), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(40.223), 'max_duration_us': np.float64(40.223)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(40.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",,False,0.00039289592460694194,99.98095389047627
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 81, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((15925248, 5308416, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",182699,1,35.99,35.99,,,,,,,,,,45.5029296875,,45.5029296875,35.99,35.99,35.99,,,,,,,45.5029296875,45.5029296875,45.5029296875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(40.223), 'mean_duration_us': np.float64(40.223), 'median_duration_us': np.float64(40.223), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(40.223), 'max_duration_us': np.float64(40.223)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(40.22)}]",,False,0.00039289592460694194,99.98095389047627
 aten::sub,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 126, 32, 32), ())","('float', 'c10::BFloat16', 'Scalar')","((2064384, 129024, 1024, 32, 1), (2064384, 129024, 1024, 32, 1), ())","('', '', '1')",35828,5,67.701,13.540199999999999,6.87109381394258,,,,,,,,,8.86376953125,0.1631752728863939,44.31884765625,10.9,9.67,25.79,,,,,,,8.864013671875,8.60791015625,9.055908203125,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>, 4, TrivialOffsetCalculator<2, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<2>, at::native::memory::StoreWithCast<1> >(int, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>, TrivialOffsetCalculator<2, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<2>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(44.319), 'mean_duration_us': np.float64(8.863800000000001), 'median_duration_us': np.float64(8.864), 'std_dev_duration_us': np.float64(0.14594300257292195), 'min_duration_us': np.float64(8.608), 'max_duration_us': np.float64(9.056)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::CUDAFun...', 'stream': 7, 'mean_duration_us': np.float64(8.86)}]",,False,0.00038267194545497463,99.98133656242173
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 2, 32, 32), (1, 384, 2, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1331712, 3468, 1156, 34, 1), (786432, 2048, 1024, 32, 1), ())","('', '', 'False')",135280,10,64.57,6.456999999999999,0.21959811778185453,0.000786432,3.0,0.25,vector_bf16,0.718091128417749,0.005723388419333498,0.17952278210443726,0.0014308471048333745,4.3809326171875,0.03510932144970561,43.809326171875,6.395,6.26,7.02,0.7200974744988207,0.7072233321258028,0.7228150952541231,0.18002436862470517,0.1768058330314507,0.18070377381353078,4.3685302734375,4.35205078125,4.447998046875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(43.809), 'mean_duration_us': np.float64(4.3809), 'median_duration_us': np.float64(4.3685), 'std_dev_duration_us': np.float64(0.03332401536429854), 'min_duration_us': np.float64(4.352), 'max_duration_us': np.float64(4.448)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.38)}]","{'op_shape': (1, 384, 2, 32, 32), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (1331712, 3468, 1156, 34, 1), 'stride_output': (786432, 2048, 1024, 32, 1)}",True,0.00037827247236422084,99.98171483489409
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 65536, 65536, 256, 1), (6291456, 65536, 65536, 256, 1), ())","('', '', 'False')",134797,7,86.923,12.41757142857143,0.6124216567972476,0.006291456,24.0,0.25,vector_bf16,4.0482250296414435,0.03316959767646459,1.0120562574103609,0.008292399419116147,6.216866629464286,0.05104110242941407,43.51806640625,12.32,11.591,13.45,4.053768094384144,3.992687574234032,4.095971354367003,1.013442023596036,0.998171893558508,1.0239928385917507,6.2080078125,6.14404296875,6.302978515625,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(43.518), 'mean_duration_us': np.float64(6.216857142857143), 'median_duration_us': np.float64(6.208), 'std_dev_duration_us': np.float64(0.04727557077219408), 'min_duration_us': np.float64(6.144), 'max_duration_us': np.float64(6.303)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(6.22)}]","{'op_shape': (1, 96, 1, 256, 256), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (6291456, 65536, 65536, 256, 1), 'stride_output': (6291456, 65536, 65536, 256, 1)}",True,0.0003757575842965307,99.98209059247839
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 77, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((15138816, 5046272, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",180437,1,34.36,34.36,,,,,,,,,,43.071044921875,,43.071044921875,34.36,34.36,34.36,,,,,,,43.071044921875,43.071044921875,43.071044921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(37.791), 'mean_duration_us': np.float64(37.791), 'median_duration_us': np.float64(37.791), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(37.791), 'max_duration_us': np.float64(37.791)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(37.79)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}]",,False,0.00037189776866204574,99.98246249024704
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 64, 64), (192, 384, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((1572864, 4096, 64, 1), (3456, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",134092,1,92.791,92.791,,5.435817984,5.765625,899.1219512195122,matrix_bf16,0.14109506068703814,,126.8616662723652,,42.848388671875,,42.848388671875,92.791,92.791,92.791,0.14109506068703814,0.14109506068703814,0.14109506068703814,126.8616662723652,126.8616662723652,126.8616662723652,42.848388671875,42.848388671875,42.848388671875,"[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.872), 'mean_duration_us': np.float64(3.872), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.872), 'max_duration_us': np.float64(3.872)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(26.08), 'mean_duration_us': np.float64(26.08), 'median_duration_us': np.float64(26.08), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(26.08), 'max_duration_us': np.float64(26.08)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.656), 'mean_duration_us': np.float64(2.656), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(2.656)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.224), 'mean_duration_us': np.float64(4.224), 'median_duration_us': np.float64(4.224), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.224), 'max_duration_us': np.float64(4.224)}]","[{'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.87)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(26.08)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.66)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.22)}]","{'convNd': 'conv2d', 'input_shape': (1, 384, 64, 64), 'filter_shape': (192, 384, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (1572864, 4096, 64, 1), 'weight_stride': (3456, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.00036997523897408817,99.98283246548601
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 77, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((15138816, 5046272, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",180437,1,34.36,34.36,,,,,,,,,,43.071044921875,,43.071044921875,34.36,34.36,34.36,,,,,,,43.071044921875,43.071044921875,43.071044921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.28), 'mean_duration_us': np.float64(5.28), 'median_duration_us': np.float64(5.28), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.28), 'max_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(37.791), 'mean_duration_us': np.float64(37.791), 'median_duration_us': np.float64(37.791), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(37.791), 'max_duration_us': np.float64(37.791)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.28)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(37.79)}]",,False,0.00037189776866204574,99.98246249024704
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 384, 64, 64), (192, 384, 3, 3), (192,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((1572864, 4096, 64, 1), (3456, 9, 3, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1]', '[1, 1]', '[1, 1]', 'False', '[0, 0]', '1')",134092,1,92.791,92.791,,5.435817984,5.765625,899.1219512195122,matrix_bf16,0.14109506068703814,,126.8616662723652,,42.848388671875,,42.848388671875,92.791,92.791,92.791,0.14109506068703814,0.14109506068703814,0.14109506068703814,126.8616662723652,126.8616662723652,126.8616662723652,42.848388671875,42.848388671875,42.848388671875,"[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.656), 'mean_duration_us': np.float64(2.656), 'median_duration_us': np.float64(2.656), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.656), 'max_duration_us': np.float64(2.656)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.872), 'mean_duration_us': np.float64(3.872), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.872), 'max_duration_us': np.float64(3.872)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.224), 'mean_duration_us': np.float64(4.224), 'median_duration_us': np.float64(4.224), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.224), 'max_duration_us': np.float64(4.224)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.016), 'mean_duration_us': np.float64(6.016), 'median_duration_us': np.float64(6.016), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.016)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc_tilesize64x128x64_warpgroupsize1x1x1_g1_execute_segment_k_off_kernel__5x_cudnn', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(26.08), 'mean_duration_us': np.float64(26.08), 'median_duration_us': np.float64(26.08), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(26.08), 'max_duration_us': np.float64(26.08)}]","[{'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(2.66)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(3.87)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.22)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(6.02)}, {'name': 'sm90_xmma_fprop_implicit_gemm_bf16bf16_bf16f32_f32_nhwckrsc_nhwc...', 'stream': 7, 'mean_duration_us': np.float64(26.08)}]","{'convNd': 'conv2d', 'input_shape': (1, 384, 64, 64), 'filter_shape': (192, 384, 3, 3), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (1572864, 4096, 64, 1), 'weight_stride': (3456, 9, 3, 1), 'bias': False, 'stride': (1, 1), 'padding': (1, 1), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.00036997523897408817,99.98283246548601
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 3, 130, 130), ())","('c10::BFloat16', 'Scalar')","((9734400, 50700, 16900, 130, 1), ())","('', '0.')",134470,6,50.18,8.363333333333333,0.4239182311090983,,,,,,,,,7.119710286458333,0.1355960342720044,42.71826171875,8.215,7.98,9.05,,,,,,,7.071533203125,7.0390625,7.39208984375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(42.718), 'mean_duration_us': np.float64(7.119666666666667), 'median_duration_us': np.float64(7.0715), 'std_dev_duration_us': np.float64(0.12376411255107676), 'min_duration_us': np.float64(7.039), 'max_duration_us': np.float64(7.392)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(7.12)}]",,False,0.00036885165528584106,99.9832013171413
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 73, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((14352384, 4784128, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",178175,1,95.131,95.131,,,,,,,,,,41.886962890625,,41.886962890625,95.131,95.131,95.131,,,,,,,41.886962890625,41.886962890625,41.886962890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(36.575), 'mean_duration_us': np.float64(36.575), 'median_duration_us': np.float64(36.575), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(36.575), 'max_duration_us': np.float64(36.575)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(36.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}]",,False,0.0003616737895100784,99.9835629909308
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 69, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((13565952, 4521984, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",175913,1,32.611,32.611,,,,,,,,,,39.2001953125,,39.2001953125,32.611,32.611,32.611,,,,,,,39.2001953125,39.2001953125,39.2001953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(34.048), 'mean_duration_us': np.float64(34.048), 'median_duration_us': np.float64(34.048), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(34.048), 'max_duration_us': np.float64(34.048)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(34.05)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",,False,0.00033847484300133607,99.98390146577381
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 65, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((12779520, 4259840, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",173651,1,32.74,32.74,,,,,,,,,,37.72802734375,,37.72802734375,32.74,32.74,32.74,,,,,,,37.72802734375,37.72802734375,37.72802734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.544), 'mean_duration_us': np.float64(32.544), 'median_duration_us': np.float64(32.544), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.544), 'max_duration_us': np.float64(32.544)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(32.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}]",,False,0.00032576338026187984,99.98422722915407
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 73, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((14352384, 4784128, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",178175,1,95.131,95.131,,,,,,,,,,41.886962890625,,41.886962890625,95.131,95.131,95.131,,,,,,,41.886962890625,41.886962890625,41.886962890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.312), 'mean_duration_us': np.float64(5.312), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.312), 'max_duration_us': np.float64(5.312)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(36.575), 'mean_duration_us': np.float64(36.575), 'median_duration_us': np.float64(36.575), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(36.575), 'max_duration_us': np.float64(36.575)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(36.58)}]",,False,0.0003616737895100784,99.9835629909308
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 69, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((13565952, 4521984, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",175913,1,32.611,32.611,,,,,,,,,,39.2001953125,,39.2001953125,32.611,32.611,32.611,,,,,,,39.2001953125,39.2001953125,39.2001953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(34.048), 'mean_duration_us': np.float64(34.048), 'median_duration_us': np.float64(34.048), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(34.048), 'max_duration_us': np.float64(34.048)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(34.05)}]",,False,0.00033847484300133607,99.98390146577381
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 65, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((12779520, 4259840, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",173651,1,32.74,32.74,,,,,,,,,,37.72802734375,,37.72802734375,32.74,32.74,32.74,,,,,,,37.72802734375,37.72802734375,37.72802734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.184), 'mean_duration_us': np.float64(5.184), 'median_duration_us': np.float64(5.184), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.184), 'max_duration_us': np.float64(5.184)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.544), 'mean_duration_us': np.float64(32.544), 'median_duration_us': np.float64(32.544), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.544), 'max_duration_us': np.float64(32.544)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(32.54)}]",,False,0.00032576338026187984,99.98422722915407
 aten::addmm,GEMM,python3,CPU,thread 10586 (python3),"((1536,), (1, 256), (256, 1536), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (256, 1), (1, 256), (), ())","('', '', '', '1', '1')",11821,10,817.02,81.702,12.331542617747921,0.000787968,0.75634765625,0.9935442220787605,matrix_bf16,0.21448386595136726,0.00806436425374349,0.2130992057450963,0.008012302509045338,3.702392578125,0.13998001440387378,37.02392578125,85.49600000000001,51.941,93.481,0.21458858291056837,0.2031447969482834,0.22537036547800748,0.21320324667486423,0.20183333925333002,0.2239154244484529,3.6959228515625,3.51904296875,3.904052734375,"[{'name': 'std::enable_if<!(false), void>::type internal::gemvx::kernel<int, int, __nv_bfloat16, __nv_bfloat16, __nv_bfloat16, float, false, true, true, false, 7, false, cublasGemvParamsEx<int, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16>, float> >(cublasGemvParamsEx<int, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16>, float>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(37.024), 'mean_duration_us': np.float64(3.7024), 'median_duration_us': np.float64(3.696), 'std_dev_duration_us': np.float64(0.13277665457451465), 'min_duration_us': np.float64(3.519), 'max_duration_us': np.float64(3.904)}]","[{'name': 'std::enable_if<!(false), void>::type internal::gemvx::kernel<int...', 'stream': 7, 'mean_duration_us': np.float64(3.7)}]","{'M': 1, 'N': 1536, 'K': 256, 'bias': True, 'stride_A': (256, 1), 'stride_B': (1, 256), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.0003196838017311017,99.9845469129558
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 61, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((11993088, 3997696, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",171389,1,34.2,34.2,,,,,,,,,,35.6162109375,,35.6162109375,34.2,34.2,34.2,,,,,,,35.6162109375,35.6162109375,35.6162109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(30.464), 'mean_duration_us': np.float64(30.464), 'median_duration_us': np.float64(30.464), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.464), 'max_duration_us': np.float64(30.464)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(30.46)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",,False,0.00030752886074342266,99.98485444181655
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 61, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((11993088, 3997696, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",171389,1,34.2,34.2,,,,,,,,,,35.6162109375,,35.6162109375,34.2,34.2,34.2,,,,,,,35.6162109375,35.6162109375,35.6162109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(30.464), 'mean_duration_us': np.float64(30.464), 'median_duration_us': np.float64(30.464), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.464), 'max_duration_us': np.float64(30.464)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(30.46)}]",,False,0.00030752886074342266,99.98485444181655
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 1536),)","('c10::BFloat16',)","((1536, 1),)","('',)",11823,20,288.493,14.42465,5.051917877348531,,,,,,,,,1.69124755859375,0.0985900969293492,33.824951171875,14.059999999999999,9.04,22.301,,,,,,,1.7120361328125,1.568115234375,1.823974609375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 20, 'total_duration_us': np.float64(33.824000000000005), 'mean_duration_us': np.float64(1.6912000000000003), 'median_duration_us': np.float64(1.712), 'std_dev_duration_us': np.float64(0.09614655480047114), 'min_duration_us': np.float64(1.568), 'max_duration_us': np.float64(1.824)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.69)}]",,False,0.0002920621937252816,99.98514650401027
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 57, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((11206656, 3735552, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",169127,1,38.75,38.75,,,,,,,,,,33.5361328125,,33.5361328125,38.75,38.75,38.75,,,,,,,33.5361328125,33.5361328125,33.5361328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(28.32), 'mean_duration_us': np.float64(28.32), 'median_duration_us': np.float64(28.32), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(28.32), 'max_duration_us': np.float64(28.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(28.32)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}]",,False,0.00028956838602697696,99.9854360723963
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 57, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((11206656, 3735552, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",169127,1,38.75,38.75,,,,,,,,,,33.5361328125,,33.5361328125,38.75,38.75,38.75,,,,,,,33.5361328125,33.5361328125,33.5361328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.216), 'mean_duration_us': np.float64(5.216), 'median_duration_us': np.float64(5.216), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.216)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(28.32), 'mean_duration_us': np.float64(28.32), 'median_duration_us': np.float64(28.32), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(28.32), 'max_duration_us': np.float64(28.32)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.22)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(28.32)}]",,False,0.00028956838602697696,99.9854360723963
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (1, 384, 1, 64, 64))","('c10::BFloat16', 'c10::BFloat16')","((1572864, 4096, 4096, 64, 1), (4096, 0, 4096, 64, 1))","('', '')",134168,5,50.431,10.0862,0.2680432800873765,0.001572864,9.0,0.16666666666666666,vector_bf16,1.4503280507831544,0.05700446066448792,0.24172134179719246,0.009500743444081321,6.515185546875,0.26259009086858637,32.575927734375,10.221,9.63,10.26,1.481988485373615,1.3653117287369312,1.497025896131056,0.24699808089560252,0.22755195478948856,0.2495043160218427,6.367919921875,6.303955078125,6.912109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(32.576), 'mean_duration_us': np.float64(6.5152), 'median_duration_us': np.float64(6.368), 'std_dev_duration_us': np.float64(0.23480238499640482), 'min_duration_us': np.float64(6.304), 'max_duration_us': np.float64(6.912)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.52)}]","{'shape_in1': (1, 384, 1, 64, 64), 'shape_in2': (1, 384, 1, 64, 64), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (1572864, 4096, 4096, 64, 1), 'stride_input2': (4096, 0, 4096, 64, 1), 'stride_output': None}",True,0.00028127747674766,99.98571734987304
 aten::_upsample_nearest_exact2d,other,python3,CPU,thread 10586 (python3),"((1, 192, 128, 128), (), (), ())","('float', 'ScalarList', 'Scalar', 'Scalar')","((3145728, 16384, 128, 1), (), (), ())","('', '[256, 256]', '2.', '2.')",134759,1,10.43,10.43,,,,,,,,,,32.384033203125,,32.384033203125,10.43,10.43,10.43,,,,,,,32.384033203125,32.384033203125,32.384033203125,"[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_frame<float, &at::native::nearest_neighbor_exact_compute_source_index>(float const*, float*, unsigned long, unsigned long, unsigned long, unsigned long, unsigned long, float, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.384), 'mean_duration_us': np.float64(32.384), 'median_duration_us': np.float64(32.384), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.384), 'max_duration_us': np.float64(32.384)}]","[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_f...', 'stream': 7, 'mean_duration_us': np.float64(32.38)}]",,False,0.0002796205597139597,99.98599697043275
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 32, 32), (1, 384, 1, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1331712, 3468, 1156, 34, 1), (393216, 1024, 1024, 32, 1), ())","('', '', 'False')",133530,10,87.283,8.7283,0.3028520174019721,0.000393216,1.5,0.25,vector_bf16,0.4862574239233452,0.005667982529079452,0.1215643559808363,0.001416995632269863,3.2350341796875,0.03830580324021132,32.350341796875,8.64,8.36,9.231,0.4866634645716876,0.47263230459980926,0.49167755048462186,0.1216658661429219,0.11815807614995232,0.12291938762115547,3.23193359375,3.198974609375,3.327880859375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(32.351), 'mean_duration_us': np.float64(3.2351), 'median_duration_us': np.float64(3.232), 'std_dev_duration_us': np.float64(0.0363605555513113), 'min_duration_us': np.float64(3.199), 'max_duration_us': np.float64(3.328)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.24)}]","{'op_shape': (1, 384, 1, 32, 32), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (1331712, 3468, 1156, 34, 1), 'stride_output': (393216, 1024, 1024, 32, 1)}",True,0.0002793296506164398,99.98627630008336
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 53, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((10420224, 3473408, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",166865,1,34.661,34.661,,,,,,,,,,31.83984375,,31.83984375,34.661,34.661,34.661,,,,,,,31.83984375,31.83984375,31.83984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(26.432), 'mean_duration_us': np.float64(26.432), 'median_duration_us': np.float64(26.432), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(26.432), 'max_duration_us': np.float64(26.432)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(26.43)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}]",,False,0.00027492174537793187,99.98655122182873
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 53, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((10420224, 3473408, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",166865,1,34.661,34.661,,,,,,,,,,31.83984375,,31.83984375,34.661,34.661,34.661,,,,,,,31.83984375,31.83984375,31.83984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.408), 'mean_duration_us': np.float64(5.408), 'median_duration_us': np.float64(5.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.408), 'max_duration_us': np.float64(5.408)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(26.432), 'mean_duration_us': np.float64(26.432), 'median_duration_us': np.float64(26.432), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(26.432), 'max_duration_us': np.float64(26.432)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.41)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(26.43)}]",,False,0.00027492174537793187,99.98655122182873
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (384, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((1572864, 4096, 4096, 64, 1), (1, 1, 1, 1))","('', '')",134170,5,46.321,9.264199999999999,0.9075837151469829,0.001572864,6.000732421875,0.2499694861467106,vector_bf16,1.0341316941302758,0.020309621961056987,0.2585013681897724,0.005076785765439371,6.086474609375,0.12262245733208914,30.432373046875,8.87,8.39,10.26,1.0403644897267186,0.9981390923666783,1.0458951994156318,0.26005937690227265,0.2495043160218427,0.26144188556123693,6.048095703125,6.01611328125,6.303955078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(30.432000000000002), 'mean_duration_us': np.float64(6.0864), 'median_duration_us': np.float64(6.048), 'std_dev_duration_us': np.float64(0.10973714047668646), 'min_duration_us': np.float64(6.016), 'max_duration_us': np.float64(6.304)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.09)}]","{'shape_in1': (1, 384, 1, 64, 64), 'shape_in2': (384, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (1572864, 4096, 4096, 64, 1), 'stride_input2': (1, 1, 1, 1), 'stride_output': None}",True,0.0002627689124271913,99.98681399074115
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 49, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((9633792, 3211264, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",164603,1,32.66,32.66,,,,,,,,,,29.631103515625,,29.631103515625,32.66,32.66,32.66,,,,,,,29.631103515625,29.631103515625,29.631103515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(24.479), 'mean_duration_us': np.float64(24.479), 'median_duration_us': np.float64(24.479), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(24.479), 'max_duration_us': np.float64(24.479)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(24.48)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}]",,False,0.00025585033519487035,99.98706984107635
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 49, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((9633792, 3211264, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",164603,1,32.66,32.66,,,,,,,,,,29.631103515625,,29.631103515625,32.66,32.66,32.66,,,,,,,29.631103515625,29.631103515625,29.631103515625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.152), 'mean_duration_us': np.float64(5.152), 'median_duration_us': np.float64(5.152), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.152), 'max_duration_us': np.float64(5.152)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(24.479), 'mean_duration_us': np.float64(24.479), 'median_duration_us': np.float64(24.479), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(24.479), 'max_duration_us': np.float64(24.479)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.15)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(24.48)}]",,False,0.00025585033519487035,99.98706984107635
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (1, 384, 1, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((5018112, 13068, 4356, 66, 1), (1572864, 4096, 4096, 64, 1), ())","('', '', 'False')",134206,5,44.281,8.8562,0.45939329555403813,0.001572864,6.0,0.25,vector_bf16,1.0651973017129701,0.013840901944048821,0.26629932542824253,0.0034602254860122052,5.907177734375,0.0771100685219849,29.535888671875,8.75,8.281,9.52,1.0685327269560891,1.0457675422449477,1.0802684458604066,0.2671331817390223,0.26144188556123693,0.27006711146510165,5.887939453125,5.823974609375,6.01611328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(29.535999999999994), 'mean_duration_us': np.float64(5.907199999999999), 'median_duration_us': np.float64(5.888), 'std_dev_duration_us': np.float64(0.06893010953132171), 'min_duration_us': np.float64(5.824), 'max_duration_us': np.float64(6.016)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.91)}]","{'op_shape': (1, 384, 1, 64, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (5018112, 13068, 4356, 66, 1), 'stride_output': (1572864, 4096, 4096, 64, 1)}",True,0.00025502820078883583,99.98732486927713
 aten::index_select,other,python3,CPU,thread 10586 (python3),"((256384, 4096), (), (512,))","('c10::BFloat16', 'Scalar', 'long int')","((4096, 1), (), (1,))","('', '0', '')",30,2,128.841,64.4205,51.88820271025004,,,,,,,,,14.20751953125,0.09115048351232839,28.4150390625,64.4205,27.73,101.111,,,,,,,14.20751953125,14.14306640625,14.27197265625,"[{'name': 'void at::native::(anonymous namespace)::indexSelectLargeIndex<c10::BFloat16, long, unsigned int, 2, 2, -2, true>(at::cuda::detail::TensorInfo<c10::BFloat16, unsigned int>, at::cuda::detail::TensorInfo<c10::BFloat16 const, unsigned int>, at::cuda::detail::TensorInfo<long const, unsigned int>, int, int, unsigned int, unsigned int, long)', 'stream': 7, 'count': 2, 'total_duration_us': np.float64(28.415), 'mean_duration_us': np.float64(14.2075), 'median_duration_us': np.float64(14.2075), 'std_dev_duration_us': np.float64(0.06449999999999978), 'min_duration_us': np.float64(14.143), 'max_duration_us': np.float64(14.272)}]","[{'name': 'void at::native::(anonymous namespace)::indexSelectLargeIndex<c1...', 'stream': 7, 'mean_duration_us': np.float64(14.21)}]",,False,0.000245350203203953,99.98757021948033
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), ())","('float', 'float')","((2064384, 129024, 1024, 32, 1), ())","('', '')",60119,6,515.787,85.9645,70.04528253851218,0.002064384,15.750003814697266,0.12499996972463219,vector_fp32,3.529956647287607,0.17626467478410904,0.441244474040215,0.022033079011535762,4.688028971354167,0.22785085727585347,28.128173828125,87.206,18.04,152.142,3.4521449879105943,3.3731799788570864,3.7670964691206774,0.431518018973865,0.4216473952328712,0.4708869445898534,4.7840576171875,4.384033203125,4.89599609375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(28.128), 'mean_duration_us': np.float64(4.688), 'median_duration_us': np.float64(4.784), 'std_dev_duration_us': np.float64(0.20799999999999977), 'min_duration_us': np.float64(4.384), 'max_duration_us': np.float64(4.896)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BU...', 'stream': 7, 'mean_duration_us': np.float64(4.69)}]","{'shape_in1': (1, 16, 126, 32, 32), 'shape_in2': (), 'dtype_in1_in2_out': ('float', 'float', None), 'stride_input1': (2064384, 129024, 1024, 32, 1), 'stride_input2': (), 'stride_output': None}",True,0.00024287325980115675,99.98781309274014
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128),)","('c10::BFloat16',)","((3145728, 16384, 16384, 128, 1),)","('',)",134503,5,43.31,8.662,0.3386295911464327,,,,,,,,,5.555126953125,0.04301810464525955,27.775634765625,8.49,8.39,9.18,,,,,,,5.535888671875,5.535888671875,5.632080078125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(27.776000000000003), 'mean_duration_us': np.float64(5.555200000000001), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.03840000000000004), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.632)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(5.56)}]",,False,0.00023982925446189063,99.98805292199461
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((1, 16, 126, 32, 32),), ())","('TensorList', 'Scalar')","(((2064384, 129024, 1024, 32, 1),), ())","('', '1')",60185,6,246.933,41.155499999999996,15.423944511699982,,,,,,,,,4.576009114583333,0.08827574946278834,27.4560546875,43.191,23.29,58.28,,,,,,,4.575927734375,4.447998046875,4.672119140625,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(27.456), 'mean_duration_us': np.float64(4.576), 'median_duration_us': np.float64(4.576), 'std_dev_duration_us': np.float64(0.0805315673095545), 'min_duration_us': np.float64(4.448), 'max_duration_us': np.float64(4.672)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(4.58)}]",,False,0.00023706983410932874,99.98828999182872
 aten::gelu,elementwise,python3,CPU,thread 10586 (python3),"((1, 512, 1536), ())","('c10::BFloat16', '')","((786432, 1536, 1), ())","('', '')",11848,10,210.031,21.0031,1.2410544307160747,,,,,,,,,2.7455810546875,0.07956041911586159,27.455810546875,21.060000000000002,19.33,23.66,,,,,,,2.719970703125,2.68798828125,2.944091796875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#1}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(27.455999999999996), 'mean_duration_us': np.float64(2.7455999999999996), 'median_duration_us': np.float64(2.72), 'std_dev_duration_us': np.float64(0.07545488718433012), 'min_duration_us': np.float64(2.688), 'max_duration_us': np.float64(2.944)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Ge...', 'stream': 7, 'mean_duration_us': np.float64(2.75)}]",,False,0.00023706772607239016,99.9885270595548
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 45, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((8847360, 2949120, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",162341,1,33.141,33.141,,,,,,,,,,27.328125,,27.328125,33.141,33.141,33.141,,,,,,,27.328125,27.328125,27.328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(22.528), 'mean_duration_us': np.float64(22.528), 'median_duration_us': np.float64(22.528), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(22.528), 'max_duration_us': np.float64(22.528)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.8), 'mean_duration_us': np.float64(4.8), 'median_duration_us': np.float64(4.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.8), 'max_duration_us': np.float64(4.8)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(22.53)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.8)}]",,False,0.00023596522275352855,99.98876302477755
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 45, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((8847360, 2949120, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",162341,1,33.141,33.141,,,,,,,,,,27.328125,,27.328125,33.141,33.141,33.141,,,,,,,27.328125,27.328125,27.328125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.8), 'mean_duration_us': np.float64(4.8), 'median_duration_us': np.float64(4.8), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.8), 'max_duration_us': np.float64(4.8)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(22.528), 'mean_duration_us': np.float64(22.528), 'median_duration_us': np.float64(22.528), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(22.528), 'max_duration_us': np.float64(22.528)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.8)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(22.53)}]",,False,0.00023596522275352855,99.98876302477755
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (), ())","('c10::BFloat16', 'double', 'Scalar')","((3145728, 16384, 16384, 128, 1), (), ())","('', '', '1')",134502,5,45.141000000000005,9.028200000000002,1.084832337276134,0.003145728,12.000007629394531,0.24999984105438167,vector_bf16,2.361139961475284,0.04624736552174902,0.5902846150759699,0.011561834029621153,5.330810546875,0.10459994170294876,26.654052734375,8.69,8.111,10.91,2.368767364647486,2.313476987162223,2.4123398230751234,0.592191464656678,0.5783688790735255,0.603084572337936,5.31201171875,5.216064453125,5.43896484375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(26.654000000000003), 'mean_duration_us': np.float64(5.330800000000001), 'median_duration_us': np.float64(5.312), 'std_dev_duration_us': np.float64(0.09359786322347315), 'min_duration_us': np.float64(5.216), 'max_duration_us': np.float64(5.439)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(5.33)}]","{'shape_in1': (1, 192, 1, 128, 128), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (3145728, 16384, 16384, 128, 1), 'stride_input2': (), 'stride_output': None}",True,0.0002301449327661921,99.98899316971033
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), ())","('c10::BFloat16', 'double')","((3145728, 16384, 16384, 128, 1), ())","('', '')",134500,5,50.49,10.098,1.509956953028794,0.003145728,12.000007629394531,0.24999984105438167,vector_bf16,2.3918294131189204,0.007954618808613364,0.597956973108925,0.0019886534378015836,5.26083984375,0.01751749390458421,26.30419921875,9.54,9.05,12.75,2.3976386453293634,2.3831155648032554,2.3976386453293634,0.5994092802381839,0.5957785124150368,0.5994092802381839,5.248046875,5.248046875,5.280029296875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(26.304000000000002), 'mean_duration_us': np.float64(5.260800000000001), 'median_duration_us': np.float64(5.248), 'std_dev_duration_us': np.float64(0.015676734353812352), 'min_duration_us': np.float64(5.248), 'max_duration_us': np.float64(5.28)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(5.26)}]","{'shape_in1': (1, 192, 1, 128, 128), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (3145728, 16384, 16384, 128, 1), 'stride_input2': (), 'stride_output': None}",True,0.00022712411583325002,99.98922029382616
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 41, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((8060928, 2686976, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",160079,1,32.19,32.19,,,,,,,,,,25.15185546875,,25.15185546875,32.19,32.19,32.19,,,,,,,25.15185546875,25.15185546875,25.15185546875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(20.576), 'mean_duration_us': np.float64(20.576), 'median_duration_us': np.float64(20.576), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(20.576), 'max_duration_us': np.float64(20.576)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.576), 'mean_duration_us': np.float64(4.576), 'median_duration_us': np.float64(4.576), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.576), 'max_duration_us': np.float64(4.576)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(20.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.58)}]",,False,0.00021717418148329418,99.98943746800765
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 41, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((8060928, 2686976, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",160079,1,32.19,32.19,,,,,,,,,,25.15185546875,,25.15185546875,32.19,32.19,32.19,,,,,,,25.15185546875,25.15185546875,25.15185546875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.576), 'mean_duration_us': np.float64(4.576), 'median_duration_us': np.float64(4.576), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.576), 'max_duration_us': np.float64(4.576)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(20.576), 'mean_duration_us': np.float64(20.576), 'median_duration_us': np.float64(20.576), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(20.576), 'max_duration_us': np.float64(20.576)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(20.58)}]",,False,0.00021717418148329418,99.98943746800765
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 256, 256), (1, 192, 256, 256), ())","('c10::BFloat16', 'float', 'Scalar')","((12582912, 65536, 256, 1), (12582912, 65536, 256, 1), ())","('', '', 'False')",134764,1,7.3,7.3,,0.012582912,72.0,0.16666666666666666,vector_bf16,3.017011505707428,,0.502835250951238,,25.02392578125,,25.02392578125,7.3,7.3,7.3,3.017011505707428,3.017011505707428,3.017011505707428,0.502835250951238,0.502835250951238,0.502835250951238,25.02392578125,25.02392578125,25.02392578125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(25.024), 'mean_duration_us': np.float64(25.024), 'median_duration_us': np.float64(25.024), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(25.024), 'max_duration_us': np.float64(25.024)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(25.02)}]","{'op_shape': (1, 192, 256, 256), 'dtype_in_out': ('c10::BFloat16', 'float'), 'stride_input': (12582912, 65536, 256, 1), 'stride_output': (12582912, 65536, 256, 1)}",True,0.000216069570127494,99.98965353757778
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 126, 32, 32), ())","('c10::BFloat16', 'float', 'Scalar')","((2064384, 129024, 1024, 32, 1), (2064384, 129024, 1024, 32, 1), ())","('', '', 'False')",11740,6,125.463,20.9105,2.2776102168720636,0.002064384,11.8125,0.16666666666666666,vector_bf16,3.080390959621676,0.020158363082225576,0.5133984932702793,0.0033597271803709346,4.021158854166667,0.02603673252409782,24.126953125,20.945,18.031,24.17,3.0720133929155313,3.0720133929155313,3.1215345587891465,0.5120022321525886,0.5120022321525886,0.520255759798191,4.031982421875,3.968017578125,4.031982421875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(24.127), 'mean_duration_us': np.float64(4.021166666666667), 'median_duration_us': np.float64(4.032), 'std_dev_duration_us': np.float64(0.02377965984244144), 'min_duration_us': np.float64(3.968), 'max_duration_us': np.float64(4.032)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(4.02)}]","{'op_shape': (1, 16, 126, 32, 32), 'dtype_in_out': ('c10::BFloat16', 'float'), 'stride_input': (2064384, 129024, 1024, 32, 1), 'stride_output': (2064384, 129024, 1024, 32, 1)}",True,0.00020832464241526142,99.9898618622202
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((1, 128), (1, 128)), ())","('TensorList', 'Scalar')","(((128, 1), (128, 1)), ())","('', '-1')",11803,10,169.395,16.939500000000002,3.16874532653611,,,,,,,,,2.371435546875,0.2807628557117679,23.71435546875,15.8705,14.2,24.771,,,,,,,2.384521484375,2.080078125,2.656005859375,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_aligned16_contig<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 2, 128, 1>(at::native::(anonymous namespace)::OpaqueType<4u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(23.714000000000002), 'mean_duration_us': np.float64(2.3714000000000004), 'median_duration_us': np.float64(2.3845), 'std_dev_duration_us': np.float64(0.26637987912002664), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.656)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_alig...', 'stream': 7, 'mean_duration_us': np.float64(2.37)}]",,False,0.000204762059989112,99.99006662428019
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3145728, 16384, 16384, 128, 1), (3145728, 16384, 16384, 128, 1), ())","('', '', 'False')",134466,6,83.07300000000001,13.845500000000001,2.9987951413859526,0.003145728,12.0,0.25,vector_bf16,3.185765076873403,0.0810528093257544,0.7964412692183508,0.0202632023314386,3.9518636067708335,0.10066216305791166,23.711181640625,12.6955,11.64,19.691,3.1972461752705543,3.0720395512904575,3.304244618027952,0.7993115438176386,0.7680098878226144,0.826061154506988,3.935546875,3.80810546875,4.095947265625,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(23.711), 'mean_duration_us': np.float64(3.951833333333333), 'median_duration_us': np.float64(3.9355), 'std_dev_duration_us': np.float64(0.09194276601354907), 'min_duration_us': np.float64(3.808), 'max_duration_us': np.float64(4.096)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(3.95)}]","{'op_shape': (1, 192, 1, 128, 128), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (3145728, 16384, 16384, 128, 1), 'stride_output': (3145728, 16384, 16384, 128, 1)}",True,0.00020473465550891086,99.9902713589357
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((1, 128), (1, 128)), ())","('TensorList', 'Scalar')","(((256, 1), (256, 1)), ())","('', '-1')",11812,10,90.59100000000001,9.0591,0.39737652170202503,,,,,,,,,2.332958984375,0.30140102106180305,23.32958984375,9.025500000000001,8.47,9.99,,,,,,,2.3360595703125,2.01611328125,2.656982421875,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_aligned16_contig<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 2, 128, 1>(at::native::(anonymous namespace)::OpaqueType<4u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(23.329), 'mean_duration_us': np.float64(2.3329), 'median_duration_us': np.float64(2.3360000000000003), 'std_dev_duration_us': np.float64(0.2859767298225504), 'min_duration_us': np.float64(2.016), 'max_duration_us': np.float64(2.657)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_alig...', 'stream': 7, 'mean_duration_us': np.float64(2.33)}]",,False,0.00020143979377395727,99.99047279872947
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 37, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((7274496, 2424832, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",157817,1,36.041,36.041,,,,,,,,,,22.94384765625,,22.94384765625,36.041,36.041,36.041,,,,,,,22.94384765625,22.94384765625,22.94384765625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(18.88), 'mean_duration_us': np.float64(18.88), 'median_duration_us': np.float64(18.88), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(18.88), 'max_duration_us': np.float64(18.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.064), 'mean_duration_us': np.float64(4.064), 'median_duration_us': np.float64(4.064), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.064), 'max_duration_us': np.float64(4.064)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(18.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.06)}]",,False,0.0001981090954110483,99.99067090782488
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 37, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((7274496, 2424832, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",157817,1,36.041,36.041,,,,,,,,,,22.94384765625,,22.94384765625,36.041,36.041,36.041,,,,,,,22.94384765625,22.94384765625,22.94384765625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.064), 'mean_duration_us': np.float64(4.064), 'median_duration_us': np.float64(4.064), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.064), 'max_duration_us': np.float64(4.064)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(18.88), 'mean_duration_us': np.float64(18.88), 'median_duration_us': np.float64(18.88), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(18.88), 'max_duration_us': np.float64(18.88)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.06)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(18.88)}]",,False,0.0001981090954110483,99.99067090782488
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 1), (1, 128))","('float', 'float')","((0, 1), (128, 1))","('', '')",11799,10,146.274,14.6274,3.003797529794577,1.28e-07,0.000980377197265625,0.1245136186770428,vector_fp32,0.0004564612116564057,3.189363335879045e-05,5.683563724904662e-05,3.971191702261848e-06,2.262109375,0.15916105550092546,22.62109375,16.0505,10.43,17.631,0.0004598833782540877,0.00041184350547730824,0.0004942122065727699,5.726174359583971e-05,5.128012519561815e-05,6.153615023474179e-05,2.239501953125,2.080078125,2.49609375,"[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(22.621), 'mean_duration_us': np.float64(2.2620999999999998), 'median_duration_us': np.float64(2.2394999999999996), 'std_dev_duration_us': np.float64(0.1510440002118588), 'min_duration_us': np.float64(2.08), 'max_duration_us': np.float64(2.496)}]","[{'name': 'void at::native::elementwise_kernel<128, 2, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.26)}]","{'shape_in1': (1, 1), 'shape_in2': (1, 128), 'dtype_in1_in2_out': ('float', 'float', None), 'stride_input1': (0, 1), 'stride_input2': (128, 1), 'stride_output': None}",True,0.00019532227057828528,99.99086623009546
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 65536, 65536, 256, 1), (6291456, 65536, 65536, 256, 1), ())","('', '', '1')",134978,2,22.85,11.425,0.8697413408594531,0.006291456,36.0,0.16666666666666666,vector_bf16,3.394534688095601,0.17933960225202522,0.5657557813492669,0.029889933708670883,11.135986328125,0.5883349390341196,22.27197265625,11.425,10.81,12.04,3.394534688095601,3.267722439207896,3.5213469369833064,0.5657557813492669,0.5446204065346494,0.5868911561638844,11.135986328125,10.719970703125,11.552001953125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 2, 'total_duration_us': np.float64(22.272), 'mean_duration_us': np.float64(11.136), 'median_duration_us': np.float64(11.136), 'std_dev_duration_us': np.float64(0.4159999999999995), 'min_duration_us': np.float64(10.72), 'max_duration_us': np.float64(11.552)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(11.14)}]","{'shape_in1': (1, 96, 1, 256, 256), 'shape_in2': (1, 96, 1, 256, 256), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (6291456, 65536, 65536, 256, 1), 'stride_input2': (6291456, 65536, 65536, 256, 1), 'stride_output': None}",True,0.00019230777775615883,99.99105853787322
 aten::sub,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 126, 32, 32), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2064384, 129024, 1024, 32, 1), (2064384, 129024, 1024, 32, 1), ())","('', '', '1')",35801,5,247.142,49.428399999999996,2.513417454383572,,,,,,,,,4.30107421875,0.09459597050833392,21.50537109375,49.66,45.49,52.461,,,,,,,4.256103515625,4.193115234375,4.416015625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(21.505000000000003), 'mean_duration_us': np.float64(4.301), 'median_duration_us': np.float64(4.256), 'std_dev_duration_us': np.float64(0.0846498670997187), 'min_duration_us': np.float64(4.193), 'max_duration_us': np.float64(4.416)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(4.3)}]",,False,0.00018568854176911196,99.99124422641498
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 33, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((6488064, 2162688, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",155555,1,33.03,33.03,,,,,,,,,,21.50390625,,21.50390625,33.03,33.03,33.03,,,,,,,21.50390625,21.50390625,21.50390625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(17.088), 'mean_duration_us': np.float64(17.088), 'median_duration_us': np.float64(17.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(17.088), 'max_duration_us': np.float64(17.088)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.416), 'mean_duration_us': np.float64(4.416), 'median_duration_us': np.float64(4.416), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.416), 'max_duration_us': np.float64(4.416)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(17.09)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.42)}]",,False,0.00018567589354748064,99.99142990230852
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 33, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((6488064, 2162688, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",155555,1,33.03,33.03,,,,,,,,,,21.50390625,,21.50390625,33.03,33.03,33.03,,,,,,,21.50390625,21.50390625,21.50390625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.416), 'mean_duration_us': np.float64(4.416), 'median_duration_us': np.float64(4.416), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.416), 'max_duration_us': np.float64(4.416)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(17.088), 'mean_duration_us': np.float64(17.088), 'median_duration_us': np.float64(17.088), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(17.088), 'max_duration_us': np.float64(17.088)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.42)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(17.09)}]",,False,0.00018567589354748064,99.99142990230852
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 3, 66, 66), ())","('c10::BFloat16', 'Scalar')","((5018112, 13068, 4356, 66, 1), ())","('', '0.')",134190,5,41.879999999999995,8.376,0.46495161038542504,,,,,,,,,4.275048828125,0.01785701342944505,21.375244140625,8.35,7.89,8.95,,,,,,,4.2880859375,4.2548828125,4.2880859375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul> >(int, at::native::FillFunctor<c10::BFloat16>, std::array<char*, 1ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(21.375), 'mean_duration_us': np.float64(4.275), 'median_duration_us': np.float64(4.288), 'std_dev_duration_us': np.float64(0.015924823389915604), 'min_duration_us': np.float64(4.255), 'max_duration_us': np.float64(4.288)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(4.28)}]",,False,0.00018456495808086482,99.9916144672666
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 1), (1, 1), ())","('float', 'long int', 'Scalar')","((0, 1), (0, 1), ())","('', '', 'False')",11794,10,166.792,16.6792,4.440167108967359,1e-09,1.1444091796875e-05,0.08333333333333333,vector_fp32,5.886647352744682e-06,3.400221659027908e-07,4.905539460620568e-07,2.833518049189925e-08,2.0447998046875,0.12113406422925874,20.447998046875,17.295,10.17,21.621,5.905573852160424e-06,5.357166212534059e-06,6.356136040346566e-06,4.92131154346702e-07,4.464305177111716e-07,5.296780033622139e-07,2.0321044921875,1.887939453125,2.239990234375,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(20.448), 'mean_duration_us': np.float64(2.0448), 'median_duration_us': np.float64(2.032), 'std_dev_duration_us': np.float64(0.11488846765450404), 'min_duration_us': np.float64(1.888), 'max_duration_us': np.float64(2.24)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(2.04)}]","{'op_shape': (1, 1), 'dtype_in_out': ('float', 'long int'), 'stride_input': (0, 1), 'stride_output': (0, 1)}",True,0.00017655863378825208,99.99179102590038
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((2,), (2,), ())","('float', 'float', 'Scalar')","((1,), (1,), ())","('', '', 'False')",60126,18,1046359.034,58131.05744444444,133707.8766840165,2e-09,1.52587890625e-05,0.125,vector_fp32,1.589618581133918e-05,4.891523565327042e-06,1.9870232264173975e-06,6.114404456658803e-07,1.1324734157986112,0.43740261932624386,20.384521484375,20.744999999999997,10.4,348945.704,1.8187723097936346e-05,8.333672431332656e-06,2.0831532104259378e-05,2.2734653872420433e-06,1.041709053916582e-06,2.603941513032422e-06,0.8800048828125,0.76806640625,1.919921875,"[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'count': 18, 'total_duration_us': np.float64(20.384), 'mean_duration_us': np.float64(1.1324444444444444), 'median_duration_us': np.float64(0.88), 'std_dev_duration_us': np.float64(0.42508655618228336), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(1.92)}]","[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'mean_duration_us': np.float64(1.13)}]","{'op_shape': (2,), 'dtype_in_out': ('float', 'float'), 'stride_input': (1,), 'stride_output': (1,)}",True,0.00017601054418422905,99.99196703644456
@@ -402,33 +402,33 @@ aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32),
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), ())","('c10::BFloat16', 'double')","((2064384, 129024, 1024, 32, 1), ())","('', '')",35802,5,78.882,15.7764,1.4673238565497384,0.002064384,7.875007629394531,0.24999975779723363,vector_bf16,2.081032440902635,0.01690116545295571,0.5202576061938445,0.004225287269729952,3.968212890625,0.032228596940991935,19.841064453125,15.201,14.371,17.9,2.0810250553128653,2.0638821225286796,2.0979345133358143,0.520255759798191,0.5159700307542103,0.5244831202084107,3.968017578125,3.93603515625,4.0009765625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(19.841), 'mean_duration_us': np.float64(3.9682000000000004), 'median_duration_us': np.float64(3.968), 'std_dev_duration_us': np.float64(0.02884718357136457), 'min_duration_us': np.float64(3.936), 'max_duration_us': np.float64(4.001)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(3.97)}]","{'shape_in1': (1, 16, 126, 32, 32), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (2064384, 129024, 1024, 32, 1), 'stride_input2': (), 'stride_output': None}",True,0.00017131805395901686,99.9926610970664
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((), (1, 16, 126, 32, 32))","('float', 'c10::BFloat16')","((), (2064384, 129024, 1024, 32, 1))","('', '')",35827,5,1475.309,295.0618,141.64495738182848,0.002064384,11.812503814697266,0.16666661284379491,vector_fp32,3.147315375423653,0.04044109161068063,0.5245523931730569,0.006740179758457748,3.93603515625,0.05056864910669648,19.68017578125,359.344,41.761,361.525,3.146899737501551,3.0965770000000004,3.1988850925598995,0.5244831202084107,0.5160959999999999,0.5331473432534678,3.93603515625,3.8720703125,4.0,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(19.68), 'mean_duration_us': np.float64(3.936), 'median_duration_us': np.float64(3.936), 'std_dev_duration_us': np.float64(0.04525483399593908), 'min_duration_us': np.float64(3.872), 'max_duration_us': np.float64(4.0)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(3.94)}]","{'shape_in1': (), 'shape_in2': (1, 16, 126, 32, 32), 'dtype_in1_in2_out': ('float', 'c10::BFloat16', None), 'stride_input1': (), 'stride_input2': (2064384, 129024, 1024, 32, 1), 'stride_output': None}",True,0.00016992885761651244,99.99283102592402
 aten::sin,elementwise,python3,CPU,thread 10586 (python3),"((1, 128),)","('float',)","((128, 1),)","('',)",11801,10,161.792,16.1792,1.9661811717133286,,,,,,,,,1.948779296875,0.10637515805854415,19.48779296875,15.73,14.57,21.281,,,,,,,1.9678955078125,1.822998046875,2.112060546875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::sin_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::sin_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(19.488), 'mean_duration_us': np.float64(1.9487999999999999), 'median_duration_us': np.float64(1.968), 'std_dev_duration_us': np.float64(0.10088984091572352), 'min_duration_us': np.float64(1.823), 'max_duration_us': np.float64(2.112)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::si...', 'stream': 7, 'mean_duration_us': np.float64(1.95)}]",,False,0.00016826772450893507,99.99299929364852
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 29, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((5701632, 1900544, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",153293,1,34.8,34.8,,,,,,,,,,19.455810546875,,19.455810546875,34.8,34.8,34.8,,,,,,,19.455810546875,19.455810546875,19.455810546875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(15.264), 'mean_duration_us': np.float64(15.264), 'median_duration_us': np.float64(15.264), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(15.264), 'max_duration_us': np.float64(15.264)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.192), 'mean_duration_us': np.float64(4.192), 'median_duration_us': np.float64(4.192), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.192), 'max_duration_us': np.float64(4.192)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.26)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.19)}]",,False,0.00016799157166998502,99.9931672852202
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 29, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((5701632, 1900544, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",153293,1,34.8,34.8,,,,,,,,,,19.455810546875,,19.455810546875,34.8,34.8,34.8,,,,,,,19.455810546875,19.455810546875,19.455810546875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.192), 'mean_duration_us': np.float64(4.192), 'median_duration_us': np.float64(4.192), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.192), 'max_duration_us': np.float64(4.192)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(15.264), 'mean_duration_us': np.float64(15.264), 'median_duration_us': np.float64(15.264), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(15.264), 'max_duration_us': np.float64(15.264)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.19)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.26)}]",,False,0.00016799157166998502,99.9931672852202
 aten::silu,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64),)","('c10::BFloat16',)","((1572864, 4096, 4096, 64, 1),)","('',)",134172,5,44.672,8.9344,0.12093924094354157,,,,,,,,,3.6865234375,0.05252457316105804,18.4326171875,8.94,8.751,9.08,,,,,,,3.679931640625,3.64794921875,3.77587890625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::silu_kernel(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#6}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(18.433), 'mean_duration_us': np.float64(3.6866), 'median_duration_us': np.float64(3.68), 'std_dev_duration_us': np.float64(0.04700468061799791), 'min_duration_us': np.float64(3.648), 'max_duration_us': np.float64(3.776)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(3.69)}]",,False,0.00015915678886052213,99.99332644200905
 aten::cos,elementwise,python3,CPU,thread 10586 (python3),"((1, 128),)","('float',)","((128, 1),)","('',)",11802,10,166.451,16.6451,1.254942269588526,,,,,,,,,1.7633056640625,0.08185653649823099,17.633056640625,16.305,15.42,19.84,,,,,,,1.760009765625,1.6640625,1.919921875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::cos_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::cos_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(17.633), 'mean_duration_us': np.float64(1.7632999999999999), 'median_duration_us': np.float64(1.76), 'std_dev_duration_us': np.float64(0.0776994851977798), 'min_duration_us': np.float64(1.664), 'max_duration_us': np.float64(1.92)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::co...', 'stream': 7, 'mean_duration_us': np.float64(1.76)}]",,False,0.000152252967886771,99.99347869497694
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256))","('c10::BFloat16', 'c10::BFloat16')","((6291456, 65536, 6291456, 256, 1), (65536, 0, 65536, 256, 1))","('', '')",134780,1,10.93,10.93,,0.006291456,36.0,0.16666666666666666,vector_bf16,2.144921658241545,,0.3574869430402575,,17.59912109375,,17.59912109375,10.93,10.93,10.93,2.144921658241545,2.144921658241545,2.144921658241545,0.3574869430402575,0.3574869430402575,0.3574869430402575,17.59912109375,17.59912109375,17.59912109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(17.599), 'mean_duration_us': np.float64(17.599), 'median_duration_us': np.float64(17.599), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(17.599), 'max_duration_us': np.float64(17.599)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(17.6)}]","{'shape_in1': (1, 96, 1, 256, 256), 'shape_in2': (1, 96, 1, 256, 256), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (6291456, 65536, 6291456, 256, 1), 'stride_input2': (65536, 0, 65536, 256, 1), 'stride_output': None}",True,0.00015195995075231256,99.9936306549277
 aten::exp,elementwise,python3,CPU,thread 10586 (python3),"((128,),)","('float',)","((1,),)","('',)",11786,10,171.37199999999999,17.1372,1.6164626537941142,,,,,,,,,1.7088134765625,0.12443584981305608,17.088134765625,17.0305,14.631,20.47,,,,,,,1.72802734375,1.535888671875,1.9189453125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::exp_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::exp_kernel_cuda(at::TensorIteratorBase&)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(17.088), 'mean_duration_us': np.float64(1.7088), 'median_duration_us': np.float64(1.728), 'std_dev_duration_us': np.float64(0.11807692407917814), 'min_duration_us': np.float64(1.536), 'max_duration_us': np.float64(1.919)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::ex...', 'stream': 7, 'mean_duration_us': np.float64(1.71)}]",,False,0.00014754782943992748,99.99377820275714
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), ())","('c10::BFloat16', 'double')","((1572864, 4096, 4096, 64, 1), ())","('', '')",134169,5,53.519999999999996,10.703999999999999,1.5834392946999898,0.001572864,6.000007629394531,0.24999968210896542,vector_bf16,1.8452026396294705,0.044152375456563586,0.46130007333399153,0.011038079828496606,3.41123046875,0.08346085725098594,17.05615234375,9.9,9.35,13.11,1.8547456847560098,1.7712445215478727,1.8905316223314501,0.46368583158197785,0.44281056732421475,0.47263230459980926,3.39208984375,3.327880859375,3.552001953125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(17.056), 'mean_duration_us': np.float64(3.4112), 'median_duration_us': np.float64(3.392), 'std_dev_duration_us': np.float64(0.07463618425401992), 'min_duration_us': np.float64(3.328), 'max_duration_us': np.float64(3.552)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(3.41)}]","{'shape_in1': (1, 384, 1, 64, 64), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (1572864, 4096, 4096, 64, 1), 'stride_input2': (), 'stride_output': None}",True,0.00014727167660097745,99.99392547443374
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 25, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((4915200, 1638400, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",151031,1,42.18,42.18,,,,,,,,,,17.02392578125,,17.02392578125,42.18,42.18,42.18,,,,,,,17.02392578125,17.02392578125,17.02392578125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(13.408), 'mean_duration_us': np.float64(13.408), 'median_duration_us': np.float64(13.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(13.408), 'max_duration_us': np.float64(13.408)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.616), 'mean_duration_us': np.float64(3.616), 'median_duration_us': np.float64(3.616), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.616), 'max_duration_us': np.float64(3.616)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(13.41)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.62)}]",,False,0.00014699341572508884,99.99407246784946
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 25, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((4915200, 1638400, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",151031,1,42.18,42.18,,,,,,,,,,17.02392578125,,17.02392578125,42.18,42.18,42.18,,,,,,,17.02392578125,17.02392578125,17.02392578125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.616), 'mean_duration_us': np.float64(3.616), 'median_duration_us': np.float64(3.616), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.616), 'max_duration_us': np.float64(3.616)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(13.408), 'mean_duration_us': np.float64(13.408), 'median_duration_us': np.float64(13.408), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(13.408), 'max_duration_us': np.float64(13.408)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.62)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(13.41)}]",,False,0.00014699341572508884,99.99407246784946
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (), ())","('c10::BFloat16', 'double', 'Scalar')","((1572864, 4096, 4096, 64, 1), (), ())","('', '', '1')",134171,5,52.45,10.49,2.463706557201973,0.001572864,6.000007629394531,0.24999968210896542,vector_bf16,1.8730697574759954,0.033445512940037586,0.46826684393691587,0.008361367602980703,3.359765625,0.06022598386272043,16.798828125,9.29,8.56,14.34,1.8905316223314501,1.8374215004634582,1.9094425417901602,0.47263230459980926,0.4593547910160428,0.47736002845287495,3.327880859375,3.294921875,3.424072265625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(16.799), 'mean_duration_us': np.float64(3.3598), 'median_duration_us': np.float64(3.328), 'std_dev_duration_us': np.float64(0.053786243594435956), 'min_duration_us': np.float64(3.295), 'max_duration_us': np.float64(3.424)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(3.36)}]","{'shape_in1': (1, 384, 1, 64, 64), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (1572864, 4096, 4096, 64, 1), 'stride_input2': (), 'stride_output': None}",True,0.00014504980566774577,99.99421751765513
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (96, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((6291456, 65536, 6291456, 256, 1), (1, 1, 1, 1))","('', '')",134782,1,8.78,8.78,,0.006291456,24.00018310546875,0.249998092665919,vector_bf16,1.5855534599150927,,0.3963853407986218,,15.8720703125,,15.8720703125,8.78,8.78,8.78,1.5855534599150927,1.5855534599150927,1.5855534599150927,0.3963853407986218,0.3963853407986218,0.3963853407986218,15.8720703125,15.8720703125,15.8720703125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(15.872), 'mean_duration_us': np.float64(15.872), 'median_duration_us': np.float64(15.872), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(15.872), 'max_duration_us': np.float64(15.872)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.87)}]","{'shape_in1': (1, 96, 1, 256, 256), 'shape_in2': (96, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (6291456, 65536, 6291456, 256, 1), 'stride_input2': (1, 1, 1, 1), 'stride_output': None}",True,0.00013704769744901012,99.99435456535258
 aten::arange,other,python3,CPU,thread 10586 (python3),"((), (), (), (0,))","('Scalar', 'Scalar', 'Scalar', 'float')","((), (), (), (1,))","('0', '128', '1', '')",11782,10,250.19299999999998,25.019299999999998,5.410096097934757,,,,,,,,,1.57451171875,0.11376527006057859,15.7451171875,28.1405,16.491,31.0,,,,,,,1.60009765625,1.407958984375,1.72802734375,"[{'name': 'void (anonymous namespace)::elementwise_kernel_with_index<int, at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(long)#1}>(int, at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(long)#1}, function_traits<at::native::arange_cuda_out(c10::Scalar const&, c10::Scalar const&, c10::Scalar const&, at::Tensor&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(long)#1}>::result_type*)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(15.745), 'mean_duration_us': np.float64(1.5745), 'median_duration_us': np.float64(1.6), 'std_dev_duration_us': np.float64(0.10787979421559905), 'min_duration_us': np.float64(1.408), 'max_duration_us': np.float64(1.728)}]","[{'name': 'void (anonymous namespace)::elementwise_kernel_with_index<int, a...', 'stream': 7, 'mean_duration_us': np.float64(1.57)}]",,False,0.00013595151824096415,99.99449051687083
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (16, 16, 1, 1, 1), (16,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((2064384, 129024, 1024, 32, 1), (16, 1, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",133431,1,176.492,176.492,,0.066060288,7.87548828125,7.999503999007997,matrix_bf16,0.526655320399838,,4.2129813416373425,,15.68017578125,,15.68017578125,176.492,176.492,176.492,0.526655320399838,0.526655320399838,0.526655320399838,4.2129813416373425,4.2129813416373425,4.2129813416373425,15.68017578125,15.68017578125,15.68017578125,"[{'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8>(cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.768), 'mean_duration_us': np.float64(8.768), 'median_duration_us': np.float64(8.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.768), 'max_duration_us': np.float64(8.768)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.912), 'mean_duration_us': np.float64(6.912), 'median_duration_us': np.float64(6.912), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.912), 'max_duration_us': np.float64(6.912)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_...', 'stream': 7, 'mean_duration_us': np.float64(8.77)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.91)}]","{'convNd': 'conv3d', 'input_shape': (1, 16, 126, 32, 32), 'filter_shape': (16, 16, 1, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (2064384, 129024, 1024, 32, 1), 'weight_stride': (16, 1, 1, 1, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.00013539078041530984,99.99462590765124
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (16, 16, 1, 1, 1), (16,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((2064384, 129024, 1024, 32, 1), (16, 1, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",133431,1,176.492,176.492,,0.066060288,7.87548828125,7.999503999007997,matrix_bf16,0.526655320399838,,4.2129813416373425,,15.68017578125,,15.68017578125,176.492,176.492,176.492,0.526655320399838,0.526655320399838,0.526655320399838,4.2129813416373425,4.2129813416373425,4.2129813416373425,15.68017578125,15.68017578125,15.68017578125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.912), 'mean_duration_us': np.float64(6.912), 'median_duration_us': np.float64(6.912), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.912), 'max_duration_us': np.float64(6.912)}, {'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8>(cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.768), 'mean_duration_us': np.float64(8.768), 'median_duration_us': np.float64(8.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.768), 'max_duration_us': np.float64(8.768)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.91)}, {'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_...', 'stream': 7, 'mean_duration_us': np.float64(8.77)}]","{'convNd': 'conv3d', 'input_shape': (1, 16, 126, 32, 32), 'filter_shape': (16, 16, 1, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (2064384, 129024, 1024, 32, 1), 'weight_stride': (16, 1, 1, 1, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.00013539078041530984,99.99462590765124
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((128,), ())","('float', 'long int')","((1,), ())","('', '')",11785,10,145.78,14.578,4.760508376213616,1.28e-07,0.00098419189453125,0.12403100775193798,vector_fp32,0.0006704291170378434,4.683119238467796e-05,8.31539990124457e-05,5.808519985696491e-06,1.54609375,0.10792824740727533,15.4609375,16.985,8.44,20.36,0.0006664901468252211,0.0006084744494026198,0.000732975897346974,8.266544456746929e-05,7.546969915071254e-05,9.091173920582624e-05,1.552490234375,1.407958984375,1.696044921875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::BUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(15.461), 'mean_duration_us': np.float64(1.5461), 'median_duration_us': np.float64(1.5525), 'std_dev_duration_us': np.float64(0.10232932131114718), 'min_duration_us': np.float64(1.408), 'max_duration_us': np.float64(1.696)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::BU...', 'stream': 7, 'mean_duration_us': np.float64(1.55)}]","{'shape_in1': (128,), 'shape_in2': (), 'dtype_in1_in2_out': ('float', 'long int', None), 'stride_input1': (1,), 'stride_input2': (), 'stride_output': None}",True,0.000133497763244492,99.99475940541448
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((128,), ())","('float', 'double')","((1,), ())","('', '')",11784,10,228.385,22.8385,10.334065686413606,1.28e-07,0.00098419189453125,0.12403100775193798,vector_fp32,0.0006759672099464194,4.5099425014446695e-05,8.384089425692023e-05,5.593727133574783e-06,1.5328125,0.10183471975511765,15.328125,21.2705,11.23,44.421,0.0006728095068214233,0.0006201690140845071,0.0007334846434148881,8.344924115614552e-05,7.692018779342723e-05,9.097483949331945e-05,1.5364990234375,1.406982421875,1.6640625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(15.328), 'mean_duration_us': np.float64(1.5328), 'median_duration_us': np.float64(1.5365000000000002), 'std_dev_duration_us': np.float64(0.09654615476547991), 'min_duration_us': np.float64(1.407), 'max_duration_us': np.float64(1.664)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(1.53)}]","{'shape_in1': (128,), 'shape_in2': (), 'dtype_in1_in2_out': ('float', 'double', None), 'stride_input1': (1,), 'stride_input2': (), 'stride_output': None}",True,0.0001323509911499208,99.99489175640564
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 21, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((4128768, 1376256, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",148769,1,36.77,36.77,,,,,,,,,,15.2958984375,,15.2958984375,36.77,36.77,36.77,,,,,,,15.2958984375,15.2958984375,15.2958984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(11.712), 'mean_duration_us': np.float64(11.712), 'median_duration_us': np.float64(11.712), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(11.712), 'max_duration_us': np.float64(11.712)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(11.71)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}]",,False,0.00013207273027403222,99.9950238291359
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 21, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((4128768, 1376256, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",148769,1,36.77,36.77,,,,,,,,,,15.2958984375,,15.2958984375,36.77,36.77,36.77,,,,,,,15.2958984375,15.2958984375,15.2958984375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(11.712), 'mean_duration_us': np.float64(11.712), 'median_duration_us': np.float64(11.712), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(11.712), 'max_duration_us': np.float64(11.712)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(11.71)}]",,False,0.00013207273027403222,99.9950238291359
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 128), ())","('float', 'long int')","((128, 1), ())","('', '')",11800,10,88.651,8.8651,1.1307716588438377,1.28e-07,0.00098419189453125,0.12403100775193798,vector_fp32,0.0006790666154846131,4.7056149424476744e-05,8.422531664925434e-05,5.836421634043623e-06,1.526318359375,0.10560973990795085,15.26318359375,8.45,7.87,11.43,0.0006808282319107463,0.0006323219147344801,0.000732975897346974,8.444381170986002e-05,7.842752430815259e-05,9.091173920582624e-05,1.52001953125,1.407958984375,1.632080078125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(15.263), 'mean_duration_us': np.float64(1.5263), 'median_duration_us': np.float64(1.52), 'std_dev_duration_us': np.float64(0.10012197560975312), 'min_duration_us': np.float64(1.408), 'max_duration_us': np.float64(1.632)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(1.53)}]","{'shape_in1': (1, 128), 'shape_in2': (), 'dtype_in1_in2_out': ('float', 'long int', None), 'stride_input1': (128, 1), 'stride_input2': (), 'stride_output': None}",True,0.00013179025332426652,99.99515561938922
 aten::_upsample_nearest_exact2d,other,python3,CPU,thread 10586 (python3),"((1, 384, 64, 64), (), (), ())","('float', 'ScalarList', 'Scalar', 'Scalar')","((1572864, 4096, 64, 1), (), (), ())","('', '[128, 128]', '2.', '2.')",134428,1,10.0,10.0,,,,,,,,,,15.008056640625,,15.008056640625,10.0,10.0,10.0,,,,,,,15.008056640625,15.008056640625,15.008056640625,"[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_frame<float, &at::native::nearest_neighbor_exact_compute_source_index>(float const*, float*, unsigned long, unsigned long, unsigned long, unsigned long, unsigned long, float, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(15.008), 'mean_duration_us': np.float64(15.008), 'median_duration_us': np.float64(15.008), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(15.008), 'max_duration_us': np.float64(15.008)}]","[{'name': 'void at::native::(anonymous namespace)::upsample_nearest2d_out_f...', 'stream': 7, 'mean_duration_us': np.float64(15.01)}]",,False,0.0001295873547234818,99.99528520674394
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((2,), (2,)), ())","('TensorList', 'Scalar')","(((1,), (1,)), ())","('', '0')",60171,6,164.87,27.478333333333335,10.455982816869328,,,,,,,,,2.4161783854166665,0.30686041533805636,14.4970703125,31.6,14.39,36.45,,,,,,,2.4000244140625,2.112060546875,2.81591796875,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_aligned16_contig<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 1, 128, 1>(at::native::(anonymous namespace)::OpaqueType<4u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(14.497), 'mean_duration_us': np.float64(2.416166666666667), 'median_duration_us': np.float64(2.4000000000000004), 'std_dev_duration_us': np.float64(0.2801621058522289), 'min_duration_us': np.float64(2.112), 'max_duration_us': np.float64(2.816)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_alig...', 'stream': 7, 'mean_duration_us': np.float64(2.42)}]",,False,0.00012517523341109673,99.99541038197735
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 256), (1, 256), ())","('c10::BFloat16', 'float', 'Scalar')","((256, 1), (256, 1), ())","('', '', 'False')",11816,10,116.84,11.684000000000001,2.1594454020522127,2.56e-07,0.00146484375,0.16666666666666666,vector_bf16,0.001078723968894729,7.45714161803527e-05,0.00017978732814912147,1.2428569363392122e-05,1.4300537109375,0.09885617052143533,14.300537109375,11.76,9.21,14.97,0.0010824330119880384,0.001000072484501669,0.0011715932960893855,0.0001804055019980064,0.00016667874741694484,0.0001952655493482309,1.4234619140625,1.31103515625,1.535888671875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::bfloat16_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(14.301), 'mean_duration_us': np.float64(1.4301), 'median_duration_us': np.float64(1.4235), 'std_dev_duration_us': np.float64(0.09383330965067785), 'min_duration_us': np.float64(1.311), 'max_duration_us': np.float64(1.536)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::bf...', 'stream': 7, 'mean_duration_us': np.float64(1.43)}]","{'op_shape': (1, 256), 'dtype_in_out': ('c10::BFloat16', 'float'), 'stride_input': (256, 1), 'stride_output': (256, 1)}",True,0.00012347826367556402,99.99553386024103
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 17, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((3342336, 1114112, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",146507,1,38.441,38.441,,,,,,,,,,13.72802734375,,13.72802734375,38.441,38.441,38.441,,,,,,,13.72802734375,13.72802734375,13.72802734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.176), 'mean_duration_us': np.float64(10.176), 'median_duration_us': np.float64(10.176), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.176), 'max_duration_us': np.float64(10.176)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.552), 'mean_duration_us': np.float64(3.552), 'median_duration_us': np.float64(3.552), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.552), 'max_duration_us': np.float64(3.552)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.18)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.55)}]",,False,0.00011853491705466437,99.99565239515807
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 17, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((3342336, 1114112, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",146507,1,38.441,38.441,,,,,,,,,,13.72802734375,,13.72802734375,38.441,38.441,38.441,,,,,,,13.72802734375,13.72802734375,13.72802734375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.552), 'mean_duration_us': np.float64(3.552), 'median_duration_us': np.float64(3.552), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.552), 'max_duration_us': np.float64(3.552)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.176), 'mean_duration_us': np.float64(10.176), 'median_duration_us': np.float64(10.176), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.176), 'max_duration_us': np.float64(10.176)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.55)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(10.18)}]",,False,0.00011853491705466437,99.99565239515807
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (1, 384, 1, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1572864, 4096, 4096, 64, 1), (1572864, 4096, 4096, 64, 1), ())","('', '', 'False')",134186,5,68.411,13.6822,1.9838143058260267,0.001572864,6.0,0.25,vector_bf16,2.463413855208409,0.1320493560754504,0.6158534638021023,0.0330123390188626,2.560009765625,0.1412996849515498,12.800048828125,12.481,11.87,15.9,2.4575437512874307,2.259914388845041,2.621546671007121,0.6143859378218577,0.5649785972112602,0.6553866677517802,2.56005859375,2.39990234375,2.783935546875,"[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(12.799999999999999), 'mean_duration_us': np.float64(2.5599999999999996), 'median_duration_us': np.float64(2.56), 'std_dev_duration_us': np.float64(0.12638987301204155), 'min_duration_us': np.float64(2.4), 'max_duration_us': np.float64(2.784)}]","[{'name': 'Memcpy DtoD (Device -> Device)', 'stream': 7, 'mean_duration_us': np.float64(2.56)}]","{'op_shape': (1, 384, 1, 64, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (1572864, 4096, 4096, 64, 1), 'stride_output': (1572864, 4096, 4096, 64, 1)}",True,0.00011052226865123597,99.99576291742673
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 256, 256), ())","('c10::BFloat16', 'Scalar')","((65536, 65536, 65536, 256, 1), ())","('', '9.9999999999999998e-13')",134776,7,76.871,10.981571428571428,3.035549475638244,6.5536e-05,0.25,0.25,vector_bf16,0.14376954289609226,0.0024785605235300096,0.035942385724023064,0.0006196401308825024,1.8238351004464286,0.031984551711389295,12.766845703125,9.29,9.05,16.55,0.14372129888903762,0.1388519105133842,0.14628635204359672,0.035930324722259405,0.03471297762834605,0.03657158801089918,1.823974609375,1.7919921875,1.887939453125,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 7, 'total_duration_us': np.float64(12.767000000000001), 'mean_duration_us': np.float64(1.823857142857143), 'median_duration_us': np.float64(1.824), 'std_dev_duration_us': np.float64(0.02962830968337335), 'min_duration_us': np.float64(1.792), 'max_duration_us': np.float64(1.888)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.82)}]","{'op_shape': (1, 1, 1, 256, 256), 'dtype_in_out': ('c10::BFloat16', None), 'stride_input': (65536, 65536, 65536, 256, 1), 'stride_output': None}",True,0.00011023557562759316,99.99587315300236
-aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 1, 64, 64), (384, 192, 1, 1, 1), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((786432, 4096, 786432, 64, 1), (192, 1, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",134107,1,66.641,66.641,,0.603979776,4.640625,124.12121212121212,matrix_bf16,0.3830370444508504,,47.54302224456616,,12.703857421875,,12.703857421875,66.641,66.641,66.641,0.3830370444508504,0.3830370444508504,0.3830370444508504,47.54302224456616,47.54302224456616,47.54302224456616,12.703857421875,12.703857421875,12.703857421875,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.72), 'mean_duration_us': np.float64(6.72), 'median_duration_us': np.float64(6.72), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.72), 'max_duration_us': np.float64(6.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.984), 'mean_duration_us': np.float64(5.984), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.984), 'max_duration_us': np.float64(5.984)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 1, 64, 64), 'filter_shape': (384, 192, 1, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (786432, 4096, 786432, 64, 1), 'weight_stride': (192, 1, 1, 1, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.00010969170209744726,99.99598284470446
+aten::convolution,CONV_fwd,python3,CPU,thread 10586 (python3),"((1, 192, 1, 64, 64), (384, 192, 1, 1, 1), (384,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((786432, 4096, 786432, 64, 1), (192, 1, 1, 1, 1), (1,), (), (), (), (), (), ())","('', '', '', '[1, 1, 1]', '[0, 0, 0]', '[1, 1, 1]', 'False', '[0, 0, 0]', '1')",134107,1,66.641,66.641,,0.603979776,4.640625,124.12121212121212,matrix_bf16,0.3830370444508504,,47.54302224456616,,12.703857421875,,12.703857421875,66.641,66.641,66.641,0.3830370444508504,0.3830370444508504,0.3830370444508504,47.54302224456616,47.54302224456616,47.54302224456616,12.703857421875,12.703857421875,12.703857421875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.984), 'mean_duration_us': np.float64(5.984), 'median_duration_us': np.float64(5.984), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.984), 'max_duration_us': np.float64(5.984)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_128x64_64x3_nn_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.72), 'mean_duration_us': np.float64(6.72), 'median_duration_us': np.float64(6.72), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.72), 'max_duration_us': np.float64(6.72)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.98)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.72)}]","{'convNd': 'conv3d', 'input_shape': (1, 192, 1, 64, 64), 'filter_shape': (384, 192, 1, 1, 1), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (786432, 4096, 786432, 64, 1), 'weight_stride': (192, 1, 1, 1, 1), 'bias': False, 'stride': (1, 1, 1), 'padding': (0, 0, 0), 'dilation': (1, 1, 1), 'transposed_conv': False, 'output_padding': (0, 0, 0), 'groups': 1}",True,0.00010969170209744726,99.99598284470446
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3145728, 16384, 16384, 128, 1), (3145728, 16384, 16384, 128, 1), ())","('', '', '1')",134647,2,18.081,9.0405,0.3825447686219225,0.003145728,18.0,0.16666666666666666,vector_bf16,2.9850468726476027,0.19186020243225124,0.4975078121079339,0.0319767004053752,6.3360595703125,0.4072424064499672,12.672119140625,9.0405,8.77,9.311,2.9850468726476027,2.8493812224679345,3.1207125228272714,0.4975078121079339,0.47489687041132245,0.5201187538045453,6.3360595703125,6.048095703125,6.6240234375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 2, 'total_duration_us': np.float64(12.672), 'mean_duration_us': np.float64(6.336), 'median_duration_us': np.float64(6.336), 'std_dev_duration_us': np.float64(0.2879999999999998), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(6.624)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(6.34)}]","{'shape_in1': (1, 192, 1, 128, 128), 'shape_in2': (1, 192, 1, 128, 128), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (3145728, 16384, 16384, 128, 1), 'stride_input2': (3145728, 16384, 16384, 128, 1), 'stride_output': None}",True,0.00010941765729543577,99.99609226236176
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 13, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((2555904, 851968, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",144245,1,32.6,32.6,,,,,,,,,,12.223876953125,,12.223876953125,32.6,32.6,32.6,,,,,,,12.223876953125,12.223876953125,12.223876953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.64), 'mean_duration_us': np.float64(8.64), 'median_duration_us': np.float64(8.64), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.64), 'max_duration_us': np.float64(8.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.64)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}]",,False,0.00010554730147625804,99.99619780966323
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 13, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((2555904, 851968, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",144245,1,32.6,32.6,,,,,,,,,,12.223876953125,,12.223876953125,32.6,32.6,32.6,,,,,,,12.223876953125,12.223876953125,12.223876953125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.64), 'mean_duration_us': np.float64(8.64), 'median_duration_us': np.float64(8.64), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.64), 'max_duration_us': np.float64(8.64)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.64)}]",,False,0.00010554730147625804,99.99619780966323
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 1, 64, 64), (1, 384, 1, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((1572864, 4096, 4096, 64, 1), (1572864, 4096, 4096, 64, 1), ())","('', '', '1')",134214,3,34.881,11.627,2.0478518012785987,0.001572864,9.0,0.16666666666666666,vector_bf16,2.4506863080620165,0.02381521744607353,0.40844771801033614,0.003969202907678897,3.85107421875,0.037215232445881305,11.55322265625,12.25,9.34,13.291,2.4372449977301387,2.436630462934947,2.478183463520964,0.40620749962168984,0.40610507715582456,0.413030577253494,3.8720703125,3.80810546875,3.873046875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(11.553), 'mean_duration_us': np.float64(3.8510000000000004), 'median_duration_us': np.float64(3.872), 'std_dev_duration_us': np.float64(0.030408332191468067), 'min_duration_us': np.float64(3.808), 'max_duration_us': np.float64(3.873)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(3.85)}]","{'shape_in1': (1, 384, 1, 64, 64), 'shape_in2': (1, 384, 1, 64, 64), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (1572864, 4096, 4096, 64, 1), 'stride_input2': (1572864, 4096, 4096, 64, 1), 'stride_output': None}",True,9.975652400606129e-05,99.99629756618724
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (1, 96, 1, 256, 256), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 65536, 65536, 256, 1), (6291456, 65536, 6291456, 256, 1), ())","('', '', '1')",134876,1,9.46,9.46,,0.006291456,36.0,0.16666666666666666,vector_bf16,3.553148787940068,,0.592191464656678,,10.6240234375,,10.6240234375,9.46,9.46,9.46,3.553148787940068,3.553148787940068,3.553148787940068,0.592191464656678,0.592191464656678,0.592191464656678,10.6240234375,10.6240234375,10.6240234375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.624), 'mean_duration_us': np.float64(10.624), 'median_duration_us': np.float64(10.624), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.624), 'max_duration_us': np.float64(10.624)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(10.62)}]","{'shape_in1': (1, 96, 1, 256, 256), 'shape_in2': (1, 96, 1, 256, 256), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (6291456, 65536, 65536, 256, 1), 'stride_input2': (6291456, 65536, 6291456, 256, 1), 'stride_output': None}",True,9.173333541794014e-05,99.99638929952266
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 9, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((1769472, 589824, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",141983,1,37.341,37.341,,,,,,,,,,10.496826171875,,10.496826171875,37.341,37.341,37.341,,,,,,,10.496826171875,10.496826171875,10.496826171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.88), 'mean_duration_us': np.float64(6.88), 'median_duration_us': np.float64(6.88), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.88), 'max_duration_us': np.float64(6.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.617), 'mean_duration_us': np.float64(3.617), 'median_duration_us': np.float64(3.617), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.617), 'max_duration_us': np.float64(3.617)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.88)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.62)}]",,False,9.063504817295562e-05,99.99647993457083
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 9, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((1769472, 589824, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",141983,1,37.341,37.341,,,,,,,,,,10.496826171875,,10.496826171875,37.341,37.341,37.341,,,,,,,10.496826171875,10.496826171875,10.496826171875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.617), 'mean_duration_us': np.float64(3.617), 'median_duration_us': np.float64(3.617), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.617), 'max_duration_us': np.float64(3.617)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(6.88), 'mean_duration_us': np.float64(6.88), 'median_duration_us': np.float64(6.88), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.88), 'max_duration_us': np.float64(6.88)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.62)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(6.88)}]",,False,9.063504817295562e-05,99.99647993457083
 aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 192, 1, 64, 64), (1, 192, 2, 64, 64)), ())","('TensorList', 'Scalar')","(((786432, 4096, 4096, 64, 1), (1572864, 4096, 786432, 64, 1)), ())","('', '2')",136227,1,39.181,39.181,,,,,,,,,,10.239990234375,,10.239990234375,39.181,39.181,39.181,,,,,,,10.239990234375,10.239990234375,10.239990234375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.704), 'mean_duration_us': np.float64(4.704), 'median_duration_us': np.float64(4.704), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.704), 'max_duration_us': np.float64(4.704)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.536), 'mean_duration_us': np.float64(5.536), 'median_duration_us': np.float64(5.536), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.536), 'max_duration_us': np.float64(5.536)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.7)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(5.54)}]",,False,8.841739331360105e-05,99.99656835196414
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 128, 128), ())","('c10::BFloat16', 'Scalar')","((16384, 16384, 16384, 128, 1), ())","('', '9.9999999999999998e-13')",134445,6,61.882,10.313666666666666,1.276327648633636,1.6384e-05,0.0625,0.25,vector_bf16,0.038778275353805784,0.000866481265908534,0.009694568838451446,0.0002166203164771335,1.6907145182291667,0.03738889659984171,10.144287109375,9.85,9.071,12.0,0.03864048596516482,0.03792532579824809,0.040154892445774124,0.009660121491291205,0.009481331449562022,0.010038723111443531,1.696044921875,1.632080078125,1.72802734375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(10.144), 'mean_duration_us': np.float64(1.6906666666666668), 'median_duration_us': np.float64(1.696), 'std_dev_duration_us': np.float64(0.03414999593297522), 'min_duration_us': np.float64(1.632), 'max_duration_us': np.float64(1.728)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.69)}]","{'op_shape': (1, 1, 1, 128, 128), 'dtype_in_out': ('c10::BFloat16', None), 'stride_input': (16384, 16384, 16384, 128, 1), 'stride_output': None}",True,8.759104283368947e-05,99.99665594300697
 aten::clamp_min,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 64, 64), ())","('c10::BFloat16', 'Scalar')","((4096, 4096, 4096, 64, 1), ())","('', '9.9999999999999998e-13')",134114,6,66.84100000000001,11.140166666666667,3.2537584677825526,4.096e-06,0.015625,0.25,vector_bf16,0.009804136788642578,0.0011503412710750114,0.0024510341971606445,0.00028758531776875286,1.690673828125,0.20072784307254962,10.14404296875,9.27,8.88,16.46,0.009878625497773847,0.008258536057100665,0.011378240759579519,0.0024696563744434617,0.002064634014275166,0.0028445601898948797,1.6640625,1.43994140625,1.98388671875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::launch_clamp_scalar(at::TensorIteratorBase&, c10::Scalar, c10::Scalar, at::native::detail::ClampLimits)::{lambda()#1}::operator()() const::{lambda()#9}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(10.144), 'mean_duration_us': np.float64(1.6906666666666668), 'median_duration_us': np.float64(1.6640000000000001), 'std_dev_duration_us': np.float64(0.1832836296260222), 'min_duration_us': np.float64(1.44), 'max_duration_us': np.float64(1.984)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 7, 'mean_duration_us': np.float64(1.69)}]","{'op_shape': (1, 1, 1, 64, 64), 'dtype_in_out': ('c10::BFloat16', None), 'stride_input': (4096, 4096, 4096, 64, 1), 'stride_output': None}",True,8.758893479675091e-05,99.99674353194177
@@ -441,20 +441,20 @@ aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 128, 128),
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (), ())","('c10::BFloat16', 'double', 'Scalar')","((6291456, 65536, 6291456, 256, 1), (), ())","('', '', '1')",134783,1,12.081,12.081,,0.006291456,24.00000762939453,0.24999992052716558,vector_bf16,2.8086988520980922,,0.7021744898092642,,8.9599609375,,8.9599609375,12.081,12.081,12.081,2.8086988520980922,2.8086988520980922,2.8086988520980922,0.7021744898092642,0.7021744898092642,0.7021744898092642,8.9599609375,8.9599609375,8.9599609375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul> >(int, at::native::CUDAFunctorOnSelf_add<c10::BFloat16>, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.96), 'mean_duration_us': np.float64(8.96), 'median_duration_us': np.float64(8.96), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.96), 'max_duration_us': np.float64(8.96)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(8.96)}]","{'shape_in1': (1, 96, 1, 256, 256), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (6291456, 65536, 6291456, 256, 1), 'stride_input2': (), 'stride_output': None}",True,7.73649556447836e-05,99.99731353880586
 aten::mul,elementwise,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), ())","('c10::BFloat16', 'double')","((6291456, 65536, 6291456, 256, 1), ())","('', '')",134781,1,9.22,9.22,,0.006291456,24.00000762939453,0.24999992052716558,vector_bf16,2.8288942277841813,,0.7072233321258028,,8.89599609375,,8.89599609375,9.22,9.22,9.22,2.8288942277841813,2.8288942277841813,2.8288942277841813,0.7072233321258028,0.7072233321258028,0.7072233321258028,8.89599609375,8.89599609375,8.89599609375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.896), 'mean_duration_us': np.float64(8.896), 'median_duration_us': np.float64(8.896), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.896), 'max_duration_us': np.float64(8.896)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(8.9)}]","{'shape_in1': (1, 96, 1, 256, 256), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (6291456, 65536, 6291456, 256, 1), 'stride_input2': (), 'stride_output': None}",True,7.68126499668835e-05,99.99739035145582
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 128, 128), (1, 192, 128, 128), ())","('float', 'c10::BFloat16', 'Scalar')","((3145728, 16384, 128, 1), (3145728, 16384, 128, 1), ())","('', '', 'False')",134757,1,10.74,10.74,,0.003145728,18.0,0.16666666666666666,vector_fp32,2.1605067022887963,,0.360084450381466,,8.736083984375,,8.736083984375,10.74,10.74,10.74,2.1605067022887963,2.1605067022887963,2.1605067022887963,0.360084450381466,0.360084450381466,0.360084450381466,8.736083984375,8.736083984375,8.736083984375,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.736), 'mean_duration_us': np.float64(8.736), 'median_duration_us': np.float64(8.736), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.736), 'max_duration_us': np.float64(8.736)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(8.74)}]","{'op_shape': (1, 192, 128, 128), 'dtype_in_out': ('float', 'c10::BFloat16'), 'stride_input': (3145728, 16384, 128, 1), 'stride_output': (3145728, 16384, 128, 1)}",True,7.543188577213328e-05,99.9974657833416
-aten::nonzero,other,python3,CPU,thread 10586 (python3),"((5,),)","('bool',)","((1,),)","('',)",35806,1,348946.654,348946.654,,,,,,,,,,8.54296875,,8.54296875,348946.654,348946.654,348946.654,,,,,,,8.54296875,8.54296875,8.54296875,"[{'name': 'void at_cuda_detail::cub::DeviceReduceSingleTileKernel<at_cuda_detail::cub::DeviceReducePolicy<int, unsigned long long, cuda::std::__4::plus<void> >::Policy600, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, int*, unsigned long long, cuda::std::__4::plus<void>, int, int>(at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, int*, unsigned long long, cuda::std::__4::plus<void>, int)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.143), 'mean_duration_us': np.float64(2.143), 'median_duration_us': np.float64(2.143), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.143), 'max_duration_us': np.float64(2.143)}, {'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.688), 'mean_duration_us': np.float64(2.688), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.688), 'max_duration_us': np.float64(2.688)}, {'name': 'void at_cuda_detail::cub::DeviceCompactInitKernel<at_cuda_detail::cub::ScanTileState<int, true>, int*>(at_cuda_detail::cub::ScanTileState<int, true>, int, int*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(1.44), 'mean_duration_us': np.float64(1.44), 'median_duration_us': np.float64(1.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(1.44), 'max_duration_us': np.float64(1.44)}, {'name': 'void at_cuda_detail::cub::DeviceSelectSweepKernel<at_cuda_detail::cub::detail::device_select_policy_hub<long, bool, int, false, false>::Policy900, at_cuda_detail::cub::CountingInputIterator<long, long>, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, long*, int*, at_cuda_detail::cub::ScanTileState<int, true>, at_cuda_detail::cub::NullType, at_cuda_detail::cub::NullType, int, false>(at_cuda_detail::cub::CountingInputIterator<long, long>, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, long*, int*, at_cuda_detail::cub::ScanTileState<int, true>, at_cuda_detail::cub::NullType, at_cuda_detail::cub::NullType, int, int)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.272), 'mean_duration_us': np.float64(2.272), 'median_duration_us': np.float64(2.272), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.272)}]","[{'name': 'void at_cuda_detail::cub::DeviceReduceSingleTileKernel<at_cuda_d...', 'stream': 7, 'mean_duration_us': np.float64(2.14)}, {'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'mean_duration_us': np.float64(2.69)}, {'name': 'void at_cuda_detail::cub::DeviceCompactInitKernel<at_cuda_detail...', 'stream': 7, 'mean_duration_us': np.float64(1.44)}, {'name': 'void at_cuda_detail::cub::DeviceSelectSweepKernel<at_cuda_detail...', 'stream': 7, 'mean_duration_us': np.float64(2.27)}]",,False,7.376442855374027e-05,99.99753954777015
+aten::nonzero,other,python3,CPU,thread 10586 (python3),"((5,),)","('bool',)","((1,),)","('',)",35806,1,348946.654,348946.654,,,,,,,,,,8.54296875,,8.54296875,348946.654,348946.654,348946.654,,,,,,,8.54296875,8.54296875,8.54296875,"[{'name': 'void at_cuda_detail::cub::DeviceCompactInitKernel<at_cuda_detail::cub::ScanTileState<int, true>, int*>(at_cuda_detail::cub::ScanTileState<int, true>, int, int*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(1.44), 'mean_duration_us': np.float64(1.44), 'median_duration_us': np.float64(1.44), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(1.44), 'max_duration_us': np.float64(1.44)}, {'name': 'void at_cuda_detail::cub::DeviceReduceSingleTileKernel<at_cuda_detail::cub::DeviceReducePolicy<int, unsigned long long, cuda::std::__4::plus<void> >::Policy600, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, int*, unsigned long long, cuda::std::__4::plus<void>, int, int>(at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, int*, unsigned long long, cuda::std::__4::plus<void>, int)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.143), 'mean_duration_us': np.float64(2.143), 'median_duration_us': np.float64(2.143), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.143), 'max_duration_us': np.float64(2.143)}, {'name': 'void at_cuda_detail::cub::DeviceSelectSweepKernel<at_cuda_detail::cub::detail::device_select_policy_hub<long, bool, int, false, false>::Policy900, at_cuda_detail::cub::CountingInputIterator<long, long>, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, long*, int*, at_cuda_detail::cub::ScanTileState<int, true>, at_cuda_detail::cub::NullType, at_cuda_detail::cub::NullType, int, false>(at_cuda_detail::cub::CountingInputIterator<long, long>, at_cuda_detail::cub::TransformInputIterator<bool, at::native::(anonymous namespace)::NonZeroOp<bool>, bool const*, long>, long*, int*, at_cuda_detail::cub::ScanTileState<int, true>, at_cuda_detail::cub::NullType, at_cuda_detail::cub::NullType, int, int)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.272), 'mean_duration_us': np.float64(2.272), 'median_duration_us': np.float64(2.272), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.272)}, {'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.688), 'mean_duration_us': np.float64(2.688), 'median_duration_us': np.float64(2.688), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.688), 'max_duration_us': np.float64(2.688)}]","[{'name': 'void at_cuda_detail::cub::DeviceCompactInitKernel<at_cuda_detail...', 'stream': 7, 'mean_duration_us': np.float64(1.44)}, {'name': 'void at_cuda_detail::cub::DeviceReduceSingleTileKernel<at_cuda_d...', 'stream': 7, 'mean_duration_us': np.float64(2.14)}, {'name': 'void at_cuda_detail::cub::DeviceSelectSweepKernel<at_cuda_detail...', 'stream': 7, 'mean_duration_us': np.float64(2.27)}, {'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'mean_duration_us': np.float64(2.69)}]",,False,7.376442855374027e-05,99.99753954777015
 aten::copy_,other,python3,CPU,thread 10586 (python3),"((1,), (1,), ())","('float', 'float', 'Scalar')","((1,), (1,), ())","('', '', 'False')",35856,10,349028.275,34902.8275,110318.9995025651,1e-09,7.62939453125e-06,0.125,vector_fp32,9.455687643505736e-06,5.017771526216192e-07,1.181960955438217e-06,6.27221440777024e-08,0.8481201171875,0.04334555435244896,8.481201171875,15.745,11.54,348876.204,9.259112743712912e-06,8.928610354223432e-06,1.0415766052129689e-05,1.157389092964114e-06,1.116076294277929e-06,1.301970756516211e-06,0.864013671875,0.76806640625,0.89599609375,"[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'count': 10, 'total_duration_us': np.float64(8.481), 'mean_duration_us': np.float64(0.8481), 'median_duration_us': np.float64(0.864), 'std_dev_duration_us': np.float64(0.041144744500361145), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(0.896)}]","[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'mean_duration_us': np.float64(0.85)}]","{'op_shape': (1,), 'dtype_in_out': ('float', 'float'), 'stride_input': (1,), 'stride_output': (1,)}",True,7.323109520828713e-05,99.99761277886536
 aten::fill_,elementwise,python3,CPU,thread 10586 (python3),"((2,), ())","('float', 'Scalar')","((1,), ())","('', '1')",60141,6,210.88299999999998,35.147166666666664,27.576361307588545,,,,,,,,,1.3868001302083333,0.11718889023697927,8.32080078125,34.6005,9.66,61.351,,,,,,,1.37646484375,1.280029296875,1.50390625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor<float>, std::array<char*, 1ul> >(int, at::native::FillFunctor<float>, std::array<char*, 1ul>)', 'stream': 7, 'count': 6, 'total_duration_us': np.float64(8.321), 'mean_duration_us': np.float64(1.3868333333333334), 'median_duration_us': np.float64(1.3765), 'std_dev_duration_us': np.float64(0.10703335409529541), 'min_duration_us': np.float64(1.28), 'max_duration_us': np.float64(1.504)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::Fi...', 'stream': 7, 'mean_duration_us': np.float64(1.39)}]",,False,7.18461149396598e-05,99.9976846249803
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 192, 1, 64, 64), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((786432, 4096, 786432, 64, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",134113,1,18.561,18.561,,,,,,,,,,8.22412109375,,8.22412109375,18.561,18.561,18.561,,,,,,,8.22412109375,8.22412109375,8.22412109375,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.224), 'mean_duration_us': np.float64(8.224), 'median_duration_us': np.float64(8.224), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.224), 'max_duration_us': np.float64(8.224)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(8.22)}]",,False,7.101133231199402e-05,99.9977556363126
 aten::linalg_vector_norm,reduce,python3,CPU,thread 10586 (python3),"((1, 96, 1, 256, 256), (), (), (), ())","('c10::BFloat16', 'Scalar', 'ScalarList', 'Scalar', '')","((6291456, 65536, 6291456, 256, 1), (), (), (), ())","('', '2.', '[1]', 'True', '')",134775,1,18.581,18.581,,,,,,,,,,8.22412109375,,8.22412109375,18.581,18.581,18.581,,,,,,,8.22412109375,8.22412109375,8.22412109375,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4> >(at::native::ReduceOp<c10::BFloat16, at::native::NormTwoOps<c10::BFloat16, float, c10::BFloat16>, unsigned int, c10::BFloat16, 4>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.224), 'mean_duration_us': np.float64(8.224), 'median_duration_us': np.float64(8.224), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.224), 'max_duration_us': np.float64(8.224)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<c10:...', 'stream': 7, 'mean_duration_us': np.float64(8.22)}]",,False,7.101133231199402e-05,99.99782664764491
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 3, 64, 64), (1, 192, 3, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3345408, 17424, 4356, 66, 1), (2359296, 12288, 4096, 64, 1), ())","('', '', 'False')",136253,1,7.24,7.24,,0.002359296,9.0,0.25,vector_bf16,1.1566685317932912,,0.2891671329483228,,8.158935546875,,8.158935546875,7.24,7.24,7.24,1.1566685317932912,1.1566685317932912,1.1566685317932912,0.2891671329483228,0.2891671329483228,0.2891671329483228,8.158935546875,8.158935546875,8.158935546875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.159), 'mean_duration_us': np.float64(8.159), 'median_duration_us': np.float64(8.159), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.159), 'max_duration_us': np.float64(8.159)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.16)}]","{'op_shape': (1, 192, 3, 64, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (3345408, 17424, 4356, 66, 1), 'stride_output': (2359296, 12288, 4096, 64, 1)}",True,7.044848644940117e-05,99.99789709613137
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 5, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((983040, 327680, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",139721,1,33.161,33.161,,,,,,,,,,8.12890625,,8.12890625,33.161,33.161,33.161,,,,,,,8.12890625,8.12890625,8.12890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.545), 'mean_duration_us': np.float64(4.545), 'median_duration_us': np.float64(4.545), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.545), 'max_duration_us': np.float64(4.545)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.54)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}]",,False,7.018919790595954e-05,99.99796728532927
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 5, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((983040, 327680, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",139721,1,33.161,33.161,,,,,,,,,,8.12890625,,8.12890625,33.161,33.161,33.161,,,,,,,8.12890625,8.12890625,8.12890625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.584), 'mean_duration_us': np.float64(3.584), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.584), 'max_duration_us': np.float64(3.584)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.545), 'mean_duration_us': np.float64(4.545), 'median_duration_us': np.float64(4.545), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.545), 'max_duration_us': np.float64(4.545)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.58)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.54)}]",,False,7.018919790595954e-05,99.99796728532927
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 384, 2, 64, 64), (1, 384, 2, 64, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6291456, 16384, 4096, 64, 1), (3145728, 8192, 4096, 64, 1), ())","('', '', 'False')",136577,1,8.2,8.2,,0.003145728,12.0,0.25,vector_bf16,1.572864,,0.393216,,8.0,,8.0,8.2,8.2,8.2,1.572864,1.572864,1.572864,0.393216,0.393216,0.393216,8.0,8.0,8.0,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(8.0), 'mean_duration_us': np.float64(8.0), 'median_duration_us': np.float64(8.0), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(8.0), 'max_duration_us': np.float64(8.0)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(8.0)}]","{'op_shape': (1, 384, 2, 64, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (6291456, 16384, 4096, 64, 1), 'stride_output': (3145728, 8192, 4096, 64, 1)}",True,6.907615440240516e-05,99.99803636148367
 aten::normal_,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (), (), ())","('float', 'Scalar', 'Scalar', '')","((2064384, 129024, 1024, 32, 1), (), (), ())","('', '0.', '1.', '')",11724,1,36.03,36.03,,,,,,,,,,7.87109375,,7.87109375,36.03,36.03,36.03,,,,,,,7.87109375,7.87109375,7.87109375,"[{'name': 'void at::native::(anonymous namespace)::distribution_elementwise_grid_stride_kernel<float, 4, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2}, at::native::(anonymous namespace)::distribution_nullary_kernel<float, float, float4, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2}, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2} const&, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(int, float)#1}>(long, at::PhiloxCudaState, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2}, at::native::(anonymous namespace)::distribution_nullary_kernel<float, float, float4, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2}, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_and_transform<float, float, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::CUDAGeneratorImpl*, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(curandStatePhilox4_32_10*)#2} const&, at::native::templates::cuda::normal_kernel<at::CUDAGeneratorImpl*>(at::TensorBase const&, double, double, at::CUDAGeneratorImpl*)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1})::{lambda(int, float)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(7.871), 'mean_duration_us': np.float64(7.871), 'median_duration_us': np.float64(7.871), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(7.871), 'max_duration_us': np.float64(7.871)}]","[{'name': 'void at::native::(anonymous namespace)::distribution_elementwise...', 'stream': 7, 'mean_duration_us': np.float64(7.87)}]",,False,6.796311089885077e-05,99.99810432459456
 aten::_local_scalar_dense,other,python3,CPU,thread 10586 (python3),"((),)","('bool',)","((),)","('',)",84452,3,82.82,27.606666666666666,3.3553588978428737,,,,,,,,,2.6027018229166665,0.10280910235108046,7.80810546875,25.75,25.59,31.48,,,,,,,2.56005859375,2.528076171875,2.719970703125,"[{'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'count': 3, 'total_duration_us': np.float64(7.808), 'mean_duration_us': np.float64(2.6026666666666665), 'median_duration_us': np.float64(2.56), 'std_dev_duration_us': np.float64(0.08398941732279273), 'min_duration_us': np.float64(2.528), 'max_duration_us': np.float64(2.72)}]","[{'name': 'Memcpy DtoH (Device -> Pinned)', 'stream': 7, 'mean_duration_us': np.float64(2.6)}]",,False,6.741923736870489e-05,99.99817174383193
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 1, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((196608, 65536, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",137459,1,39.05,39.05,,,,,,,,,,7.64794921875,,7.64794921875,39.05,39.05,39.05,,,,,,,7.64794921875,7.64794921875,7.64794921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.128), 'mean_duration_us': np.float64(4.128), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.128), 'max_duration_us': np.float64(4.128)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.52), 'mean_duration_us': np.float64(3.52), 'median_duration_us': np.float64(3.52), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.52), 'max_duration_us': np.float64(3.52)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.13)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.52)}]",,False,6.603636513701611e-05,99.99823778019707
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 3, 1, 256, 256), (1, 3, 4, 256, 256)), ())","('TensorList', 'Scalar')","(((196608, 65536, 65536, 256, 1), (786432, 262144, 65536, 256, 1)), ())","('', '2')",137459,1,39.05,39.05,,,,,,,,,,7.64794921875,,7.64794921875,39.05,39.05,39.05,,,,,,,7.64794921875,7.64794921875,7.64794921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.52), 'mean_duration_us': np.float64(3.52), 'median_duration_us': np.float64(3.52), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.52), 'max_duration_us': np.float64(3.52)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(4.128), 'mean_duration_us': np.float64(4.128), 'median_duration_us': np.float64(4.128), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.128), 'max_duration_us': np.float64(4.128)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.52)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.13)}]",,False,6.603636513701611e-05,99.99823778019707
 aten::div,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 1, 1, 1))","('c10::BFloat16', 'c10::BFloat16')","((2064384, 129024, 1024, 32, 1), (16, 1, 1, 1, 1))","('', '')",133423,1,20.56,20.56,,0.002064384,7.875030517578125,0.24999903119175038,vector_bf16,1.0842442227280011,,0.2710600052572527,,7.615966796875,,7.615966796875,20.56,20.56,20.56,1.0842442227280011,1.0842442227280011,1.0842442227280011,0.2710600052572527,0.2710600052572527,0.2710600052572527,7.615966796875,7.615966796875,7.615966796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > >(at::TensorIteratorBase&, at::native::BinaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::DivFunctor<c10::BFloat16> > const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(7.616), 'mean_duration_us': np.float64(7.616), 'median_duration_us': np.float64(7.616), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(7.616), 'max_duration_us': np.float64(7.616)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.62)}]","{'shape_in1': (1, 16, 126, 32, 32), 'shape_in2': (1, 16, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (2064384, 129024, 1024, 32, 1), 'stride_input2': (16, 1, 1, 1, 1), 'stride_output': None}",True,6.576021229806606e-05,99.99830354040937
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 16, 126, 32, 32), (1, 16, 1, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2064384, 129024, 1024, 32, 1), (16, 1, 1, 1, 1), ())","('', '', '1')",133424,1,14.201,14.201,,0.002064384,7.875030517578125,0.24999903119175038,vector_bf16,1.1520094866485013,,0.288001255585831,,7.16796875,,7.16796875,14.201,14.201,14.201,1.1520094866485013,1.1520094866485013,1.1520094866485013,0.288001255585831,0.288001255585831,0.288001255585831,7.16796875,7.16796875,7.16796875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(7.168), 'mean_duration_us': np.float64(7.168), 'median_duration_us': np.float64(7.168), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(7.168), 'max_duration_us': np.float64(7.168)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(7.17)}]","{'shape_in1': (1, 16, 126, 32, 32), 'shape_in2': (1, 16, 1, 1, 1), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (2064384, 129024, 1024, 32, 1), 'stride_input2': (16, 1, 1, 1, 1), 'stride_output': None}",True,6.189196451582689e-05,99.99836543237389
-aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 1, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((16384, 1024, 1024, 32, 1), (16384, 1024, 1024, 32, 1)), ())","('', '2')",135168,1,38.27,38.27,,,,,,,,,,6.4638671875,,6.4638671875,38.27,38.27,38.27,,,,,,,6.4638671875,6.4638671875,6.4638671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.744), 'mean_duration_us': np.float64(3.744), 'median_duration_us': np.float64(3.744), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.744), 'max_duration_us': np.float64(3.744)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.72), 'mean_duration_us': np.float64(2.72), 'median_duration_us': np.float64(2.72), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.72), 'max_duration_us': np.float64(2.72)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.74)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.72)}]",,False,5.5812385985048794e-05,99.99842124475987
+aten::cat,elementwise,python3,CPU,thread 10586 (python3),"(((1, 16, 1, 32, 32), (1, 16, 1, 32, 32)), ())","('TensorList', 'Scalar')","(((16384, 1024, 1024, 32, 1), (16384, 1024, 1024, 32, 1)), ())","('', '2')",135168,1,38.27,38.27,,,,,,,,,,6.4638671875,,6.4638671875,38.27,38.27,38.27,,,,,,,6.4638671875,6.4638671875,6.4638671875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.72), 'mean_duration_us': np.float64(2.72), 'median_duration_us': np.float64(2.72), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.72), 'max_duration_us': np.float64(2.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.744), 'mean_duration_us': np.float64(3.744), 'median_duration_us': np.float64(3.744), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.744), 'max_duration_us': np.float64(3.744)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.72)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.74)}]",,False,5.5812385985048794e-05,99.99842124475987
 aten::copy_,elementwise,python3,CPU,thread 10586 (python3),"((1, 1, 1, 512), (1, 1, 1, 512), ())","('c10::BFloat16', 'long int', 'Scalar')","((512, 512, 512, 1), (512, 512, 512, 1), ())","('', '', 'False')",49,2,36.519999999999996,18.259999999999998,6.307392488184001,5.12e-07,0.0048828125,0.1,vector_bf16,0.0017219877430634497,7.900132922938632e-05,0.000172198774306345,7.900132922938619e-06,2.9764404296875,0.13655309177699196,5.952880859375,18.259999999999998,13.8,22.72,0.0017219877430634497,0.0016661253674425994,0.0017778501186842997,0.000172198774306345,0.00016661253674425997,0.00017778501186842998,2.9764404296875,2.8798828125,3.072998046875,"[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>, 4, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1> >(int, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>, TrivialOffsetCalculator<1, unsigned int>, TrivialOffsetCalculator<1, unsigned int>, at::native::memory::LoadWithCast<1>, at::native::memory::StoreWithCast<1>)', 'stream': 7, 'count': 2, 'total_duration_us': np.float64(5.952999999999999), 'mean_duration_us': np.float64(2.9764999999999997), 'median_duration_us': np.float64(2.9764999999999997), 'std_dev_duration_us': np.float64(0.09650000000000003), 'min_duration_us': np.float64(2.88), 'max_duration_us': np.float64(3.073)}]","[{'name': 'void at::native::unrolled_elementwise_kernel<at::native::direct_...', 'stream': 7, 'mean_duration_us': np.float64(2.98)}]","{'op_shape': (1, 1, 1, 512), 'dtype_in_out': ('c10::BFloat16', 'long int'), 'stride_input': (512, 512, 512, 1), 'stride_output': (512, 512, 512, 1)}",True,5.140026467266372e-05,99.99847264502453
 aten::add,elementwise,python3,CPU,thread 10586 (python3),"((1, 192, 1, 128, 128), (1, 192, 1, 128, 128), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3145728, 16384, 16384, 128, 1), (3145728, 16384, 3145728, 128, 1), ())","('', '', '1')",134545,1,9.0,9.0,,0.003145728,18.0,0.16666666666666666,vector_bf16,3.1711477635670042,,0.5285246272611674,,5.951904296875,,5.951904296875,9.0,9.0,9.0,3.1711477635670042,3.1711477635670042,3.1711477635670042,0.5285246272611674,0.5285246272611674,0.5285246272611674,5.951904296875,5.951904296875,5.951904296875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.952), 'mean_duration_us': np.float64(5.952), 'median_duration_us': np.float64(5.952), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.952), 'max_duration_us': np.float64(5.952)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(5.95)}]","{'shape_in1': (1, 192, 1, 128, 128), 'shape_in2': (1, 192, 1, 128, 128), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (3145728, 16384, 16384, 128, 1), 'stride_input2': (3145728, 16384, 3145728, 128, 1), 'stride_output': None}",True,5.139183252490952e-05,99.99852403685706
 aten::cat,other,python3,CPU,thread 10586 (python3),"(((1, 4096), (511, 4096)), ())","('TensorList', 'Scalar')","(((4096, 1), (4096, 1)), ())","('', '0')",11668,1,18.391,18.391,,,,,,,,,,5.85595703125,,5.85595703125,18.391,18.391,18.391,,,,,,,5.85595703125,5.85595703125,5.85595703125,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_contig<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 2, 128, 1>(at::native::(anonymous namespace)::OpaqueType<2u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.856), 'mean_duration_us': np.float64(5.856), 'median_duration_us': np.float64(5.856), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.856), 'max_duration_us': np.float64(5.856)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_cont...', 'stream': 7, 'mean_duration_us': np.float64(5.86)}]",,False,5.056337400805939e-05,99.99857460023107
diff --git a/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/CONV_fwd.csv b/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/CONV_fwd.csv
index 58d74c80..92ad536f 100644
--- a/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/CONV_fwd.csv
+++ b/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/CONV_fwd.csv
@@ -1,2 +1,2 @@
 name,param: convNd,param: input_shape,param: filter_shape,param: dtype_input_weight,param: input_stride,param: weight_stride,param: bias,param: stride,param: padding,param: dilation,param: transposed_conv,param: output_padding,param: groups,GFLOPS_first,Data Moved (MB)_first,FLOPS/Byte_first,TB/s_mean,TB/s_median,TB/s_std,TB/s_min,TB/s_max,TFLOPS/s_mean,TFLOPS/s_median,TFLOPS/s_std,TFLOPS/s_min,TFLOPS/s_max,process_name_first,process_label_first,thread_name_first,Compute Spec,kernel_details__summarize_kernel_stats,trunc_kernel_details,Input Dims_first,Input type_first,Input Strides_first,Concrete Inputs_first,Kernel Time (µs)_mean,Kernel Time (µs)_median,Kernel Time (µs)_std,Kernel Time (µs)_min,Kernel Time (µs)_max,Kernel Time (µs)_sum,name_count,UID_first
-aten::convolution,conv2d,"(128, 3, 224, 224)","(768, 3, 16, 16)","('c10::BFloat16', 'c10::BFloat16')","(150528, 50176, 224, 1)","(768, 256, 16, 1)",False,"(16, 16)","(0, 0)","(1, 1)",False,"(0, 0)",1,29.595009024,74.625,378.2110552763819,0.060289033196294535,0.060289033196294535,,0.060289033196294535,0.060289033196294535,22.801978866763374,22.801978866763374,,22.801978866763374,22.801978866763374,python3,CPU,thread 17751 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.448), 'mean_duration_us': np.float64(32.448), 'median_duration_us': np.float64(32.448), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.448), 'max_duration_us': np.float64(32.448)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(281.343), 'mean_duration_us': np.float64(281.343), 'median_duration_us': np.float64(281.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(281.343), 'max_duration_us': np.float64(281.343)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.336), 'mean_duration_us': np.float64(2.336), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.336)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.336), 'mean_duration_us': np.float64(10.336), 'median_duration_us': np.float64(10.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.336), 'max_duration_us': np.float64(10.336)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(863.099), 'mean_duration_us': np.float64(863.099), 'median_duration_us': np.float64(863.099), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(863.099), 'max_duration_us': np.float64(863.099)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(43.488), 'mean_duration_us': np.float64(43.488), 'median_duration_us': np.float64(43.488), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(43.488), 'max_duration_us': np.float64(43.488)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(64.864), 'mean_duration_us': np.float64(64.864), 'median_duration_us': np.float64(64.864), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(64.864), 'max_duration_us': np.float64(64.864)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(32.45)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(281.34)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.34)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.34)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(863.1)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(43.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(64.86)}]","[[128, 3, 224, 224], [768, 3, 16, 16], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[150528, 50176, 224, 1], [768, 256, 16, 1], [1], [], [], [], [], [], []]","['', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",1297.9140625,1297.9140625,,1297.9140625,1297.9140625,1297.9140625,1,13
+aten::convolution,conv2d,"(128, 3, 224, 224)","(768, 3, 16, 16)","('c10::BFloat16', 'c10::BFloat16')","(150528, 50176, 224, 1)","(768, 256, 16, 1)",False,"(16, 16)","(0, 0)","(1, 1)",False,"(0, 0)",1,29.595009024,74.625,378.2110552763819,0.060289033196294535,0.060289033196294535,,0.060289033196294535,0.060289033196294535,22.801978866763374,22.801978866763374,,22.801978866763374,22.801978866763374,python3,CPU,thread 17751 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.336), 'mean_duration_us': np.float64(2.336), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.336)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.336), 'mean_duration_us': np.float64(10.336), 'median_duration_us': np.float64(10.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.336), 'max_duration_us': np.float64(10.336)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.448), 'mean_duration_us': np.float64(32.448), 'median_duration_us': np.float64(32.448), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.448), 'max_duration_us': np.float64(32.448)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(43.488), 'mean_duration_us': np.float64(43.488), 'median_duration_us': np.float64(43.488), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(43.488), 'max_duration_us': np.float64(43.488)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(64.864), 'mean_duration_us': np.float64(64.864), 'median_duration_us': np.float64(64.864), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(64.864), 'max_duration_us': np.float64(64.864)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(281.343), 'mean_duration_us': np.float64(281.343), 'median_duration_us': np.float64(281.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(281.343), 'max_duration_us': np.float64(281.343)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(863.099), 'mean_duration_us': np.float64(863.099), 'median_duration_us': np.float64(863.099), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(863.099), 'max_duration_us': np.float64(863.099)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.34)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.34)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(32.45)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(43.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(64.86)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(281.34)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(863.1)}]","[[128, 3, 224, 224], [768, 3, 16, 16], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[150528, 50176, 224, 1], [768, 256, 16, 1], [1], [], [], [], [], [], []]","['', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",1297.9140625,1297.9140625,,1297.9140625,1297.9140625,1297.9140625,1,13
diff --git a/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/ops_unique_args.csv b/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/ops_unique_args.csv
index 9ad90b91..03f3656f 100644
--- a/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/ops_unique_args.csv
+++ b/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/ops_unique_args.csv
@@ -13,7 +13,7 @@ aten::addmm,GEMM,python3,CPU,thread 17751 (python3),"((2304,), (25088, 768), (76
 aten::copy_,elementwise,python3,CPU,thread 17751 (python3),"((8, 12, 3137, 64), (8, 12, 3137, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2409216, 200768, 64, 1), (7227648, 64, 2304, 1), ())","('', '', 'False')",24,59.10631306966146,59.10631306966146,59.16748046875,59.16748046875,0.7768103961300407,0.7768103961300407,57.919921875,57.919921875,60.222900390625,60.222900390625,1418.551513671875,1418.551513671875,248,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 24, 'total_duration_us': np.float64(1418.552), 'mean_duration_us': np.float64(59.10633333333333), 'median_duration_us': np.float64(59.167500000000004), 'std_dev_duration_us': np.float64(0.7604596563190504), 'min_duration_us': np.float64(57.92), 'max_duration_us': np.float64(60.223)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(59.11)}]",0.8953626857015512,89.95861707435037
 aten::copy_,elementwise,python3,CPU,thread 17751 (python3),"((3136, 12, 8, 64), (3136, 12, 8, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6144, 512, 64, 1), (18432, 64, 2304, 1), ())","('', '', 'False')",24,58.35430908203125,58.35430908203125,58.4954833984375,58.4954833984375,1.4830178369992342,1.4830178369992342,56.574951171875,56.574951171875,60.159912109375,60.159912109375,1400.50341796875,1400.50341796875,112,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 24, 'total_duration_us': np.float64(1400.504), 'mean_duration_us': np.float64(58.35433333333333), 'median_duration_us': np.float64(58.4955), 'std_dev_duration_us': np.float64(1.4517576320523424), 'min_duration_us': np.float64(56.575), 'max_duration_us': np.float64(60.16)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(58.35)}]",0.8839710715903936,90.84258814594077
 aten::bmm,GEMM,python3,CPU,thread 17751 (python3),"((37632, 8, 8), (37632, 8, 64))","('c10::BFloat16', 'c10::BFloat16')","((64, 8, 1), (512, 64, 1))","('', '')",12,108.37532552083333,108.37532552083333,107.87158203125,107.87158203125,0.8871153674083552,0.8871153674083552,107.5830078125,107.5830078125,109.59912109375,109.59912109375,1300.50390625,1300.50390625,141,"[{'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8>(cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8::Params)', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(1300.504), 'mean_duration_us': np.float64(108.37533333333333), 'median_duration_us': np.float64(107.8715), 'std_dev_duration_us': np.float64(0.8493324175819239), 'min_duration_us': np.float64(107.583), 'max_duration_us': np.float64(109.599)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_...', 'stream': 7, 'mean_duration_us': np.float64(108.38)}]",0.8208532852298664,91.66344143117064
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 17751 (python3),"((128, 3, 224, 224), (768, 3, 16, 16), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (), (), (), (), (), (), ())","('', '', '[0, 0]', '[16, 16]', '[1, 1]', '1', 'False', 'False', 'True')",1,1233.050048828125,1233.050048828125,1233.050048828125,1233.050048828125,,,1233.050048828125,1233.050048828125,1233.050048828125,1233.050048828125,1233.050048828125,1233.050048828125,15,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.448), 'mean_duration_us': np.float64(32.448), 'median_duration_us': np.float64(32.448), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.448), 'max_duration_us': np.float64(32.448)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(281.343), 'mean_duration_us': np.float64(281.343), 'median_duration_us': np.float64(281.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(281.343), 'max_duration_us': np.float64(281.343)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.336), 'mean_duration_us': np.float64(2.336), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.336)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.336), 'mean_duration_us': np.float64(10.336), 'median_duration_us': np.float64(10.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.336), 'max_duration_us': np.float64(10.336)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(863.099), 'mean_duration_us': np.float64(863.099), 'median_duration_us': np.float64(863.099), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(863.099), 'max_duration_us': np.float64(863.099)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(43.488), 'mean_duration_us': np.float64(43.488), 'median_duration_us': np.float64(43.488), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(43.488), 'max_duration_us': np.float64(43.488)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(32.45)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(281.34)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.34)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.34)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(863.1)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(43.49)}]",0.7782776957217722,92.44171912689241
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 17751 (python3),"((128, 3, 224, 224), (768, 3, 16, 16), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (), (), (), (), (), (), ())","('', '', '[0, 0]', '[16, 16]', '[1, 1]', '1', 'False', 'False', 'True')",1,1233.050048828125,1233.050048828125,1233.050048828125,1233.050048828125,,,1233.050048828125,1233.050048828125,1233.050048828125,1233.050048828125,1233.050048828125,1233.050048828125,15,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.336), 'mean_duration_us': np.float64(2.336), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.336)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.336), 'mean_duration_us': np.float64(10.336), 'median_duration_us': np.float64(10.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.336), 'max_duration_us': np.float64(10.336)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.448), 'mean_duration_us': np.float64(32.448), 'median_duration_us': np.float64(32.448), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.448), 'max_duration_us': np.float64(32.448)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(43.488), 'mean_duration_us': np.float64(43.488), 'median_duration_us': np.float64(43.488), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(43.488), 'max_duration_us': np.float64(43.488)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(281.343), 'mean_duration_us': np.float64(281.343), 'median_duration_us': np.float64(281.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(281.343), 'max_duration_us': np.float64(281.343)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(863.099), 'mean_duration_us': np.float64(863.099), 'median_duration_us': np.float64(863.099), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(863.099), 'max_duration_us': np.float64(863.099)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.34)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.34)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(32.45)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(43.49)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(281.34)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(863.1)}]",0.7782776957217722,92.44171912689241
 aten::cat,other,python3,CPU,thread 17751 (python3),"(((8, 1, 768), (8, 3136, 768)), ())","('TensorList', 'Scalar')","(((768, 768, 1), (768, 6144, 1)), ())","('', '1')",12,95.07151285807292,95.07151285807292,95.007080078125,95.007080078125,0.5926520536730849,0.5926520536730849,93.822998046875,93.822998046875,96.0,96.0,1140.858154296875,1140.858154296875,212,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 3, 64, 64>(at::native::(anonymous namespace)::OpaqueType<2u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 64, 64>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(1140.8580000000002), 'mean_duration_us': np.float64(95.07150000000001), 'median_duration_us': np.float64(95.007), 'std_dev_duration_us': np.float64(0.5674224616632664), 'min_duration_us': np.float64(93.823), 'max_duration_us': np.float64(96.0)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy<at::...', 'stream': 7, 'mean_duration_us': np.float64(95.07)}]",0.7200879285600928,93.1618070554525
 aten::addmm,GEMM,python3,CPU,thread 17751 (python3),"((768,), (25088, 768), (768, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (768, 1), (1, 768), (), ())","('', '', '', '1', '1')",24,46.85588582356771,46.85588582356771,46.799560546875,46.799560546875,0.6020064887422066,0.6020064887422066,45.920166015625,45.920166015625,48.2548828125,48.2548828125,1124.541259765625,1124.541259765625,157,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 24, 'total_duration_us': np.float64(23.326999999999998), 'mean_duration_us': np.float64(0.9719583333333333), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.1973181608398533), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(1.439)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 24, 'total_duration_us': np.float64(1101.214), 'mean_duration_us': np.float64(45.883916666666664), 'median_duration_us': np.float64(45.936), 'std_dev_duration_us': np.float64(0.6211491310913646), 'min_duration_us': np.float64(44.992), 'max_duration_us': np.float64(47.008)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.97)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(45.88)}]",0.7097890156415252,93.87159607109402
 aten::add,elementwise,python3,CPU,thread 17751 (python3),"((1, 25089, 768), (1, 25089, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19268352, 768, 1), (19268352, 768, 1), ())","('', '', '1')",24,37.15723673502604,37.15723673502604,37.4720458984375,37.4720458984375,1.5689523265425827,1.5689523265425827,35.0400390625,35.0400390625,39.2958984375,39.2958984375,891.773681640625,891.773681640625,324,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 24, 'total_duration_us': np.float64(891.774), 'mean_duration_us': np.float64(37.15725), 'median_duration_us': np.float64(37.471999999999994), 'std_dev_duration_us': np.float64(1.5359198723132224), 'min_duration_us': np.float64(35.04), 'max_duration_us': np.float64(39.296)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(37.16)}]",0.5628705555887215,94.43446662668273
diff --git a/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/unified_perf_summary.csv b/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/unified_perf_summary.csv
index b65b19a1..ca17742d 100644
--- a/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/unified_perf_summary.csv
+++ b/tests/traces/h100/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/unified_perf_summary.csv
@@ -13,7 +13,7 @@ aten::addmm,GEMM,python3,CPU,thread 17751 (python3),"((2304,), (25088, 768), (76
 aten::copy_,elementwise,python3,CPU,thread 17751 (python3),"((8, 12, 3137, 64), (8, 12, 3137, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2409216, 200768, 64, 1), (7227648, 64, 2304, 1), ())","('', '', 'False')",248,24,344.025,14.334375,5.342183097252023,0.019273728,73.5234375,0.25,vector_bf16,1.3045592230689447,0.017159701006116225,0.32613980576723617,0.004289925251529056,59.10631306966146,0.7768103961300407,1418.551513671875,13.67,11.12,37.18,1.3030007203173533,1.2801593994964995,1.3310603589276682,0.3257501800793383,0.32003984987412487,0.33276508973191704,59.16748046875,57.919921875,60.222900390625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 24, 'total_duration_us': np.float64(1418.552), 'mean_duration_us': np.float64(59.10633333333333), 'median_duration_us': np.float64(59.167500000000004), 'std_dev_duration_us': np.float64(0.7604596563190504), 'min_duration_us': np.float64(57.92), 'max_duration_us': np.float64(60.223)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(59.11)}]","{'op_shape': (8, 12, 3137, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (2409216, 200768, 64, 1), 'stride_output': (7227648, 64, 2304, 1)}",True,0.8953626857015512,89.95861707435037
 aten::copy_,elementwise,python3,CPU,thread 17751 (python3),"((3136, 12, 8, 64), (3136, 12, 8, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6144, 512, 64, 1), (18432, 64, 2304, 1), ())","('', '', 'False')",112,24,330.516,13.771500000000001,2.6301797921682906,0.019267584,73.5,0.25,vector_bf16,1.321548671940372,0.03358092858653137,0.330387167985093,0.008395232146632842,58.35430908203125,1.4830178369992342,1400.50341796875,13.415500000000002,10.99,20.901,1.3177170168568133,1.2810912333096607,1.3622695981806492,0.3294292542142033,0.32027280832741517,0.3405673995451623,58.4954833984375,56.574951171875,60.159912109375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 24, 'total_duration_us': np.float64(1400.504), 'mean_duration_us': np.float64(58.35433333333333), 'median_duration_us': np.float64(58.4955), 'std_dev_duration_us': np.float64(1.4517576320523424), 'min_duration_us': np.float64(56.575), 'max_duration_us': np.float64(60.16)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(58.35)}]","{'op_shape': (3136, 12, 8, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (6144, 512, 64, 1), 'stride_output': (18432, 64, 2304, 1)}",True,0.8839710715903936,90.84258814594077
 aten::bmm,GEMM,python3,CPU,thread 17751 (python3),"((37632, 8, 8), (37632, 8, 64))","('c10::BFloat16', 'c10::BFloat16')","((64, 8, 1), (512, 64, 1))","('', '')",141,12,263.402,21.950166666666664,3.913974284147725,0.308281344,78.09375,3.764705882352941,matrix_bf16,0.75563543226023,0.006153496711181706,2.844745156744395,0.023166105265625295,108.37532552083333,0.8871153674083552,1300.50390625,19.936,19.75,32.12,0.7591178128449387,0.747152268948895,0.7611539560477466,2.8578552954162397,2.8128085419252518,2.8655207757091636,107.87158203125,107.5830078125,109.59912109375,"[{'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8>(cutlass_80_wmma_tensorop_bf16_s161616gemm_bf16_16x16_32x1_nn_align8::Params)', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(1300.504), 'mean_duration_us': np.float64(108.37533333333333), 'median_duration_us': np.float64(107.8715), 'std_dev_duration_us': np.float64(0.8493324175819239), 'min_duration_us': np.float64(107.583), 'max_duration_us': np.float64(109.599)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_wmma_tensorop_bf16_s161616gemm_...', 'stream': 7, 'mean_duration_us': np.float64(108.38)}]","{'B': 37632, 'M': 8, 'N': 64, 'K': 8, 'bias': False, 'stride_A': (64, 8, 1), 'stride_B': (512, 64, 1), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16')}",True,0.8208532852298664,91.66344143117064
-aten::convolution,CONV_fwd,python3,CPU,thread 17751 (python3),"((128, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",13,1,316.875,316.875,,29.595009024,74.625,378.2110552763819,matrix_bf16,0.060289033196294535,,22.801978866763374,,1297.9140625,,1297.9140625,316.875,316.875,316.875,0.060289033196294535,0.060289033196294535,0.060289033196294535,22.801978866763374,22.801978866763374,22.801978866763374,1297.9140625,1297.9140625,1297.9140625,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.448), 'mean_duration_us': np.float64(32.448), 'median_duration_us': np.float64(32.448), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.448), 'max_duration_us': np.float64(32.448)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(281.343), 'mean_duration_us': np.float64(281.343), 'median_duration_us': np.float64(281.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(281.343), 'max_duration_us': np.float64(281.343)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.336), 'mean_duration_us': np.float64(2.336), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.336)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.336), 'mean_duration_us': np.float64(10.336), 'median_duration_us': np.float64(10.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.336), 'max_duration_us': np.float64(10.336)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(863.099), 'mean_duration_us': np.float64(863.099), 'median_duration_us': np.float64(863.099), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(863.099), 'max_duration_us': np.float64(863.099)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(43.488), 'mean_duration_us': np.float64(43.488), 'median_duration_us': np.float64(43.488), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(43.488), 'max_duration_us': np.float64(43.488)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(64.864), 'mean_duration_us': np.float64(64.864), 'median_duration_us': np.float64(64.864), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(64.864), 'max_duration_us': np.float64(64.864)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(32.45)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(281.34)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.34)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.34)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(863.1)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(43.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(64.86)}]","{'convNd': 'conv2d', 'input_shape': (128, 3, 224, 224), 'filter_shape': (768, 3, 16, 16), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (150528, 50176, 224, 1), 'weight_stride': (768, 256, 16, 1), 'bias': False, 'stride': (16, 16), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.8192186252029316,92.48266005637358
+aten::convolution,CONV_fwd,python3,CPU,thread 17751 (python3),"((128, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",13,1,316.875,316.875,,29.595009024,74.625,378.2110552763819,matrix_bf16,0.060289033196294535,,22.801978866763374,,1297.9140625,,1297.9140625,316.875,316.875,316.875,0.060289033196294535,0.060289033196294535,0.060289033196294535,22.801978866763374,22.801978866763374,22.801978866763374,1297.9140625,1297.9140625,1297.9140625,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.336), 'mean_duration_us': np.float64(2.336), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.336), 'max_duration_us': np.float64(2.336)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(10.336), 'mean_duration_us': np.float64(10.336), 'median_duration_us': np.float64(10.336), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(10.336), 'max_duration_us': np.float64(10.336)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(32.448), 'mean_duration_us': np.float64(32.448), 'median_duration_us': np.float64(32.448), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.448), 'max_duration_us': np.float64(32.448)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(43.488), 'mean_duration_us': np.float64(43.488), 'median_duration_us': np.float64(43.488), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(43.488), 'max_duration_us': np.float64(43.488)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(64.864), 'mean_duration_us': np.float64(64.864), 'median_duration_us': np.float64(64.864), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(64.864), 'max_duration_us': np.float64(64.864)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(281.343), 'mean_duration_us': np.float64(281.343), 'median_duration_us': np.float64(281.343), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(281.343), 'max_duration_us': np.float64(281.343)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(863.099), 'mean_duration_us': np.float64(863.099), 'median_duration_us': np.float64(863.099), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(863.099), 'max_duration_us': np.float64(863.099)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.34)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(10.34)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(32.45)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(43.49)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(64.86)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(281.34)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(863.1)}]","{'convNd': 'conv2d', 'input_shape': (128, 3, 224, 224), 'filter_shape': (768, 3, 16, 16), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (150528, 50176, 224, 1), 'weight_stride': (768, 256, 16, 1), 'bias': False, 'stride': (16, 16), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.8192186252029316,92.48266005637358
 aten::cat,other,python3,CPU,thread 17751 (python3),"(((8, 1, 768), (8, 3136, 768)), ())","('TensorList', 'Scalar')","(((768, 768, 1), (768, 6144, 1)), ())","('', '1')",212,12,191.10399999999998,15.925333333333333,1.6526733897940438,,,,,,,,,95.07151285807292,0.5926520536730849,1140.858154296875,15.260000000000002,14.781,20.3,,,,,,,95.007080078125,93.822998046875,96.0,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 3, 64, 64>(at::native::(anonymous namespace)::OpaqueType<2u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 64, 64>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(1140.8580000000002), 'mean_duration_us': np.float64(95.07150000000001), 'median_duration_us': np.float64(95.007), 'std_dev_duration_us': np.float64(0.5674224616632664), 'min_duration_us': np.float64(93.823), 'max_duration_us': np.float64(96.0)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy<at::...', 'stream': 7, 'mean_duration_us': np.float64(95.07)}]",,False,0.7200879285600928,93.20274798493367
 aten::addmm,GEMM,python3,CPU,thread 17751 (python3),"((768,), (25088, 768), (768, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (768, 1), (1, 768), (), ())","('', '', '', '1', '1')",157,24,1313.939,54.747458333333334,11.285058390090573,29.614276608,74.62646484375,378.44985768966535,matrix_bf16,1.6703094368023803,0.021336593227513065,632.1283686555659,8.074830670534597,46.85588582356771,0.6020064887422066,1124.541259765625,50.281,46.971,100.952,1.6720569126774198,1.6216290547022039,1.7040774629032,632.7897006517907,613.7052849774756,644.9078733278819,46.799560546875,45.920166015625,48.2548828125,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 24, 'total_duration_us': np.float64(23.326999999999998), 'mean_duration_us': np.float64(0.9719583333333333), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.1973181608398533), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(1.439)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 24, 'total_duration_us': np.float64(1101.214), 'mean_duration_us': np.float64(45.883916666666664), 'median_duration_us': np.float64(45.936), 'std_dev_duration_us': np.float64(0.6211491310913646), 'min_duration_us': np.float64(44.992), 'max_duration_us': np.float64(47.008)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.97)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(45.88)}]","{'M': 25088, 'N': 768, 'K': 768, 'bias': True, 'stride_A': (768, 1), 'stride_B': (1, 768), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.7097890156415252,93.91253700057518
 aten::add,elementwise,python3,CPU,thread 17751 (python3),"((1, 25089, 768), (1, 25089, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19268352, 768, 1), (19268352, 768, 1), ())","('', '', '1')",324,24,324.385,13.516041666666666,3.163796212850833,0.019268352,110.25439453125,0.16666666666666666,vector_bf16,3.1167129987327087,0.13193577805544762,0.5194521664554514,0.021989296342574616,37.15723673502604,1.5689523265425827,891.773681640625,14.3205,9.98,20.02,3.086642791345411,2.942040177141579,3.2993716643348843,0.5144404652242351,0.4903400295235965,0.5498952773891473,37.4720458984375,35.0400390625,39.2958984375,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 7, 'count': 24, 'total_duration_us': np.float64(891.774), 'mean_duration_us': np.float64(37.15725), 'median_duration_us': np.float64(37.471999999999994), 'std_dev_duration_us': np.float64(1.5359198723132224), 'min_duration_us': np.float64(35.04), 'max_duration_us': np.float64(39.296)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 7, 'mean_duration_us': np.float64(37.16)}]","{'shape_in1': (1, 25089, 768), 'shape_in2': (1, 25089, 768), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (19268352, 768, 1), 'stride_input2': (19268352, 768, 1), 'stride_output': None}",True,0.5628705555887215,94.4754075561639
@@ -38,6 +38,6 @@ aten::mul,elementwise,python3,CPU,thread 17751 (python3),"((3136, 12, 8, 8), ())
 aten::add,elementwise,python3,CPU,thread 17751 (python3),"((128, 197, 768), (1, 197, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((151296, 768, 1), (151296, 768, 1), ())","('', '', '1')",26,1,21.341,21.341,,0.019365888,74.16357421875,0.2490272373540856,vector_bf16,1.440569687238257,,0.35874108942898236,,53.98291015625,,53.98291015625,21.341,21.341,21.341,1.440569687238257,1.440569687238257,1.440569687238257,0.35874108942898236,0.35874108942898236,0.35874108942898236,53.98291015625,53.98291015625,53.98291015625,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(53.983), 'mean_duration_us': np.float64(53.983), 'median_duration_us': np.float64(53.983), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(53.983), 'max_duration_us': np.float64(53.983)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(53.98)}]","{'shape_in1': (128, 197, 768), 'shape_in2': (1, 197, 768), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (151296, 768, 1), 'stride_input2': (151296, 768, 1), 'stride_output': None}",True,0.034072984275610695,99.93211522571212
 aten::copy_,elementwise,python3,CPU,thread 17751 (python3),"((1, 196, 128, 768), (1, 196, 128, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19267584, 98304, 768, 1), (150528, 768, 150528, 1), ())","('', '', 'False')",64,1,11.43,11.43,,0.019267584,73.5,0.25,vector_bf16,1.489457525164785,,0.37236438129119626,,51.743896484375,,51.743896484375,11.43,11.43,11.43,1.489457525164785,1.489457525164785,1.489457525164785,0.37236438129119626,0.37236438129119626,0.37236438129119626,51.743896484375,51.743896484375,51.743896484375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(51.744), 'mean_duration_us': np.float64(51.744), 'median_duration_us': np.float64(51.744), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(51.744), 'max_duration_us': np.float64(51.744)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(51.74)}]","{'op_shape': (1, 196, 128, 768), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (19267584, 98304, 768, 1), 'stride_output': (150528, 768, 150528, 1)}",True,0.032659761509111845,99.96477498722123
 aten::copy_,elementwise,python3,CPU,thread 17751 (python3),"((1, 8, 1, 1, 1, 768), (1, 8, 1, 1, 1, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6144, 768, 768, 6144, 768, 1), (0, 0, 19268352, 19268352, 768, 1), ())","('', '', 'False')",203,12,148.974,12.414499999999999,0.8435089588358649,6.144e-06,0.0234375,0.25,vector_bf16,0.007097606117564984,0.0004125868896499309,0.001774401529391246,0.00010314672241248273,3.4720255533854165,0.17761358856305998,41.664306640625,12.1605,11.71,14.69,0.006981779442363712,0.006736935885423638,0.008347565801476076,0.001745444860590928,0.0016842339713559096,0.002086891450369019,3.52001953125,2.944091796875,3.64794921875,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 12, 'total_duration_us': np.float64(41.66400000000001), 'mean_duration_us': np.float64(3.472000000000001), 'median_duration_us': np.float64(3.52), 'std_dev_duration_us': np.float64(0.17008233300375442), 'min_duration_us': np.float64(2.944), 'max_duration_us': np.float64(3.648)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(3.47)}]","{'op_shape': (1, 8, 1, 1, 1, 768), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (6144, 768, 768, 6144, 768, 1), 'stride_output': (0, 0, 19268352, 19268352, 768, 1)}",True,0.026297716460843248,99.99107270368208
-aten::upsample_nearest1d,other,python3,CPU,thread 17751 (python3),"((1, 768, 8), (), ())","('c10::BFloat16', 'ScalarList', '')","((6144, 1, 768), (), ())","('', '[128]', '')",49,1,77.211,77.211,,,,,,,,,,6.303955078125,,6.303955078125,77.211,77.211,77.211,,,,,,,6.303955078125,6.303955078125,6.303955078125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.999), 'mean_duration_us': np.float64(3.999), 'median_duration_us': np.float64(3.999), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.999), 'max_duration_us': np.float64(3.999)}, {'name': 'void at::native::(anonymous namespace)::upsample_nearest1d_out_frame<c10::BFloat16, &at::native::nearest_neighbor_compute_source_index>(c10::BFloat16 const*, unsigned long, unsigned long, unsigned long, unsigned long, c10::BFloat16*, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.305), 'mean_duration_us': np.float64(2.305), 'median_duration_us': np.float64(2.305), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.305), 'max_duration_us': np.float64(2.305)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.0)}, {'name': 'void at::native::(anonymous namespace)::upsample_nearest1d_out_f...', 'stream': 7, 'mean_duration_us': np.float64(2.31)}]",,False,0.003978936326874571,99.99505164000895
+aten::upsample_nearest1d,other,python3,CPU,thread 17751 (python3),"((1, 768, 8), (), ())","('c10::BFloat16', 'ScalarList', '')","((6144, 1, 768), (), ())","('', '[128]', '')",49,1,77.211,77.211,,,,,,,,,,6.303955078125,,6.303955078125,77.211,77.211,77.211,,,,,,,6.303955078125,6.303955078125,6.303955078125,"[{'name': 'void at::native::(anonymous namespace)::upsample_nearest1d_out_frame<c10::BFloat16, &at::native::nearest_neighbor_compute_source_index>(c10::BFloat16 const*, unsigned long, unsigned long, unsigned long, unsigned long, c10::BFloat16*, float)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.305), 'mean_duration_us': np.float64(2.305), 'median_duration_us': np.float64(2.305), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.305), 'max_duration_us': np.float64(2.305)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(3.999), 'mean_duration_us': np.float64(3.999), 'median_duration_us': np.float64(3.999), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.999), 'max_duration_us': np.float64(3.999)}]","[{'name': 'void at::native::(anonymous namespace)::upsample_nearest1d_out_f...', 'stream': 7, 'mean_duration_us': np.float64(2.31)}, {'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(4.0)}]",,False,0.003978936326874571,99.99505164000895
 aten::addmm,GEMM,python3,CPU,thread 17751 (python3),"((400,), (1, 768), (768, 400), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (19268352, 1), (1, 768), (), ())","('', '', '', '1', '1')",3526,1,42.541,42.541,,0.0006148,0.58892822265625,0.9955694890662244,matrix_bf16,0.12214145811000046,,0.12160030904437684,,5.055908203125,,5.055908203125,42.541,42.541,42.541,0.12214145811000046,0.12214145811000046,0.12214145811000046,0.12160030904437684,0.12160030904437684,0.12160030904437684,5.055908203125,5.055908203125,5.055908203125,"[{'name': 'std::enable_if<!(false), void>::type internal::gemvx::kernel<int, int, __nv_bfloat16, __nv_bfloat16, __nv_bfloat16, float, false, true, true, false, 7, false, cublasGemvParamsEx<int, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16>, float> >(cublasGemvParamsEx<int, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16 const>, cublasGemvTensorStridedBatched<__nv_bfloat16>, float>)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(5.056), 'mean_duration_us': np.float64(5.056), 'median_duration_us': np.float64(5.056), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(5.056), 'max_duration_us': np.float64(5.056)}]","[{'name': 'std::enable_if<!(false), void>::type internal::gemvx::kernel<int...', 'stream': 7, 'mean_duration_us': np.float64(5.06)}]","{'M': 1, 'N': 400, 'K': 768, 'bias': True, 'stride_A': (19268352, 1), 'stride_B': (1, 768), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.0031911929202294827,99.99824283292918
 aten::copy_,other,python3,CPU,thread 17751 (python3),"((1, 400), (1, 400), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((400, 1), (400, 1), ())","('', '', 'False')",3531,1,125986.084,125986.084,,4e-07,0.00152587890625,0.25,vector_bf16,0.0005747259493115847,,0.00014368148732789616,,2.783935546875,,2.783935546875,125986.084,125986.084,125986.084,0.0005747259493115847,0.0005747259493115847,0.0005747259493115847,0.00014368148732789616,0.00014368148732789616,0.00014368148732789616,2.783935546875,2.783935546875,2.783935546875,"[{'name': 'Memcpy DtoH (Device -> Pageable)', 'stream': 7, 'count': 1, 'total_duration_us': np.float64(2.784), 'mean_duration_us': np.float64(2.784), 'median_duration_us': np.float64(2.784), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(2.784), 'max_duration_us': np.float64(2.784)}]","[{'name': 'Memcpy DtoH (Device -> Pageable)', 'stream': 7, 'mean_duration_us': np.float64(2.78)}]","{'op_shape': (1, 400), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (400, 1), 'stride_output': (400, 1)}",True,0.001757167070808672,99.99999999999999
diff --git a/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/CONV_fwd.csv b/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/CONV_fwd.csv
index 5c5dc620..312be50a 100644
--- a/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/CONV_fwd.csv
+++ b/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/CONV_fwd.csv
@@ -1,2 +1,2 @@
 name,param: convNd,param: input_shape,param: filter_shape,param: dtype_input_weight,param: input_stride,param: weight_stride,param: bias,param: stride,param: padding,param: dilation,param: transposed_conv,param: output_padding,param: groups,GFLOPS_first,Data Moved (MB)_first,FLOPS/Byte_first,TB/s_mean,TB/s_median,TB/s_std,TB/s_min,TB/s_max,TFLOPS/s_mean,TFLOPS/s_median,TFLOPS/s_std,TFLOPS/s_min,TFLOPS/s_max,process_name_first,process_label_first,thread_name_first,Compute Spec,kernel_details__summarize_kernel_stats,trunc_kernel_details,Input Dims_first,Input type_first,Input Strides_first,Concrete Inputs_first,Kernel Time (µs)_mean,Kernel Time (µs)_median,Kernel Time (µs)_std,Kernel Time (µs)_min,Kernel Time (µs)_max,Kernel Time (µs)_sum,name_count,UID_first
-aten::convolution,conv2d,"(1, 3, 1008, 1008)","(1024, 3, 14, 14)","('c10::BFloat16', 'c10::BFloat16')","(3048192, 1016064, 1008, 1)","(588, 196, 14, 1)",False,"(14, 14)","(0, 0)","(1, 1)",False,"(0, 0)",1,6.242697216,17.08740234375,348.4145735105015,0.06632164244130441,0.06627154167693837,0.00014383969044841932,0.06616942642815925,0.06650738410343965,23.107426765703053,23.089970929253912,0.05011584440146976,23.054392488401614,23.172141867699036,python3,CPU,thread 21587 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(28.127000000000002), 'mean_duration_us': np.float64(5.625400000000001), 'median_duration_us': np.float64(5.664), 'std_dev_duration_us': np.float64(0.08941498755801505), 'min_duration_us': np.float64(5.503), 'max_duration_us': np.float64(5.728)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(222.207), 'mean_duration_us': np.float64(44.4414), 'median_duration_us': np.float64(44.384), 'std_dev_duration_us': np.float64(0.1792647204555328), 'min_duration_us': np.float64(44.224), 'max_duration_us': np.float64(44.768)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(10.85), 'mean_duration_us': np.float64(2.17), 'median_duration_us': np.float64(2.176), 'std_dev_duration_us': np.float64(0.013007690033207267), 'min_duration_us': np.float64(2.144), 'max_duration_us': np.float64(2.177)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(58.303000000000004), 'mean_duration_us': np.float64(11.6606), 'median_duration_us': np.float64(11.679), 'std_dev_duration_us': np.float64(0.15088485676170435), 'min_duration_us': np.float64(11.424), 'max_duration_us': np.float64(11.872)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(982.9660000000001), 'mean_duration_us': np.float64(196.59320000000002), 'median_duration_us': np.float64(196.542), 'std_dev_duration_us': np.float64(0.4292092263686784), 'min_duration_us': np.float64(195.966), 'max_duration_us': np.float64(197.245)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(48.35), 'mean_duration_us': np.float64(9.67), 'median_duration_us': np.float64(9.663), 'std_dev_duration_us': np.float64(0.0547539952880155), 'min_duration_us': np.float64(9.6), 'max_duration_us': np.float64(9.759)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(5.63)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(44.44)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.17)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.66)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(196.59)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.67)}]","[[1, 3, 1008, 1008], [1024, 3, 14, 14], [], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', '', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[3048192, 1016064, 1008, 1], [588, 196, 14, 1], [], [], [], [], [], [], []]","['', '', '', '[14, 14]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",270.160791015625,270.364013671875,0.5855776279305999,269.4052734375,270.78125,1350.803955078125,5,41
+aten::convolution,conv2d,"(1, 3, 1008, 1008)","(1024, 3, 14, 14)","('c10::BFloat16', 'c10::BFloat16')","(3048192, 1016064, 1008, 1)","(588, 196, 14, 1)",False,"(14, 14)","(0, 0)","(1, 1)",False,"(0, 0)",1,6.242697216,17.08740234375,348.4145735105015,0.06632164244130441,0.06627154167693837,0.00014383969044841932,0.06616942642815925,0.06650738410343965,23.107426765703053,23.089970929253912,0.05011584440146976,23.054392488401614,23.172141867699036,python3,CPU,thread 21587 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(10.85), 'mean_duration_us': np.float64(2.17), 'median_duration_us': np.float64(2.176), 'std_dev_duration_us': np.float64(0.013007690033207267), 'min_duration_us': np.float64(2.144), 'max_duration_us': np.float64(2.177)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(28.127000000000002), 'mean_duration_us': np.float64(5.625400000000001), 'median_duration_us': np.float64(5.664), 'std_dev_duration_us': np.float64(0.08941498755801505), 'min_duration_us': np.float64(5.503), 'max_duration_us': np.float64(5.728)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(48.35), 'mean_duration_us': np.float64(9.67), 'median_duration_us': np.float64(9.663), 'std_dev_duration_us': np.float64(0.0547539952880155), 'min_duration_us': np.float64(9.6), 'max_duration_us': np.float64(9.759)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(58.303000000000004), 'mean_duration_us': np.float64(11.6606), 'median_duration_us': np.float64(11.679), 'std_dev_duration_us': np.float64(0.15088485676170435), 'min_duration_us': np.float64(11.424), 'max_duration_us': np.float64(11.872)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(222.207), 'mean_duration_us': np.float64(44.4414), 'median_duration_us': np.float64(44.384), 'std_dev_duration_us': np.float64(0.1792647204555328), 'min_duration_us': np.float64(44.224), 'max_duration_us': np.float64(44.768)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(982.9660000000001), 'mean_duration_us': np.float64(196.59320000000002), 'median_duration_us': np.float64(196.542), 'std_dev_duration_us': np.float64(0.4292092263686784), 'min_duration_us': np.float64(195.966), 'max_duration_us': np.float64(197.245)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.17)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(5.63)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.67)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.66)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(44.44)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(196.59)}]","[[1, 3, 1008, 1008], [1024, 3, 14, 14], [], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', '', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[3048192, 1016064, 1008, 1], [588, 196, 14, 1], [], [], [], [], [], [], []]","['', '', '', '[14, 14]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",270.160791015625,270.364013671875,0.5855776279305999,269.4052734375,270.78125,1350.803955078125,5,41
diff --git a/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/GEMM.csv b/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/GEMM.csv
index 71cf4b78..353f65d4 100644
--- a/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/GEMM.csv
+++ b/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/GEMM.csv
@@ -5,7 +5,7 @@ aten::addmm,5185,1024,1024,True,"(1024, 1)","(1, 1024)","('c10::BFloat16', 'c10:
 aten::addmm,5185,1024,4096,True,"(4096, 1)","(1, 4096)","('c10::BFloat16', 'c10::BFloat16')",1,43.50024192,58.63671875,707.4929218573046,0.9361141033731365,0.9368314933785674,0.008279770802943752,0.9167019964401024,0.9516789078184636,662.2941021872913,662.8016505383448,5.857879237683533,648.5601739338325,673.3060911624533,python3,CPU,thread 21587 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 120, 'total_duration_us': np.float64(115.61200000000002), 'mean_duration_us': np.float64(0.9634333333333335), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.18370559478566667), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(1.6)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 120, 'total_duration_us': np.float64(7766.737), 'mean_duration_us': np.float64(64.72280833333333), 'median_duration_us': np.float64(64.639), 'std_dev_duration_us': np.float64(0.5570301951096441), 'min_duration_us': np.float64(63.711), 'max_duration_us': np.float64(65.951)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.96)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(64.72)}]","[[1024], [5185, 4096], [4096, 1024], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar']","[[1], [4096, 1], [1, 4096], [], []]","['', '', '', '1', '1']",65.6862569173177,65.630859375,0.5816449146059576,64.60693359375,67.072021484375,7882.350830078125,120,180
 aten::addmm,5185,4096,1024,True,"(1024, 1)","(1, 1024)","('c10::BFloat16', 'c10::BFloat16')",1,43.51617024,58.642578125,707.68126561199,1.0540770662571635,1.0538078218406994,0.006644526312569384,1.0409530341917432,1.069334988558061,745.9505923014428,745.7600530720407,4.70220679027121,736.6629606794539,756.7483380659514,python3,CPU,thread 21587 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 120, 'total_duration_us': np.float64(116.09), 'mean_duration_us': np.float64(0.9674166666666667), 'median_duration_us': np.float64(0.96), 'std_dev_duration_us': np.float64(0.15527371441711854), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(1.568)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 120, 'total_duration_us': np.float64(6884.5689999999995), 'mean_duration_us': np.float64(57.37140833333333), 'median_duration_us': np.float64(57.344), 'std_dev_duration_us': np.float64(0.31250691981227396), 'min_duration_us': np.float64(56.639), 'max_duration_us': np.float64(58.048)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.97)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(57.37)}]","[[4096], [5185, 1024], [1024, 4096], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar']","[[1], [1024, 1], [1, 1024], [], []]","['', '', '', '1', '1']",58.338828531901044,58.3514404296875,0.3674647953274667,57.504150390625,59.072021484375,7000.659423828125,120,168
 aten::addmm,5,768,768,True,"(768, 1)","(1, 768)","('c10::BFloat16', 'c10::BFloat16')",1,0.00590208,1.14111328125,4.932605905006419,0.1818424780903004,0.18151343372467688,0.00362785334275486,0.1715451250962548,0.18983786745167913,0.896957281209216,0.8953342350283321,0.017894770820969894,0.8461644970248511,0.9363953859859782,python3,CPU,thread 21587 (python3),matrix_bf16,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 240, 'total_duration_us': np.float64(1579.851), 'mean_duration_us': np.float64(6.5827125), 'median_duration_us': np.float64(6.592), 'std_dev_duration_us': np.float64(0.13116311667951205), 'min_duration_us': np.float64(6.303), 'max_duration_us': np.float64(6.975)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.58)}]","[[768], [5, 768], [768, 768], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar']","[[1], [768, 1], [1, 768], [], []]","['', '', '', '1', '1']",6.582722981770833,6.592041015625,0.13143096002245483,6.302978515625,6.97509765625,1579.853515625,240,2995
-aten::addmm,5,768,3072,True,"(3072, 1)","(1, 3072)","('c10::BFloat16', 'c10::BFloat16')",1,0.0235968,4.5380859375,4.9588444157520986,0.543219529864628,0.5487002632111675,0.011771522206847568,0.514544104751848,0.5569473850725798,2.6937411321966906,2.720919236146404,0.05837314716032782,2.551544160506864,2.7618154303348956,python3,CPU,thread 21587 (python3),matrix_bf16,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(385.4959999999999), 'mean_duration_us': np.float64(6.424933333333332), 'median_duration_us': np.float64(6.336), 'std_dev_duration_us': np.float64(0.19279919317489072), 'min_duration_us': np.float64(6.239), 'max_duration_us': np.float64(6.912)}, {'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, __nv_bfloat16, float, __nv_bfloat16, true, true, false>(cublasLt::cublasSplitKParams<float>, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, float const*, float const*, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, void*, long, float*, int*)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(140.35000000000002), 'mean_duration_us': np.float64(2.339166666666667), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.037292164801142315), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.496)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.42)}, {'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, _...', 'stream': 7, 'mean_duration_us': np.float64(2.34)}]","[[768], [5, 3072], [3072, 768], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar']","[[1], [3072, 1], [1, 3072], [], []]","['', '', '', '1', '1']",8.76400146484375,8.67236328125,0.19430162370386625,8.5439453125,9.248046875,525.840087890625,60,3102
+aten::addmm,5,768,3072,True,"(3072, 1)","(1, 3072)","('c10::BFloat16', 'c10::BFloat16')",1,0.0235968,4.5380859375,4.9588444157520986,0.543219529864628,0.5487002632111675,0.011771522206847568,0.514544104751848,0.5569473850725798,2.6937411321966906,2.720919236146404,0.05837314716032782,2.551544160506864,2.7618154303348956,python3,CPU,thread 21587 (python3),matrix_bf16,"[{'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, __nv_bfloat16, float, __nv_bfloat16, true, true, false>(cublasLt::cublasSplitKParams<float>, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, float const*, float const*, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, void*, long, float*, int*)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(140.35000000000002), 'mean_duration_us': np.float64(2.339166666666667), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.037292164801142315), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.496)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(385.4959999999999), 'mean_duration_us': np.float64(6.424933333333332), 'median_duration_us': np.float64(6.336), 'std_dev_duration_us': np.float64(0.19279919317489072), 'min_duration_us': np.float64(6.239), 'max_duration_us': np.float64(6.912)}]","[{'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, _...', 'stream': 7, 'mean_duration_us': np.float64(2.34)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.42)}]","[[768], [5, 3072], [3072, 768], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar']","[[1], [3072, 1], [1, 3072], [], []]","['', '', '', '1', '1']",8.76400146484375,8.67236328125,0.19430162370386625,8.5439453125,9.248046875,525.840087890625,60,3102
 aten::addmm,5184,1024,1024,True,"(1024, 1)","(1, 1024)","('c10::BFloat16', 'c10::BFloat16')",1,10.876944384,22.251953125,466.1641358729044,1.0808561306902909,1.0730756837665036,0.02489510390079241,1.0491400290246446,1.1269681965945002,503.85636416617047,500.22939884923824,11.605204597379057,489.0714550399473,525.3521555217206,python3,CPU,thread 21587 (python3),matrix_bf16,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 20, 'total_duration_us': np.float64(17.248), 'mean_duration_us': np.float64(0.8624), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.13365305832639968), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(1.248)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 20, 'total_duration_us': np.float64(414.7149999999999), 'mean_duration_us': np.float64(20.735749999999996), 'median_duration_us': np.float64(20.768), 'std_dev_duration_us': np.float64(0.42032010123238245), 'min_duration_us': np.float64(19.936), 'max_duration_us': np.float64(21.279)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.86)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(20.74)}]","[[1024], [5184, 1024], [1024, 1024], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar']","[[1], [1024, 1], [1, 1024], [], []]","['', '', '', '1', '1']",21.5982177734375,21.7440185546875,0.4948575067787944,20.7041015625,22.239990234375,431.96435546875,20,4653
 aten::addmm,5,3072,768,True,"(768, 1)","(1, 768)","('c10::BFloat16', 'c10::BFloat16')",1,0.02360832,4.54248046875,4.9564656562399225,0.676291858187444,0.6827817266046057,0.016913222300935213,0.6333940996039219,0.7054456557708997,3.3520173687007455,3.3841841786239235,0.08382980547093656,3.139396101551847,3.496517165172114,python3,CPU,thread 21587 (python3),matrix_bf16,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(422.845), 'mean_duration_us': np.float64(7.047416666666667), 'median_duration_us': np.float64(6.976), 'std_dev_duration_us': np.float64(0.17790056133194818), 'min_duration_us': np.float64(6.752), 'max_duration_us': np.float64(7.52)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(7.05)}]","[[3072], [5, 768], [768, 3072], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar']","[[1], [768, 1], [1, 768], [], []]","['', '', '', '1', '1']",7.047428385416667,6.97607421875,0.17938446301713049,6.751953125,7.52001953125,422.845703125,60,3090
 aten::bmm,5,5,64,False,"(320, 64, 1)","(320, 1, 64)","('c10::BFloat16', 'c10::BFloat16')",12,3.84e-05,0.01522064208984375,2.406015037593985,0.005157845853882534,0.005141746106654082,7.520311885488376e-05,0.0050379284833538835,0.0053057511565619666,0.012409854686033166,0.012371118452100047,0.0001809398348388166,0.012121331689272503,0.012765717068419771,python3,CPU,thread 21587 (python3),matrix_bf16,"[{'name': 'void cutlass::Kernel2<cutlass_75_wmma_tensorop_bf16_s161616gemm_bf16_32x32_32x1_tn_align1>(cutlass_75_wmma_tensorop_bf16_s161616gemm_bf16_32x32_32x1_tn_align1::Params)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(185.69699999999997), 'mean_duration_us': np.float64(3.0949499999999994), 'median_duration_us': np.float64(3.104), 'std_dev_duration_us': np.float64(0.04453478977159322), 'min_duration_us': np.float64(3.008), 'max_duration_us': np.float64(3.168)}]","[{'name': 'void cutlass::Kernel2<cutlass_75_wmma_tensorop_bf16_s161616gemm_...', 'stream': 7, 'mean_duration_us': np.float64(3.09)}]","[[12, 5, 64], [12, 64, 5]]","['c10::BFloat16', 'c10::BFloat16']","[[320, 64, 1], [320, 1, 64]]","['', '']",3.09495849609375,3.10400390625,0.04488577520163302,3.008056640625,3.16796875,185.697509765625,60,3046
diff --git a/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/ops_unique_args.csv b/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/ops_unique_args.csv
index be6ba247..396fdbc0 100644
--- a/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/ops_unique_args.csv
+++ b/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/ops_unique_args.csv
@@ -17,9 +17,9 @@ aten::add,elementwise,python3,CPU,thread 21587 (python3),"((1, 5185, 1024), (1,
 aten::copy_,elementwise,python3,CPU,thread 21587 (python3),"((1, 5185, 16, 64), (1, 5185, 16, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((5309440, 1024, 64, 1), (5309440, 64, 331840, 1), ())","('', '', 'False')",120,15.615273030598958,15.615273030598958,15.583984375,15.583984375,0.18619000389162943,0.18619000389162943,15.263916015625,15.263916015625,16.384033203125,16.384033203125,1873.832763671875,1873.832763671875,143,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 120, 'total_duration_us': np.float64(1873.8329999999999), 'mean_duration_us': np.float64(15.615274999999999), 'median_duration_us': np.float64(15.584), 'std_dev_duration_us': np.float64(0.1854254999768552), 'min_duration_us': np.float64(15.264), 'max_duration_us': np.float64(16.384)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.62)}]",0.3306222221716982,98.05647340354452
 aten::copy_,other,python3,CPU,thread 21587 (python3),"((1, 3, 1008, 1008), (1, 3, 1008, 1008), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3048192, 1016064, 1008, 1), (3048192, 1016064, 1008, 1), ())","('', '', 'False')",5,325.5904296875,325.5904296875,333.5009765625,333.5009765625,12.710085512152338,12.710085512152338,304.989013671875,304.989013671875,334.205078125,334.205078125,1627.9521484375,1627.9521484375,38,"[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(1627.952), 'mean_duration_us': np.float64(325.5904), 'median_duration_us': np.float64(333.501), 'std_dev_duration_us': np.float64(11.368233417730304), 'min_duration_us': np.float64(304.989), 'max_duration_us': np.float64(334.205)}]","[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'mean_duration_us': np.float64(325.59)}]",0.28723863054400445,98.34371203408853
 aten::addmm,GEMM,python3,CPU,thread 21587 (python3),"((768,), (5, 768), (768, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (768, 1), (1, 768), (), ())","('', '', '', '1', '1')",240,6.582722981770833,6.582722981770833,6.592041015625,6.592041015625,0.13143096002245483,0.13143096002245483,6.302978515625,6.302978515625,6.97509765625,6.97509765625,1579.853515625,1579.853515625,2995,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 240, 'total_duration_us': np.float64(1579.851), 'mean_duration_us': np.float64(6.5827125), 'median_duration_us': np.float64(6.592), 'std_dev_duration_us': np.float64(0.13116311667951205), 'min_duration_us': np.float64(6.303), 'max_duration_us': np.float64(6.975)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.58)}]",0.2787520264178563,98.62246406050639
-aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 21587 (python3),"((1, 3, 1008, 1008), (1024, 3, 14, 14), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((3048192, 1016064, 1008, 1), (588, 196, 14, 1), (), (), (), (), (), (), ())","('', '', '[0, 0]', '[14, 14]', '[1, 1]', '1', 'False', 'False', 'True')",5,270.160791015625,270.160791015625,270.364013671875,270.364013671875,0.5855776279305999,0.5855776279305999,269.4052734375,269.4052734375,270.78125,270.78125,1350.803955078125,1350.803955078125,43,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(28.127000000000002), 'mean_duration_us': np.float64(5.625400000000001), 'median_duration_us': np.float64(5.664), 'std_dev_duration_us': np.float64(0.08941498755801505), 'min_duration_us': np.float64(5.503), 'max_duration_us': np.float64(5.728)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(222.207), 'mean_duration_us': np.float64(44.4414), 'median_duration_us': np.float64(44.384), 'std_dev_duration_us': np.float64(0.1792647204555328), 'min_duration_us': np.float64(44.224), 'max_duration_us': np.float64(44.768)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(10.85), 'mean_duration_us': np.float64(2.17), 'median_duration_us': np.float64(2.176), 'std_dev_duration_us': np.float64(0.013007690033207267), 'min_duration_us': np.float64(2.144), 'max_duration_us': np.float64(2.177)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(58.303000000000004), 'mean_duration_us': np.float64(11.6606), 'median_duration_us': np.float64(11.679), 'std_dev_duration_us': np.float64(0.15088485676170435), 'min_duration_us': np.float64(11.424), 'max_duration_us': np.float64(11.872)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(982.9660000000001), 'mean_duration_us': np.float64(196.59320000000002), 'median_duration_us': np.float64(196.542), 'std_dev_duration_us': np.float64(0.4292092263686784), 'min_duration_us': np.float64(195.966), 'max_duration_us': np.float64(197.245)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(48.35), 'mean_duration_us': np.float64(9.67), 'median_duration_us': np.float64(9.663), 'std_dev_duration_us': np.float64(0.0547539952880155), 'min_duration_us': np.float64(9.6), 'max_duration_us': np.float64(9.759)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(5.63)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(44.44)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.17)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.66)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(196.59)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.67)}]",0.23833813454681016,98.8608021950532
+aten::cudnn_convolution,CONV_fwd,python3,CPU,thread 21587 (python3),"((1, 3, 1008, 1008), (1024, 3, 14, 14), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((3048192, 1016064, 1008, 1), (588, 196, 14, 1), (), (), (), (), (), (), ())","('', '', '[0, 0]', '[14, 14]', '[1, 1]', '1', 'False', 'False', 'True')",5,270.160791015625,270.160791015625,270.364013671875,270.364013671875,0.5855776279305999,0.5855776279305999,269.4052734375,269.4052734375,270.78125,270.78125,1350.803955078125,1350.803955078125,43,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(10.85), 'mean_duration_us': np.float64(2.17), 'median_duration_us': np.float64(2.176), 'std_dev_duration_us': np.float64(0.013007690033207267), 'min_duration_us': np.float64(2.144), 'max_duration_us': np.float64(2.177)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(28.127000000000002), 'mean_duration_us': np.float64(5.625400000000001), 'median_duration_us': np.float64(5.664), 'std_dev_duration_us': np.float64(0.08941498755801505), 'min_duration_us': np.float64(5.503), 'max_duration_us': np.float64(5.728)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(48.35), 'mean_duration_us': np.float64(9.67), 'median_duration_us': np.float64(9.663), 'std_dev_duration_us': np.float64(0.0547539952880155), 'min_duration_us': np.float64(9.6), 'max_duration_us': np.float64(9.759)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(58.303000000000004), 'mean_duration_us': np.float64(11.6606), 'median_duration_us': np.float64(11.679), 'std_dev_duration_us': np.float64(0.15088485676170435), 'min_duration_us': np.float64(11.424), 'max_duration_us': np.float64(11.872)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(222.207), 'mean_duration_us': np.float64(44.4414), 'median_duration_us': np.float64(44.384), 'std_dev_duration_us': np.float64(0.1792647204555328), 'min_duration_us': np.float64(44.224), 'max_duration_us': np.float64(44.768)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(982.9660000000001), 'mean_duration_us': np.float64(196.59320000000002), 'median_duration_us': np.float64(196.542), 'std_dev_duration_us': np.float64(0.4292092263686784), 'min_duration_us': np.float64(195.966), 'max_duration_us': np.float64(197.245)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.17)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(5.63)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.67)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.66)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(44.44)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(196.59)}]",0.23833813454681016,98.8608021950532
 aten::mul,elementwise,python3,CPU,thread 21587 (python3),"((1, 5185, 1024), ())","('c10::BFloat16', 'double')","((5309440, 1024, 1), ())","('', '')",120,7.790047200520833,7.790047200520833,7.77587890625,7.77587890625,0.06897178218854545,0.06897178218854545,7.7109375,7.7109375,8.031982421875,8.031982421875,934.8056640625,934.8056640625,82,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 120, 'total_duration_us': np.float64(934.809), 'mean_duration_us': np.float64(7.790075), 'median_duration_us': np.float64(7.776), 'std_dev_duration_us': np.float64(0.06863528763204346), 'min_duration_us': np.float64(7.711), 'max_duration_us': np.float64(8.032)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(7.79)}]",0.16493869247189352,99.02574088752509
-aten::addmm,GEMM,python3,CPU,thread 21587 (python3),"((768,), (5, 3072), (3072, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (3072, 1), (1, 3072), (), ())","('', '', '', '1', '1')",60,8.76400146484375,8.76400146484375,8.67236328125,8.67236328125,0.19430162370386625,0.19430162370386625,8.5439453125,8.5439453125,9.248046875,9.248046875,525.840087890625,525.840087890625,3102,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(385.4959999999999), 'mean_duration_us': np.float64(6.424933333333332), 'median_duration_us': np.float64(6.336), 'std_dev_duration_us': np.float64(0.19279919317489072), 'min_duration_us': np.float64(6.239), 'max_duration_us': np.float64(6.912)}, {'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, __nv_bfloat16, float, __nv_bfloat16, true, true, false>(cublasLt::cublasSplitKParams<float>, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, float const*, float const*, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, void*, long, float*, int*)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(140.35000000000002), 'mean_duration_us': np.float64(2.339166666666667), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.037292164801142315), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.496)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.42)}, {'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, _...', 'stream': 7, 'mean_duration_us': np.float64(2.34)}]",0.09278011449894948,99.11852100202404
+aten::addmm,GEMM,python3,CPU,thread 21587 (python3),"((768,), (5, 3072), (3072, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (3072, 1), (1, 3072), (), ())","('', '', '', '1', '1')",60,8.76400146484375,8.76400146484375,8.67236328125,8.67236328125,0.19430162370386625,0.19430162370386625,8.5439453125,8.5439453125,9.248046875,9.248046875,525.840087890625,525.840087890625,3102,"[{'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, __nv_bfloat16, float, __nv_bfloat16, true, true, false>(cublasLt::cublasSplitKParams<float>, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, float const*, float const*, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, void*, long, float*, int*)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(140.35000000000002), 'mean_duration_us': np.float64(2.339166666666667), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.037292164801142315), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.496)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(385.4959999999999), 'mean_duration_us': np.float64(6.424933333333332), 'median_duration_us': np.float64(6.336), 'std_dev_duration_us': np.float64(0.19279919317489072), 'min_duration_us': np.float64(6.239), 'max_duration_us': np.float64(6.912)}]","[{'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, _...', 'stream': 7, 'mean_duration_us': np.float64(2.34)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.42)}]",0.09278011449894948,99.11852100202404
 aten::copy_,elementwise,python3,CPU,thread 21587 (python3),"((1, 12, 5, 64), (1, 12, 5, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3840, 320, 64, 1), (3840, 64, 768, 1), ())","('', '', 'False')",180,2.5439561631944443,2.5439561631944443,2.464599609375,2.464599609375,0.22167454245319287,0.22167454245319287,2.239990234375,2.239990234375,3.23193359375,3.23193359375,457.912109375,457.912109375,3015,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 180, 'total_duration_us': np.float64(457.9199999999999), 'mean_duration_us': np.float64(2.5439999999999996), 'median_duration_us': np.float64(2.4645), 'std_dev_duration_us': np.float64(0.22104903930525865), 'min_duration_us': np.float64(2.24), 'max_duration_us': np.float64(3.232)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.54)}]",0.08079478707812955,99.19931578910217
 aten::native_layer_norm,NORM_fwd,python3,CPU,thread 21587 (python3),"((1, 5, 768), (), (768,), (768,), ())","('c10::BFloat16', 'ScalarList', 'c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3840, 768, 1), (), (1,), (1,), ())","('', '[768]', '', '', '1.0000000000000001e-05')",125,3.60912109375,3.60912109375,3.583984375,3.583984375,0.1614401127924182,0.1614401127924182,3.327880859375,3.327880859375,4.095947265625,4.095947265625,451.14013671875,451.14013671875,2983,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<c10::BFloat16, float>(int, float, c10::BFloat16 const*, c10::BFloat16 const*, c10::BFloat16 const*, float*, float*, c10::BFloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(451.14099999999996), 'mean_duration_us': np.float64(3.6091279999999997), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.16081094370719926), 'min_duration_us': np.float64(3.328), 'max_duration_us': np.float64(4.096)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(3.61)}]",0.07959992876873168,99.2789157178709
 aten::addmm,GEMM,python3,CPU,thread 21587 (python3),"((1024,), (5184, 1024), (1024, 1024), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (1024, 1), (1, 1024), (), ())","('', '', '', '1', '1')",20,21.5982177734375,21.5982177734375,21.7440185546875,21.7440185546875,0.4948575067787944,0.4948575067787944,20.7041015625,20.7041015625,22.239990234375,22.239990234375,431.96435546875,431.96435546875,4653,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 20, 'total_duration_us': np.float64(17.248), 'mean_duration_us': np.float64(0.8624), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.13365305832639968), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(1.248)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 20, 'total_duration_us': np.float64(414.7149999999999), 'mean_duration_us': np.float64(20.735749999999996), 'median_duration_us': np.float64(20.768), 'std_dev_duration_us': np.float64(0.42032010123238245), 'min_duration_us': np.float64(19.936), 'max_duration_us': np.float64(21.279)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.86)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(20.74)}]",0.07621652149159028,99.35513223936249
diff --git a/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/unified_perf_summary.csv b/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/unified_perf_summary.csv
index 9e9f8f55..2b25bfab 100644
--- a/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/unified_perf_summary.csv
+++ b/tests/traces/h100/google_owlv2-large-patch14-ensemble__1016001_perf_report_csvs/unified_perf_summary.csv
@@ -17,9 +17,9 @@ aten::add,elementwise,python3,CPU,thread 21587 (python3),"((1, 5185, 1024), (1,
 aten::copy_,elementwise,python3,CPU,thread 21587 (python3),"((1, 5185, 16, 64), (1, 5185, 16, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((5309440, 1024, 64, 1), (5309440, 64, 331840, 1), ())","('', '', 'False')",143,120,1354.8029999999999,11.290024999999998,1.3857915037287256,0.00530944,20.25390625,0.25,vector_bf16,1.360252899597523,0.016036729759886573,0.3400632248993808,0.004009182439971644,15.615273030598958,0.18619000389162943,1873.832763671875,11.096,10.51,21.59,1.3627939741822284,1.2962473730796167,1.391370338926121,0.34069849354555715,0.3240618432699042,0.3478425847315303,15.583984375,15.263916015625,16.384033203125,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 120, 'total_duration_us': np.float64(1873.8329999999999), 'mean_duration_us': np.float64(15.615274999999999), 'median_duration_us': np.float64(15.584), 'std_dev_duration_us': np.float64(0.1854254999768552), 'min_duration_us': np.float64(15.264), 'max_duration_us': np.float64(16.384)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(15.62)}]","{'op_shape': (1, 5185, 16, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (5309440, 1024, 64, 1), 'stride_output': (5309440, 64, 331840, 1)}",True,0.3306222221716982,98.05647340354452
 aten::copy_,other,python3,CPU,thread 21587 (python3),"((1, 3, 1008, 1008), (1, 3, 1008, 1008), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3048192, 1016064, 1008, 1), (3048192, 1016064, 1008, 1), ())","('', '', 'False')",38,5,2087.843,417.56859999999995,19.572307153220333,0.003048192,11.6279296875,0.25,vector_bf16,0.037495513635406354,0.0015161349549736524,0.009373878408851588,0.0003790337387434131,325.5904296875,12.710085512152338,1627.9521484375,422.057,384.266,431.807,0.03655991693240216,0.036482892684950884,0.03997772855227399,0.00913997923310054,0.009120723171237721,0.009994432138068497,333.5009765625,304.989013671875,334.205078125,"[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(1627.952), 'mean_duration_us': np.float64(325.5904), 'median_duration_us': np.float64(333.501), 'std_dev_duration_us': np.float64(11.368233417730304), 'min_duration_us': np.float64(304.989), 'max_duration_us': np.float64(334.205)}]","[{'name': 'Memcpy HtoD (Pageable -> Device)', 'stream': 7, 'mean_duration_us': np.float64(325.59)}]","{'op_shape': (1, 3, 1008, 1008), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (3048192, 1016064, 1008, 1), 'stride_output': (3048192, 1016064, 1008, 1)}",True,0.28723863054400445,98.34371203408853
 aten::addmm,GEMM,python3,CPU,thread 21587 (python3),"((768,), (5, 768), (768, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (768, 1), (1, 768), (), ())","('', '', '', '1', '1')",2995,240,6472.147,26.967279166666668,3.633627911660878,0.00590208,1.14111328125,4.932605905006419,matrix_bf16,0.1818424780903004,0.00362785334275486,0.896957281209216,0.017894770820969894,6.582722981770833,0.13143096002245483,1579.853515625,26.6205,22.661,43.221,0.18151343372467688,0.1715451250962548,0.18983786745167913,0.8953342350283321,0.8461644970248511,0.9363953859859782,6.592041015625,6.302978515625,6.97509765625,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 240, 'total_duration_us': np.float64(1579.851), 'mean_duration_us': np.float64(6.5827125), 'median_duration_us': np.float64(6.592), 'std_dev_duration_us': np.float64(0.13116311667951205), 'min_duration_us': np.float64(6.303), 'max_duration_us': np.float64(6.975)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.58)}]","{'M': 5, 'N': 768, 'K': 768, 'bias': True, 'stride_A': (768, 1), 'stride_B': (1, 768), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.2787520264178563,98.62246406050639
-aten::convolution,CONV_fwd,python3,CPU,thread 21587 (python3),"((1, 3, 1008, 1008), (1024, 3, 14, 14), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', '', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((3048192, 1016064, 1008, 1), (588, 196, 14, 1), (), (), (), (), (), (), ())","('', '', '', '[14, 14]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",41,5,1078.246,215.6492,6.658603622382093,6.242697216,17.08740234375,348.4145735105015,matrix_bf16,0.06632164244130441,0.00014383969044841932,23.107426765703053,0.05011584440146976,270.160791015625,0.5855776279305999,1350.803955078125,212.413,208.203,223.713,0.06627154167693837,0.06616942642815925,0.06650738410343965,23.089970929253912,23.054392488401614,23.172141867699036,270.364013671875,269.4052734375,270.78125,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(28.127000000000002), 'mean_duration_us': np.float64(5.625400000000001), 'median_duration_us': np.float64(5.664), 'std_dev_duration_us': np.float64(0.08941498755801505), 'min_duration_us': np.float64(5.503), 'max_duration_us': np.float64(5.728)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(222.207), 'mean_duration_us': np.float64(44.4414), 'median_duration_us': np.float64(44.384), 'std_dev_duration_us': np.float64(0.1792647204555328), 'min_duration_us': np.float64(44.224), 'max_duration_us': np.float64(44.768)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(10.85), 'mean_duration_us': np.float64(2.17), 'median_duration_us': np.float64(2.176), 'std_dev_duration_us': np.float64(0.013007690033207267), 'min_duration_us': np.float64(2.144), 'max_duration_us': np.float64(2.177)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(58.303000000000004), 'mean_duration_us': np.float64(11.6606), 'median_duration_us': np.float64(11.679), 'std_dev_duration_us': np.float64(0.15088485676170435), 'min_duration_us': np.float64(11.424), 'max_duration_us': np.float64(11.872)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(982.9660000000001), 'mean_duration_us': np.float64(196.59320000000002), 'median_duration_us': np.float64(196.542), 'std_dev_duration_us': np.float64(0.4292092263686784), 'min_duration_us': np.float64(195.966), 'max_duration_us': np.float64(197.245)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(48.35), 'mean_duration_us': np.float64(9.67), 'median_duration_us': np.float64(9.663), 'std_dev_duration_us': np.float64(0.0547539952880155), 'min_duration_us': np.float64(9.6), 'max_duration_us': np.float64(9.759)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(5.63)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(44.44)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.17)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.66)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(196.59)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.67)}]","{'convNd': 'conv2d', 'input_shape': (1, 3, 1008, 1008), 'filter_shape': (1024, 3, 14, 14), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (3048192, 1016064, 1008, 1), 'weight_stride': (588, 196, 14, 1), 'bias': False, 'stride': (14, 14), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.23833813454681016,98.8608021950532
+aten::convolution,CONV_fwd,python3,CPU,thread 21587 (python3),"((1, 3, 1008, 1008), (1024, 3, 14, 14), (), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', '', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((3048192, 1016064, 1008, 1), (588, 196, 14, 1), (), (), (), (), (), (), ())","('', '', '', '[14, 14]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",41,5,1078.246,215.6492,6.658603622382093,6.242697216,17.08740234375,348.4145735105015,matrix_bf16,0.06632164244130441,0.00014383969044841932,23.107426765703053,0.05011584440146976,270.160791015625,0.5855776279305999,1350.803955078125,212.413,208.203,223.713,0.06627154167693837,0.06616942642815925,0.06650738410343965,23.089970929253912,23.054392488401614,23.172141867699036,270.364013671875,269.4052734375,270.78125,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(10.85), 'mean_duration_us': np.float64(2.17), 'median_duration_us': np.float64(2.176), 'std_dev_duration_us': np.float64(0.013007690033207267), 'min_duration_us': np.float64(2.144), 'max_duration_us': np.float64(2.177)}, {'name': 'Memset (Device)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(28.127000000000002), 'mean_duration_us': np.float64(5.625400000000001), 'median_duration_us': np.float64(5.664), 'std_dev_duration_us': np.float64(0.08941498755801505), 'min_duration_us': np.float64(5.503), 'max_duration_us': np.float64(5.728)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16, __nv_bfloat16, float, true, false, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nhwc2nchw_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(48.35), 'mean_duration_us': np.float64(9.67), 'median_duration_us': np.float64(9.663), 'std_dev_duration_us': np.float64(0.0547539952880155), 'min_duration_us': np.float64(9.6), 'max_duration_us': np.float64(9.759)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(58.303000000000004), 'mean_duration_us': np.float64(11.6606), 'median_duration_us': np.float64(11.679), 'std_dev_duration_us': np.float64(0.15088485676170435), 'min_duration_us': np.float64(11.424), 'max_duration_us': np.float64(11.872)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16, __nv_bfloat16, float, false, true, (cudnnKernelDataType_t)0>(cudnn::engines_precompiled::nchw2nhwc_params_t<float>, __nv_bfloat16 const*, __nv_bfloat16*)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(222.207), 'mean_duration_us': np.float64(44.4414), 'median_duration_us': np.float64(44.384), 'std_dev_duration_us': np.float64(0.1792647204555328), 'min_duration_us': np.float64(44.224), 'max_duration_us': np.float64(44.768)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8>(cutlass_tensorop_bf16_s16816fprop_optimized_bf16_256x64_32x4_nhwc_align8::Params)', 'stream': 7, 'count': 5, 'total_duration_us': np.float64(982.9660000000001), 'mean_duration_us': np.float64(196.59320000000002), 'median_duration_us': np.float64(196.542), 'std_dev_duration_us': np.float64(0.4292092263686784), 'min_duration_us': np.float64(195.966), 'max_duration_us': np.float64(197.245)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(2.17)}, {'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(5.63)}, {'name': 'void cudnn::engines_precompiled::nhwcToNchwKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(9.67)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(11.66)}, {'name': 'void cudnn::engines_precompiled::nchwToNhwcKernel<__nv_bfloat16,...', 'stream': 7, 'mean_duration_us': np.float64(44.44)}, {'name': 'void cutlass__5x_cudnn::Kernel<cutlass_tensorop_bf16_s16816fprop...', 'stream': 7, 'mean_duration_us': np.float64(196.59)}]","{'convNd': 'conv2d', 'input_shape': (1, 3, 1008, 1008), 'filter_shape': (1024, 3, 14, 14), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (3048192, 1016064, 1008, 1), 'weight_stride': (588, 196, 14, 1), 'bias': False, 'stride': (14, 14), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.23833813454681016,98.8608021950532
 aten::mul,elementwise,python3,CPU,thread 21587 (python3),"((1, 5185, 1024), ())","('c10::BFloat16', 'double')","((5309440, 1024, 1), ())","('', '')",82,120,1794.134,14.951116666666667,2.4517743092677664,0.00530944,20.25391387939453,0.2499999058281454,vector_bf16,2.726478814123858,0.02384288391753981,0.6816194467733981,0.005960718734056364,7.790047200520833,0.06897178218854545,934.8056640625,14.39,13.64,27.43,2.73123697733124,2.644150209064106,2.754239416413374,0.6828089871271585,0.6610373032614975,0.6885595947315097,7.77587890625,7.7109375,8.031982421875,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<c10::BFloat16, c10::BFloat16, c10::BFloat16, at::native::binary_internal::MulFunctor<float> >, std::array<char*, 2ul>)', 'stream': 7, 'count': 120, 'total_duration_us': np.float64(934.809), 'mean_duration_us': np.float64(7.790075), 'median_duration_us': np.float64(7.776), 'std_dev_duration_us': np.float64(0.06863528763204346), 'min_duration_us': np.float64(7.711), 'max_duration_us': np.float64(8.032)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::AU...', 'stream': 7, 'mean_duration_us': np.float64(7.79)}]","{'shape_in1': (1, 5185, 1024), 'shape_in2': (), 'dtype_in1_in2_out': ('c10::BFloat16', 'double', None), 'stride_input1': (5309440, 1024, 1), 'stride_input2': (), 'stride_output': None}",True,0.16493869247189352,99.02574088752509
-aten::addmm,GEMM,python3,CPU,thread 21587 (python3),"((768,), (5, 3072), (3072, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (3072, 1), (1, 3072), (), ())","('', '', '', '1', '1')",3102,60,1877.59,31.293166666666664,3.028820457138705,0.0235968,4.5380859375,4.9588444157520986,matrix_bf16,0.543219529864628,0.011771522206847568,2.6937411321966906,0.05837314716032782,8.76400146484375,0.19430162370386625,525.840087890625,30.235500000000002,28.151,39.811,0.5487002632111675,0.514544104751848,0.5569473850725798,2.720919236146404,2.551544160506864,2.7618154303348956,8.67236328125,8.5439453125,9.248046875,"[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(385.4959999999999), 'mean_duration_us': np.float64(6.424933333333332), 'median_duration_us': np.float64(6.336), 'std_dev_duration_us': np.float64(0.19279919317489072), 'min_duration_us': np.float64(6.239), 'max_duration_us': np.float64(6.912)}, {'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, __nv_bfloat16, float, __nv_bfloat16, true, true, false>(cublasLt::cublasSplitKParams<float>, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, float const*, float const*, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, void*, long, float*, int*)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(140.35000000000002), 'mean_duration_us': np.float64(2.339166666666667), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.037292164801142315), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.496)}]","[{'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.42)}, {'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, _...', 'stream': 7, 'mean_duration_us': np.float64(2.34)}]","{'M': 5, 'N': 768, 'K': 3072, 'bias': True, 'stride_A': (3072, 1), 'stride_B': (1, 3072), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.09278011449894948,99.11852100202404
+aten::addmm,GEMM,python3,CPU,thread 21587 (python3),"((768,), (5, 3072), (3072, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (3072, 1), (1, 3072), (), ())","('', '', '', '1', '1')",3102,60,1877.59,31.293166666666664,3.028820457138705,0.0235968,4.5380859375,4.9588444157520986,matrix_bf16,0.543219529864628,0.011771522206847568,2.6937411321966906,0.05837314716032782,8.76400146484375,0.19430162370386625,525.840087890625,30.235500000000002,28.151,39.811,0.5487002632111675,0.514544104751848,0.5569473850725798,2.720919236146404,2.551544160506864,2.7618154303348956,8.67236328125,8.5439453125,9.248046875,"[{'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, __nv_bfloat16, float, __nv_bfloat16, true, true, false>(cublasLt::cublasSplitKParams<float>, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, float const*, float const*, __nv_bfloat16 const*, __nv_bfloat16 const*, __nv_bfloat16*, void*, long, float*, int*)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(140.35000000000002), 'mean_duration_us': np.float64(2.339166666666667), 'median_duration_us': np.float64(2.336), 'std_dev_duration_us': np.float64(0.037292164801142315), 'min_duration_us': np.float64(2.272), 'max_duration_us': np.float64(2.496)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8>(cutlass_80_tensorop_bf16_s16816gemm_relu_bf16_64x64_64x6_tn_align8::Params)', 'stream': 7, 'count': 60, 'total_duration_us': np.float64(385.4959999999999), 'mean_duration_us': np.float64(6.424933333333332), 'median_duration_us': np.float64(6.336), 'std_dev_duration_us': np.float64(0.19279919317489072), 'min_duration_us': np.float64(6.239), 'max_duration_us': np.float64(6.912)}]","[{'name': 'void cublasLt::splitKreduce_kernel<32, 16, int, __nv_bfloat16, _...', 'stream': 7, 'mean_duration_us': np.float64(2.34)}, {'name': 'void cutlass::Kernel2<cutlass_80_tensorop_bf16_s16816gemm_relu_b...', 'stream': 7, 'mean_duration_us': np.float64(6.42)}]","{'M': 5, 'N': 768, 'K': 3072, 'bias': True, 'stride_A': (3072, 1), 'stride_B': (1, 3072), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.09278011449894948,99.11852100202404
 aten::copy_,elementwise,python3,CPU,thread 21587 (python3),"((1, 12, 5, 64), (1, 12, 5, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((3840, 320, 64, 1), (3840, 64, 768, 1), ())","('', '', 'False')",3015,180,1673.505,9.29725,1.9971817626387331,3.84e-06,0.0146484375,0.24999999999999997,vector_bf16,0.006082624410221341,0.0005186494603179608,0.0015206561025553353,0.0001296623650794902,2.5439561631944443,0.22167454245319287,457.912109375,9.58,6.32,12.63,0.006233267475614272,0.004752572896207887,0.006857172752043596,0.001558316868903568,0.0011881432240519716,0.001714293188010899,2.464599609375,2.239990234375,3.23193359375,"[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int)#1})', 'stream': 7, 'count': 180, 'total_duration_us': np.float64(457.9199999999999), 'mean_duration_us': np.float64(2.5439999999999996), 'median_duration_us': np.float64(2.4645), 'std_dev_duration_us': np.float64(0.22104903930525865), 'min_duration_us': np.float64(2.24), 'max_duration_us': np.float64(3.232)}]","[{'name': 'void at::native::elementwise_kernel<128, 4, at::native::gpu_kern...', 'stream': 7, 'mean_duration_us': np.float64(2.54)}]","{'op_shape': (1, 12, 5, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (3840, 320, 64, 1), 'stride_output': (3840, 64, 768, 1)}",True,0.08079478707812955,99.19931578910217
 aten::layer_norm,NORM_fwd,python3,CPU,thread 21587 (python3),"((1, 5, 768), (), (768,), (768,), (), ())","('c10::BFloat16', 'ScalarList', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((3840, 768, 1), (), (1,), (1,), (), ())","('', '[768]', '', '', '1.0000000000000001e-05', 'True')",2982,125,3175.6730000000002,25.405384,2.3197281882763496,2.3808e-05,0.0234375,0.96875,vector_bf16,0.006822840126415809,0.00030302975427877585,0.006609626372465316,0.00029356007445756414,3.60912109375,0.1614401127924182,451.14013671875,24.67,22.72,35.53,0.006857172752043597,0.006000077248614175,0.00738487975937202,0.0066428861035422344,0.005812574834594981,0.007154102266891644,3.583984375,3.327880859375,4.095947265625,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<c10::BFloat16, float>(int, float, c10::BFloat16 const*, c10::BFloat16 const*, c10::BFloat16 const*, float*, float*, c10::BFloat16*)', 'stream': 7, 'count': 125, 'total_duration_us': np.float64(451.14099999999996), 'mean_duration_us': np.float64(3.6091279999999997), 'median_duration_us': np.float64(3.584), 'std_dev_duration_us': np.float64(0.16081094370719926), 'min_duration_us': np.float64(3.328), 'max_duration_us': np.float64(4.096)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 7, 'mean_duration_us': np.float64(3.61)}]","{'op_shape': (1, 5, 768), 'dtype_in_out': ('c10::BFloat16', None), 'stride_input': (3840, 768, 1), 'stride_output': None, 'num_channels': 768, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,0.07959992876873168,99.2789157178709
 aten::addmm,GEMM,python3,CPU,thread 21587 (python3),"((1024,), (5184, 1024), (1024, 1024), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (1024, 1), (1, 1024), (), ())","('', '', '', '1', '1')",4653,20,943.795,47.18975,8.063849262865133,10.876944384,22.251953125,466.1641358729044,matrix_bf16,1.0808561306902909,0.02489510390079241,503.85636416617047,11.605204597379057,21.5982177734375,0.4948575067787944,431.96435546875,44.596000000000004,38.921,66.401,1.0730756837665036,1.0491400290246446,1.1269681965945002,500.22939884923824,489.0714550399473,525.3521555217206,21.7440185546875,20.7041015625,22.239990234375,"[{'name': 'Memset (Device)', 'stream': 7, 'count': 20, 'total_duration_us': np.float64(17.248), 'mean_duration_us': np.float64(0.8624), 'median_duration_us': np.float64(0.8), 'std_dev_duration_us': np.float64(0.13365305832639968), 'min_duration_us': np.float64(0.768), 'max_duration_us': np.float64(1.248)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas', 'stream': 7, 'count': 20, 'total_duration_us': np.float64(414.7149999999999), 'mean_duration_us': np.float64(20.735749999999996), 'median_duration_us': np.float64(20.768), 'std_dev_duration_us': np.float64(0.42032010123238245), 'min_duration_us': np.float64(19.936), 'max_duration_us': np.float64(21.279)}]","[{'name': 'Memset (Device)', 'stream': 7, 'mean_duration_us': np.float64(0.86)}, {'name': 'sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize128x128x64_warp...', 'stream': 7, 'mean_duration_us': np.float64(20.74)}]","{'M': 5184, 'N': 1024, 'K': 1024, 'bias': True, 'stride_A': (1024, 1), 'stride_B': (1, 1024), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1}",True,0.07621652149159028,99.35513223936249
diff --git a/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/CONV_fwd.csv b/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/CONV_fwd.csv
index 9d2d5a49..236b5412 100644
--- a/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/CONV_fwd.csv
+++ b/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/CONV_fwd.csv
@@ -1,2 +1,2 @@
 name,param: convNd,param: input_shape,param: filter_shape,param: dtype_input_weight,param: input_stride,param: weight_stride,param: bias,param: stride,param: padding,param: dilation,param: transposed_conv,param: output_padding,param: groups,GFLOPS_first,Data Moved (MB)_first,FLOPS/Byte_first,TB/s_mean,TB/s_median,TB/s_std,TB/s_min,TB/s_max,TFLOPS/s_mean,TFLOPS/s_median,TFLOPS/s_std,TFLOPS/s_min,TFLOPS/s_max,process_name_first,process_label_first,thread_name_first,Compute Spec,kernel_details__summarize_kernel_stats,trunc_kernel_details,Input Dims_first,Input type_first,Input Strides_first,Concrete Inputs_first,Kernel Time (µs)_mean,Kernel Time (µs)_median,Kernel Time (µs)_std,Kernel Time (µs)_min,Kernel Time (µs)_max,Kernel Time (µs)_sum,name_count,UID_first
-aten::convolution,conv2d,"(4, 3, 224, 224)","(768, 3, 16, 16)","('c10::BFloat16', 'c10::BFloat16')","(150528, 50176, 224, 1)","(768, 256, 16, 1)",False,"(16, 16)","(0, 0)","(1, 1)",False,"(0, 0)",1,0.924844032,3.421875,257.75342465753425,0.06755118546096356,0.06755118546096356,,0.06755118546096356,0.06755118546096356,17.411549392239596,17.411549392239596,,17.411549392239596,17.411549392239596,python3,CPU,thread 950 (python3),matrix_bf16,"[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.008), 'mean_duration_us': np.float64(4.008), 'median_duration_us': np.float64(4.008), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.008), 'max_duration_us': np.float64(4.008)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.73), 'mean_duration_us': np.float64(4.73), 'median_duration_us': np.float64(4.73), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.73), 'max_duration_us': np.float64(4.73)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.768), 'mean_duration_us': np.float64(3.768), 'median_duration_us': np.float64(3.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.768), 'max_duration_us': np.float64(3.768)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2x2_ta1x1x4x1_1x16x1x16_tb1x1x4x1_1x16x1x16_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(30.108), 'mean_duration_us': np.float64(30.108), 'median_duration_us': np.float64(30.108), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.108), 'max_duration_us': np.float64(30.108)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.728), 'mean_duration_us': np.float64(3.728), 'median_duration_us': np.float64(3.728), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.728), 'max_duration_us': np.float64(3.728)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(6.775), 'mean_duration_us': np.float64(6.775), 'median_duration_us': np.float64(6.775), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.775), 'max_duration_us': np.float64(6.775)}]","[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(4.01)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.73)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(3.77)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(30.11)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(3.73)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(6.78)}]","[[4, 3, 224, 224], [768, 3, 16, 16], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[150528, 50176, 224, 1], [768, 256, 16, 1], [1], [], [], [], [], [], []]","['', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",53.11669921875,53.11669921875,,53.11669921875,53.11669921875,53.11669921875,1,2
+aten::convolution,conv2d,"(4, 3, 224, 224)","(768, 3, 16, 16)","('c10::BFloat16', 'c10::BFloat16')","(150528, 50176, 224, 1)","(768, 256, 16, 1)",False,"(16, 16)","(0, 0)","(1, 1)",False,"(0, 0)",1,0.924844032,3.421875,257.75342465753425,0.06755118546096356,0.06755118546096356,,0.06755118546096356,0.06755118546096356,17.411549392239596,17.411549392239596,,17.411549392239596,17.411549392239596,python3,CPU,thread 950 (python3),matrix_bf16,"[{'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.728), 'mean_duration_us': np.float64(3.728), 'median_duration_us': np.float64(3.728), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.728), 'max_duration_us': np.float64(3.728)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.768), 'mean_duration_us': np.float64(3.768), 'median_duration_us': np.float64(3.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.768), 'max_duration_us': np.float64(3.768)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.008), 'mean_duration_us': np.float64(4.008), 'median_duration_us': np.float64(4.008), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.008), 'max_duration_us': np.float64(4.008)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.73), 'mean_duration_us': np.float64(4.73), 'median_duration_us': np.float64(4.73), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.73), 'max_duration_us': np.float64(4.73)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(6.775), 'mean_duration_us': np.float64(6.775), 'median_duration_us': np.float64(6.775), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.775), 'max_duration_us': np.float64(6.775)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2x2_ta1x1x4x1_1x16x1x16_tb1x1x4x1_1x16x1x16_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(30.108), 'mean_duration_us': np.float64(30.108), 'median_duration_us': np.float64(30.108), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.108), 'max_duration_us': np.float64(30.108)}]","[{'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(3.73)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(3.77)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(4.01)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.73)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(6.78)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(30.11)}]","[[4, 3, 224, 224], [768, 3, 16, 16], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[150528, 50176, 224, 1], [768, 256, 16, 1], [1], [], [], [], [], [], []]","['', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",53.11669921875,53.11669921875,,53.11669921875,53.11669921875,53.11669921875,1,2
diff --git a/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/ops_unique_args.csv b/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/ops_unique_args.csv
index b090bade..27b5a62a 100644
--- a/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/ops_unique_args.csv
+++ b/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/ops_unique_args.csv
@@ -6,7 +6,7 @@ aten::addmm,GEMM,python3,CPU,thread 950 (python3),"((3072,), (788, 768), (768, 3
 aten::native_layer_norm,NORM_fwd,python3,CPU,thread 950 (python3),"((4, 197, 768), (), (768,), (768,), ())","('c10::BFloat16', 'ScalarList', 'c10::BFloat16', 'c10::BFloat16', 'Scalar')","((151296, 768, 1), (), (1,), (1,), ())","('', '[768]', '', '', '9.9999999999999998e-13')",25,5.5878125,5.5878125,5.73193359375,5.73193359375,0.44789382994639776,0.44789382994639776,4.81005859375,4.81005859375,6.29296875,6.29296875,139.6953125,139.6953125,21,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<c10::BFloat16, float>(int, float, c10::BFloat16 const*, c10::BFloat16 const*, c10::BFloat16 const*, float*, float*, c10::BFloat16*)', 'stream': 0, 'count': 25, 'total_duration_us': np.float64(139.695), 'mean_duration_us': np.float64(5.5878), 'median_duration_us': np.float64(5.732), 'std_dev_duration_us': np.float64(0.4388615271358382), 'min_duration_us': np.float64(4.81), 'max_duration_us': np.float64(6.293)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(5.59)}]",8.13933507445277,84.43817603514103
 aten::add,elementwise,python3,CPU,thread 950 (python3),"((4, 197, 768), (4, 197, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((151296, 768, 1), (151296, 768, 1), ())","('', '', '1')",24,4.948689778645833,4.948689778645833,4.32958984375,4.32958984375,1.7548571697006115,1.7548571697006115,1.8828125,1.8828125,8.337890625,8.337890625,118.7685546875,118.7685546875,103,"[{'name': 'void at::native::vectorized_elementwise_kernel<8, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 0, 'count': 24, 'total_duration_us': np.float64(118.77), 'mean_duration_us': np.float64(4.9487499999999995), 'median_duration_us': np.float64(4.3294999999999995), 'std_dev_duration_us': np.float64(1.7179397120291113), 'min_duration_us': np.float64(1.883), 'max_duration_us': np.float64(8.338)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<8, at::native::CU...', 'stream': 0, 'mean_duration_us': np.float64(4.95)}]",6.92003937433499,91.35821540947602
 aten::gelu,elementwise,python3,CPU,thread 950 (python3),"((4, 197, 3072), ())","('c10::BFloat16', '')","((605184, 3072, 1), ())","('', '')",12,5.471435546875,5.471435546875,5.15087890625,5.15087890625,0.6175145554608407,0.6175145554608407,5.0908203125,5.0908203125,6.69384765625,6.69384765625,65.6572265625,65.6572265625,120,"[{'name': 'void at::native::vectorized_elementwise_kernel<8, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(65.659), 'mean_duration_us': np.float64(5.471583333333334), 'median_duration_us': np.float64(5.151), 'std_dev_duration_us': np.float64(0.5912514211869223), 'min_duration_us': np.float64(5.091), 'max_duration_us': np.float64(6.694)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<8, at::native::Ge...', 'stream': 0, 'mean_duration_us': np.float64(5.47)}]",3.825512520697131,95.18372793017315
-aten::miopen_convolution,CONV_fwd,python3,CPU,thread 950 (python3),"((4, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[0, 0]', '[16, 16]', '[1, 1]', '1', 'False', 'False')",1,46.341796875,53.11669921875,46.341796875,53.11669921875,,,46.341796875,53.11669921875,46.341796875,53.11669921875,46.341796875,53.11669921875,4,"[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.008), 'mean_duration_us': np.float64(4.008), 'median_duration_us': np.float64(4.008), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.008), 'max_duration_us': np.float64(4.008)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.73), 'mean_duration_us': np.float64(4.73), 'median_duration_us': np.float64(4.73), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.73), 'max_duration_us': np.float64(4.73)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.768), 'mean_duration_us': np.float64(3.768), 'median_duration_us': np.float64(3.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.768), 'max_duration_us': np.float64(3.768)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2x2_ta1x1x4x1_1x16x1x16_tb1x1x4x1_1x16x1x16_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(30.108), 'mean_duration_us': np.float64(30.108), 'median_duration_us': np.float64(30.108), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.108), 'max_duration_us': np.float64(30.108)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.728), 'mean_duration_us': np.float64(3.728), 'median_duration_us': np.float64(3.728), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.728), 'max_duration_us': np.float64(3.728)}]","[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(4.01)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.73)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(3.77)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(30.11)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(3.73)}]",2.7001007118105935,97.88382864198374
+aten::miopen_convolution,CONV_fwd,python3,CPU,thread 950 (python3),"((4, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[0, 0]', '[16, 16]', '[1, 1]', '1', 'False', 'False')",1,46.341796875,53.11669921875,46.341796875,53.11669921875,,,46.341796875,53.11669921875,46.341796875,53.11669921875,46.341796875,53.11669921875,4,"[{'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.728), 'mean_duration_us': np.float64(3.728), 'median_duration_us': np.float64(3.728), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.728), 'max_duration_us': np.float64(3.728)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.768), 'mean_duration_us': np.float64(3.768), 'median_duration_us': np.float64(3.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.768), 'max_duration_us': np.float64(3.768)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.008), 'mean_duration_us': np.float64(4.008), 'median_duration_us': np.float64(4.008), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.008), 'max_duration_us': np.float64(4.008)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.73), 'mean_duration_us': np.float64(4.73), 'median_duration_us': np.float64(4.73), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.73), 'max_duration_us': np.float64(4.73)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2x2_ta1x1x4x1_1x16x1x16_tb1x1x4x1_1x16x1x16_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(30.108), 'mean_duration_us': np.float64(30.108), 'median_duration_us': np.float64(30.108), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.108), 'max_duration_us': np.float64(30.108)}]","[{'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(3.73)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(3.77)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(4.01)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.73)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(30.11)}]",2.7001007118105935,97.88382864198374
 aten::add,elementwise,python3,CPU,thread 950 (python3),"((4, 197, 768), (1, 197, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((151296, 768, 1), (151296, 768, 1), ())","('', '', '1')",1,11.26513671875,11.26513671875,11.26513671875,11.26513671875,,,11.26513671875,11.26513671875,11.26513671875,11.26513671875,11.26513671875,11.26513671875,18,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(11.265), 'mean_duration_us': np.float64(11.265), 'median_duration_us': np.float64(11.265), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(11.265), 'max_duration_us': np.float64(11.265)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(11.26)}]",0.6563621983624374,98.54019084034618
 aten::addmm,GEMM,python3,CPU,thread 950 (python3),"((768,), (4, 768), (768, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (151296, 1), (1, 768), (), ())","('', '', '', '1', '1')",1,7.4970703125,7.4970703125,7.4970703125,7.4970703125,,,7.4970703125,7.4970703125,7.4970703125,7.4970703125,7.4970703125,7.4970703125,1379,"[{'name': 'Cijk_Alik_Bljk_B_BS_BH_Bias_HA_S_SAV_UserArgs_MT16x16x256_MI16x16x1_SN_LDSB1_AFC1_AFEM1_AFEM1_ASEM1_CLR1_CADS0_DTVA0_DTVB0_EPS0_FDSI0_GRPM1_GRVWA8_GRVWB8_GSUAMBSK_GLS0_ISA942_IU1_K1_LBSPPA512_LBSPPB512_LBSPPM0_LPA16_LPB16_LPM0_LRVW8_LWPMn1_MIAV0_MIWT1_1_MO40_NTn1_NTA4_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR2_PLR1_PKA1_SIA3_SS1_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TLDS1_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG16_4_4', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(7.497), 'mean_duration_us': np.float64(7.497), 'median_duration_us': np.float64(7.497), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(7.497), 'max_duration_us': np.float64(7.497)}]","[{'name': 'Cijk_Alik_Bljk_B_BS_BH_Bias_HA_S_SAV_UserArgs_MT16x16x256_MI16x1...', 'stream': 0, 'mean_duration_us': np.float64(7.5)}]",0.4368161412013724,98.97700698154756
 aten::add_,elementwise,python3,CPU,thread 950 (python3),"((4, 768, 14, 14), (1, 768, 1, 1), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((150528, 196, 14, 1), (768, 1, 1, 1), ())","('', '', '1')",1,6.77490234375,6.77490234375,6.77490234375,6.77490234375,,,6.77490234375,6.77490234375,6.77490234375,6.77490234375,6.77490234375,6.77490234375,10,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(6.775), 'mean_duration_us': np.float64(6.775), 'median_duration_us': np.float64(6.775), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.775), 'max_duration_us': np.float64(6.775)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(6.78)}]",0.39473908813136915,99.37174606967893
diff --git a/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/unified_perf_summary.csv b/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/unified_perf_summary.csv
index 926c6292..fd8573e6 100644
--- a/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/unified_perf_summary.csv
+++ b/tests/traces/mi300/Falconsai_nsfw_image_detection__1016002_perf_report_csvs/unified_perf_summary.csv
@@ -6,7 +6,7 @@ aten::addmm,GEMM,python3,CPU,thread 950 (python3),"((3072,), (788, 768), (768, 3
 aten::layer_norm,NORM_fwd,python3,CPU,thread 950 (python3),"((4, 197, 768), (), (768,), (768,), (), ())","('c10::BFloat16', 'ScalarList', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((151296, 768, 1), (), (1,), (1,), (), ())","('', '[768]', '', '', '9.9999999999999998e-13', 'True')",20,25,485.565,19.4226,2.884497891025981,0.003030528,2.3173828125,1.2471554993678888,vector_bf16,0.43767330401512,0.036568856136053506,0.5458466680289707,0.04560705003567229,5.5878125,0.44789382994639776,139.6953125,18.877,16.125,30.304,0.42393233631484795,0.3861376238361266,0.5051813720434474,0.52870954459494,0.48157366108007454,0.6300397263222008,5.73193359375,4.81005859375,6.29296875,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<c10::BFloat16, float>(int, float, c10::BFloat16 const*, c10::BFloat16 const*, c10::BFloat16 const*, float*, float*, c10::BFloat16*)', 'stream': 0, 'count': 25, 'total_duration_us': np.float64(139.695), 'mean_duration_us': np.float64(5.5878), 'median_duration_us': np.float64(5.732), 'std_dev_duration_us': np.float64(0.4388615271358382), 'min_duration_us': np.float64(4.81), 'max_duration_us': np.float64(6.293)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(5.59)}]","{'op_shape': (4, 197, 768), 'dtype_in_out': ('c10::BFloat16', None), 'stride_input': (151296, 768, 1), 'stride_output': None, 'num_channels': 768, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,8.13933507445277,84.43817603514103
 aten::add,elementwise,python3,CPU,thread 950 (python3),"((4, 197, 768), (4, 197, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((151296, 768, 1), (151296, 768, 1), ())","('', '', '1')",103,24,224.133,9.338875,3.5580121625583363,0.000605184,3.462890625,0.16666666666666666,vector_bf16,0.8311945306366573,0.3209786288064482,0.13853242177277622,0.053496438134408034,4.948689778645833,1.7548571697006115,118.7685546875,8.318000000000001,7.195,24.378,0.8530199230967068,0.43549431904427266,1.9285531618257261,0.14216998718278448,0.07258238650737878,0.3214255269709544,4.32958984375,1.8828125,8.337890625,"[{'name': 'void at::native::vectorized_elementwise_kernel<8, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 0, 'count': 24, 'total_duration_us': np.float64(118.77), 'mean_duration_us': np.float64(4.9487499999999995), 'median_duration_us': np.float64(4.3294999999999995), 'std_dev_duration_us': np.float64(1.7179397120291113), 'min_duration_us': np.float64(1.883), 'max_duration_us': np.float64(8.338)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<8, at::native::CU...', 'stream': 0, 'mean_duration_us': np.float64(4.95)}]","{'shape_in1': (4, 197, 768), 'shape_in2': (4, 197, 768), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (151296, 768, 1), 'stride_input2': (151296, 768, 1), 'stride_output': None}",True,6.92003937433499,91.35821540947602
 aten::gelu,elementwise,python3,CPU,thread 950 (python3),"((4, 197, 3072), ())","('c10::BFloat16', '')","((605184, 3072, 1), ())","('', '')",120,12,98.416,8.201333333333332,0.9768653329849911,,,,,,,,,5.471435546875,0.6175145554608407,65.6572265625,7.827,7.002,10.77,,,,,,,5.15087890625,5.0908203125,6.69384765625,"[{'name': 'void at::native::vectorized_elementwise_kernel<8, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul> >(int, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#4}::operator()() const::{lambda(c10::BFloat16)#1}, std::array<char*, 2ul>)', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(65.659), 'mean_duration_us': np.float64(5.471583333333334), 'median_duration_us': np.float64(5.151), 'std_dev_duration_us': np.float64(0.5912514211869223), 'min_duration_us': np.float64(5.091), 'max_duration_us': np.float64(6.694)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<8, at::native::Ge...', 'stream': 0, 'mean_duration_us': np.float64(5.47)}]",,False,3.825512520697131,95.18372793017315
-aten::convolution,CONV_fwd,python3,CPU,thread 950 (python3),"((4, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",2,1,213.076,213.076,,0.924844032,3.421875,257.75342465753425,matrix_bf16,0.06755118546096356,,17.411549392239596,,53.11669921875,,53.11669921875,213.076,213.076,213.076,0.06755118546096356,0.06755118546096356,0.06755118546096356,17.411549392239596,17.411549392239596,17.411549392239596,53.11669921875,53.11669921875,53.11669921875,"[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.008), 'mean_duration_us': np.float64(4.008), 'median_duration_us': np.float64(4.008), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.008), 'max_duration_us': np.float64(4.008)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.73), 'mean_duration_us': np.float64(4.73), 'median_duration_us': np.float64(4.73), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.73), 'max_duration_us': np.float64(4.73)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.768), 'mean_duration_us': np.float64(3.768), 'median_duration_us': np.float64(3.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.768), 'max_duration_us': np.float64(3.768)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2x2_ta1x1x4x1_1x16x1x16_tb1x1x4x1_1x16x1x16_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(30.108), 'mean_duration_us': np.float64(30.108), 'median_duration_us': np.float64(30.108), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.108), 'max_duration_us': np.float64(30.108)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.728), 'mean_duration_us': np.float64(3.728), 'median_duration_us': np.float64(3.728), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.728), 'max_duration_us': np.float64(3.728)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(6.775), 'mean_duration_us': np.float64(6.775), 'median_duration_us': np.float64(6.775), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.775), 'max_duration_us': np.float64(6.775)}]","[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(4.01)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.73)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(3.77)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(30.11)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(3.73)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(6.78)}]","{'convNd': 'conv2d', 'input_shape': (4, 3, 224, 224), 'filter_shape': (768, 3, 16, 16), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (150528, 50176, 224, 1), 'weight_stride': (768, 256, 16, 1), 'bias': False, 'stride': (16, 16), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,3.094839799941963,98.27856773011511
+aten::convolution,CONV_fwd,python3,CPU,thread 950 (python3),"((4, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",2,1,213.076,213.076,,0.924844032,3.421875,257.75342465753425,matrix_bf16,0.06755118546096356,,17.411549392239596,,53.11669921875,,53.11669921875,213.076,213.076,213.076,0.06755118546096356,0.06755118546096356,0.06755118546096356,17.411549392239596,17.411549392239596,17.411549392239596,53.11669921875,53.11669921875,53.11669921875,"[{'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.728), 'mean_duration_us': np.float64(3.728), 'median_duration_us': np.float64(3.728), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.728), 'max_duration_us': np.float64(3.728)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(3.768), 'mean_duration_us': np.float64(3.768), 'median_duration_us': np.float64(3.768), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(3.768), 'max_duration_us': np.float64(3.768)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.008), 'mean_duration_us': np.float64(4.008), 'median_duration_us': np.float64(4.008), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.008), 'max_duration_us': np.float64(4.008)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.73), 'mean_duration_us': np.float64(4.73), 'median_duration_us': np.float64(4.73), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.73), 'max_duration_us': np.float64(4.73)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(6.775), 'mean_duration_us': np.float64(6.775), 'median_duration_us': np.float64(6.775), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.775), 'max_duration_us': np.float64(6.775)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2x2_ta1x1x4x1_1x16x1x16_tb1x1x4x1_1x16x1x16_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(30.108), 'mean_duration_us': np.float64(30.108), 'median_duration_us': np.float64(30.108), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.108), 'max_duration_us': np.float64(30.108)}]","[{'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(3.73)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(3.77)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(4.01)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.73)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(6.78)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt64x64x16_wt16x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(30.11)}]","{'convNd': 'conv2d', 'input_shape': (4, 3, 224, 224), 'filter_shape': (768, 3, 16, 16), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (150528, 50176, 224, 1), 'weight_stride': (768, 256, 16, 1), 'bias': False, 'stride': (16, 16), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,3.094839799941963,98.27856773011511
 aten::add,elementwise,python3,CPU,thread 950 (python3),"((4, 197, 768), (1, 197, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((151296, 768, 1), (151296, 768, 1), ())","('', '', '1')",18,1,9.647,9.647,,0.000605184,2.59716796875,0.2222222222222222,vector_bf16,0.24174833097828444,,0.05372185132850765,,11.26513671875,,11.26513671875,9.647,9.647,9.647,0.24174833097828444,0.24174833097828444,0.24174833097828444,0.05372185132850765,0.05372185132850765,0.05372185132850765,11.26513671875,11.26513671875,11.26513671875,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(11.265), 'mean_duration_us': np.float64(11.265), 'median_duration_us': np.float64(11.265), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(11.265), 'max_duration_us': np.float64(11.265)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(11.26)}]","{'shape_in1': (4, 197, 768), 'shape_in2': (1, 197, 768), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (151296, 768, 1), 'stride_input2': (151296, 768, 1), 'stride_output': None}",True,0.6563621983624374,98.93492992847756
 aten::addmm,GEMM,python3,CPU,thread 950 (python3),"((768,), (4, 768), (768, 768), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (151296, 1), (1, 768), (), ())","('', '', '', '1', '1')",1379,1,35.782,35.782,,0.004721664,1.13818359375,3.956241956241956,matrix_bf16,0.15919178429073857,,0.6298012161000391,,7.4970703125,,7.4970703125,35.782,35.782,35.782,0.15919178429073857,0.15919178429073857,0.15919178429073857,0.6298012161000391,0.6298012161000391,0.6298012161000391,7.4970703125,7.4970703125,7.4970703125,"[{'name': 'Cijk_Alik_Bljk_B_BS_BH_Bias_HA_S_SAV_UserArgs_MT16x16x256_MI16x16x1_SN_LDSB1_AFC1_AFEM1_AFEM1_ASEM1_CLR1_CADS0_DTVA0_DTVB0_EPS0_FDSI0_GRPM1_GRVWA8_GRVWB8_GSUAMBSK_GLS0_ISA942_IU1_K1_LBSPPA512_LBSPPB512_LBSPPM0_LPA16_LPB16_LPM0_LRVW8_LWPMn1_MIAV0_MIWT1_1_MO40_NTn1_NTA4_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR2_PLR1_PKA1_SIA3_SS1_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TLDS1_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG16_4_4', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(7.497), 'mean_duration_us': np.float64(7.497), 'median_duration_us': np.float64(7.497), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(7.497), 'max_duration_us': np.float64(7.497)}]","[{'name': 'Cijk_Alik_Bljk_B_BS_BH_Bias_HA_S_SAV_UserArgs_MT16x16x256_MI16x1...', 'stream': 0, 'mean_duration_us': np.float64(7.5)}]","{'M': 4, 'N': 768, 'K': 768, 'bias': True, 'stride_A': (151296, 1), 'stride_B': (1, 768), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1, 'transpose': (True, False)}",True,0.4368161412013724,99.37174606967893
 aten::cat,other,python3,CPU,thread 950 (python3),"(((4, 1, 768), (4, 196, 768)), ())","('TensorList', 'Scalar')","(((0, 768, 1), (150528, 1, 196)), ())","('', '1')",17,1,32.298,32.298,,,,,,,,,,6.77392578125,,6.77392578125,32.298,32.298,32.298,,,,,,,6.77392578125,6.77392578125,6.77392578125,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 3, 64, 64>(at::native::(anonymous namespace)::OpaqueType<2u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 64, 64>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(6.774), 'mean_duration_us': np.float64(6.774), 'median_duration_us': np.float64(6.774), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.774), 'max_duration_us': np.float64(6.774)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy<at::...', 'stream': 0, 'mean_duration_us': np.float64(6.77)}]",,False,0.3946821888033502,99.76642825848228
diff --git a/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/CONV_fwd.csv b/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/CONV_fwd.csv
index b7ac1a74..85ea16c4 100644
--- a/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/CONV_fwd.csv
+++ b/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/CONV_fwd.csv
@@ -1,2 +1,2 @@
 name,param: convNd,param: input_shape,param: filter_shape,param: dtype_input_weight,param: input_stride,param: weight_stride,param: bias,param: stride,param: padding,param: dilation,param: transposed_conv,param: output_padding,param: groups,GFLOPS_first,Data Moved (MB)_first,FLOPS/Byte_first,TB/s_mean,TB/s_median,TB/s_std,TB/s_min,TB/s_max,TFLOPS/s_mean,TFLOPS/s_median,TFLOPS/s_std,TFLOPS/s_min,TFLOPS/s_max,process_name_first,process_label_first,thread_name_first,Compute Spec,kernel_details__summarize_kernel_stats,trunc_kernel_details,Input Dims_first,Input type_first,Input Strides_first,Concrete Inputs_first,Kernel Time (µs)_mean,Kernel Time (µs)_median,Kernel Time (µs)_std,Kernel Time (µs)_min,Kernel Time (µs)_max,Kernel Time (µs)_sum,name_count,UID_first
-aten::convolution,conv2d,"(128, 3, 224, 224)","(768, 3, 16, 16)","('c10::BFloat16', 'c10::BFloat16')","(150528, 50176, 224, 1)","(768, 256, 16, 1)",False,"(16, 16)","(0, 0)","(1, 1)",False,"(0, 0)",1,29.595009024,74.625,378.2110552763819,0.20269837105132346,0.20269837105132346,,0.20269837105132346,0.20269837105132346,76.66276481812467,76.66276481812467,,76.66276481812467,76.66276481812467,python3,CPU,thread 13201 (python3),matrix_bf16,"[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(16.396), 'mean_duration_us': np.float64(16.396), 'median_duration_us': np.float64(16.396), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.396), 'max_duration_us': np.float64(16.396)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(33.917), 'mean_duration_us': np.float64(33.917), 'median_duration_us': np.float64(33.917), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(33.917), 'max_duration_us': np.float64(33.917)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.891), 'mean_duration_us': np.float64(4.891), 'median_duration_us': np.float64(4.891), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.891), 'max_duration_us': np.float64(4.891)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2x2_ta1x1x8x1_1x8x1x32_tb1x1x2x1_1x8x1x32_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(246.806), 'mean_duration_us': np.float64(246.806), 'median_duration_us': np.float64(246.806), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(246.806), 'max_duration_us': np.float64(246.806)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(32.032), 'mean_duration_us': np.float64(32.032), 'median_duration_us': np.float64(32.032), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.032), 'max_duration_us': np.float64(32.032)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(51.999), 'mean_duration_us': np.float64(51.999), 'median_duration_us': np.float64(51.999), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(51.999), 'max_duration_us': np.float64(51.999)}]","[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(16.4)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(33.92)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.89)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(246.81)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(32.03)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(52.0)}]","[[128, 3, 224, 224], [768, 3, 16, 16], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[150528, 50176, 224, 1], [768, 256, 16, 1], [1], [], [], [], [], [], []]","['', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",386.04150390625,386.04150390625,,386.04150390625,386.04150390625,386.04150390625,1,13
+aten::convolution,conv2d,"(128, 3, 224, 224)","(768, 3, 16, 16)","('c10::BFloat16', 'c10::BFloat16')","(150528, 50176, 224, 1)","(768, 256, 16, 1)",False,"(16, 16)","(0, 0)","(1, 1)",False,"(0, 0)",1,29.595009024,74.625,378.2110552763819,0.20269837105132346,0.20269837105132346,,0.20269837105132346,0.20269837105132346,76.66276481812467,76.66276481812467,,76.66276481812467,76.66276481812467,python3,CPU,thread 13201 (python3),matrix_bf16,"[{'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.891), 'mean_duration_us': np.float64(4.891), 'median_duration_us': np.float64(4.891), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.891), 'max_duration_us': np.float64(4.891)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(16.396), 'mean_duration_us': np.float64(16.396), 'median_duration_us': np.float64(16.396), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.396), 'max_duration_us': np.float64(16.396)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(32.032), 'mean_duration_us': np.float64(32.032), 'median_duration_us': np.float64(32.032), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.032), 'max_duration_us': np.float64(32.032)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(33.917), 'mean_duration_us': np.float64(33.917), 'median_duration_us': np.float64(33.917), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(33.917), 'max_duration_us': np.float64(33.917)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(51.999), 'mean_duration_us': np.float64(51.999), 'median_duration_us': np.float64(51.999), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(51.999), 'max_duration_us': np.float64(51.999)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2x2_ta1x1x8x1_1x8x1x32_tb1x1x2x1_1x8x1x32_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(246.806), 'mean_duration_us': np.float64(246.806), 'median_duration_us': np.float64(246.806), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(246.806), 'max_duration_us': np.float64(246.806)}]","[{'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.89)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(16.4)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(32.03)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(33.92)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(52.0)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(246.81)}]","[[128, 3, 224, 224], [768, 3, 16, 16], [768], [], [], [], [], [], []]","['c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar']","[[150528, 50176, 224, 1], [768, 256, 16, 1], [1], [], [], [], [], [], []]","['', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1']",386.04150390625,386.04150390625,,386.04150390625,386.04150390625,386.04150390625,1,13
diff --git a/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/ops_unique_args.csv b/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/ops_unique_args.csv
index 70fa433c..aa9d05b8 100644
--- a/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/ops_unique_args.csv
+++ b/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/ops_unique_args.csv
@@ -27,7 +27,7 @@ aten::copy_,elementwise,python3,CPU,thread 13201 (python3),"((1, 224, 14, 8, 768
 aten::cat,other,python3,CPU,thread 13201 (python3),"(((1, 1, 768), (1, 25088, 768)), ())","('TensorList', 'Scalar')","(((768, 768, 1), (19267584, 768, 1)), ())","('', '1')",12,32.169718424479164,32.169718424479164,32.133056640625,32.133056640625,0.7833570733921624,0.7833570733921624,30.91015625,30.91015625,34.1171875,34.1171875,386.03662109375,386.03662109375,330,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_contig<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 3, 128, 1>(at::native::(anonymous namespace)::OpaqueType<2u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(386.03600000000006), 'mean_duration_us': np.float64(32.16966666666667), 'median_duration_us': np.float64(32.132999999999996), 'std_dev_duration_us': np.float64(0.7500032592521766), 'min_duration_us': np.float64(30.91), 'max_duration_us': np.float64(34.117)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_cont...', 'stream': 0, 'mean_duration_us': np.float64(32.17)}]",0.32209204844118916,98.22560465300899
 aten::copy_,elementwise,python3,CPU,thread 13201 (python3),"((8, 3137, 12, 64), (8, 3137, 12, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2409216, 768, 64, 1), (2409216, 64, 200768, 1), ())","('', '', 'False')",12,30.021280924479168,30.021280924479168,30.02783203125,30.02783203125,0.3071000383842391,0.3071000383842391,29.466796875,29.466796875,30.46923828125,30.46923828125,360.25537109375,360.25537109375,292,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(360.25499999999994), 'mean_duration_us': np.float64(30.021249999999995), 'median_duration_us': np.float64(30.028), 'std_dev_duration_us': np.float64(0.29395269602437757), 'min_duration_us': np.float64(29.467), 'max_duration_us': np.float64(30.469)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(30.02)}]",0.3005813026462772,98.52618595565527
 aten::copy_,elementwise,python3,CPU,thread 13201 (python3),"((3136, 8, 12, 64), (3136, 8, 12, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6144, 768, 64, 1), (6144, 64, 512, 1), ())","('', '', 'False')",12,29.9744873046875,29.9744873046875,29.48681640625,29.48681640625,1.4140929885098872,1.4140929885098872,29.02490234375,29.02490234375,34.0771484375,34.0771484375,359.69384765625,359.69384765625,154,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(359.694), 'mean_duration_us': np.float64(29.974500000000003), 'median_duration_us': np.float64(29.487000000000002), 'std_dev_duration_us': np.float64(1.353853789496241), 'min_duration_us': np.float64(29.025), 'max_duration_us': np.float64(34.077)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(29.97)}]",0.30011279208445624,98.82629874773973
-aten::miopen_convolution,CONV_fwd,python3,CPU,thread 13201 (python3),"((128, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[0, 0]', '[16, 16]', '[1, 1]', '1', 'False', 'False')",1,334.04248046875,386.04150390625,334.04248046875,386.04150390625,,,334.04248046875,386.04150390625,334.04248046875,386.04150390625,334.04248046875,386.04150390625,15,"[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(16.396), 'mean_duration_us': np.float64(16.396), 'median_duration_us': np.float64(16.396), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.396), 'max_duration_us': np.float64(16.396)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(33.917), 'mean_duration_us': np.float64(33.917), 'median_duration_us': np.float64(33.917), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(33.917), 'max_duration_us': np.float64(33.917)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.891), 'mean_duration_us': np.float64(4.891), 'median_duration_us': np.float64(4.891), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.891), 'max_duration_us': np.float64(4.891)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2x2_ta1x1x8x1_1x8x1x32_tb1x1x2x1_1x8x1x32_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(246.806), 'mean_duration_us': np.float64(246.806), 'median_duration_us': np.float64(246.806), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(246.806), 'max_duration_us': np.float64(246.806)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(32.032), 'mean_duration_us': np.float64(32.032), 'median_duration_us': np.float64(32.032), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.032), 'max_duration_us': np.float64(32.032)}]","[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(16.4)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(33.92)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.89)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(246.81)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(32.03)}]",0.2787104148194959,99.10500916255923
+aten::miopen_convolution,CONV_fwd,python3,CPU,thread 13201 (python3),"((128, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'Scalar', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[0, 0]', '[16, 16]', '[1, 1]', '1', 'False', 'False')",1,334.04248046875,386.04150390625,334.04248046875,386.04150390625,,,334.04248046875,386.04150390625,334.04248046875,386.04150390625,334.04248046875,386.04150390625,15,"[{'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.891), 'mean_duration_us': np.float64(4.891), 'median_duration_us': np.float64(4.891), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.891), 'max_duration_us': np.float64(4.891)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(16.396), 'mean_duration_us': np.float64(16.396), 'median_duration_us': np.float64(16.396), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.396), 'max_duration_us': np.float64(16.396)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(32.032), 'mean_duration_us': np.float64(32.032), 'median_duration_us': np.float64(32.032), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.032), 'max_duration_us': np.float64(32.032)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(33.917), 'mean_duration_us': np.float64(33.917), 'median_duration_us': np.float64(33.917), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(33.917), 'max_duration_us': np.float64(33.917)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2x2_ta1x1x8x1_1x8x1x32_tb1x1x2x1_1x8x1x32_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(246.806), 'mean_duration_us': np.float64(246.806), 'median_duration_us': np.float64(246.806), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(246.806), 'max_duration_us': np.float64(246.806)}]","[{'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.89)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(16.4)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(32.03)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(33.92)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(246.81)}]",0.2787104148194959,99.10500916255923
 aten::add,elementwise,python3,CPU,thread 13201 (python3),"((1, 25088, 768), (1, 25088, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19268352, 768, 1), (19267584, 768, 1), ())","('', '', '1')",12,27.421956380208332,27.421956380208332,27.141357421875,27.141357421875,1.6215607966485697,1.6215607966485697,24.97607421875,24.97607421875,30.669921875,30.669921875,329.0634765625,329.0634765625,185,"[{'name': 'void at::native::vectorized_elementwise_kernel<8, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<c10::BFloat16>, std::array<char*, 3ul>)', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(329.064), 'mean_duration_us': np.float64(27.422), 'median_duration_us': np.float64(27.1415), 'std_dev_duration_us': np.float64(1.5525699125428567), 'min_duration_us': np.float64(24.976), 'max_duration_us': np.float64(30.67)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<8, at::native::CU...', 'stream': 0, 'mean_duration_us': np.float64(27.42)}]",0.2745561520378535,99.37956531459709
 aten::_softmax,other,python3,CPU,thread 13201 (python3),"((3136, 12, 8, 8), (), ())","('c10::BFloat16', 'Scalar', 'Scalar')","((768, 64, 8, 1), (), ())","('', '-1', 'False')",12,11.16455078125,11.16455078125,11.28515625,11.28515625,0.745767673736285,0.745767673736285,9.33984375,9.33984375,12.22705078125,12.22705078125,133.974609375,133.974609375,130,"[{'name': 'void (anonymous namespace)::softmax_warp_forward<c10::BFloat16, c10::BFloat16, float, 3, false, false>(c10::BFloat16*, c10::BFloat16 const*, int, int, int, bool const*, int, bool)', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(133.97400000000002), 'mean_duration_us': np.float64(11.164500000000002), 'median_duration_us': np.float64(11.285), 'std_dev_duration_us': np.float64(0.7139774156092054), 'min_duration_us': np.float64(9.34), 'max_duration_us': np.float64(12.227)}]","[{'name': 'void (anonymous namespace)::softmax_warp_forward<c10::BFloat16, ...', 'stream': 0, 'mean_duration_us': np.float64(11.16)}]",0.11178254604560504,99.49134786064269
 aten::add,elementwise,python3,CPU,thread 13201 (python3),"((196, 128, 768), (1, 128, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((768, 151296, 1), (98304, 1, 128), ())","('', '', '1')",1,121.7587890625,121.7587890625,121.7587890625,121.7587890625,,,121.7587890625,121.7587890625,121.7587890625,121.7587890625,121.7587890625,121.7587890625,60,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(121.759), 'mean_duration_us': np.float64(121.759), 'median_duration_us': np.float64(121.759), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(121.759), 'max_duration_us': np.float64(121.759)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(121.76)}]",0.10159020062331134,99.592938061266
diff --git a/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/unified_perf_summary.csv b/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/unified_perf_summary.csv
index 01de91ce..5ab2c9d9 100644
--- a/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/unified_perf_summary.csv
+++ b/tests/traces/mi300/facebook_timesformer-base-finetuned-k400__1016002_perf_report_csvs/unified_perf_summary.csv
@@ -24,7 +24,7 @@ aten::cat,other,python3,CPU,thread 13201 (python3),"(((8, 1, 768), (8, 3136, 768
 aten::copy_,elementwise,python3,CPU,thread 13201 (python3),"((3136, 12, 64, 8), (3136, 12, 64, 8), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6144, 512, 8, 1), (18432, 64, 1, 2304), ())","('', '', 'False')",123,12,71.393,5.949416666666667,0.5325083795044208,0.019267584,73.5,0.25,vector_bf16,1.9168374154508436,0.13314244229677635,0.4792093538627109,0.03328561057419409,40.358683268229164,2.3855080875395966,484.30419921875,5.9425,5.078,6.729,1.8791224665953146,1.8152967007245544,2.327269147592227,0.46978061664882864,0.4538241751811386,0.5818172868980568,41.01416015625,33.1162109375,42.4560546875,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(484.30300000000005), 'mean_duration_us': np.float64(40.358583333333335), 'median_duration_us': np.float64(41.013999999999996), 'std_dev_duration_us': np.float64(2.2839961127496595), 'min_duration_us': np.float64(33.116), 'max_duration_us': np.float64(42.456)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(40.36)}]","{'op_shape': (3136, 12, 64, 8), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (6144, 512, 8, 1), 'stride_output': (18432, 64, 1, 2304)}",True,0.4040822115608411,97.15997900974908
 aten::cat,other,python3,CPU,thread 13201 (python3),"(((1, 1, 768), (1, 25088, 768)), ())","('TensorList', 'Scalar')","(((19268352, 768, 1), (19267584, 768, 1)), ())","('', '1')",329,12,152.838,12.7365,1.1170677117915784,,,,,,,,,38.2535400390625,0.9986952185985268,459.04248046875,12.2975,11.382,15.095,,,,,,,38.1669921875,37.083984375,39.64990234375,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_contig<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 3, 128, 1>(at::native::(anonymous namespace)::OpaqueType<2u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(459.0420000000001), 'mean_duration_us': np.float64(38.25350000000001), 'median_duration_us': np.float64(38.167), 'std_dev_duration_us': np.float64(0.9562089642611244), 'min_duration_us': np.float64(37.084), 'max_duration_us': np.float64(39.65)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_cont...', 'stream': 0, 'mean_duration_us': np.float64(38.25)}]",,False,0.3830049398857357,97.54298394963482
 aten::copy_,elementwise,python3,CPU,thread 13201 (python3),"((1, 224, 14, 8, 768), (1, 224, 14, 8, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19267584, 86016, 6144, 768, 1), (19273728, 10752, 768, 2409216, 1), ())","('', '', 'False')",327,12,89.133,7.42775,1.0477442544472737,0.019267584,73.5,0.25,vector_bf16,2.141015223109931,0.03972926180663784,0.5352538057774827,0.00993231545165946,36.0086669921875,0.6802631081377949,432.10400390625,7.178,6.16,9.816,2.144365618848129,2.0494182859368713,2.186998394502023,0.5360914047120322,0.5123545714842178,0.5467495986255058,35.94140625,35.240234375,37.60595703125,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(432.103), 'mean_duration_us': np.float64(36.008583333333334), 'median_duration_us': np.float64(35.941500000000005), 'std_dev_duration_us': np.float64(0.6513263977368714), 'min_duration_us': np.float64(35.24), 'max_duration_us': np.float64(37.606)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(36.01)}]","{'op_shape': (1, 224, 14, 8, 768), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (19267584, 86016, 6144, 768, 1), 'stride_output': (19273728, 10752, 768, 2409216, 1)}",True,0.36052865493298397,97.9035126045678
-aten::convolution,CONV_fwd,python3,CPU,thread 13201 (python3),"((128, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",13,1,309.815,309.815,,29.595009024,74.625,378.2110552763819,matrix_bf16,0.20269837105132346,,76.66276481812467,,386.04150390625,,386.04150390625,309.815,309.815,309.815,0.20269837105132346,0.20269837105132346,0.20269837105132346,76.66276481812467,76.66276481812467,76.66276481812467,386.04150390625,386.04150390625,386.04150390625,"[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(16.396), 'mean_duration_us': np.float64(16.396), 'median_duration_us': np.float64(16.396), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.396), 'max_duration_us': np.float64(16.396)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(33.917), 'mean_duration_us': np.float64(33.917), 'median_duration_us': np.float64(33.917), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(33.917), 'max_duration_us': np.float64(33.917)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.891), 'mean_duration_us': np.float64(4.891), 'median_duration_us': np.float64(4.891), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.891), 'max_duration_us': np.float64(4.891)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2x2_ta1x1x8x1_1x8x1x32_tb1x1x2x1_1x8x1x32_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(246.806), 'mean_duration_us': np.float64(246.806), 'median_duration_us': np.float64(246.806), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(246.806), 'max_duration_us': np.float64(246.806)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(32.032), 'mean_duration_us': np.float64(32.032), 'median_duration_us': np.float64(32.032), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.032), 'max_duration_us': np.float64(32.032)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(51.999), 'mean_duration_us': np.float64(51.999), 'median_duration_us': np.float64(51.999), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(51.999), 'max_duration_us': np.float64(51.999)}]","[{'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(16.4)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(33.92)}, {'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.89)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(246.81)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(32.03)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(52.0)}]","{'convNd': 'conv2d', 'input_shape': (128, 3, 224, 224), 'filter_shape': (768, 3, 16, 16), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (150528, 50176, 224, 1), 'weight_stride': (768, 256, 16, 1), 'bias': False, 'stride': (16, 16), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.32209612244607455,98.22560872701386
+aten::convolution,CONV_fwd,python3,CPU,thread 13201 (python3),"((128, 3, 224, 224), (768, 3, 16, 16), (768,), (), (), (), (), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'ScalarList', 'ScalarList', 'ScalarList', 'Scalar', 'ScalarList', 'Scalar')","((150528, 50176, 224, 1), (768, 256, 16, 1), (1,), (), (), (), (), (), ())","('', '', '', '[16, 16]', '[0, 0]', '[1, 1]', 'False', '[0, 0]', '1')",13,1,309.815,309.815,,29.595009024,74.625,378.2110552763819,matrix_bf16,0.20269837105132346,,76.66276481812467,,386.04150390625,,386.04150390625,309.815,309.815,309.815,0.20269837105132346,0.20269837105132346,0.20269837105132346,76.66276481812467,76.66276481812467,76.66276481812467,386.04150390625,386.04150390625,386.04150390625,"[{'name': 'batched_transpose_128x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.891), 'mean_duration_us': np.float64(4.891), 'median_duration_us': np.float64(4.891), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.891), 'max_duration_us': np.float64(4.891)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(16.396), 'mean_duration_us': np.float64(16.396), 'median_duration_us': np.float64(16.396), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(16.396), 'max_duration_us': np.float64(16.396)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(32.032), 'mean_duration_us': np.float64(32.032), 'median_duration_us': np.float64(32.032), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(32.032), 'max_duration_us': np.float64(32.032)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(33.917), 'mean_duration_us': np.float64(33.917), 'median_duration_us': np.float64(33.917), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(33.917), 'max_duration_us': np.float64(33.917)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(51.999), 'mean_duration_us': np.float64(51.999), 'median_duration_us': np.float64(51.999), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(51.999), 'max_duration_us': np.float64(51.999)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2x2_ta1x1x8x1_1x8x1x32_tb1x1x2x1_1x8x1x32_me', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(246.806), 'mean_duration_us': np.float64(246.806), 'median_duration_us': np.float64(246.806), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(246.806), 'max_duration_us': np.float64(246.806)}]","[{'name': 'batched_transpose_128x4_half', 'stream': 0, 'mean_duration_us': np.float64(4.89)}, {'name': 'SubTensorOpWithScalar1d', 'stream': 0, 'mean_duration_us': np.float64(16.4)}, {'name': 'batched_transpose_32x16_half', 'stream': 0, 'mean_duration_us': np.float64(32.03)}, {'name': 'batched_transpose_256x4_half', 'stream': 0, 'mean_duration_us': np.float64(33.92)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(52.0)}, {'name': 'igemm_fwd_gtcx3_nhwc_bf16_bx0_ex1_bt256x64x8_wt64x16x4_ws1x1_wr2...', 'stream': 0, 'mean_duration_us': np.float64(246.81)}]","{'convNd': 'conv2d', 'input_shape': (128, 3, 224, 224), 'filter_shape': (768, 3, 16, 16), 'dtype_input_weight': ('c10::BFloat16', 'c10::BFloat16'), 'input_stride': (150528, 50176, 224, 1), 'weight_stride': (768, 256, 16, 1), 'bias': False, 'stride': (16, 16), 'padding': (0, 0), 'dilation': (1, 1), 'transposed_conv': False, 'output_padding': (0, 0), 'groups': 1}",True,0.32209612244607455,98.22560872701386
 aten::cat,other,python3,CPU,thread 13201 (python3),"(((1, 1, 768), (1, 25088, 768)), ())","('TensorList', 'Scalar')","(((768, 768, 1), (19267584, 768, 1)), ())","('', '1')",330,12,101.775,8.481250000000001,0.538098018276157,,,,,,,,,32.169718424479164,0.7833570733921624,386.03662109375,8.453,7.555,9.435,,,,,,,32.133056640625,30.91015625,34.1171875,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_contig<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 3, 128, 1>(at::native::(anonymous namespace)::OpaqueType<2u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(386.03600000000006), 'mean_duration_us': np.float64(32.16966666666667), 'median_duration_us': np.float64(32.132999999999996), 'std_dev_duration_us': np.float64(0.7500032592521766), 'min_duration_us': np.float64(30.91), 'max_duration_us': np.float64(34.117)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_cont...', 'stream': 0, 'mean_duration_us': np.float64(32.17)}]",,False,0.32209204844118916,98.54770077545506
 aten::copy_,elementwise,python3,CPU,thread 13201 (python3),"((8, 3137, 12, 64), (8, 3137, 12, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((2409216, 768, 64, 1), (2409216, 64, 200768, 1), ())","('', '', 'False')",292,12,74.065,6.172083333333333,0.6741768662374117,0.019273728,73.5234375,0.25,vector_bf16,2.5682554268127418,0.026308369547828548,0.6420638567031854,0.006577092386957137,30.021280924479168,0.3071000383842391,360.25537109375,6.125,5.355,7.46,2.5674530545863115,2.53025399875002,2.6163316062835555,0.6418632636465779,0.632563499687505,0.6540829015708889,30.02783203125,29.466796875,30.46923828125,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(360.25499999999994), 'mean_duration_us': np.float64(30.021249999999995), 'median_duration_us': np.float64(30.028), 'std_dev_duration_us': np.float64(0.29395269602437757), 'min_duration_us': np.float64(29.467), 'max_duration_us': np.float64(30.469)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(30.02)}]","{'op_shape': (8, 3137, 12, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (2409216, 768, 64, 1), 'stride_output': (2409216, 64, 200768, 1)}",True,0.3005813026462772,98.84828207810133
 aten::copy_,elementwise,python3,CPU,thread 13201 (python3),"((3136, 8, 12, 64), (3136, 8, 12, 64), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((6144, 768, 64, 1), (6144, 64, 512, 1), ())","('', '', 'False')",154,12,75.425,6.285416666666666,0.8643087051966951,0.019267584,73.5,0.25,vector_bf16,2.5759662885795307,0.11035649940536672,0.6439915721448827,0.02758912485134168,29.9744873046875,1.4140929885098872,359.69384765625,6.0275,5.571,8.242,2.613723043668635,2.261642758676028,2.6553176678162274,0.6534307609171588,0.565410689669007,0.6638294169540568,29.48681640625,29.02490234375,34.0771484375,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(359.694), 'mean_duration_us': np.float64(29.974500000000003), 'median_duration_us': np.float64(29.487000000000002), 'std_dev_duration_us': np.float64(1.353853789496241), 'min_duration_us': np.float64(29.025), 'max_duration_us': np.float64(34.077)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(29.97)}]","{'op_shape': (3136, 8, 12, 64), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (6144, 768, 64, 1), 'stride_output': (6144, 64, 512, 1)}",True,0.30011279208445624,99.1483948701858
@@ -38,6 +38,6 @@ aten::copy_,elementwise,python3,CPU,thread 13201 (python3),"((1, 8, 1, 1, 1, 768
 aten::copy_,elementwise,python3,CPU,thread 13201 (python3),"((1, 196, 128, 768), (1, 196, 128, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((19267584, 98304, 768, 1), (150528, 768, 150528, 1), ())","('', '', 'False')",67,1,10.19,10.19,,0.019267584,73.5,0.25,vector_bf16,2.486923301947438,,0.6217308254868595,,30.990234375,,30.990234375,10.19,10.19,10.19,2.486923301947438,2.486923301947438,2.486923301947438,0.6217308254868595,0.6217308254868595,0.6217308254868595,30.990234375,30.990234375,30.990234375,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(30.99), 'mean_duration_us': np.float64(30.99), 'median_duration_us': np.float64(30.99), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.99), 'max_duration_us': np.float64(30.99)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(30.99)}]","{'op_shape': (1, 196, 128, 768), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (19267584, 98304, 768, 1), 'stride_output': (150528, 768, 150528, 1)}",True,0.025856894206656683,99.92965660204673
 aten::cat,other,python3,CPU,thread 13201 (python3),"(((1, 1, 768), (1, 25088, 768)), ())","('TensorList', 'Scalar')","(((151296, 768, 1), (19267584, 768, 1)), ())","('', '1')",69,1,20.073,20.073,,,,,,,,,,30.34912109375,,30.34912109375,20.073,20.073,20.073,,,,,,,30.34912109375,30.34912109375,30.34912109375,"[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_contig<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 3, 128, 1>(at::native::(anonymous namespace)::OpaqueType<2u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<2u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(30.349), 'mean_duration_us': np.float64(30.349), 'median_duration_us': np.float64(30.349), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(30.349), 'max_duration_us': np.float64(30.349)}]","[{'name': 'void at::native::(anonymous namespace)::CatArrayBatchedCopy_cont...', 'stream': 0, 'mean_duration_us': np.float64(30.35)}]",,False,0.025321977365203665,99.95497857941194
 aten::add,elementwise,python3,CPU,thread 13201 (python3),"((128, 197, 768), (1, 197, 768), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((151296, 768, 1), (151296, 768, 1), ())","('', '', '1')",29,1,14.066,14.066,,0.019365888,74.16357421875,0.2490272373540856,vector_bf16,2.6106458858472936,,0.6501219326623612,,29.7880859375,,29.7880859375,14.066,14.066,14.066,2.6106458858472936,2.6106458858472936,2.6106458858472936,0.6501219326623612,0.6501219326623612,0.6501219326623612,29.7880859375,29.7880859375,29.7880859375,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<c10::BFloat16> >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<c10::BFloat16> const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(29.788), 'mean_duration_us': np.float64(29.788), 'median_duration_us': np.float64(29.788), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(29.788), 'max_duration_us': np.float64(29.788)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(29.79)}]","{'shape_in1': (128, 197, 768), 'shape_in2': (1, 197, 768), 'dtype_in1_in2_out': ('c10::BFloat16', 'c10::BFloat16', None), 'stride_input1': (151296, 768, 1), 'stride_input2': (151296, 768, 1), 'stride_output': None}",True,0.024853874203871206,99.97983245361581
-aten::upsample_nearest1d,other,python3,CPU,thread 13201 (python3),"((1, 768, 8), (), ())","('c10::BFloat16', 'ScalarList', '')","((6144, 1, 768), (), ())","('', '[128]', '')",52,1,88.773,88.773,,,,,,,,,,10.7021484375,,10.7021484375,88.773,88.773,88.773,,,,,,,10.7021484375,10.7021484375,10.7021484375,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(6.494), 'mean_duration_us': np.float64(6.494), 'median_duration_us': np.float64(6.494), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.494), 'max_duration_us': np.float64(6.494)}, {'name': 'void at::native::(anonymous namespace)::upsample_nearest1d_out_frame<c10::BFloat16, &at::native::nearest_neighbor_compute_source_index>(c10::BFloat16 const*, unsigned long, unsigned long, unsigned long, unsigned long, c10::BFloat16*, float)', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.208), 'mean_duration_us': np.float64(4.208), 'median_duration_us': np.float64(4.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.208), 'max_duration_us': np.float64(4.208)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(6.49)}, {'name': 'void at::native::(anonymous namespace)::upsample_nearest1d_out_f...', 'stream': 0, 'mean_duration_us': np.float64(4.21)}]",,False,0.008929403907819707,99.98876185752363
+aten::upsample_nearest1d,other,python3,CPU,thread 13201 (python3),"((1, 768, 8), (), ())","('c10::BFloat16', 'ScalarList', '')","((6144, 1, 768), (), ())","('', '[128]', '')",52,1,88.773,88.773,,,,,,,,,,10.7021484375,,10.7021484375,88.773,88.773,88.773,,,,,,,10.7021484375,10.7021484375,10.7021484375,"[{'name': 'void at::native::(anonymous namespace)::upsample_nearest1d_out_frame<c10::BFloat16, &at::native::nearest_neighbor_compute_source_index>(c10::BFloat16 const*, unsigned long, unsigned long, unsigned long, unsigned long, c10::BFloat16*, float)', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.208), 'mean_duration_us': np.float64(4.208), 'median_duration_us': np.float64(4.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.208), 'max_duration_us': np.float64(4.208)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#12}::operator()() const::{lambda(c10::BFloat16)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(6.494), 'mean_duration_us': np.float64(6.494), 'median_duration_us': np.float64(6.494), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(6.494), 'max_duration_us': np.float64(6.494)}]","[{'name': 'void at::native::(anonymous namespace)::upsample_nearest1d_out_f...', 'stream': 0, 'mean_duration_us': np.float64(4.21)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 8, at::na...', 'stream': 0, 'mean_duration_us': np.float64(6.49)}]",,False,0.008929403907819707,99.98876185752363
 aten::addmm,GEMM,python3,CPU,thread 13201 (python3),"((400,), (1, 768), (768, 400), (), ())","('c10::BFloat16', 'c10::BFloat16', 'c10::BFloat16', 'Scalar', 'Scalar')","((1,), (19268352, 1), (1, 768), (), ())","('', '', '', '1', '1')",3577,1,58.617,58.617,,0.0006148,0.58892822265625,0.9955694890662244,matrix_bf16,0.0666796925185849,,0.06638426741182053,,9.26123046875,,9.26123046875,58.617,58.617,58.617,0.0666796925185849,0.0666796925185849,0.0666796925185849,0.06638426741182053,0.06638426741182053,0.06638426741182053,9.26123046875,9.26123046875,9.26123046875,"[{'name': 'Cijk_Alik_Bljk_B_BS_BH_Bias_HA_S_SAV_UserArgs_MT16x16x256_MI16x16x1_SN_LDSB1_AFC1_AFEM1_AFEM1_ASEM1_CLR1_CADS0_DTVA0_DTVB0_EPS0_FDSI0_GRPM1_GRVWA8_GRVWB8_GSUAMBSK_GLS0_ISA942_IU1_K1_LBSPPA512_LBSPPB512_LBSPPM0_LPA16_LPB16_LPM0_LRVW8_LWPMn1_MIAV0_MIWT1_1_MO40_NTn1_NTA4_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR2_PLR1_PKA1_SIA3_SS1_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TLDS1_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG16_4_4', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(9.261), 'mean_duration_us': np.float64(9.261), 'median_duration_us': np.float64(9.261), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(9.261), 'max_duration_us': np.float64(9.261)}]","[{'name': 'Cijk_Alik_Bljk_B_BS_BH_Bias_HA_S_SAV_UserArgs_MT16x16x256_MI16x1...', 'stream': 0, 'mean_duration_us': np.float64(9.26)}]","{'M': 1, 'N': 400, 'K': 768, 'bias': True, 'stride_A': (19268352, 1), 'stride_B': (1, 768), 'dtype_A_B': ('c10::BFloat16', 'c10::BFloat16'), 'B': 1, 'transpose': (True, False)}",True,0.007727165066138169,99.99648902258977
 aten::copy_,other,python3,CPU,thread 13201 (python3),"((1, 400), (1, 400), ())","('c10::BFloat16', 'c10::BFloat16', 'Scalar')","((400, 1), (400, 1), ())","('', '', 'False')",3582,1,94442.863,94442.863,,4e-07,0.00152587890625,0.25,vector_bf16,0.00038022743095845904,,9.505685773961475e-05,,4.2080078125,,4.2080078125,94442.863,94442.863,94442.863,0.00038022743095845904,0.00038022743095845904,0.00038022743095845904,9.505685773961475e-05,9.505685773961475e-05,9.505685773961475e-05,4.2080078125,4.2080078125,4.2080078125,"[{'name': 'Memcpy DtoH (Device -> Host)', 'stream': 0, 'count': 1, 'total_duration_us': np.float64(4.208), 'mean_duration_us': np.float64(4.208), 'median_duration_us': np.float64(4.208), 'std_dev_duration_us': np.float64(0.0), 'min_duration_us': np.float64(4.208), 'max_duration_us': np.float64(4.208)}]","[{'name': 'Memcpy DtoH (Device -> Host)', 'stream': 0, 'mean_duration_us': np.float64(4.21)}]","{'op_shape': (1, 400), 'dtype_in_out': ('c10::BFloat16', 'c10::BFloat16'), 'stride_input': (400, 1), 'stride_output': (400, 1)}",True,0.0035109774102377155,100.00000000000001
diff --git a/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/Normalization.csv b/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/Normalization.csv
index 174b86c6..094d37d0 100644
--- a/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/Normalization.csv
+++ b/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/Normalization.csv
@@ -1,23 +1,23 @@
 name,param: op_shape,param: dtype_in_out,param: stride_input,param: stride_output,param: num_channels,param: has_bias,param: is_affine,param: is_training,param: output_mask,GFLOPS_first,Data Moved (MB)_first,FLOPS/Byte_first,TB/s_mean,TB/s_median,TB/s_std,TB/s_min,TB/s_max,TFLOPS/s_mean,TFLOPS/s_median,TFLOPS/s_std,TFLOPS/s_min,TFLOPS/s_max,process_name_first,process_label_first,thread_name_first,Compute Spec,kernel_details__summarize_kernel_stats,trunc_kernel_details,Input Dims_first,Input type_first,Input Strides_first,Concrete Inputs_first,Kernel Time (µs)_mean,Kernel Time (µs)_median,Kernel Time (µs)_std,Kernel Time (µs)_min,Kernel Time (µs)_max,Kernel Time (µs)_sum,name_count,UID_first
-aten::batch_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16.0,True,True,True,nan,0.000655456,1.0003662109375,0.624862721171446,0.06029117081479473,0.06186871052394456,0.01901091404536839,0.027308055117709867,0.08236284476478933,0.0376737050579451,0.038659450813360474,0.011879211482345359,0.01706378563075202,0.051465471303147645,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(70.05699999999999), 'mean_duration_us': np.float64(11.676166666666665), 'median_duration_us': np.float64(10.774999999999999), 'std_dev_duration_us': np.float64(8.576367051704093), 'min_duration_us': np.float64(3.685), 'max_duration_us': np.float64(29.441)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(25.269999999999996), 'mean_duration_us': np.float64(4.211666666666666), 'median_duration_us': np.float64(4.3055), 'std_dev_duration_us': np.float64(1.2830641276084198), 'min_duration_us': np.float64(1.961), 'max_duration_us': np.float64(6.128)}, {'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(23.229000000000003), 'mean_duration_us': np.float64(3.8715000000000006), 'median_duration_us': np.float64(4.125), 'std_dev_duration_us': np.float64(0.6369447254929844), 'min_duration_us': np.float64(2.483), 'max_duration_us': np.float64(4.326)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(11.68)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(4.21)}, {'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'mean_duration_us': np.float64(3.87)}]","[[8, 16, 32, 32], [16], [16], [16], [16], [], [], [], []]","['float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [1], [1], [1], [1], [], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True']",19.759195963541668,16.98193359375,9.429794512765431,12.73583984375,38.412109375,118.55517578125,6,800
-aten::native_layer_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16384.0,True,True,True,"[True, True, True]",0.001179648,1.75,0.6428571428571429,0.05628963269412802,0.05683579419860258,0.001008475034056347,0.05512587657870418,0.0569072273050773,0.03618619244622515,0.03653729627053023,0.0006483053790362222,0.035438063514881255,0.03658321755326398,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, false>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(84.883), 'mean_duration_us': np.float64(28.29433333333333), 'median_duration_us': np.float64(28.201), 'std_dev_duration_us': np.float64(0.4143543840187468), 'min_duration_us': np.float64(27.84), 'max_duration_us': np.float64(28.842)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleCUDAKernel<float, float, false>(long, long, float const*, float const*, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.936999999999998), 'mean_duration_us': np.float64(4.312333333333332), 'median_duration_us': np.float64(4.406), 'std_dev_duration_us': np.float64(0.16157626338323602), 'min_duration_us': np.float64(4.085), 'max_duration_us': np.float64(4.446)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(28.29)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleC...', 'stream': 0, 'mean_duration_us': np.float64(4.31)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [], [8, 1, 1, 1], [8, 1, 1, 1], [16, 32, 32], [16, 32, 32], []]","['float', 'float', 'ScalarList', 'float', 'float', 'float', 'float', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [], [1, 1, 1, 1], [1, 1, 1, 1], [1024, 32, 1], [1024, 32, 1], []]","['', '', '[16, 32, 32]', '', '', '', '', '[True, True, True]']",32.6064453125,32.2861328125,0.5902431727220115,32.24560546875,33.28759765625,97.8193359375,3,152
-aten::instance_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16.0,True,True,True,nan,0.000655456,1.0003662109375,0.624862721171446,0.07847361405809597,0.07186558594633613,0.02181711774215055,0.05680999814888272,0.11338911010239627,0.04903523602049969,0.04490612559300802,0.013632703560478026,0.03549845003305566,0.07085262788979203,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(32.162), 'mean_duration_us': np.float64(5.360333333333333), 'median_duration_us': np.float64(5.287), 'std_dev_duration_us': np.float64(1.6696030133604283), 'min_duration_us': np.float64(3.004), 'max_duration_us': np.float64(7.971)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(27.955000000000005), 'mean_duration_us': np.float64(4.659166666666668), 'median_duration_us': np.float64(4.966), 'std_dev_duration_us': np.float64(1.7152123694231634), 'min_duration_us': np.float64(2.082), 'max_duration_us': np.float64(6.448)}, {'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(24.952), 'mean_duration_us': np.float64(4.158666666666667), 'median_duration_us': np.float64(4.005), 'std_dev_duration_us': np.float64(0.37268470439352464), 'min_duration_us': np.float64(3.885), 'max_duration_us': np.float64(4.967)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(5.36)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.66)}, {'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'mean_duration_us': np.float64(4.16)}]","[[8, 16, 32, 32], [16], [16], [], [], [], [], [], []]","['float', 'float', 'float', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [1], [1], [], [], [], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True']",14.177978515625,14.718505859375,3.559129140800897,9.2509765625,18.46435546875,85.06787109375,6,833
-aten::layer_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16384.0,True,True,True,nan,0.000753664,1.375,0.5227272727272727,0.10577106830319778,0.10833763183487723,0.013194414901568887,0.082553959293223,0.1176222919056724,0.05528942206758067,0.05663103482277673,0.006897080516729191,0.04315320599418475,0.0614843798597833,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float, false>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(83.0), 'mean_duration_us': np.float64(13.833333333333334), 'median_duration_us': np.float64(13.339), 'std_dev_duration_us': np.float64(1.7844332122242315), 'min_duration_us': np.float64(12.258), 'max_duration_us': np.float64(17.465)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(13.83)}]","[[8, 16, 32, 32], [], [16, 32, 32], [16, 32, 32], [], []]","['float', 'ScalarList', 'float', 'float', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [], [1024, 32, 1], [1024, 32, 1], [], []]","['', '[16, 32, 32]', '', '', '1.0000000000000001e-05', 'True']",13.833333333333334,13.339111328125,1.9547023334545126,12.2578125,17.46484375,83.0,6,811
-aten::native_layer_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16384.0,True,True,True,nan,0.000753664,1.375,0.5227272727272727,0.10577106830319778,0.10833763183487723,0.013194414901568887,0.082553959293223,0.1176222919056724,0.05528942206758067,0.05663103482277673,0.006897080516729191,0.04315320599418475,0.0614843798597833,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float, false>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(83.0), 'mean_duration_us': np.float64(13.833333333333334), 'median_duration_us': np.float64(13.339), 'std_dev_duration_us': np.float64(1.7844332122242315), 'min_duration_us': np.float64(12.258), 'max_duration_us': np.float64(17.465)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(13.83)}]","[[8, 16, 32, 32], [], [16, 32, 32], [16, 32, 32], []]","['float', 'ScalarList', 'float', 'float', 'Scalar']","[[16384, 1024, 32, 1], [], [1024, 32, 1], [1024, 32, 1], []]","['', '[16, 32, 32]', '', '', '1.0000000000000001e-05']",13.833333333333334,13.339111328125,1.9547023334545126,12.2578125,17.46484375,83.0,6,812
-aten::group_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16.0,True,True,True,nan,0.000655456,1.0003662109375,0.624862721171446,0.08244925142955863,0.08380426443270807,0.021253721865758506,0.05768561746462232,0.11588467364332723,0.051519463606822746,0.052366160719193394,0.01328065848005892,0.03604559190139899,0.0724120125148344,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.869999999999997), 'mean_duration_us': np.float64(7.289999999999999), 'median_duration_us': np.float64(7.17), 'std_dev_duration_us': np.float64(0.5463338417732021), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(8.011)}, {'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.296), 'mean_duration_us': np.float64(4.0986666666666665), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.4510511898467109), 'min_duration_us': np.float64(2.123), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.657), 'mean_duration_us': np.float64(4.552333333333333), 'median_duration_us': np.float64(4.285), 'std_dev_duration_us': np.float64(0.7437568300339985), 'min_duration_us': np.float64(3.805), 'max_duration_us': np.float64(5.567)}]","[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.29)}, {'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKe...', 'stream': 0, 'mean_duration_us': np.float64(4.1)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.55)}]","[[8, 16, 32, 32], [], [16], [16], [], []]","['float', 'Scalar', 'float', 'float', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [], [1], [1], [], []]","['', '4', '', '', '1.0000000000000001e-05', 'True']",13.451334635416666,12.517578125,3.476054549810176,9.0517578125,18.18408203125,80.7080078125,6,820
-aten::native_group_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16.0,True,True,True,nan,0.000655456,1.0003662109375,0.624862721171446,0.08244925142955863,0.08380426443270807,0.021253721865758506,0.05768561746462232,0.11588467364332723,0.051519463606822746,0.052366160719193394,0.01328065848005892,0.03604559190139899,0.0724120125148344,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.869999999999997), 'mean_duration_us': np.float64(7.289999999999999), 'median_duration_us': np.float64(7.17), 'std_dev_duration_us': np.float64(0.5463338417732021), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(8.011)}, {'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.296), 'mean_duration_us': np.float64(4.0986666666666665), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.4510511898467109), 'min_duration_us': np.float64(2.123), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.657), 'mean_duration_us': np.float64(4.552333333333333), 'median_duration_us': np.float64(4.285), 'std_dev_duration_us': np.float64(0.7437568300339985), 'min_duration_us': np.float64(3.805), 'max_duration_us': np.float64(5.567)}]","[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.29)}, {'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKe...', 'stream': 0, 'mean_duration_us': np.float64(4.1)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.55)}]","[[8, 16, 32, 32], [16], [16], [], [], [], [], []]","['float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [1], [1], [], [], [], [], []]","['', '', '', '8', '16', '1024', '4', '1.0000000000000001e-05']",13.451334635416666,12.517578125,3.476054549810176,9.0517578125,18.18408203125,80.7080078125,6,821
-aten::native_layer_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16384.0,False,False,True,"[True, False, False]",0.001179648,1.5625,0.72,0.06680599771272798,0.06661193893554086,0.00219379562352543,0.06471567821944493,0.06909037598319813,0.04810031835316414,0.04796059603358942,0.001579532848938307,0.04659528831800035,0.04974507070790265,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, false>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(73.62700000000001), 'mean_duration_us': np.float64(24.542333333333335), 'median_duration_us': np.float64(24.596), 'std_dev_duration_us': np.float64(0.6555213362067043), 'min_duration_us': np.float64(23.714), 'max_duration_us': np.float64(25.317)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(24.54)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [], [8, 1, 1, 1], [8, 1, 1, 1], [], [], []]","['float', 'float', 'ScalarList', 'float', 'float', '', '', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [], [1, 1, 1, 1], [1, 1, 1, 1], [], [], []]","['', '', '[16, 32, 32]', '', '', '', '', '[True, False, False]']",24.542317708333332,24.59619140625,0.8028704426605566,23.7138671875,25.31689453125,73.626953125,3,55
-aten::miopen_batch_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16.0,True,True,True,nan,0.000655456,1.0003662109375,0.624862721171446,0.061149659349069435,0.0737780781647091,0.029620350894417908,0.027308055117709867,0.08236284476478933,0.03821014253956648,0.046101170684799776,0.018508653061939044,0.01706378563075202,0.051465471303147645,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(37.091), 'mean_duration_us': np.float64(12.363666666666667), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(12.076039232942046), 'min_duration_us': np.float64(3.685), 'max_duration_us': np.float64(29.441)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(15.74), 'mean_duration_us': np.float64(5.246666666666667), 'median_duration_us': np.float64(4.926), 'std_dev_duration_us': np.float64(0.6308519812303217), 'min_duration_us': np.float64(4.686), 'max_duration_us': np.float64(6.128)}, {'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.535), 'mean_duration_us': np.float64(4.178333333333334), 'median_duration_us': np.float64(4.125), 'std_dev_duration_us': np.float64(0.07542472332656514), 'min_duration_us': np.float64(4.125), 'max_duration_us': np.float64(4.285)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(12.36)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(5.25)}, {'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'mean_duration_us': np.float64(4.18)}]","[[8, 16, 32, 32], [16], [16], [16], [16], [], [], []]","['float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [1], [1], [1], [1], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05']",21.78857421875,14.2177734375,14.41545950056331,12.73583984375,38.412109375,65.36572265625,3,803
-aten::batch_norm,"(1, 128, 32, 32)","('float', None)","(131072, 1024, 32, 1)",None,128.0,True,True,True,nan,0.000656128,1.0029296875,0.623904576436222,0.15285529675585438,0.13860793410654032,0.1016204193338914,0.056955575935475344,0.2679491296342374,0.09536711917849433,0.0864781244194408,0.06340144468178278,0.03553484447970382,0.1671746882309032,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.056999999999999), 'mean_duration_us': np.float64(4.352333333333333), 'median_duration_us': np.float64(4.165), 'std_dev_duration_us': np.float64(0.4455418673430763), 'min_duration_us': np.float64(3.925), 'max_duration_us': np.float64(4.967)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'mean_duration_us': np.float64(4.35)}]","[[1, 128, 32, 32], [128], [128], [], [], [], [], [], []]","['float', 'float', 'float', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar']","[[131072, 1024, 32, 1], [1], [1], [], [], [], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True']",10.73388671875,10.513671875,7.042280180198284,3.9248046875,18.46435546875,64.4033203125,6,898
-aten::native_group_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,4.0,True,True,True,"[True, True, True]",0.001179648,1.50006103515625,0.749969483663588,0.08158110778877121,0.07823573877352762,0.008789629375982646,0.07495536086744072,0.0915522237253453,0.06118334128504826,0.05867441661202185,0.006591953804700008,0.05621423328757242,0.0686613739555505,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.216000000000001), 'mean_duration_us': np.float64(4.405333333333334), 'median_duration_us': np.float64(4.405), 'std_dev_duration_us': np.float64(0.1963675691712412), 'min_duration_us': np.float64(4.165), 'max_duration_us': np.float64(4.646)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(6.327), 'mean_duration_us': np.float64(2.109), 'median_duration_us': np.float64(2.122), 'std_dev_duration_us': np.float64(0.24552936009094037), 'min_duration_us': np.float64(1.802), 'max_duration_us': np.float64(2.403)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.370999999999999), 'mean_duration_us': np.float64(3.1236666666666664), 'median_duration_us': np.float64(2.723), 'std_dev_duration_us': np.float64(0.624051992135983), 'min_duration_us': np.float64(2.643), 'max_duration_us': np.float64(4.005)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.942), 'mean_duration_us': np.float64(5.647333333333333), 'median_duration_us': np.float64(4.726), 'std_dev_duration_us': np.float64(1.4759235150312575), 'min_duration_us': np.float64(4.486), 'max_duration_us': np.float64(7.73)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKernel1<float>(long, long, long, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.415), 'mean_duration_us': np.float64(4.138333333333333), 'median_duration_us': np.float64(4.085), 'std_dev_duration_us': np.float64(0.1359738536958077), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(4.325)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.41)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(2.11)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(3.12)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(5.65)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKer...', 'stream': 0, 'mean_duration_us': np.float64(4.14)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [8, 4], [8, 4], [16], [], [], [], [], []]","['float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [4, 1], [4, 1], [1], [], [], [], [], []]","['', '', '', '', '', '8', '16', '1024', '4', '[True, True, True]']",19.423502604166668,20.10498046875,1.9915551671802427,17.1806640625,20.98486328125,58.2705078125,3,123
-aten::native_batch_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16.0,True,True,True,nan,0.000655456,1.0003662109375,0.624862721171446,0.05943268228052002,0.05938713108862719,0.004894991042083343,0.05456062579367095,0.06435028995926192,0.03713726757632372,0.037108804334604964,0.0030586974226660484,0.03409290110225022,0.040210097292115984,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(32.966), 'mean_duration_us': np.float64(10.988666666666667), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.5762877367735286), 'min_duration_us': np.float64(10.174), 'max_duration_us': np.float64(11.416)}, {'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_kernel_for_multi_outputs<3, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int> >(int, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.530000000000001), 'mean_duration_us': np.float64(3.176666666666667), 'median_duration_us': np.float64(3.644), 'std_dev_duration_us': np.float64(0.8672271264720037), 'min_duration_us': np.float64(1.961), 'max_duration_us': np.float64(3.925)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(10.693999999999999), 'mean_duration_us': np.float64(3.564666666666666), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.7857575255057304), 'min_duration_us': np.float64(2.483), 'max_duration_us': np.float64(4.326)}]","[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(10.99)}, {'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_ker...', 'stream': 0, 'mean_duration_us': np.float64(3.18)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.56)}]","[[8, 16, 32, 32], [], [], [16], [16], [], [], []]","['float', '', '', 'float', 'float', 'Scalar', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [], [], [1], [1], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05']",17.729817708333332,17.6630859375,1.463543802533565,16.30078125,19.2255859375,53.189453125,3,922
-aten::native_batch_norm,"(1, 128, 32, 32)","('float', None)","(131072, 1024, 32, 1)",None,128.0,True,True,True,nan,0.000656128,1.0029296875,0.623904576436222,0.061650947758474385,0.06251705622478303,0.004327812281425612,0.056955575935475344,0.06548021111516479,0.03846430844814261,0.039004677483962726,0.0027001418883383244,0.03553484447970382,0.04085340338076128,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.587), 'mean_duration_us': np.float64(6.862333333333333), 'median_duration_us': np.float64(6.568), 'std_dev_duration_us': np.float64(0.8121807406948011), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(7.971)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(18.865000000000002), 'mean_duration_us': np.float64(6.288333333333334), 'median_duration_us': np.float64(6.369), 'std_dev_duration_us': np.float64(0.17297462883967188), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(6.448)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.895), 'mean_duration_us': np.float64(3.965), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(0.06531972647421815), 'min_duration_us': np.float64(3.885), 'max_duration_us': np.float64(4.045)}]","[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(6.86)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 0, 'mean_duration_us': np.float64(6.29)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.96)}]","[[1, 128, 32, 32], [], [], [], [], [], [], []]","['float', '', '', '', '', 'Scalar', 'Scalar', 'Scalar']","[[131072, 1024, 32, 1], [], [], [], [], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05']",17.115559895833332,16.82177734375,1.2285377811764824,16.060546875,18.46435546875,51.3466796875,3,960
-aten::_fused_rms_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,1024.0,False,True,False,"[True, True]",0.00131072,1.5078125,0.8290155440414507,0.09662045428134391,0.09795210357866714,0.005130784259081977,0.09095513168539326,0.10095412757997133,0.08009985847158045,0.08120381643827329,0.004253499903902161,0.0754032179775281,0.08369254099893997,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, true>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.782999999999998), 'mean_duration_us': np.float64(5.594333333333332), 'median_duration_us': np.float64(5.528), 'std_dev_duration_us': np.float64(0.2178077643754286), 'min_duration_us': np.float64(5.367), 'max_duration_us': np.float64(5.888)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBeta<float, float, true>(float const*, float const*, long, long, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.707), 'mean_duration_us': np.float64(6.902333333333334), 'median_duration_us': np.float64(6.889), 'std_dev_duration_us': np.float64(0.5071320231348923), 'min_duration_us': np.float64(6.288), 'max_duration_us': np.float64(7.53)}, {'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<float, float, true>(float const*, float const*, int, long, long, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.695), 'mean_duration_us': np.float64(3.8983333333333334), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.04988876515698577), 'min_duration_us': np.float64(3.845), 'max_duration_us': np.float64(3.965)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(5.59)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBe...', 'stream': 0, 'mean_duration_us': np.float64(6.9)}, {'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<f...', 'stream': 0, 'mean_duration_us': np.float64(3.9)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [], [8, 16, 1, 1], [32, 32], []]","['float', 'float', 'ScalarList', 'float', 'float', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [], [16, 1, 1, 1], [32, 1], []]","['', '', '[32, 32]', '', '', '[True, True]']",16.39501953125,16.14111328125,0.888479895343345,15.6611328125,17.3828125,49.18505859375,3,71
-aten::native_group_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,4.0,True,True,True,"[True, False, False]",0.001179648,1.50006103515625,0.749969483663588,0.11607270439465735,0.12046957905759162,0.02471211817896858,0.08945727697861705,0.13829125714776339,0.08705098618229744,0.09034850800299177,0.018533334510914632,0.06709022782560399,0.10371422271829656,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(14.658999999999999), 'mean_duration_us': np.float64(4.886333333333333), 'median_duration_us': np.float64(4.446), 'std_dev_duration_us': np.float64(0.9517430792440201), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(6.208)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.617), 'mean_duration_us': np.float64(4.539000000000001), 'median_duration_us': np.float64(4.045), 'std_dev_duration_us': np.float64(1.026369329237775), 'min_duration_us': np.float64(3.604), 'max_duration_us': np.float64(5.968)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.738), 'mean_duration_us': np.float64(4.5793333333333335), 'median_duration_us': np.float64(4.566), 'std_dev_duration_us': np.float64(0.6704099906441994), 'min_duration_us': np.float64(3.765), 'max_duration_us': np.float64(5.407)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.89)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(4.54)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.58)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [8, 4], [8, 4], [], [], [], [], [], []]","['float', 'float', 'float', 'float', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [4, 1], [4, 1], [], [], [], [], [], []]","['', '', '', '', '', '8', '16', '1024', '4', '[True, False, False]']",14.004557291666666,13.056640625,3.2111962330970787,11.3740234375,17.5830078125,42.013671875,3,39
-aten::native_batch_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16.0,True,True,True,[True],0.001179648,1.500244140625,0.7498779495524817,0.13861462663243995,0.13828439179328697,0.001021216688976221,0.13779939093242086,0.139760097171612,0.10394405199711688,0.10369641617306206,0.0007657878767782663,0.1033327247219846,0.104803015096304,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, bool, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(34.048), 'mean_duration_us': np.float64(11.349333333333334), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.06798692684790375), 'min_duration_us': np.float64(11.256), 'max_duration_us': np.float64(11.416)}]","[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float,...', 'stream': 0, 'mean_duration_us': np.float64(11.35)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [], [16], [16], [16], [16], [], [], []]","['float', 'float', '', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [], [1], [1], [1], [1], [], [], []]","['', '', '', '', '', '', '', 'True', '1.0000000000000001e-05', '[True, False, False]']",11.349283854166666,11.3759765625,0.0833479550567492,11.255859375,11.416015625,34.0478515625,3,60
-aten::_fused_rms_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,1024.0,False,True,False,nan,0.000524544,1.00390625,0.4982976653696498,0.23453697049609276,0.24794390851244255,0.025858685943916253,0.1904312566027736,0.2551328113609468,0.11686922484107347,0.12354987075437618,0.012885322835380436,0.09489145057857082,0.12713208426035505,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float, true>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(27.236000000000004), 'mean_duration_us': np.float64(4.539333333333334), 'median_duration_us': np.float64(4.2455), 'std_dev_duration_us': np.float64(0.5087467171611253), 'min_duration_us': np.float64(4.126), 'max_duration_us': np.float64(5.528)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(4.54)}]","[[8, 16, 32, 32], [], [32, 32], []]","['float', 'ScalarList', 'float', '']","[[16384, 1024, 32, 1], [], [32, 1], []]","['', '[32, 32]', '', '']",4.539388020833333,4.24560546875,0.5572450517309505,4.1259765625,5.52783203125,27.236328125,6,912
-aten::native_batch_norm_backward,"(1, 128, 32, 32)","('float', None)","(131072, 1024, 32, 1)",None,128.0,True,True,True,[True],0.001179648,1.501953125,0.7490247074122237,0.24182137684950603,0.24883658200894926,0.029782389314002698,0.2091576276506063,0.2674699208889626,0.1811301860407223,0.186384748032711,0.022307745441957804,0.1566642308540302,0.2003415792354258,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, bool, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(19.747), 'mean_duration_us': np.float64(6.582333333333334), 'median_duration_us': np.float64(6.329), 'std_dev_duration_us': np.float64(0.6938656610292484), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(7.53)}]","[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float,...', 'stream': 0, 'mean_duration_us': np.float64(6.58)}]","[[1, 128, 32, 32], [1, 128, 32, 32], [], [], [], [128], [128], [], [], []]","['float', 'float', '', '', '', 'float', 'float', 'Scalar', 'Scalar', 'ScalarList']","[[131072, 1024, 32, 1], [131072, 1024, 32, 1], [], [], [], [1], [1], [], [], []]","['', '', '', '', '', '', '', 'True', '1.0000000000000001e-05', '[True, False, False]']",6.582356770833333,6.3291015625,0.849598477465432,5.88818359375,7.52978515625,19.7470703125,3,23
-aten::_fused_rms_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,1024.0,False,True,False,"[True, False]",0.001048576,1.5078125,0.6632124352331606,0.27343927544039176,0.28815544077600785,0.03747419808787525,0.23084071348114352,0.3013216720640238,0.18134832775321316,0.19110827160274094,0.024853354172269596,0.15309643173878948,0.19984027991810904,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, true>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(17.583), 'mean_duration_us': np.float64(5.861), 'median_duration_us': np.float64(5.487), 'std_dev_duration_us': np.float64(0.705458716013914), 'min_duration_us': np.float64(5.247), 'max_duration_us': np.float64(6.849)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(5.86)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [], [8, 16, 1, 1], [], []]","['float', 'float', 'ScalarList', 'float', '', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [], [16, 1, 1, 1], [], []]","['', '', '[32, 32]', '', '', '[True, False]']",5.861002604166667,5.48681640625,0.864090943974899,5.2470703125,6.84912109375,17.5830078125,3,13
-aten::miopen_batch_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",None,16.0,True,True,False,[True],0.000524336,1.00006103515625,0.5000152578577968,0.2067490101745708,0.20944165398868736,0.01852446773236728,0.18702557868152922,0.22377979785349592,0.10337765963428229,0.10472402262531696,0.00926251650987806,0.0935156429504485,0.1118933133270814,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'MIOpenBatchNormBwdSpatial', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(15.3), 'mean_duration_us': np.float64(5.1000000000000005), 'median_duration_us': np.float64(5.007), 'std_dev_duration_us': np.float64(0.38170407385827065), 'min_duration_us': np.float64(4.686), 'max_duration_us': np.float64(5.607)}]","[{'name': 'MIOpenBatchNormBwdSpatial', 'stream': 0, 'mean_duration_us': np.float64(5.1)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [16], [16], [16], [16], [16], []]","['float', 'float', 'float', 'float', 'float', 'float', 'float', 'Scalar']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [1], [1], [1], [1], [1], []]","['', '', '', '', '', '', '', '1.0000000000000001e-05']",5.099934895833333,5.0068359375,0.4674548588682645,4.68603515625,5.60693359375,15.2998046875,3,167
-aten::miopen_batch_norm_backward,"(1, 128, 32, 32)","('float', None)","(131072, 1024, 32, 1)",None,128.0,True,True,False,[True],0.000524672,1.00048828125,0.5001220107369448,0.23711254933163992,0.2447632973342447,0.02942084384243977,0.20462211657142854,0.2619522340892465,0.11858520494270279,0.12241151241740716,0.014714011580058634,0.10233602438095238,0.13100807802974884,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'MIOpenBatchNormBwdSpatial', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.418), 'mean_duration_us': np.float64(4.472666666666666), 'median_duration_us': np.float64(4.286), 'std_dev_duration_us': np.float64(0.4766930062652715), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(5.127)}]","[{'name': 'MIOpenBatchNormBwdSpatial', 'stream': 0, 'mean_duration_us': np.float64(4.47)}]","[[1, 128, 32, 32], [1, 128, 32, 32], [128], [], [], [128], [128], []]","['float', 'float', 'float', '', '', 'float', 'float', 'Scalar']","[[131072, 1024, 32, 1], [131072, 1024, 32, 1], [1], [], [], [1], [1], []]","['', '', '', '', '', '', '', '1.0000000000000001e-05']",4.47265625,4.2861328125,0.5838267646323473,4.0048828125,5.126953125,13.41796875,3,88
-aten::miopen_batch_norm,"(1, 128, 32, 32)","('float', None)","(131072, 1024, 32, 1)",None,128.0,True,True,True,nan,0.000656128,1.0029296875,0.623904576436222,0.24405964575323438,0.25249415052754987,0.029040390437094794,0.21173565709791586,0.2679491296342374,0.15226992990884605,0.15753225603751467,0.018118432495198136,0.13210284545812032,0.1671746882309032,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.056999999999999), 'mean_duration_us': np.float64(4.352333333333333), 'median_duration_us': np.float64(4.165), 'std_dev_duration_us': np.float64(0.4455418673430763), 'min_duration_us': np.float64(3.925), 'max_duration_us': np.float64(4.967)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'mean_duration_us': np.float64(4.35)}]","[[1, 128, 32, 32], [128], [128], [], [], [], [], []]","['float', 'float', 'float', '', '', 'Scalar', 'Scalar', 'Scalar']","[[131072, 1024, 32, 1], [1], [1], [], [], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05']",4.352213541666667,4.1650390625,0.5456305012929936,3.9248046875,4.966796875,13.056640625,3,901
+aten::batch_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16.0,True,True,True,,0.000655456,1.0003662109375,0.624862721171446,0.06029117081479473,0.06186871052394456,0.01901091404536839,0.027308055117709867,0.08236284476478933,0.0376737050579451,0.038659450813360474,0.011879211482345359,0.01706378563075202,0.051465471303147645,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(23.229000000000003), 'mean_duration_us': np.float64(3.8715000000000006), 'median_duration_us': np.float64(4.125), 'std_dev_duration_us': np.float64(0.6369447254929844), 'min_duration_us': np.float64(2.483), 'max_duration_us': np.float64(4.326)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(25.269999999999996), 'mean_duration_us': np.float64(4.211666666666666), 'median_duration_us': np.float64(4.3055), 'std_dev_duration_us': np.float64(1.2830641276084198), 'min_duration_us': np.float64(1.961), 'max_duration_us': np.float64(6.128)}, {'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(70.05699999999999), 'mean_duration_us': np.float64(11.676166666666665), 'median_duration_us': np.float64(10.774999999999999), 'std_dev_duration_us': np.float64(8.576367051704093), 'min_duration_us': np.float64(3.685), 'max_duration_us': np.float64(29.441)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'mean_duration_us': np.float64(3.87)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(4.21)}, {'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(11.68)}]","[[8, 16, 32, 32], [16], [16], [16], [16], [], [], [], []]","['float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [1], [1], [1], [1], [], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True']",19.759195963541668,16.98193359375,9.429794512765431,12.73583984375,38.412109375,118.55517578125,6,800
+aten::native_layer_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16384.0,True,True,True,"[True, True, True]",0.001179648,1.75,0.6428571428571429,0.05628963269412802,0.05683579419860258,0.001008475034056347,0.05512587657870418,0.0569072273050773,0.03618619244622515,0.03653729627053023,0.0006483053790362222,0.035438063514881255,0.03658321755326398,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleCUDAKernel<float, float, false>(long, long, float const*, float const*, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.936999999999998), 'mean_duration_us': np.float64(4.312333333333332), 'median_duration_us': np.float64(4.406), 'std_dev_duration_us': np.float64(0.16157626338323602), 'min_duration_us': np.float64(4.085), 'max_duration_us': np.float64(4.446)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, false>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(84.883), 'mean_duration_us': np.float64(28.29433333333333), 'median_duration_us': np.float64(28.201), 'std_dev_duration_us': np.float64(0.4143543840187468), 'min_duration_us': np.float64(27.84), 'max_duration_us': np.float64(28.842)}]","[{'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleC...', 'stream': 0, 'mean_duration_us': np.float64(4.31)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(28.29)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [], [8, 1, 1, 1], [8, 1, 1, 1], [16, 32, 32], [16, 32, 32], []]","['float', 'float', 'ScalarList', 'float', 'float', 'float', 'float', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [], [1, 1, 1, 1], [1, 1, 1, 1], [1024, 32, 1], [1024, 32, 1], []]","['', '', '[16, 32, 32]', '', '', '', '', '[True, True, True]']",32.6064453125,32.2861328125,0.5902431727220115,32.24560546875,33.28759765625,97.8193359375,3,152
+aten::instance_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16.0,True,True,True,,0.000655456,1.0003662109375,0.624862721171446,0.07847361405809597,0.07186558594633613,0.02181711774215055,0.05680999814888272,0.11338911010239627,0.04903523602049969,0.04490612559300802,0.013632703560478026,0.03549845003305566,0.07085262788979203,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(24.952), 'mean_duration_us': np.float64(4.158666666666667), 'median_duration_us': np.float64(4.005), 'std_dev_duration_us': np.float64(0.37268470439352464), 'min_duration_us': np.float64(3.885), 'max_duration_us': np.float64(4.967)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(27.955000000000005), 'mean_duration_us': np.float64(4.659166666666668), 'median_duration_us': np.float64(4.966), 'std_dev_duration_us': np.float64(1.7152123694231634), 'min_duration_us': np.float64(2.082), 'max_duration_us': np.float64(6.448)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(32.162), 'mean_duration_us': np.float64(5.360333333333333), 'median_duration_us': np.float64(5.287), 'std_dev_duration_us': np.float64(1.6696030133604283), 'min_duration_us': np.float64(3.004), 'max_duration_us': np.float64(7.971)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'mean_duration_us': np.float64(4.16)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.66)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(5.36)}]","[[8, 16, 32, 32], [16], [16], [], [], [], [], [], []]","['float', 'float', 'float', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [1], [1], [], [], [], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True']",14.177978515625,14.718505859375,3.559129140800897,9.2509765625,18.46435546875,85.06787109375,6,833
+aten::layer_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16384.0,True,True,True,,0.000753664,1.375,0.5227272727272727,0.10577106830319778,0.10833763183487723,0.013194414901568887,0.082553959293223,0.1176222919056724,0.05528942206758067,0.05663103482277673,0.006897080516729191,0.04315320599418475,0.0614843798597833,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float, false>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(83.0), 'mean_duration_us': np.float64(13.833333333333334), 'median_duration_us': np.float64(13.339), 'std_dev_duration_us': np.float64(1.7844332122242315), 'min_duration_us': np.float64(12.258), 'max_duration_us': np.float64(17.465)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(13.83)}]","[[8, 16, 32, 32], [], [16, 32, 32], [16, 32, 32], [], []]","['float', 'ScalarList', 'float', 'float', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [], [1024, 32, 1], [1024, 32, 1], [], []]","['', '[16, 32, 32]', '', '', '1.0000000000000001e-05', 'True']",13.833333333333334,13.339111328125,1.9547023334545126,12.2578125,17.46484375,83.0,6,811
+aten::native_layer_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16384.0,True,True,True,,0.000753664,1.375,0.5227272727272727,0.10577106830319778,0.10833763183487723,0.013194414901568887,0.082553959293223,0.1176222919056724,0.05528942206758067,0.05663103482277673,0.006897080516729191,0.04315320599418475,0.0614843798597833,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float, false>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(83.0), 'mean_duration_us': np.float64(13.833333333333334), 'median_duration_us': np.float64(13.339), 'std_dev_duration_us': np.float64(1.7844332122242315), 'min_duration_us': np.float64(12.258), 'max_duration_us': np.float64(17.465)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(13.83)}]","[[8, 16, 32, 32], [], [16, 32, 32], [16, 32, 32], []]","['float', 'ScalarList', 'float', 'float', 'Scalar']","[[16384, 1024, 32, 1], [], [1024, 32, 1], [1024, 32, 1], []]","['', '[16, 32, 32]', '', '', '1.0000000000000001e-05']",13.833333333333334,13.339111328125,1.9547023334545126,12.2578125,17.46484375,83.0,6,812
+aten::group_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16.0,True,True,True,,0.000655456,1.0003662109375,0.624862721171446,0.08244925142955863,0.08380426443270807,0.021253721865758506,0.05768561746462232,0.11588467364332723,0.051519463606822746,0.052366160719193394,0.01328065848005892,0.03604559190139899,0.0724120125148344,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.296), 'mean_duration_us': np.float64(4.0986666666666665), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.4510511898467109), 'min_duration_us': np.float64(2.123), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.657), 'mean_duration_us': np.float64(4.552333333333333), 'median_duration_us': np.float64(4.285), 'std_dev_duration_us': np.float64(0.7437568300339985), 'min_duration_us': np.float64(3.805), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.869999999999997), 'mean_duration_us': np.float64(7.289999999999999), 'median_duration_us': np.float64(7.17), 'std_dev_duration_us': np.float64(0.5463338417732021), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(8.011)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKe...', 'stream': 0, 'mean_duration_us': np.float64(4.1)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.55)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.29)}]","[[8, 16, 32, 32], [], [16], [16], [], []]","['float', 'Scalar', 'float', 'float', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [], [1], [1], [], []]","['', '4', '', '', '1.0000000000000001e-05', 'True']",13.451334635416666,12.517578125,3.476054549810176,9.0517578125,18.18408203125,80.7080078125,6,820
+aten::native_group_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16.0,True,True,True,,0.000655456,1.0003662109375,0.624862721171446,0.08244925142955863,0.08380426443270807,0.021253721865758506,0.05768561746462232,0.11588467364332723,0.051519463606822746,0.052366160719193394,0.01328065848005892,0.03604559190139899,0.0724120125148344,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.296), 'mean_duration_us': np.float64(4.0986666666666665), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.4510511898467109), 'min_duration_us': np.float64(2.123), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.657), 'mean_duration_us': np.float64(4.552333333333333), 'median_duration_us': np.float64(4.285), 'std_dev_duration_us': np.float64(0.7437568300339985), 'min_duration_us': np.float64(3.805), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.869999999999997), 'mean_duration_us': np.float64(7.289999999999999), 'median_duration_us': np.float64(7.17), 'std_dev_duration_us': np.float64(0.5463338417732021), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(8.011)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKe...', 'stream': 0, 'mean_duration_us': np.float64(4.1)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.55)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.29)}]","[[8, 16, 32, 32], [16], [16], [], [], [], [], []]","['float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [1], [1], [], [], [], [], []]","['', '', '', '8', '16', '1024', '4', '1.0000000000000001e-05']",13.451334635416666,12.517578125,3.476054549810176,9.0517578125,18.18408203125,80.7080078125,6,821
+aten::native_layer_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16384.0,False,False,True,"[True, False, False]",0.001179648,1.5625,0.72,0.06680599771272798,0.06661193893554086,0.00219379562352543,0.06471567821944493,0.06909037598319813,0.04810031835316414,0.04796059603358942,0.001579532848938307,0.04659528831800035,0.04974507070790265,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, false>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(73.62700000000001), 'mean_duration_us': np.float64(24.542333333333335), 'median_duration_us': np.float64(24.596), 'std_dev_duration_us': np.float64(0.6555213362067043), 'min_duration_us': np.float64(23.714), 'max_duration_us': np.float64(25.317)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(24.54)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [], [8, 1, 1, 1], [8, 1, 1, 1], [], [], []]","['float', 'float', 'ScalarList', 'float', 'float', '', '', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [], [1, 1, 1, 1], [1, 1, 1, 1], [], [], []]","['', '', '[16, 32, 32]', '', '', '', '', '[True, False, False]']",24.542317708333332,24.59619140625,0.8028704426605566,23.7138671875,25.31689453125,73.626953125,3,55
+aten::miopen_batch_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16.0,True,True,True,,0.000655456,1.0003662109375,0.624862721171446,0.061149659349069435,0.0737780781647091,0.029620350894417908,0.027308055117709867,0.08236284476478933,0.03821014253956648,0.046101170684799776,0.018508653061939044,0.01706378563075202,0.051465471303147645,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.535), 'mean_duration_us': np.float64(4.178333333333334), 'median_duration_us': np.float64(4.125), 'std_dev_duration_us': np.float64(0.07542472332656514), 'min_duration_us': np.float64(4.125), 'max_duration_us': np.float64(4.285)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(15.74), 'mean_duration_us': np.float64(5.246666666666667), 'median_duration_us': np.float64(4.926), 'std_dev_duration_us': np.float64(0.6308519812303217), 'min_duration_us': np.float64(4.686), 'max_duration_us': np.float64(6.128)}, {'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(37.091), 'mean_duration_us': np.float64(12.363666666666667), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(12.076039232942046), 'min_duration_us': np.float64(3.685), 'max_duration_us': np.float64(29.441)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'mean_duration_us': np.float64(4.18)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(5.25)}, {'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(12.36)}]","[[8, 16, 32, 32], [16], [16], [16], [16], [], [], []]","['float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [1], [1], [1], [1], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05']",21.78857421875,14.2177734375,14.41545950056331,12.73583984375,38.412109375,65.36572265625,3,803
+aten::batch_norm,"(1, 128, 32, 32)","('float', None)","(131072, 1024, 32, 1)",,128.0,True,True,True,,0.000656128,1.0029296875,0.623904576436222,0.15285529675585438,0.13860793410654032,0.1016204193338914,0.056955575935475344,0.2679491296342374,0.09536711917849433,0.0864781244194408,0.06340144468178278,0.03553484447970382,0.1671746882309032,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.056999999999999), 'mean_duration_us': np.float64(4.352333333333333), 'median_duration_us': np.float64(4.165), 'std_dev_duration_us': np.float64(0.4455418673430763), 'min_duration_us': np.float64(3.925), 'max_duration_us': np.float64(4.967)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'mean_duration_us': np.float64(4.35)}]","[[1, 128, 32, 32], [128], [128], [], [], [], [], [], []]","['float', 'float', 'float', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar']","[[131072, 1024, 32, 1], [1], [1], [], [], [], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True']",10.73388671875,10.513671875,7.042280180198284,3.9248046875,18.46435546875,64.4033203125,6,898
+aten::native_group_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,4.0,True,True,True,"[True, True, True]",0.001179648,1.50006103515625,0.749969483663588,0.08158110778877121,0.07823573877352762,0.008789629375982646,0.07495536086744072,0.0915522237253453,0.06118334128504826,0.05867441661202185,0.006591953804700008,0.05621423328757242,0.0686613739555505,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(6.327), 'mean_duration_us': np.float64(2.109), 'median_duration_us': np.float64(2.122), 'std_dev_duration_us': np.float64(0.24552936009094037), 'min_duration_us': np.float64(1.802), 'max_duration_us': np.float64(2.403)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.370999999999999), 'mean_duration_us': np.float64(3.1236666666666664), 'median_duration_us': np.float64(2.723), 'std_dev_duration_us': np.float64(0.624051992135983), 'min_duration_us': np.float64(2.643), 'max_duration_us': np.float64(4.005)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKernel1<float>(long, long, long, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.415), 'mean_duration_us': np.float64(4.138333333333333), 'median_duration_us': np.float64(4.085), 'std_dev_duration_us': np.float64(0.1359738536958077), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(4.325)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.216000000000001), 'mean_duration_us': np.float64(4.405333333333334), 'median_duration_us': np.float64(4.405), 'std_dev_duration_us': np.float64(0.1963675691712412), 'min_duration_us': np.float64(4.165), 'max_duration_us': np.float64(4.646)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.942), 'mean_duration_us': np.float64(5.647333333333333), 'median_duration_us': np.float64(4.726), 'std_dev_duration_us': np.float64(1.4759235150312575), 'min_duration_us': np.float64(4.486), 'max_duration_us': np.float64(7.73)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(2.11)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(3.12)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKer...', 'stream': 0, 'mean_duration_us': np.float64(4.14)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.41)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(5.65)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [8, 4], [8, 4], [16], [], [], [], [], []]","['float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [4, 1], [4, 1], [1], [], [], [], [], []]","['', '', '', '', '', '8', '16', '1024', '4', '[True, True, True]']",19.423502604166668,20.10498046875,1.9915551671802427,17.1806640625,20.98486328125,58.2705078125,3,123
+aten::native_batch_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16.0,True,True,True,,0.000655456,1.0003662109375,0.624862721171446,0.05943268228052002,0.05938713108862719,0.004894991042083343,0.05456062579367095,0.06435028995926192,0.03713726757632372,0.037108804334604964,0.0030586974226660484,0.03409290110225022,0.040210097292115984,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_kernel_for_multi_outputs<3, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int> >(int, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.530000000000001), 'mean_duration_us': np.float64(3.176666666666667), 'median_duration_us': np.float64(3.644), 'std_dev_duration_us': np.float64(0.8672271264720037), 'min_duration_us': np.float64(1.961), 'max_duration_us': np.float64(3.925)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(10.693999999999999), 'mean_duration_us': np.float64(3.564666666666666), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.7857575255057304), 'min_duration_us': np.float64(2.483), 'max_duration_us': np.float64(4.326)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(32.966), 'mean_duration_us': np.float64(10.988666666666667), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.5762877367735286), 'min_duration_us': np.float64(10.174), 'max_duration_us': np.float64(11.416)}]","[{'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_ker...', 'stream': 0, 'mean_duration_us': np.float64(3.18)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.56)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(10.99)}]","[[8, 16, 32, 32], [], [], [16], [16], [], [], []]","['float', '', '', 'float', 'float', 'Scalar', 'Scalar', 'Scalar']","[[16384, 1024, 32, 1], [], [], [1], [1], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05']",17.729817708333332,17.6630859375,1.463543802533565,16.30078125,19.2255859375,53.189453125,3,922
+aten::native_batch_norm,"(1, 128, 32, 32)","('float', None)","(131072, 1024, 32, 1)",,128.0,True,True,True,,0.000656128,1.0029296875,0.623904576436222,0.061650947758474385,0.06251705622478303,0.004327812281425612,0.056955575935475344,0.06548021111516479,0.03846430844814261,0.039004677483962726,0.0027001418883383244,0.03553484447970382,0.04085340338076128,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.895), 'mean_duration_us': np.float64(3.965), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(0.06531972647421815), 'min_duration_us': np.float64(3.885), 'max_duration_us': np.float64(4.045)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(18.865000000000002), 'mean_duration_us': np.float64(6.288333333333334), 'median_duration_us': np.float64(6.369), 'std_dev_duration_us': np.float64(0.17297462883967188), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(6.448)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.587), 'mean_duration_us': np.float64(6.862333333333333), 'median_duration_us': np.float64(6.568), 'std_dev_duration_us': np.float64(0.8121807406948011), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(7.971)}]","[{'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.96)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 0, 'mean_duration_us': np.float64(6.29)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(6.86)}]","[[1, 128, 32, 32], [], [], [], [], [], [], []]","['float', '', '', '', '', 'Scalar', 'Scalar', 'Scalar']","[[131072, 1024, 32, 1], [], [], [], [], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05']",17.115559895833332,16.82177734375,1.2285377811764824,16.060546875,18.46435546875,51.3466796875,3,960
+aten::_fused_rms_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,1024.0,False,True,False,"[True, True]",0.00131072,1.5078125,0.8290155440414507,0.09662045428134391,0.09795210357866714,0.005130784259081977,0.09095513168539326,0.10095412757997133,0.08009985847158045,0.08120381643827329,0.004253499903902161,0.0754032179775281,0.08369254099893997,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<float, float, true>(float const*, float const*, int, long, long, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.695), 'mean_duration_us': np.float64(3.8983333333333334), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.04988876515698577), 'min_duration_us': np.float64(3.845), 'max_duration_us': np.float64(3.965)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, true>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.782999999999998), 'mean_duration_us': np.float64(5.594333333333332), 'median_duration_us': np.float64(5.528), 'std_dev_duration_us': np.float64(0.2178077643754286), 'min_duration_us': np.float64(5.367), 'max_duration_us': np.float64(5.888)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBeta<float, float, true>(float const*, float const*, long, long, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.707), 'mean_duration_us': np.float64(6.902333333333334), 'median_duration_us': np.float64(6.889), 'std_dev_duration_us': np.float64(0.5071320231348923), 'min_duration_us': np.float64(6.288), 'max_duration_us': np.float64(7.53)}]","[{'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<f...', 'stream': 0, 'mean_duration_us': np.float64(3.9)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(5.59)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBe...', 'stream': 0, 'mean_duration_us': np.float64(6.9)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [], [8, 16, 1, 1], [32, 32], []]","['float', 'float', 'ScalarList', 'float', 'float', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [], [16, 1, 1, 1], [32, 1], []]","['', '', '[32, 32]', '', '', '[True, True]']",16.39501953125,16.14111328125,0.888479895343345,15.6611328125,17.3828125,49.18505859375,3,71
+aten::native_group_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,4.0,True,True,True,"[True, False, False]",0.001179648,1.50006103515625,0.749969483663588,0.11607270439465735,0.12046957905759162,0.02471211817896858,0.08945727697861705,0.13829125714776339,0.08705098618229744,0.09034850800299177,0.018533334510914632,0.06709022782560399,0.10371422271829656,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.617), 'mean_duration_us': np.float64(4.539000000000001), 'median_duration_us': np.float64(4.045), 'std_dev_duration_us': np.float64(1.026369329237775), 'min_duration_us': np.float64(3.604), 'max_duration_us': np.float64(5.968)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.738), 'mean_duration_us': np.float64(4.5793333333333335), 'median_duration_us': np.float64(4.566), 'std_dev_duration_us': np.float64(0.6704099906441994), 'min_duration_us': np.float64(3.765), 'max_duration_us': np.float64(5.407)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(14.658999999999999), 'mean_duration_us': np.float64(4.886333333333333), 'median_duration_us': np.float64(4.446), 'std_dev_duration_us': np.float64(0.9517430792440201), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(6.208)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(4.54)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.58)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.89)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [8, 4], [8, 4], [], [], [], [], [], []]","['float', 'float', 'float', 'float', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [4, 1], [4, 1], [], [], [], [], [], []]","['', '', '', '', '', '8', '16', '1024', '4', '[True, False, False]']",14.004557291666666,13.056640625,3.2111962330970787,11.3740234375,17.5830078125,42.013671875,3,39
+aten::native_batch_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16.0,True,True,True,[True],0.001179648,1.500244140625,0.7498779495524817,0.13861462663243995,0.13828439179328697,0.001021216688976221,0.13779939093242086,0.139760097171612,0.10394405199711688,0.10369641617306206,0.0007657878767782663,0.1033327247219846,0.104803015096304,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, bool, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(34.048), 'mean_duration_us': np.float64(11.349333333333334), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.06798692684790375), 'min_duration_us': np.float64(11.256), 'max_duration_us': np.float64(11.416)}]","[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float,...', 'stream': 0, 'mean_duration_us': np.float64(11.35)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [], [16], [16], [16], [16], [], [], []]","['float', 'float', '', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [], [1], [1], [1], [1], [], [], []]","['', '', '', '', '', '', '', 'True', '1.0000000000000001e-05', '[True, False, False]']",11.349283854166666,11.3759765625,0.0833479550567492,11.255859375,11.416015625,34.0478515625,3,60
+aten::_fused_rms_norm,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,1024.0,False,True,False,,0.000524544,1.00390625,0.4982976653696498,0.23453697049609276,0.24794390851244255,0.025858685943916253,0.1904312566027736,0.2551328113609468,0.11686922484107347,0.12354987075437618,0.012885322835380436,0.09489145057857082,0.12713208426035505,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float, true>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(27.236000000000004), 'mean_duration_us': np.float64(4.539333333333334), 'median_duration_us': np.float64(4.2455), 'std_dev_duration_us': np.float64(0.5087467171611253), 'min_duration_us': np.float64(4.126), 'max_duration_us': np.float64(5.528)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(4.54)}]","[[8, 16, 32, 32], [], [32, 32], []]","['float', 'ScalarList', 'float', '']","[[16384, 1024, 32, 1], [], [32, 1], []]","['', '[32, 32]', '', '']",4.539388020833333,4.24560546875,0.5572450517309505,4.1259765625,5.52783203125,27.236328125,6,912
+aten::native_batch_norm_backward,"(1, 128, 32, 32)","('float', None)","(131072, 1024, 32, 1)",,128.0,True,True,True,[True],0.001179648,1.501953125,0.7490247074122237,0.24182137684950603,0.24883658200894926,0.029782389314002698,0.2091576276506063,0.2674699208889626,0.1811301860407223,0.186384748032711,0.022307745441957804,0.1566642308540302,0.2003415792354258,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, bool, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(19.747), 'mean_duration_us': np.float64(6.582333333333334), 'median_duration_us': np.float64(6.329), 'std_dev_duration_us': np.float64(0.6938656610292484), 'min_duration_us': np.float64(5.888), 'max_duration_us': np.float64(7.53)}]","[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float,...', 'stream': 0, 'mean_duration_us': np.float64(6.58)}]","[[1, 128, 32, 32], [1, 128, 32, 32], [], [], [], [128], [128], [], [], []]","['float', 'float', '', '', '', 'float', 'float', 'Scalar', 'Scalar', 'ScalarList']","[[131072, 1024, 32, 1], [131072, 1024, 32, 1], [], [], [], [1], [1], [], [], []]","['', '', '', '', '', '', '', 'True', '1.0000000000000001e-05', '[True, False, False]']",6.582356770833333,6.3291015625,0.849598477465432,5.88818359375,7.52978515625,19.7470703125,3,23
+aten::_fused_rms_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,1024.0,False,True,False,"[True, False]",0.001048576,1.5078125,0.6632124352331606,0.27343927544039176,0.28815544077600785,0.03747419808787525,0.23084071348114352,0.3013216720640238,0.18134832775321316,0.19110827160274094,0.024853354172269596,0.15309643173878948,0.19984027991810904,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, true>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(17.583), 'mean_duration_us': np.float64(5.861), 'median_duration_us': np.float64(5.487), 'std_dev_duration_us': np.float64(0.705458716013914), 'min_duration_us': np.float64(5.247), 'max_duration_us': np.float64(6.849)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(5.86)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [], [8, 16, 1, 1], [], []]","['float', 'float', 'ScalarList', 'float', '', 'ScalarList']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [], [16, 1, 1, 1], [], []]","['', '', '[32, 32]', '', '', '[True, False]']",5.861002604166667,5.48681640625,0.864090943974899,5.2470703125,6.84912109375,17.5830078125,3,13
+aten::miopen_batch_norm_backward,"(8, 16, 32, 32)","('float', None)","(16384, 1024, 32, 1)",,16.0,True,True,False,[True],0.000524336,1.00006103515625,0.5000152578577968,0.2067490101745708,0.20944165398868736,0.01852446773236728,0.18702557868152922,0.22377979785349592,0.10337765963428229,0.10472402262531696,0.00926251650987806,0.0935156429504485,0.1118933133270814,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'MIOpenBatchNormBwdSpatial', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(15.3), 'mean_duration_us': np.float64(5.1000000000000005), 'median_duration_us': np.float64(5.007), 'std_dev_duration_us': np.float64(0.38170407385827065), 'min_duration_us': np.float64(4.686), 'max_duration_us': np.float64(5.607)}]","[{'name': 'MIOpenBatchNormBwdSpatial', 'stream': 0, 'mean_duration_us': np.float64(5.1)}]","[[8, 16, 32, 32], [8, 16, 32, 32], [16], [16], [16], [16], [16], []]","['float', 'float', 'float', 'float', 'float', 'float', 'float', 'Scalar']","[[16384, 1024, 32, 1], [16384, 1024, 32, 1], [1], [1], [1], [1], [1], []]","['', '', '', '', '', '', '', '1.0000000000000001e-05']",5.099934895833333,5.0068359375,0.4674548588682645,4.68603515625,5.60693359375,15.2998046875,3,167
+aten::miopen_batch_norm_backward,"(1, 128, 32, 32)","('float', None)","(131072, 1024, 32, 1)",,128.0,True,True,False,[True],0.000524672,1.00048828125,0.5001220107369448,0.23711254933163992,0.2447632973342447,0.02942084384243977,0.20462211657142854,0.2619522340892465,0.11858520494270279,0.12241151241740716,0.014714011580058634,0.10233602438095238,0.13100807802974884,python,CPU,thread 2300680 (pt_autograd_0),vector_fp32,"[{'name': 'MIOpenBatchNormBwdSpatial', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.418), 'mean_duration_us': np.float64(4.472666666666666), 'median_duration_us': np.float64(4.286), 'std_dev_duration_us': np.float64(0.4766930062652715), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(5.127)}]","[{'name': 'MIOpenBatchNormBwdSpatial', 'stream': 0, 'mean_duration_us': np.float64(4.47)}]","[[1, 128, 32, 32], [1, 128, 32, 32], [128], [], [], [128], [128], []]","['float', 'float', 'float', '', '', 'float', 'float', 'Scalar']","[[131072, 1024, 32, 1], [131072, 1024, 32, 1], [1], [], [], [1], [1], []]","['', '', '', '', '', '', '', '1.0000000000000001e-05']",4.47265625,4.2861328125,0.5838267646323473,4.0048828125,5.126953125,13.41796875,3,88
+aten::miopen_batch_norm,"(1, 128, 32, 32)","('float', None)","(131072, 1024, 32, 1)",,128.0,True,True,True,,0.000656128,1.0029296875,0.623904576436222,0.24405964575323438,0.25249415052754987,0.029040390437094794,0.21173565709791586,0.2679491296342374,0.15226992990884605,0.15753225603751467,0.018118432495198136,0.13210284545812032,0.1671746882309032,python,CPU,thread 2300490 (python),vector_fp32,"[{'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.056999999999999), 'mean_duration_us': np.float64(4.352333333333333), 'median_duration_us': np.float64(4.165), 'std_dev_duration_us': np.float64(0.4455418673430763), 'min_duration_us': np.float64(3.925), 'max_duration_us': np.float64(4.967)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'mean_duration_us': np.float64(4.35)}]","[[1, 128, 32, 32], [128], [128], [], [], [], [], []]","['float', 'float', 'float', '', '', 'Scalar', 'Scalar', 'Scalar']","[[131072, 1024, 32, 1], [1], [1], [], [], [], [], []]","['', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05']",4.352213541666667,4.1650390625,0.5456305012929936,3.9248046875,4.966796875,13.056640625,3,901
diff --git a/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/ops_unique_args.csv b/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/ops_unique_args.csv
index 9a2b3314..c332aa18 100644
--- a/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/ops_unique_args.csv
+++ b/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/ops_unique_args.csv
@@ -1,17 +1,17 @@
 name,op category,process_name,process_label,thread_name,Input Dims,Input type,Input Strides,Concrete Inputs,operation_count,total_direct_kernel_time_mean,total_subtree_kernel_time_mean,total_direct_kernel_time_median,total_subtree_kernel_time_median,total_direct_kernel_time_std,total_subtree_kernel_time_std,total_direct_kernel_time_min,total_subtree_kernel_time_min,total_direct_kernel_time_max,total_subtree_kernel_time_max,total_direct_kernel_time_sum,total_subtree_kernel_time_sum,ex_UID,kernel_details_summary,trunc_kernel_details,Percentage (%),Cumulative Percentage (%)
-aten::native_layer_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (8, 1, 1, 1), (8, 1, 1, 1), (16, 32, 32), (16, 32, 32), ())","('float', 'float', 'ScalarList', 'float', 'float', 'float', 'float', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (1, 1, 1, 1), (1, 1, 1, 1), (1024, 32, 1), (1024, 32, 1), ())","('', '', '[16, 32, 32]', '', '', '', '', '[True, True, True]')",3,32.6064453125,32.6064453125,32.2861328125,32.2861328125,0.5902431727220115,0.5902431727220115,32.24560546875,32.24560546875,33.28759765625,33.28759765625,97.8193359375,97.8193359375,152,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, false>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(84.883), 'mean_duration_us': np.float64(28.29433333333333), 'median_duration_us': np.float64(28.201), 'std_dev_duration_us': np.float64(0.4143543840187468), 'min_duration_us': np.float64(27.84), 'max_duration_us': np.float64(28.842)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleCUDAKernel<float, float, false>(long, long, float const*, float const*, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.936999999999998), 'mean_duration_us': np.float64(4.312333333333332), 'median_duration_us': np.float64(4.406), 'std_dev_duration_us': np.float64(0.16157626338323602), 'min_duration_us': np.float64(4.085), 'max_duration_us': np.float64(4.446)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(28.29)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleC...', 'stream': 0, 'mean_duration_us': np.float64(4.31)}]",9.860907522058989,9.860907522058989
+aten::native_layer_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (8, 1, 1, 1), (8, 1, 1, 1), (16, 32, 32), (16, 32, 32), ())","('float', 'float', 'ScalarList', 'float', 'float', 'float', 'float', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (1, 1, 1, 1), (1, 1, 1, 1), (1024, 32, 1), (1024, 32, 1), ())","('', '', '[16, 32, 32]', '', '', '', '', '[True, True, True]')",3,32.6064453125,32.6064453125,32.2861328125,32.2861328125,0.5902431727220115,0.5902431727220115,32.24560546875,32.24560546875,33.28759765625,33.28759765625,97.8193359375,97.8193359375,152,"[{'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleCUDAKernel<float, float, false>(long, long, float const*, float const*, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.936999999999998), 'mean_duration_us': np.float64(4.312333333333332), 'median_duration_us': np.float64(4.406), 'std_dev_duration_us': np.float64(0.16157626338323602), 'min_duration_us': np.float64(4.085), 'max_duration_us': np.float64(4.446)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, false>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(84.883), 'mean_duration_us': np.float64(28.29433333333333), 'median_duration_us': np.float64(28.201), 'std_dev_duration_us': np.float64(0.4143543840187468), 'min_duration_us': np.float64(27.84), 'max_duration_us': np.float64(28.842)}]","[{'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleC...', 'stream': 0, 'mean_duration_us': np.float64(4.31)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(28.29)}]",9.860907522058989,9.860907522058989
 aten::native_layer_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (8, 1, 1, 1), (8, 1, 1, 1), (), (), ())","('float', 'float', 'ScalarList', 'float', 'float', '', '', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (1, 1, 1, 1), (1, 1, 1, 1), (), (), ())","('', '', '[16, 32, 32]', '', '', '', '', '[True, False, False]')",3,24.542317708333332,24.542317708333332,24.59619140625,24.59619140625,0.8028704426605566,0.8028704426605566,23.7138671875,23.7138671875,25.31689453125,25.31689453125,73.626953125,73.626953125,55,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, false>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(73.62700000000001), 'mean_duration_us': np.float64(24.542333333333335), 'median_duration_us': np.float64(24.596), 'std_dev_duration_us': np.float64(0.6555213362067043), 'min_duration_us': np.float64(23.714), 'max_duration_us': np.float64(25.317)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(24.54)}]",7.422137647310147,17.283045169369135
-aten::miopen_batch_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (16,), (16,), (16,), (16,), (), (), ())","('float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (1,), (1,), (1,), (1,), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05')",3,21.78857421875,21.78857421875,14.2177734375,14.2177734375,14.41545950056331,14.41545950056331,12.73583984375,12.73583984375,38.412109375,38.412109375,65.36572265625,65.36572265625,803,"[{'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(37.091), 'mean_duration_us': np.float64(12.363666666666667), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(12.076039232942046), 'min_duration_us': np.float64(3.685), 'max_duration_us': np.float64(29.441)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(15.74), 'mean_duration_us': np.float64(5.246666666666667), 'median_duration_us': np.float64(4.926), 'std_dev_duration_us': np.float64(0.6308519812303217), 'min_duration_us': np.float64(4.686), 'max_duration_us': np.float64(6.128)}, {'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.535), 'mean_duration_us': np.float64(4.178333333333334), 'median_duration_us': np.float64(4.125), 'std_dev_duration_us': np.float64(0.07542472332656514), 'min_duration_us': np.float64(4.125), 'max_duration_us': np.float64(4.285)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(12.36)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(5.25)}, {'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'mean_duration_us': np.float64(4.18)}]",6.589344939303937,23.872390108673073
-aten::native_group_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (8, 4), (8, 4), (16,), (), (), (), (), ())","('float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (4, 1), (4, 1), (1,), (), (), (), (), ())","('', '', '', '', '', '8', '16', '1024', '4', '[True, True, True]')",3,19.423502604166668,19.423502604166668,20.10498046875,20.10498046875,1.9915551671802427,1.9915551671802427,17.1806640625,17.1806640625,20.98486328125,20.98486328125,58.2705078125,58.2705078125,123,"[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.216000000000001), 'mean_duration_us': np.float64(4.405333333333334), 'median_duration_us': np.float64(4.405), 'std_dev_duration_us': np.float64(0.1963675691712412), 'min_duration_us': np.float64(4.165), 'max_duration_us': np.float64(4.646)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(6.327), 'mean_duration_us': np.float64(2.109), 'median_duration_us': np.float64(2.122), 'std_dev_duration_us': np.float64(0.24552936009094037), 'min_duration_us': np.float64(1.802), 'max_duration_us': np.float64(2.403)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.370999999999999), 'mean_duration_us': np.float64(3.1236666666666664), 'median_duration_us': np.float64(2.723), 'std_dev_duration_us': np.float64(0.624051992135983), 'min_duration_us': np.float64(2.643), 'max_duration_us': np.float64(4.005)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.942), 'mean_duration_us': np.float64(5.647333333333333), 'median_duration_us': np.float64(4.726), 'std_dev_duration_us': np.float64(1.4759235150312575), 'min_duration_us': np.float64(4.486), 'max_duration_us': np.float64(7.73)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKernel1<float>(long, long, long, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.415), 'mean_duration_us': np.float64(4.138333333333333), 'median_duration_us': np.float64(4.085), 'std_dev_duration_us': np.float64(0.1359738536958077), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(4.325)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.41)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(2.11)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(3.12)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(5.65)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKer...', 'stream': 0, 'mean_duration_us': np.float64(4.14)}]",5.874095170402806,29.74648527907588
-aten::native_batch_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (16,), (16,), (), (), ())","('float', '', '', 'float', 'float', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (1,), (1,), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05')",3,17.729817708333332,17.729817708333332,17.6630859375,17.6630859375,1.463543802533565,1.463543802533565,16.30078125,16.30078125,19.2255859375,19.2255859375,53.189453125,53.189453125,922,"[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(32.966), 'mean_duration_us': np.float64(10.988666666666667), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.5762877367735286), 'min_duration_us': np.float64(10.174), 'max_duration_us': np.float64(11.416)}, {'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_kernel_for_multi_outputs<3, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int> >(int, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.530000000000001), 'mean_duration_us': np.float64(3.176666666666667), 'median_duration_us': np.float64(3.644), 'std_dev_duration_us': np.float64(0.8672271264720037), 'min_duration_us': np.float64(1.961), 'max_duration_us': np.float64(3.925)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(10.693999999999999), 'mean_duration_us': np.float64(3.564666666666666), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.7857575255057304), 'min_duration_us': np.float64(2.483), 'max_duration_us': np.float64(4.326)}]","[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(10.99)}, {'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_ker...', 'stream': 0, 'mean_duration_us': np.float64(3.18)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.56)}]",5.361887538774895,35.10837281785078
-aten::native_batch_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((1, 128, 32, 32), (), (), (), (), (), (), ())","('float', '', '', '', '', 'Scalar', 'Scalar', 'Scalar')","((131072, 1024, 32, 1), (), (), (), (), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05')",3,17.115559895833332,17.115559895833332,16.82177734375,16.82177734375,1.2285377811764824,1.2285377811764824,16.060546875,16.060546875,18.46435546875,18.46435546875,51.3466796875,51.3466796875,960,"[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.587), 'mean_duration_us': np.float64(6.862333333333333), 'median_duration_us': np.float64(6.568), 'std_dev_duration_us': np.float64(0.8121807406948011), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(7.971)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(18.865000000000002), 'mean_duration_us': np.float64(6.288333333333334), 'median_duration_us': np.float64(6.369), 'std_dev_duration_us': np.float64(0.17297462883967188), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(6.448)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.895), 'mean_duration_us': np.float64(3.965), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(0.06531972647421815), 'min_duration_us': np.float64(3.885), 'max_duration_us': np.float64(4.045)}]","[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(6.86)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 0, 'mean_duration_us': np.float64(6.29)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.96)}]",5.176122441546014,40.28449525939679
-aten::_fused_rms_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (8, 16, 1, 1), (32, 32), ())","('float', 'float', 'ScalarList', 'float', 'float', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (16, 1, 1, 1), (32, 1), ())","('', '', '[32, 32]', '', '', '[True, True]')",3,16.39501953125,16.39501953125,16.14111328125,16.14111328125,0.888479895343345,0.888479895343345,15.6611328125,15.6611328125,17.3828125,17.3828125,49.18505859375,49.18505859375,71,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, true>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.782999999999998), 'mean_duration_us': np.float64(5.594333333333332), 'median_duration_us': np.float64(5.528), 'std_dev_duration_us': np.float64(0.2178077643754286), 'min_duration_us': np.float64(5.367), 'max_duration_us': np.float64(5.888)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBeta<float, float, true>(float const*, float const*, long, long, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.707), 'mean_duration_us': np.float64(6.902333333333334), 'median_duration_us': np.float64(6.889), 'std_dev_duration_us': np.float64(0.5071320231348923), 'min_duration_us': np.float64(6.288), 'max_duration_us': np.float64(7.53)}, {'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<float, float, true>(float const*, float const*, int, long, long, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.695), 'mean_duration_us': np.float64(3.8983333333333334), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.04988876515698577), 'min_duration_us': np.float64(3.845), 'max_duration_us': np.float64(3.965)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(5.59)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBe...', 'stream': 0, 'mean_duration_us': np.float64(6.9)}, {'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<f...', 'stream': 0, 'mean_duration_us': np.float64(3.9)}]",4.958215158707579,45.24271041810437
-aten::native_group_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (16,), (16,), (), (), (), (), ())","('float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (1,), (1,), (), (), (), (), ())","('', '', '', '8', '16', '1024', '4', '1.0000000000000001e-05')",3,15.941080729166666,15.941080729166666,17.02197265625,17.02197265625,2.936634842645699,2.936634842645699,12.6171875,12.6171875,18.18408203125,18.18408203125,47.8232421875,47.8232421875,821,"[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.869999999999997), 'mean_duration_us': np.float64(7.289999999999999), 'median_duration_us': np.float64(7.17), 'std_dev_duration_us': np.float64(0.5463338417732021), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(8.011)}, {'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.296), 'mean_duration_us': np.float64(4.0986666666666665), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.4510511898467109), 'min_duration_us': np.float64(2.123), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.657), 'mean_duration_us': np.float64(4.552333333333333), 'median_duration_us': np.float64(4.285), 'std_dev_duration_us': np.float64(0.7437568300339985), 'min_duration_us': np.float64(3.805), 'max_duration_us': np.float64(5.567)}]","[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.29)}, {'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKe...', 'stream': 0, 'mean_duration_us': np.float64(4.1)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.55)}]",4.820934062742728,50.0636444808471
+aten::miopen_batch_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (16,), (16,), (16,), (16,), (), (), ())","('float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (1,), (1,), (1,), (1,), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05')",3,21.78857421875,21.78857421875,14.2177734375,14.2177734375,14.41545950056331,14.41545950056331,12.73583984375,12.73583984375,38.412109375,38.412109375,65.36572265625,65.36572265625,803,"[{'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.535), 'mean_duration_us': np.float64(4.178333333333334), 'median_duration_us': np.float64(4.125), 'std_dev_duration_us': np.float64(0.07542472332656514), 'min_duration_us': np.float64(4.125), 'max_duration_us': np.float64(4.285)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(15.74), 'mean_duration_us': np.float64(5.246666666666667), 'median_duration_us': np.float64(4.926), 'std_dev_duration_us': np.float64(0.6308519812303217), 'min_duration_us': np.float64(4.686), 'max_duration_us': np.float64(6.128)}, {'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(37.091), 'mean_duration_us': np.float64(12.363666666666667), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(12.076039232942046), 'min_duration_us': np.float64(3.685), 'max_duration_us': np.float64(29.441)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'mean_duration_us': np.float64(4.18)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(5.25)}, {'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(12.36)}]",6.589344939303937,23.872390108673073
+aten::native_group_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (8, 4), (8, 4), (16,), (), (), (), (), ())","('float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (4, 1), (4, 1), (1,), (), (), (), (), ())","('', '', '', '', '', '8', '16', '1024', '4', '[True, True, True]')",3,19.423502604166668,19.423502604166668,20.10498046875,20.10498046875,1.9915551671802427,1.9915551671802427,17.1806640625,17.1806640625,20.98486328125,20.98486328125,58.2705078125,58.2705078125,123,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(6.327), 'mean_duration_us': np.float64(2.109), 'median_duration_us': np.float64(2.122), 'std_dev_duration_us': np.float64(0.24552936009094037), 'min_duration_us': np.float64(1.802), 'max_duration_us': np.float64(2.403)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.370999999999999), 'mean_duration_us': np.float64(3.1236666666666664), 'median_duration_us': np.float64(2.723), 'std_dev_duration_us': np.float64(0.624051992135983), 'min_duration_us': np.float64(2.643), 'max_duration_us': np.float64(4.005)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKernel1<float>(long, long, long, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.415), 'mean_duration_us': np.float64(4.138333333333333), 'median_duration_us': np.float64(4.085), 'std_dev_duration_us': np.float64(0.1359738536958077), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(4.325)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.216000000000001), 'mean_duration_us': np.float64(4.405333333333334), 'median_duration_us': np.float64(4.405), 'std_dev_duration_us': np.float64(0.1963675691712412), 'min_duration_us': np.float64(4.165), 'max_duration_us': np.float64(4.646)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.942), 'mean_duration_us': np.float64(5.647333333333333), 'median_duration_us': np.float64(4.726), 'std_dev_duration_us': np.float64(1.4759235150312575), 'min_duration_us': np.float64(4.486), 'max_duration_us': np.float64(7.73)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(2.11)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(3.12)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKer...', 'stream': 0, 'mean_duration_us': np.float64(4.14)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.41)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(5.65)}]",5.874095170402806,29.74648527907588
+aten::native_batch_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (16,), (16,), (), (), ())","('float', '', '', 'float', 'float', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (1,), (1,), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05')",3,17.729817708333332,17.729817708333332,17.6630859375,17.6630859375,1.463543802533565,1.463543802533565,16.30078125,16.30078125,19.2255859375,19.2255859375,53.189453125,53.189453125,922,"[{'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_kernel_for_multi_outputs<3, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int> >(int, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.530000000000001), 'mean_duration_us': np.float64(3.176666666666667), 'median_duration_us': np.float64(3.644), 'std_dev_duration_us': np.float64(0.8672271264720037), 'min_duration_us': np.float64(1.961), 'max_duration_us': np.float64(3.925)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(10.693999999999999), 'mean_duration_us': np.float64(3.564666666666666), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.7857575255057304), 'min_duration_us': np.float64(2.483), 'max_duration_us': np.float64(4.326)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(32.966), 'mean_duration_us': np.float64(10.988666666666667), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.5762877367735286), 'min_duration_us': np.float64(10.174), 'max_duration_us': np.float64(11.416)}]","[{'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_ker...', 'stream': 0, 'mean_duration_us': np.float64(3.18)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.56)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(10.99)}]",5.361887538774895,35.10837281785078
+aten::native_batch_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((1, 128, 32, 32), (), (), (), (), (), (), ())","('float', '', '', '', '', 'Scalar', 'Scalar', 'Scalar')","((131072, 1024, 32, 1), (), (), (), (), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05')",3,17.115559895833332,17.115559895833332,16.82177734375,16.82177734375,1.2285377811764824,1.2285377811764824,16.060546875,16.060546875,18.46435546875,18.46435546875,51.3466796875,51.3466796875,960,"[{'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.895), 'mean_duration_us': np.float64(3.965), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(0.06531972647421815), 'min_duration_us': np.float64(3.885), 'max_duration_us': np.float64(4.045)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(18.865000000000002), 'mean_duration_us': np.float64(6.288333333333334), 'median_duration_us': np.float64(6.369), 'std_dev_duration_us': np.float64(0.17297462883967188), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(6.448)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.587), 'mean_duration_us': np.float64(6.862333333333333), 'median_duration_us': np.float64(6.568), 'std_dev_duration_us': np.float64(0.8121807406948011), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(7.971)}]","[{'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.96)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 0, 'mean_duration_us': np.float64(6.29)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(6.86)}]",5.176122441546014,40.28449525939679
+aten::_fused_rms_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (8, 16, 1, 1), (32, 32), ())","('float', 'float', 'ScalarList', 'float', 'float', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (16, 1, 1, 1), (32, 1), ())","('', '', '[32, 32]', '', '', '[True, True]')",3,16.39501953125,16.39501953125,16.14111328125,16.14111328125,0.888479895343345,0.888479895343345,15.6611328125,15.6611328125,17.3828125,17.3828125,49.18505859375,49.18505859375,71,"[{'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<float, float, true>(float const*, float const*, int, long, long, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.695), 'mean_duration_us': np.float64(3.8983333333333334), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.04988876515698577), 'min_duration_us': np.float64(3.845), 'max_duration_us': np.float64(3.965)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, true>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.782999999999998), 'mean_duration_us': np.float64(5.594333333333332), 'median_duration_us': np.float64(5.528), 'std_dev_duration_us': np.float64(0.2178077643754286), 'min_duration_us': np.float64(5.367), 'max_duration_us': np.float64(5.888)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBeta<float, float, true>(float const*, float const*, long, long, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.707), 'mean_duration_us': np.float64(6.902333333333334), 'median_duration_us': np.float64(6.889), 'std_dev_duration_us': np.float64(0.5071320231348923), 'min_duration_us': np.float64(6.288), 'max_duration_us': np.float64(7.53)}]","[{'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<f...', 'stream': 0, 'mean_duration_us': np.float64(3.9)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(5.59)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBe...', 'stream': 0, 'mean_duration_us': np.float64(6.9)}]",4.958215158707579,45.24271041810437
+aten::native_group_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (16,), (16,), (), (), (), (), ())","('float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (1,), (1,), (), (), (), (), ())","('', '', '', '8', '16', '1024', '4', '1.0000000000000001e-05')",3,15.941080729166666,15.941080729166666,17.02197265625,17.02197265625,2.936634842645699,2.936634842645699,12.6171875,12.6171875,18.18408203125,18.18408203125,47.8232421875,47.8232421875,821,"[{'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.296), 'mean_duration_us': np.float64(4.0986666666666665), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.4510511898467109), 'min_duration_us': np.float64(2.123), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.657), 'mean_duration_us': np.float64(4.552333333333333), 'median_duration_us': np.float64(4.285), 'std_dev_duration_us': np.float64(0.7437568300339985), 'min_duration_us': np.float64(3.805), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.869999999999997), 'mean_duration_us': np.float64(7.289999999999999), 'median_duration_us': np.float64(7.17), 'std_dev_duration_us': np.float64(0.5463338417732021), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(8.011)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKe...', 'stream': 0, 'mean_duration_us': np.float64(4.1)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.55)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.29)}]",4.820934062742728,50.0636444808471
 aten::native_layer_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (16, 32, 32), (16, 32, 32), ())","('float', 'ScalarList', 'float', 'float', 'Scalar')","((16384, 1024, 32, 1), (), (1024, 32, 1), (1024, 32, 1), ())","('', '[16, 32, 32]', '', '', '1.0000000000000001e-05')",3,14.781412760416666,14.781412760416666,14.18115234375,14.18115234375,2.4393353684496706,2.4393353684496706,12.6982421875,12.6982421875,17.46484375,17.46484375,44.34423828125,44.34423828125,812,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float, false>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(44.344), 'mean_duration_us': np.float64(14.781333333333334), 'median_duration_us': np.float64(14.181), 'std_dev_duration_us': np.float64(1.99187890082594), 'min_duration_us': np.float64(12.698), 'max_duration_us': np.float64(17.465)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(14.78)}]",4.470224916543529,54.53386939739063
-aten::native_group_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (8, 4), (8, 4), (), (), (), (), (), ())","('float', 'float', 'float', 'float', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (4, 1), (4, 1), (), (), (), (), (), ())","('', '', '', '', '', '8', '16', '1024', '4', '[True, False, False]')",3,14.004557291666666,14.004557291666666,13.056640625,13.056640625,3.2111962330970787,3.2111962330970787,11.3740234375,11.3740234375,17.5830078125,17.5830078125,42.013671875,42.013671875,39,"[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(14.658999999999999), 'mean_duration_us': np.float64(4.886333333333333), 'median_duration_us': np.float64(4.446), 'std_dev_duration_us': np.float64(0.9517430792440201), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(6.208)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.617), 'mean_duration_us': np.float64(4.539000000000001), 'median_duration_us': np.float64(4.045), 'std_dev_duration_us': np.float64(1.026369329237775), 'min_duration_us': np.float64(3.604), 'max_duration_us': np.float64(5.968)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.738), 'mean_duration_us': np.float64(4.5793333333333335), 'median_duration_us': np.float64(4.566), 'std_dev_duration_us': np.float64(0.6704099906441994), 'min_duration_us': np.float64(3.765), 'max_duration_us': np.float64(5.407)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.89)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(4.54)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.58)}]",4.235286705342297,58.76915610273293
+aten::native_group_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (8, 4), (8, 4), (), (), (), (), (), ())","('float', 'float', 'float', 'float', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (4, 1), (4, 1), (), (), (), (), (), ())","('', '', '', '', '', '8', '16', '1024', '4', '[True, False, False]')",3,14.004557291666666,14.004557291666666,13.056640625,13.056640625,3.2111962330970787,3.2111962330970787,11.3740234375,11.3740234375,17.5830078125,17.5830078125,42.013671875,42.013671875,39,"[{'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.617), 'mean_duration_us': np.float64(4.539000000000001), 'median_duration_us': np.float64(4.045), 'std_dev_duration_us': np.float64(1.026369329237775), 'min_duration_us': np.float64(3.604), 'max_duration_us': np.float64(5.968)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.738), 'mean_duration_us': np.float64(4.5793333333333335), 'median_duration_us': np.float64(4.566), 'std_dev_duration_us': np.float64(0.6704099906441994), 'min_duration_us': np.float64(3.765), 'max_duration_us': np.float64(5.407)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(14.658999999999999), 'mean_duration_us': np.float64(4.886333333333333), 'median_duration_us': np.float64(4.446), 'std_dev_duration_us': np.float64(0.9517430792440201), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(6.208)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(4.54)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.58)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.89)}]",4.235286705342297,58.76915610273293
 aten::native_layer_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (), ())","('float', 'ScalarList', '', '', 'Scalar')","((16384, 1024, 32, 1), (), (), (), ())","('', '[16, 32, 32]', '', '', '1.0000000000000001e-05')",3,12.88525390625,12.88525390625,12.41796875,12.41796875,0.9514369086207531,0.9514369086207531,12.2578125,12.2578125,13.97998046875,13.97998046875,38.65576171875,38.65576171875,935,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float, false>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(38.656), 'mean_duration_us': np.float64(12.885333333333334), 'median_duration_us': np.float64(12.418), 'std_dev_duration_us': np.float64(0.7767974138874454), 'min_duration_us': np.float64(12.258), 'max_duration_us': np.float64(13.98)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(12.89)}]",3.8967846985476458,62.66594080128058
 aten::native_batch_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (16,), (16,), (16,), (16,), (), (), ())","('float', 'float', '', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (1,), (1,), (1,), (1,), (), (), ())","('', '', '', '', '', '', '', 'True', '1.0000000000000001e-05', '[True, False, False]')",3,11.349283854166666,11.349283854166666,11.3759765625,11.3759765625,0.0833479550567492,0.0833479550567492,11.255859375,11.255859375,11.416015625,11.416015625,34.0478515625,34.0478515625,60,"[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, bool, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(34.048), 'mean_duration_us': np.float64(11.349333333333334), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.06798692684790375), 'min_duration_us': np.float64(11.256), 'max_duration_us': np.float64(11.416)}]","[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float,...', 'stream': 0, 'mean_duration_us': np.float64(11.35)}]",3.432273510802826,66.0982143120834
-aten::native_group_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (), (), (), (), ())","('float', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (), (), (), (), ())","('', '', '', '8', '16', '1024', '4', '1.0000000000000001e-05')",3,10.961588541666666,10.961588541666666,11.4150390625,11.4150390625,1.7283104611351434,1.7283104611351434,9.0517578125,9.0517578125,12.41796875,12.41796875,32.884765625,32.884765625,944,"[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.149), 'mean_duration_us': np.float64(7.049666666666667), 'median_duration_us': np.float64(6.809), 'std_dev_duration_us': np.float64(0.4280197295556465), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(7.651)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.736), 'mean_duration_us': np.float64(3.9120000000000004), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.0972787552243353), 'min_duration_us': np.float64(2.363), 'max_duration_us': np.float64(4.767)}]","[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.05)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(3.91)}]",3.315025905715599,69.413240217799
+aten::native_group_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (), (), (), (), ())","('float', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (), (), (), (), ())","('', '', '', '8', '16', '1024', '4', '1.0000000000000001e-05')",3,10.961588541666666,10.961588541666666,11.4150390625,11.4150390625,1.7283104611351434,1.7283104611351434,9.0517578125,9.0517578125,12.41796875,12.41796875,32.884765625,32.884765625,944,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.736), 'mean_duration_us': np.float64(3.9120000000000004), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.0972787552243353), 'min_duration_us': np.float64(2.363), 'max_duration_us': np.float64(4.767)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.149), 'mean_duration_us': np.float64(7.049666666666667), 'median_duration_us': np.float64(6.809), 'std_dev_duration_us': np.float64(0.4280197295556465), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(7.651)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(3.91)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.05)}]",3.315025905715599,69.413240217799
 aten::mean,reduce,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (), ())","('float', 'ScalarList', 'Scalar', '', 'float')","((16384, 1024, 32, 1), (), (), (), ())","('', '[]', 'False', '', '')",3,10.44091796875,10.44091796875,10.61376953125,10.61376953125,1.2705677672188844,1.2705677672188844,9.0927734375,9.0927734375,11.6162109375,11.6162109375,31.32275390625,31.32275390625,988,"[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4, 4> >(at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4, 4>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(31.323), 'mean_duration_us': np.float64(10.441), 'median_duration_us': np.float64(10.614), 'std_dev_duration_us': np.float64(1.0372492468061858), 'min_duration_us': np.float64(9.093), 'max_duration_us': np.float64(11.616)}]","[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<floa...', 'stream': 0, 'mean_duration_us': np.float64(10.44)}]",3.1575636518641974,72.5708038696632
 aten::sum,reduce,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16), (), (), ())","('float', 'ScalarList', 'Scalar', '')","((16, 1), (), (), ())","('', '[0]', 'False', '')",6,4.331949869791667,4.331949869791667,4.205078125,4.205078125,1.0942127847261514,1.0942127847261514,3.1630859375,3.1630859375,6.0078125,6.0078125,25.99169921875,25.99169921875,103,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<float, at::native::func_wrapper_t<float, at::native::sum_functor<float, float, float>::operator()(at::TensorIterator&)::{lambda(float, float)#1}>, unsigned int, float, 4, 4> >(at::native::ReduceOp<float, at::native::func_wrapper_t<float, at::native::sum_functor<float, float, float>::operator()(at::TensorIterator&)::{lambda(float, float)#1}>, unsigned int, float, 4, 4>)', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(25.992), 'mean_duration_us': np.float64(4.332), 'median_duration_us': np.float64(4.205), 'std_dev_duration_us': np.float64(0.99894327499947), 'min_duration_us': np.float64(3.163), 'max_duration_us': np.float64(6.008)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<floa...', 'stream': 0, 'mean_duration_us': np.float64(4.33)}]",2.620154184046253,75.19095805370945
 aten::add_,elementwise,python,CPU,thread 2300680 (pt_autograd_0),"((16,), (16,), ())","('float', 'float', 'Scalar')","((1,), (1,), ())","('', '', '1')",12,1.885009765625,1.885009765625,1.9013671875,1.9013671875,0.07718424959046567,0.07718424959046567,1.76123046875,1.76123046875,1.9619140625,1.9619140625,22.6201171875,22.6201171875,286,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>)', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(22.621), 'mean_duration_us': np.float64(1.8850833333333332), 'median_duration_us': np.float64(1.9015), 'std_dev_duration_us': np.float64(0.07396447157626122), 'min_duration_us': np.float64(1.761), 'max_duration_us': np.float64(1.962)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 0, 'mean_duration_us': np.float64(1.89)}]",2.2802739518349595,77.47123200554441
diff --git a/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/unified_perf_summary.csv b/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/unified_perf_summary.csv
index 38263452..63c181d1 100644
--- a/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/unified_perf_summary.csv
+++ b/tests/traces/perf_model/normalization/normalization_layer_test_perf_report_csvs/unified_perf_summary.csv
@@ -1,18 +1,18 @@
 name,op category,process_name,process_label,thread_name,Input Dims,Input type,Input Strides,Concrete Inputs,ex_UID,operation_count,total_duration_us,mean_duration_us,std_duration_us,GFLOPS,Data Moved (MB),FLOPS/Byte,Compute Spec,TB/s_mean,TB/s_std,TFLOPS/s_mean,TFLOPS/s_std,Kernel Time (µs)_mean,Kernel Time (µs)_std,Kernel Time (µs)_sum,duration_us_median,duration_us_min,duration_us_max,TB/s_median,TB/s_min,TB/s_max,TFLOPS/s_median,TFLOPS/s_min,TFLOPS/s_max,Kernel Time (µs)_median,Kernel Time (µs)_min,Kernel Time (µs)_max,kernel_details_summary,trunc_kernel_details,perf_params,has_perf_model,Percentage (%),Cumulative Percentage (%)
-aten::native_layer_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (8, 1, 1, 1), (8, 1, 1, 1), (16, 32, 32), (16, 32, 32), ())","('float', 'float', 'ScalarList', 'float', 'float', 'float', 'float', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (1, 1, 1, 1), (1, 1, 1, 1), (1024, 32, 1), (1024, 32, 1), ())","('', '', '[16, 32, 32]', '', '', '', '', '[True, True, True]')",152,3,58.578,19.526,5.161390607191052,0.001179648,1.75,0.6428571428571429,vector_fp32,0.05628963269412802,0.001008475034056347,0.03618619244622515,0.0006483053790362222,32.6064453125,0.5902431727220115,97.8193359375,16.815,16.285,25.478,0.05683579419860258,0.05512587657870418,0.0569072273050773,0.03653729627053023,0.035438063514881255,0.03658321755326398,32.2861328125,32.24560546875,33.28759765625,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, false>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(84.883), 'mean_duration_us': np.float64(28.29433333333333), 'median_duration_us': np.float64(28.201), 'std_dev_duration_us': np.float64(0.4143543840187468), 'min_duration_us': np.float64(27.84), 'max_duration_us': np.float64(28.842)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleCUDAKernel<float, float, false>(long, long, float const*, float const*, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.936999999999998), 'mean_duration_us': np.float64(4.312333333333332), 'median_duration_us': np.float64(4.406), 'std_dev_duration_us': np.float64(0.16157626338323602), 'min_duration_us': np.float64(4.085), 'max_duration_us': np.float64(4.446)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(28.29)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleC...', 'stream': 0, 'mean_duration_us': np.float64(4.31)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16384, 'has_bias': True, 'is_affine': True, 'is_training': True, 'output_mask': [True, True, True]}",True,9.974870381057038,9.974870381057038
+aten::native_layer_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (8, 1, 1, 1), (8, 1, 1, 1), (16, 32, 32), (16, 32, 32), ())","('float', 'float', 'ScalarList', 'float', 'float', 'float', 'float', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (1, 1, 1, 1), (1, 1, 1, 1), (1024, 32, 1), (1024, 32, 1), ())","('', '', '[16, 32, 32]', '', '', '', '', '[True, True, True]')",152,3,58.578,19.526,5.161390607191052,0.001179648,1.75,0.6428571428571429,vector_fp32,0.05628963269412802,0.001008475034056347,0.03618619244622515,0.0006483053790362222,32.6064453125,0.5902431727220115,97.8193359375,16.815,16.285,25.478,0.05683579419860258,0.05512587657870418,0.0569072273050773,0.03653729627053023,0.035438063514881255,0.03658321755326398,32.2861328125,32.24560546875,33.28759765625,"[{'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleCUDAKernel<float, float, false>(long, long, float const*, float const*, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.936999999999998), 'mean_duration_us': np.float64(4.312333333333332), 'median_duration_us': np.float64(4.406), 'std_dev_duration_us': np.float64(0.16157626338323602), 'min_duration_us': np.float64(4.085), 'max_duration_us': np.float64(4.446)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, false>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(84.883), 'mean_duration_us': np.float64(28.29433333333333), 'median_duration_us': np.float64(28.201), 'std_dev_duration_us': np.float64(0.4143543840187468), 'min_duration_us': np.float64(27.84), 'max_duration_us': np.float64(28.842)}]","[{'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardSimpleC...', 'stream': 0, 'mean_duration_us': np.float64(4.31)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(28.29)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16384, 'has_bias': True, 'is_affine': True, 'is_training': True, 'output_mask': [True, True, True]}",True,9.974870381057038,9.974870381057038
 aten::native_layer_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (8, 1, 1, 1), (8, 1, 1, 1), (), (), ())","('float', 'float', 'ScalarList', 'float', 'float', '', '', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (1, 1, 1, 1), (1, 1, 1, 1), (), (), ())","('', '', '[16, 32, 32]', '', '', '', '', '[True, False, False]')",55,3,904.339,301.44633333333337,505.77193739602967,0.001179648,1.5625,0.72,vector_fp32,0.06680599771272798,0.00219379562352543,0.04810031835316414,0.001579532848938307,24.542317708333332,0.8028704426605566,73.626953125,10.075,8.803,885.461,0.06661193893554086,0.06471567821944493,0.06909037598319813,0.04796059603358942,0.04659528831800035,0.04974507070790265,24.59619140625,23.7138671875,25.31689453125,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, false>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(73.62700000000001), 'mean_duration_us': np.float64(24.542333333333335), 'median_duration_us': np.float64(24.596), 'std_dev_duration_us': np.float64(0.6555213362067043), 'min_duration_us': np.float64(23.714), 'max_duration_us': np.float64(25.317)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(24.54)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16384, 'has_bias': False, 'is_affine': False, 'is_training': True, 'output_mask': [True, False, False]}",True,7.50791555611543,17.482785937172466
-aten::batch_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (16,), (16,), (16,), (16,), (), (), (), ())","('float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (1,), (1,), (1,), (1,), (), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True')",800,3,15966.217999999999,5322.072666666666,8954.225689402816,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.061149659349069435,0.029620350894417908,0.03821014253956648,0.018508653061939044,21.78857421875,14.41545950056331,65.36572265625,230.304,74.782,15661.132,0.0737780781647091,0.027308055117709867,0.08236284476478933,0.046101170684799776,0.01706378563075202,0.051465471303147645,14.2177734375,12.73583984375,38.412109375,"[{'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(37.091), 'mean_duration_us': np.float64(12.363666666666667), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(12.076039232942046), 'min_duration_us': np.float64(3.685), 'max_duration_us': np.float64(29.441)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(15.74), 'mean_duration_us': np.float64(5.246666666666667), 'median_duration_us': np.float64(4.926), 'std_dev_duration_us': np.float64(0.6308519812303217), 'min_duration_us': np.float64(4.686), 'max_duration_us': np.float64(6.128)}, {'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.535), 'mean_duration_us': np.float64(4.178333333333334), 'median_duration_us': np.float64(4.125), 'std_dev_duration_us': np.float64(0.07542472332656514), 'min_duration_us': np.float64(4.125), 'max_duration_us': np.float64(4.285)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(12.36)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(5.25)}, {'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'mean_duration_us': np.float64(4.18)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,6.665498233159246,24.148284170331713
-aten::native_group_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (8, 4), (8, 4), (16,), (), (), (), (), ())","('float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (4, 1), (4, 1), (1,), (), (), (), (), ())","('', '', '', '', '', '8', '16', '1024', '4', '[True, True, True]')",123,3,263.062,87.68733333333334,27.195307211600554,0.001179648,1.50006103515625,0.749969483663588,vector_fp32,0.08158110778877121,0.008789629375982646,0.06118334128504826,0.006591953804700008,19.423502604166668,1.9915551671802427,58.2705078125,96.314,57.225,109.523,0.07823573877352762,0.07495536086744072,0.0915522237253453,0.05867441661202185,0.05621423328757242,0.0686613739555505,20.10498046875,17.1806640625,20.98486328125,"[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.216000000000001), 'mean_duration_us': np.float64(4.405333333333334), 'median_duration_us': np.float64(4.405), 'std_dev_duration_us': np.float64(0.1963675691712412), 'min_duration_us': np.float64(4.165), 'max_duration_us': np.float64(4.646)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(6.327), 'mean_duration_us': np.float64(2.109), 'median_duration_us': np.float64(2.122), 'std_dev_duration_us': np.float64(0.24552936009094037), 'min_duration_us': np.float64(1.802), 'max_duration_us': np.float64(2.403)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.370999999999999), 'mean_duration_us': np.float64(3.1236666666666664), 'median_duration_us': np.float64(2.723), 'std_dev_duration_us': np.float64(0.624051992135983), 'min_duration_us': np.float64(2.643), 'max_duration_us': np.float64(4.005)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.942), 'mean_duration_us': np.float64(5.647333333333333), 'median_duration_us': np.float64(4.726), 'std_dev_duration_us': np.float64(1.4759235150312575), 'min_duration_us': np.float64(4.486), 'max_duration_us': np.float64(7.73)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKernel1<float>(long, long, long, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.415), 'mean_duration_us': np.float64(4.138333333333333), 'median_duration_us': np.float64(4.085), 'std_dev_duration_us': np.float64(0.1359738536958077), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(4.325)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.41)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(2.11)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(3.12)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(5.65)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKer...', 'stream': 0, 'mean_duration_us': np.float64(4.14)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 4.0, 'has_bias': True, 'is_affine': True, 'is_training': True, 'output_mask': [True, True, True]}",True,5.941982297236539,30.090266467568252
-aten::batch_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (16,), (16,), (), (), (), ())","('float', '', '', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (1,), (1,), (), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True')",919,3,332033.53599999996,110677.84533333332,191592.16417494096,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.05943268228052002,0.004894991042083343,0.03713726757632372,0.0030586974226660484,17.729817708333332,1.463543802533565,53.189453125,74.351,49.765,331909.42,0.05938713108862719,0.05456062579367095,0.06435028995926192,0.037108804334604964,0.03409290110225022,0.040210097292115984,17.6630859375,16.30078125,19.2255859375,"[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(32.966), 'mean_duration_us': np.float64(10.988666666666667), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.5762877367735286), 'min_duration_us': np.float64(10.174), 'max_duration_us': np.float64(11.416)}, {'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_kernel_for_multi_outputs<3, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int> >(int, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.530000000000001), 'mean_duration_us': np.float64(3.176666666666667), 'median_duration_us': np.float64(3.644), 'std_dev_duration_us': np.float64(0.8672271264720037), 'min_duration_us': np.float64(1.961), 'max_duration_us': np.float64(3.925)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(10.693999999999999), 'mean_duration_us': np.float64(3.564666666666666), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.7857575255057304), 'min_duration_us': np.float64(2.483), 'max_duration_us': np.float64(4.326)}]","[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(10.99)}, {'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_ker...', 'stream': 0, 'mean_duration_us': np.float64(3.18)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.56)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,5.423855063789997,35.51412153135825
-aten::instance_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (), (), (), (), (), ())","('float', '', '', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (), (), (), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True')",954,3,213.848,71.28266666666667,20.77382618424765,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.06149336865636534,0.004316750443802684,0.03842491367261535,0.002697376428932597,17.115559895833332,1.2285377811764824,51.3466796875,63.515,55.512,94.821,0.062357263359554146,0.05680999814888272,0.06531284446065913,0.038964729267655505,0.03549845003305566,0.04081156171713487,16.82177734375,16.060546875,18.46435546875,"[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.587), 'mean_duration_us': np.float64(6.862333333333333), 'median_duration_us': np.float64(6.568), 'std_dev_duration_us': np.float64(0.8121807406948011), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(7.971)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(18.865000000000002), 'mean_duration_us': np.float64(6.288333333333334), 'median_duration_us': np.float64(6.369), 'std_dev_duration_us': np.float64(0.17297462883967188), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(6.448)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.895), 'mean_duration_us': np.float64(3.965), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(0.06531972647421815), 'min_duration_us': np.float64(3.885), 'max_duration_us': np.float64(4.045)}]","[{'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(6.86)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 0, 'mean_duration_us': np.float64(6.29)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.96)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,5.235943072724529,40.75006460408278
-aten::_fused_rms_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (8, 16, 1, 1), (32, 32), ())","('float', 'float', 'ScalarList', 'float', 'float', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (16, 1, 1, 1), (32, 1), ())","('', '', '[32, 32]', '', '', '[True, True]')",71,3,100.811,33.60366666666667,7.322260875804231,0.00131072,1.5078125,0.8290155440414507,vector_fp32,0.09662045428134391,0.005130784259081977,0.08009985847158045,0.004253499903902161,16.39501953125,0.888479895343345,49.18505859375,31.948,27.251,41.612,0.09795210357866714,0.09095513168539326,0.10095412757997133,0.08120381643827329,0.0754032179775281,0.08369254099893997,16.14111328125,15.6611328125,17.3828125,"[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, true>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.782999999999998), 'mean_duration_us': np.float64(5.594333333333332), 'median_duration_us': np.float64(5.528), 'std_dev_duration_us': np.float64(0.2178077643754286), 'min_duration_us': np.float64(5.367), 'max_duration_us': np.float64(5.888)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBeta<float, float, true>(float const*, float const*, long, long, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.707), 'mean_duration_us': np.float64(6.902333333333334), 'median_duration_us': np.float64(6.889), 'std_dev_duration_us': np.float64(0.5071320231348923), 'min_duration_us': np.float64(6.288), 'max_duration_us': np.float64(7.53)}, {'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<float, float, true>(float const*, float const*, int, long, long, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.695), 'mean_duration_us': np.float64(3.8983333333333334), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.04988876515698577), 'min_duration_us': np.float64(3.845), 'max_duration_us': np.float64(3.965)}]","[{'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(5.59)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBe...', 'stream': 0, 'mean_duration_us': np.float64(6.9)}, {'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<f...', 'stream': 0, 'mean_duration_us': np.float64(3.9)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 1024, 'has_bias': False, 'is_affine': True, 'is_training': False, 'output_mask': [True, True]}",True,5.015517427667078,45.76558203174986
-aten::group_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (16,), (16,), (), ())","('float', 'Scalar', 'float', 'float', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (1,), (1,), (), ())","('', '4', '', '', '1.0000000000000001e-05', 'True')",820,3,211430.646,70476.882,121956.23412552974,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.06748229481400676,0.013699960268272244,0.04216717036837403,0.008560594453173287,15.941080729166666,2.936634842645699,47.8232421875,81.362,49.474,211299.81,0.061623879980493956,0.05768561746462232,0.08313738699690403,0.03850646533375405,0.03604559190139899,0.05194945386996904,17.02197265625,12.6171875,18.18408203125,"[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.869999999999997), 'mean_duration_us': np.float64(7.289999999999999), 'median_duration_us': np.float64(7.17), 'std_dev_duration_us': np.float64(0.5463338417732021), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(8.011)}, {'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.296), 'mean_duration_us': np.float64(4.0986666666666665), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.4510511898467109), 'min_duration_us': np.float64(2.123), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.657), 'mean_duration_us': np.float64(4.552333333333333), 'median_duration_us': np.float64(4.285), 'std_dev_duration_us': np.float64(0.7437568300339985), 'min_duration_us': np.float64(3.805), 'max_duration_us': np.float64(5.567)}]","[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.29)}, {'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKe...', 'stream': 0, 'mean_duration_us': np.float64(4.1)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.55)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,4.876649769192889,50.642231800942746
+aten::batch_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (16,), (16,), (16,), (16,), (), (), (), ())","('float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (1,), (1,), (1,), (1,), (), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True')",800,3,15966.217999999999,5322.072666666666,8954.225689402816,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.061149659349069435,0.029620350894417908,0.03821014253956648,0.018508653061939044,21.78857421875,14.41545950056331,65.36572265625,230.304,74.782,15661.132,0.0737780781647091,0.027308055117709867,0.08236284476478933,0.046101170684799776,0.01706378563075202,0.051465471303147645,14.2177734375,12.73583984375,38.412109375,"[{'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.535), 'mean_duration_us': np.float64(4.178333333333334), 'median_duration_us': np.float64(4.125), 'std_dev_duration_us': np.float64(0.07542472332656514), 'min_duration_us': np.float64(4.125), 'max_duration_us': np.float64(4.285)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(15.74), 'mean_duration_us': np.float64(5.246666666666667), 'median_duration_us': np.float64(4.926), 'std_dev_duration_us': np.float64(0.6308519812303217), 'min_duration_us': np.float64(4.686), 'max_duration_us': np.float64(6.128)}, {'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(37.091), 'mean_duration_us': np.float64(12.363666666666667), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(12.076039232942046), 'min_duration_us': np.float64(3.685), 'max_duration_us': np.float64(29.441)}]","[{'name': 'MIOpenBatchNormFwdTrainSpatialNorm', 'stream': 0, 'mean_duration_us': np.float64(4.18)}, {'name': 'MIOpenBatchNormFwdTrainSpatialFinalMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(5.25)}, {'name': 'MIOpenBatchNormFwdTrainSpatialMeanVariance', 'stream': 0, 'mean_duration_us': np.float64(12.36)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,6.665498233159246,24.148284170331713
+aten::native_group_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (8, 4), (8, 4), (16,), (), (), (), (), ())","('float', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (4, 1), (4, 1), (1,), (), (), (), (), ())","('', '', '', '', '', '8', '16', '1024', '4', '[True, True, True]')",123,3,263.062,87.68733333333334,27.195307211600554,0.001179648,1.50006103515625,0.749969483663588,vector_fp32,0.08158110778877121,0.008789629375982646,0.06118334128504826,0.006591953804700008,19.423502604166668,1.9915551671802427,58.2705078125,96.314,57.225,109.523,0.07823573877352762,0.07495536086744072,0.0915522237253453,0.05867441661202185,0.05621423328757242,0.0686613739555505,20.10498046875,17.1806640625,20.98486328125,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(6.327), 'mean_duration_us': np.float64(2.109), 'median_duration_us': np.float64(2.122), 'std_dev_duration_us': np.float64(0.24552936009094037), 'min_duration_us': np.float64(1.802), 'max_duration_us': np.float64(2.403)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.370999999999999), 'mean_duration_us': np.float64(3.1236666666666664), 'median_duration_us': np.float64(2.723), 'std_dev_duration_us': np.float64(0.624051992135983), 'min_duration_us': np.float64(2.643), 'max_duration_us': np.float64(4.005)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKernel1<float>(long, long, long, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.415), 'mean_duration_us': np.float64(4.138333333333333), 'median_duration_us': np.float64(4.085), 'std_dev_duration_us': np.float64(0.1359738536958077), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(4.325)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.216000000000001), 'mean_duration_us': np.float64(4.405333333333334), 'median_duration_us': np.float64(4.405), 'std_dev_duration_us': np.float64(0.1963675691712412), 'min_duration_us': np.float64(4.165), 'max_duration_us': np.float64(4.646)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.942), 'mean_duration_us': np.float64(5.647333333333333), 'median_duration_us': np.float64(4.726), 'std_dev_duration_us': np.float64(1.4759235150312575), 'min_duration_us': np.float64(4.486), 'max_duration_us': np.float64(7.73)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(2.11)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(3.12)}, {'name': 'void at::native::(anonymous namespace)::GammaBetaBackwardCUDAKer...', 'stream': 0, 'mean_duration_us': np.float64(4.14)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.41)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(5.65)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 4.0, 'has_bias': True, 'is_affine': True, 'is_training': True, 'output_mask': [True, True, True]}",True,5.941982297236539,30.090266467568252
+aten::batch_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (16,), (16,), (), (), (), ())","('float', '', '', 'float', 'float', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (1,), (1,), (), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True')",919,3,332033.53599999996,110677.84533333332,191592.16417494096,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.05943268228052002,0.004894991042083343,0.03713726757632372,0.0030586974226660484,17.729817708333332,1.463543802533565,53.189453125,74.351,49.765,331909.42,0.05938713108862719,0.05456062579367095,0.06435028995926192,0.037108804334604964,0.03409290110225022,0.040210097292115984,17.6630859375,16.30078125,19.2255859375,"[{'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_kernel_for_multi_outputs<3, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int> >(int, at::native::(anonymous namespace)::batch_norm_update_stats_and_invert(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, double, double, long)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float, float, float, float)#1}, std::array<char*, 7ul>, TrivialOffsetCalculator<4, unsigned int>, TrivialOffsetCalculator<3, unsigned int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.530000000000001), 'mean_duration_us': np.float64(3.176666666666667), 'median_duration_us': np.float64(3.644), 'std_dev_duration_us': np.float64(0.8672271264720037), 'min_duration_us': np.float64(1.961), 'max_duration_us': np.float64(3.925)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(10.693999999999999), 'mean_duration_us': np.float64(3.564666666666666), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.7857575255057304), 'min_duration_us': np.float64(2.483), 'max_duration_us': np.float64(4.326)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(32.966), 'mean_duration_us': np.float64(10.988666666666667), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.5762877367735286), 'min_duration_us': np.float64(10.174), 'max_duration_us': np.float64(11.416)}]","[{'name': 'void at::native::(anonymous namespace)::unrolled_elementwise_ker...', 'stream': 0, 'mean_duration_us': np.float64(3.18)}, {'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.56)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(10.99)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,5.423855063789997,35.51412153135825
+aten::instance_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (), (), (), (), (), ())","('float', '', '', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (), (), (), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True')",954,3,213.848,71.28266666666667,20.77382618424765,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.06149336865636534,0.004316750443802684,0.03842491367261535,0.002697376428932597,17.115559895833332,1.2285377811764824,51.3466796875,63.515,55.512,94.821,0.062357263359554146,0.05680999814888272,0.06531284446065913,0.038964729267655505,0.03549845003305566,0.04081156171713487,16.82177734375,16.060546875,18.46435546875,"[{'name': 'void at::native::batch_norm_transform_input_kernel<float, float, float, true, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, std::conditional<true, float, float>::type, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, std::conditional<true, float, float>::type, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::RestrictPtrTraits, int>, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.895), 'mean_duration_us': np.float64(3.965), 'median_duration_us': np.float64(3.965), 'std_dev_duration_us': np.float64(0.06531972647421815), 'min_duration_us': np.float64(3.885), 'max_duration_us': np.float64(4.045)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul> >(int, at::native::(anonymous namespace)::batch_norm_calc_invstd(at::Tensor const&, at::Tensor const&, double)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char*, 2ul>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(18.865000000000002), 'mean_duration_us': np.float64(6.288333333333334), 'median_duration_us': np.float64(6.369), 'std_dev_duration_us': np.float64(0.17297462883967188), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(6.448)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native::Var, float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::RestrictPtrTraits, int>, float, float, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::RestrictPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::RestrictPtrTraits, int>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.587), 'mean_duration_us': np.float64(6.862333333333333), 'median_duration_us': np.float64(6.568), 'std_dev_duration_us': np.float64(0.8121807406948011), 'min_duration_us': np.float64(6.048), 'max_duration_us': np.float64(7.971)}]","[{'name': 'void at::native::batch_norm_transform_input_kernel<float, float,...', 'stream': 0, 'mean_duration_us': np.float64(3.96)}, {'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::(a...', 'stream': 0, 'mean_duration_us': np.float64(6.29)}, {'name': 'void at::native::batch_norm_collect_statistics_kernel<at::native...', 'stream': 0, 'mean_duration_us': np.float64(6.86)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,5.235943072724529,40.75006460408278
+aten::_fused_rms_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (8, 16, 1, 1), (32, 32), ())","('float', 'float', 'ScalarList', 'float', 'float', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (16, 1, 1, 1), (32, 1), ())","('', '', '[32, 32]', '', '', '[True, True]')",71,3,100.811,33.60366666666667,7.322260875804231,0.00131072,1.5078125,0.8290155440414507,vector_fp32,0.09662045428134391,0.005130784259081977,0.08009985847158045,0.004253499903902161,16.39501953125,0.888479895343345,49.18505859375,31.948,27.251,41.612,0.09795210357866714,0.09095513168539326,0.10095412757997133,0.08120381643827329,0.0754032179775281,0.08369254099893997,16.14111328125,15.6611328125,17.3828125,"[{'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<float, float, true>(float const*, float const*, int, long, long, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.695), 'mean_duration_us': np.float64(3.8983333333333334), 'median_duration_us': np.float64(3.885), 'std_dev_duration_us': np.float64(0.04988876515698577), 'min_duration_us': np.float64(3.845), 'max_duration_us': np.float64(3.965)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_kernel<float, float, true>(float const*, float const*, float const*, float const*, float const*, float*, int)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(16.782999999999998), 'mean_duration_us': np.float64(5.594333333333332), 'median_duration_us': np.float64(5.528), 'std_dev_duration_us': np.float64(0.2178077643754286), 'min_duration_us': np.float64(5.367), 'max_duration_us': np.float64(5.888)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBeta<float, float, true>(float const*, float const*, long, long, float const*, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(20.707), 'mean_duration_us': np.float64(6.902333333333334), 'median_duration_us': np.float64(6.889), 'std_dev_duration_us': np.float64(0.5071320231348923), 'min_duration_us': np.float64(6.288), 'max_duration_us': np.float64(7.53)}]","[{'name': 'void at::native::(anonymous namespace)::cuComputeGradGammaBeta<f...', 'stream': 0, 'mean_duration_us': np.float64(3.9)}, {'name': 'void at::native::(anonymous namespace)::layer_norm_grad_input_ke...', 'stream': 0, 'mean_duration_us': np.float64(5.59)}, {'name': 'void at::native::(anonymous namespace)::cuComputePartGradGammaBe...', 'stream': 0, 'mean_duration_us': np.float64(6.9)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 1024, 'has_bias': False, 'is_affine': True, 'is_training': False, 'output_mask': [True, True]}",True,5.015517427667078,45.76558203174986
+aten::group_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (16,), (16,), (), ())","('float', 'Scalar', 'float', 'float', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (1,), (1,), (), ())","('', '4', '', '', '1.0000000000000001e-05', 'True')",820,3,211430.646,70476.882,121956.23412552974,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.06748229481400676,0.013699960268272244,0.04216717036837403,0.008560594453173287,15.941080729166666,2.936634842645699,47.8232421875,81.362,49.474,211299.81,0.061623879980493956,0.05768561746462232,0.08313738699690403,0.03850646533375405,0.03604559190139899,0.05194945386996904,17.02197265625,12.6171875,18.18408203125,"[{'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(12.296), 'mean_duration_us': np.float64(4.0986666666666665), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.4510511898467109), 'min_duration_us': np.float64(2.123), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.657), 'mean_duration_us': np.float64(4.552333333333333), 'median_duration_us': np.float64(4.285), 'std_dev_duration_us': np.float64(0.7437568300339985), 'min_duration_us': np.float64(3.805), 'max_duration_us': np.float64(5.567)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.869999999999997), 'mean_duration_us': np.float64(7.289999999999999), 'median_duration_us': np.float64(7.17), 'std_dev_duration_us': np.float64(0.5463338417732021), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(8.011)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeFusedParamsCUDAKe...', 'stream': 0, 'mean_duration_us': np.float64(4.1)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.55)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.29)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,4.876649769192889,50.642231800942746
 aten::layer_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (16, 32, 32), (16, 32, 32), (), ())","('float', 'ScalarList', 'float', 'float', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (1024, 32, 1), (1024, 32, 1), (), ())","('', '[16, 32, 32]', '', '', '1.0000000000000001e-05', 'True')",811,3,8812.761,2937.587,5021.909728746127,0.000753664,1.375,0.5227272727272727,vector_fp32,0.09925539927538994,0.015634765952425182,0.0518835041666811,0.008172718566040437,14.781412760416666,2.4393353684496706,44.34423828125,48.352,28.032,8736.377,0.10166959391247461,0.082553959293223,0.1135426446204722,0.053145469545157184,0.04315320599418475,0.05935183696070138,14.18115234375,12.6982421875,17.46484375,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float, false>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(44.344), 'mean_duration_us': np.float64(14.781333333333334), 'median_duration_us': np.float64(14.181), 'std_dev_duration_us': np.float64(1.99187890082594), 'min_duration_us': np.float64(12.698), 'max_duration_us': np.float64(17.465)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(14.78)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16384, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,4.521887464915875,55.16411926585862
-aten::native_group_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (8, 4), (8, 4), (), (), (), (), (), ())","('float', 'float', 'float', 'float', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (4, 1), (4, 1), (), (), (), (), (), ())","('', '', '', '', '', '8', '16', '1024', '4', '[True, False, False]')",39,3,533.636,177.87866666666665,235.44524314653998,0.001179648,1.50006103515625,0.749969483663588,vector_fp32,0.11607270439465735,0.02471211817896858,0.08705098618229744,0.018533334510914632,14.004557291666666,3.2111962330970787,42.013671875,43.565,40.33,449.741,0.12046957905759162,0.08945727697861705,0.13829125714776339,0.09034850800299177,0.06709022782560399,0.10371422271829656,13.056640625,11.3740234375,17.5830078125,"[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(14.658999999999999), 'mean_duration_us': np.float64(4.886333333333333), 'median_duration_us': np.float64(4.446), 'std_dev_duration_us': np.float64(0.9517430792440201), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(6.208)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.617), 'mean_duration_us': np.float64(4.539000000000001), 'median_duration_us': np.float64(4.045), 'std_dev_duration_us': np.float64(1.026369329237775), 'min_duration_us': np.float64(3.604), 'max_duration_us': np.float64(5.968)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.738), 'mean_duration_us': np.float64(4.5793333333333335), 'median_duration_us': np.float64(4.566), 'std_dev_duration_us': np.float64(0.6704099906441994), 'min_duration_us': np.float64(3.765), 'max_duration_us': np.float64(5.407)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.89)}, {'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(4.54)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.58)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 4.0, 'has_bias': True, 'is_affine': True, 'is_training': True, 'output_mask': [True, False, False]}",True,4.284234064450726,59.44835333030935
+aten::native_group_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (8, 4), (8, 4), (), (), (), (), (), ())","('float', 'float', 'float', 'float', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (4, 1), (4, 1), (), (), (), (), (), ())","('', '', '', '', '', '8', '16', '1024', '4', '[True, False, False]')",39,3,533.636,177.87866666666665,235.44524314653998,0.001179648,1.50006103515625,0.749969483663588,vector_fp32,0.11607270439465735,0.02471211817896858,0.08705098618229744,0.018533334510914632,14.004557291666666,3.2111962330970787,42.013671875,43.565,40.33,449.741,0.12046957905759162,0.08945727697861705,0.13829125714776339,0.09034850800299177,0.06709022782560399,0.10371422271829656,13.056640625,11.3740234375,17.5830078125,"[{'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedParamsCUDAKernel<float>(long, long, long, float const*, float const*, float const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.617), 'mean_duration_us': np.float64(4.539000000000001), 'median_duration_us': np.float64(4.045), 'std_dev_duration_us': np.float64(1.026369329237775), 'min_duration_us': np.float64(3.604), 'max_duration_us': np.float64(5.968)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormBackwardKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float, float, float)#2} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.738), 'mean_duration_us': np.float64(4.5793333333333335), 'median_duration_us': np.float64(4.566), 'std_dev_duration_us': np.float64(0.6704099906441994), 'min_duration_us': np.float64(3.765), 'max_duration_us': np.float64(5.407)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradientsCUDAKernel<float>(long, float const*, float const*, at::AccumulateType<float, true>::type*, at::AccumulateType<float, true>::type*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(14.658999999999999), 'mean_duration_us': np.float64(4.886333333333333), 'median_duration_us': np.float64(4.446), 'std_dev_duration_us': np.float64(0.9517430792440201), 'min_duration_us': np.float64(4.005), 'max_duration_us': np.float64(6.208)}]","[{'name': 'void at::native::(anonymous namespace)::ComputeBackwardFusedPara...', 'stream': 0, 'mean_duration_us': np.float64(4.54)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(4.58)}, {'name': 'void at::native::(anonymous namespace)::ComputeInternalGradients...', 'stream': 0, 'mean_duration_us': np.float64(4.89)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 4.0, 'has_bias': True, 'is_affine': True, 'is_training': True, 'output_mask': [True, False, False]}",True,4.284234064450726,59.44835333030935
 aten::layer_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (), (), ())","('float', 'ScalarList', '', '', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (), (), ())","('', '[16, 32, 32]', '', '', '1.0000000000000001e-05', 'True')",934,3,266.067,88.68900000000001,95.66646824776171,0.000753664,1.375,0.5227272727272727,vector_fp32,0.11228673733100565,0.007963901459708054,0.058695339968480226,0.004162948490301934,12.88525390625,0.9514369086207531,38.65576171875,43.966,23.575,198.526,0.1161053010380623,0.10313261904928225,0.1176222919056724,0.06069140736080529,0.05391023268485209,0.0614843798597833,12.41796875,12.2578125,13.97998046875,"[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float, false>(int, float, float const*, float const*, float const*, float*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(38.656), 'mean_duration_us': np.float64(12.885333333333334), 'median_duration_us': np.float64(12.418), 'std_dev_duration_us': np.float64(0.7767974138874454), 'min_duration_us': np.float64(12.258), 'max_duration_us': np.float64(13.98)}]","[{'name': 'void at::native::(anonymous namespace)::vectorized_layer_norm_ke...', 'stream': 0, 'mean_duration_us': np.float64(12.89)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16384, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,3.9418199779225818,63.39017330823194
 aten::native_batch_norm_backward,NORM_bwd,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16, 32, 32), (8, 16, 32, 32), (), (16,), (16,), (16,), (16,), (), (), ())","('float', 'float', '', 'float', 'float', 'float', 'float', 'Scalar', 'Scalar', 'ScalarList')","((16384, 1024, 32, 1), (16384, 1024, 32, 1), (), (1,), (1,), (1,), (1,), (), (), ())","('', '', '', '', '', '', '', 'True', '1.0000000000000001e-05', '[True, False, False]')",60,3,44.557,14.852333333333334,2.2663694167838853,0.001179648,1.500244140625,0.7498779495524817,vector_fp32,0.13861462663243995,0.001021216688976221,0.10394405199711688,0.0007657878767782663,11.349283854166666,0.0833479550567492,34.0478515625,14.071,13.08,17.406,0.13828439179328697,0.13779939093242086,0.139760097171612,0.10369641617306206,0.1033327247219846,0.104803015096304,11.3759765625,11.255859375,11.416015625,"[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float, int>(torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float const, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 2ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<3ul, int>, float, 3ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, torch::headeronly::detail::GenericPackedTensorAccessor<torch::headeronly::detail::TensorAccessor<c10::ArrayRef<long>, float const, 0ul, torch::headeronly::DefaultPtrTraits, int>, at::detail::IndexBoundsCheck<1ul, int>, float const, 1ul, torch::headeronly::DefaultPtrTraits, int>, bool, float)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(34.048), 'mean_duration_us': np.float64(11.349333333333334), 'median_duration_us': np.float64(11.376), 'std_dev_duration_us': np.float64(0.06798692684790375), 'min_duration_us': np.float64(11.256), 'max_duration_us': np.float64(11.416)}]","[{'name': 'void at::native::batch_norm_backward_kernel<float, float, float,...', 'stream': 0, 'mean_duration_us': np.float64(11.35)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True, 'output_mask': [True]}",True,3.4719404178577133,66.86211372608965
-aten::instance_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (16,), (16,), (), (), (), (), (), ())","('float', 'float', 'float', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (1,), (1,), (), (), (), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True')",833,3,150102.54499999998,50034.181666666664,86270.09667242388,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.09545385945982661,0.017502743508778743,0.05964555836838403,0.010936811936861348,11.240397135416666,2.0666500493376243,33.72119140625,280.439,171.817,149650.289,0.09455414084507043,0.07841832743201314,0.11338911010239627,0.05908335774647887,0.049000689468881184,0.07085262788979203,11.09375,9.2509765625,13.37646484375,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.575), 'mean_duration_us': np.float64(3.858333333333333), 'median_duration_us': np.float64(4.045), 'std_dev_duration_us': np.float64(0.6352187724625972), 'min_duration_us': np.float64(3.004), 'max_duration_us': np.float64(4.526)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.09), 'mean_duration_us': np.float64(3.03), 'median_duration_us': np.float64(3.124), 'std_dev_duration_us': np.float64(0.7386600481051259), 'min_duration_us': np.float64(2.082), 'max_duration_us': np.float64(3.884)}, {'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.056999999999999), 'mean_duration_us': np.float64(4.352333333333333), 'median_duration_us': np.float64(4.165), 'std_dev_duration_us': np.float64(0.4455418673430763), 'min_duration_us': np.float64(3.925), 'max_duration_us': np.float64(4.967)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(3.86)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(3.03)}, {'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'mean_duration_us': np.float64(4.35)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,3.438630104656124,70.30074383074577
-aten::group_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (), (), ())","('float', 'Scalar', '', '', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (), (), ())","('', '4', '', '', '1.0000000000000001e-05', 'True')",943,3,153.189,51.062999999999995,18.599813654980522,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.09741620804511049,0.0164189966356011,0.06087175684527146,0.010259618916626514,10.961588541666666,1.7283104611351434,32.884765625,40.931,39.729,72.529,0.09189280862349217,0.08447114186851211,0.11588467364332723,0.05742039045256224,0.05278286756841774,0.0724120125148344,11.4150390625,9.0517578125,12.41796875,"[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.149), 'mean_duration_us': np.float64(7.049666666666667), 'median_duration_us': np.float64(6.809), 'std_dev_duration_us': np.float64(0.4280197295556465), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(7.651)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.736), 'mean_duration_us': np.float64(3.9120000000000004), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.0972787552243353), 'min_duration_us': np.float64(2.363), 'max_duration_us': np.float64(4.767)}]","[{'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.05)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(3.91)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,3.35333777802784,73.65408160877361
+aten::instance_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (16,), (16,), (), (), (), (), (), ())","('float', 'float', 'float', '', '', 'Scalar', 'Scalar', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (1,), (1,), (), (), (), (), (), ())","('', '', '', '', '', 'True', '0.10000000000000001', '1.0000000000000001e-05', 'True')",833,3,150102.54499999998,50034.181666666664,86270.09667242388,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.09545385945982661,0.017502743508778743,0.05964555836838403,0.010936811936861348,11.240397135416666,2.0666500493376243,33.72119140625,280.439,171.817,149650.289,0.09455414084507043,0.07841832743201314,0.11338911010239627,0.05908335774647887,0.049000689468881184,0.07085262788979203,11.09375,9.2509765625,13.37646484375,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(9.09), 'mean_duration_us': np.float64(3.03), 'median_duration_us': np.float64(3.124), 'std_dev_duration_us': np.float64(0.7386600481051259), 'min_duration_us': np.float64(2.082), 'max_duration_us': np.float64(3.884)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.575), 'mean_duration_us': np.float64(3.858333333333333), 'median_duration_us': np.float64(4.045), 'std_dev_duration_us': np.float64(0.6352187724625972), 'min_duration_us': np.float64(3.004), 'max_duration_us': np.float64(4.526)}, {'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(13.056999999999999), 'mean_duration_us': np.float64(4.352333333333333), 'median_duration_us': np.float64(4.165), 'std_dev_duration_us': np.float64(0.4455418673430763), 'min_duration_us': np.float64(3.925), 'max_duration_us': np.float64(4.967)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(3.03)}, {'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(3.86)}, {'name': 'MIOpenBatchNormFwdTrainSpatial', 'stream': 0, 'mean_duration_us': np.float64(4.35)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,3.438630104656124,70.30074383074577
+aten::group_norm,NORM_fwd,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (), (), ())","('float', 'Scalar', '', '', 'Scalar', 'Scalar')","((16384, 1024, 32, 1), (), (), (), (), ())","('', '4', '', '', '1.0000000000000001e-05', 'True')",943,3,153.189,51.062999999999995,18.599813654980522,0.000655456,1.0003662109375,0.624862721171446,vector_fp32,0.09741620804511049,0.0164189966356011,0.06087175684527146,0.010259618916626514,10.961588541666666,1.7283104611351434,32.884765625,40.931,39.729,72.529,0.09189280862349217,0.08447114186851211,0.11588467364332723,0.05742039045256224,0.05278286756841774,0.0724120125148344,11.4150390625,9.0517578125,12.41796875,"[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::GroupNormKernelImplInternal<float>(at::Tensor const&, at::Tensor const&, at::Tensor const&, long, long, long, long, float, at::Tensor&, at::Tensor&, at::Tensor&)::{lambda(float, float, float)#1} const&)::{lambda(int, bool)#1})', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(11.736), 'mean_duration_us': np.float64(3.9120000000000004), 'median_duration_us': np.float64(4.606), 'std_dev_duration_us': np.float64(1.0972787552243353), 'min_duration_us': np.float64(2.363), 'max_duration_us': np.float64(4.767)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel<float>(long, float, float const*, float*, float*)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(21.149), 'mean_duration_us': np.float64(7.049666666666667), 'median_duration_us': np.float64(6.809), 'std_dev_duration_us': np.float64(0.4280197295556465), 'min_duration_us': np.float64(6.689), 'max_duration_us': np.float64(7.651)}]","[{'name': 'void at::native::elementwise_kernel_manual_unroll<128, 4, at::na...', 'stream': 0, 'mean_duration_us': np.float64(3.91)}, {'name': 'void at::native::(anonymous namespace)::RowwiseMomentsCUDAKernel...', 'stream': 0, 'mean_duration_us': np.float64(7.05)}]","{'op_shape': (8, 16, 32, 32), 'dtype_in_out': ('float', None), 'stride_input': (16384, 1024, 32, 1), 'stride_output': None, 'num_channels': 16, 'has_bias': True, 'is_affine': True, 'is_training': True}",True,3.35333777802784,73.65408160877361
 aten::mean,reduce,python,CPU,thread 2300490 (python),"((8, 16, 32, 32), (), (), (), ())","('float', 'ScalarList', 'Scalar', '', 'float')","((16384, 1024, 32, 1), (), (), (), ())","('', '[]', 'False', '', '')",988,3,21550.049,7183.349666666666,12390.810850716807,0.000131072,0.5000038146972656,0.249998092665919,vector_fp32,0.050730715927089075,0.006368456045274941,0.012682582221348828,0.0015921018645454767,10.44091796875,1.2705677672188844,31.32275390625,39.479,19.549,21491.021,0.0493973416754842,0.04513451097099622,0.057660295134786814,0.01234924120163776,0.01128354165615805,0.014414963806250672,10.61376953125,9.0927734375,11.6162109375,"[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4, 4> >(at::native::ReduceOp<float, at::native::MeanOps<float, float, float, float>, unsigned int, float, 4, 4>)', 'stream': 0, 'count': 3, 'total_duration_us': np.float64(31.323), 'mean_duration_us': np.float64(10.441), 'median_duration_us': np.float64(10.614), 'std_dev_duration_us': np.float64(1.0372492468061858), 'min_duration_us': np.float64(9.093), 'max_duration_us': np.float64(11.616)}]","[{'name': 'void at::native::reduce_kernel<512, 1, at::native::ReduceOp<floa...', 'stream': 0, 'mean_duration_us': np.float64(10.44)}]","{'num_input_elems': 131072, 'num_output_elems': 1, 'dtype_in_out': ('float', None), 'reduce_type': 'mean'}",True,3.1940557273075356,76.84813733608115
 aten::sum,reduce,python,CPU,thread 2300680 (pt_autograd_0),"((8, 16), (), (), ())","('float', 'ScalarList', 'Scalar', '')","((16, 1), (), (), ())","('', '[0]', 'False', '')",103,6,27520.59,4586.765,11195.928190434395,1.28e-07,0.000492095947265625,0.24806201550387597,vector_fp32,0.00012539076366954036,3.0255241485078625e-05,3.110468556143637e-05,7.50517618234509e-06,4.331949869791667,1.0942127847261514,25.99169921875,14.607,8.453,27440.35,0.00012433529636920676,8.588816644993497e-05,0.00016313183081197898,3.084286421561718e-05,2.130559167750325e-05,4.0466810744056805e-05,4.205078125,3.1630859375,6.0078125,"[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<float, at::native::func_wrapper_t<float, at::native::sum_functor<float, float, float>::operator()(at::TensorIterator&)::{lambda(float, float)#1}>, unsigned int, float, 4, 4> >(at::native::ReduceOp<float, at::native::func_wrapper_t<float, at::native::sum_functor<float, float, float>::operator()(at::TensorIterator&)::{lambda(float, float)#1}>, unsigned int, float, 4, 4>)', 'stream': 0, 'count': 6, 'total_duration_us': np.float64(25.992), 'mean_duration_us': np.float64(4.332), 'median_duration_us': np.float64(4.205), 'std_dev_duration_us': np.float64(0.99894327499947), 'min_duration_us': np.float64(3.163), 'max_duration_us': np.float64(6.008)}]","[{'name': 'void at::native::reduce_kernel<128, 4, at::native::ReduceOp<floa...', 'stream': 0, 'mean_duration_us': np.float64(4.33)}]","{'num_input_elems': 128, 'num_output_elems': 1, 'dtype_in_out': ('float', None), 'reduce_type': 'sum'}",True,2.650435399153649,79.4985727352348
 aten::add_,elementwise,python,CPU,thread 2300680 (pt_autograd_0),"((16,), (16,), ())","('float', 'float', 'Scalar')","((1,), (1,), ())","('', '', '1')",286,12,68.312,5.692666666666667,0.8365294466732865,1.6e-08,0.00018310546875,0.08333333333333333,vector_fp32,0.00010201639512774651,4.268934582028177e-06,8.501366260645541e-06,3.557445485023487e-07,1.885009765625,0.07718424959046567,22.6201171875,5.6335,4.527,7.02,0.00010099062554990768,9.786361373817821e-05,0.00010901469365123373,8.415885462492306e-06,8.155301144848183e-06,9.084557804269476e-06,1.9013671875,1.76123046875,1.9619140625,"[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul> >(int, at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>)', 'stream': 0, 'count': 12, 'total_duration_us': np.float64(22.621), 'mean_duration_us': np.float64(1.8850833333333332), 'median_duration_us': np.float64(1.9015), 'std_dev_duration_us': np.float64(0.07396447157626122), 'min_duration_us': np.float64(1.761), 'max_duration_us': np.float64(1.962)}]","[{'name': 'void at::native::vectorized_elementwise_kernel<4, at::native::CU...', 'stream': 0, 'mean_duration_us': np.float64(1.89)}]","{'shape_in1': (16,), 'shape_in2': (16,), 'dtype_in1_in2_out': ('float', 'float', None), 'stride_input1': (1,), 'stride_input2': (1,), 'stride_output': None}",True,2.306627159008697,81.8051998942435