NVIDIA · nartal1 · Aug 12, 2024 · Jul 22, 2024 · Jul 24, 2024 · Jul 26, 2024
diff --git a/user_tools/src/spark_rapids_pytools/resources/qualification-conf.yaml b/user_tools/src/spark_rapids_pytools/resources/qualification-conf.yaml
@@ -11,6 +11,8 @@ toolOutput:
       fileName: rapids_4_spark_qualification_output_cluster_information.csv
     stagesInformation:
       fileName: rapids_4_spark_qualification_output_stages.csv
+    execsInformation:
+      fileName: rapids_4_spark_qualification_output_execs.csv
     tunings:
       subFolder: tuning
     appsStatusReport:
@@ -137,9 +139,9 @@ local:
           - 'SQL ID'
           - 'Operator'
           - 'Count'
-          - 'Stage Task Exec duration(seconds)'
-          - 'Impacted Stage duration(seconds)'
-          - '% of Stage Duration'
+          - 'Stage Task Exec Duration(s)'
+          - 'Total SQL Duration(s)'
+          - '% of Total SQL Duration'
           - 'Supported'
       intermediateOutput:
         name: 'intermediate_output'

diff --git a/user_tools/src/spark_rapids_tools/tools/qualification_stats_report.py b/user_tools/src/spark_rapids_tools/tools/qualification_stats_report.py
@@ -34,6 +34,7 @@ class SparkQualificationStats:
     unsupported_operators_df: pd.DataFrame = field(default=None, init=False)
     stages_df: pd.DataFrame = field(default=None, init=False)
     result_df: pd.DataFrame = field(default=None, init=False)
+    execs_df: pd.DataFrame = field(default=None, init=False)
     output_columns: dict = field(default=None, init=False)
     qual_output: str = field(default=None, init=True)
     ctxt: ToolContext = field(default=None, init=True)
@@ -59,36 +60,85 @@ def _read_csv_files(self) -> None:
                                                  'fileName')
         rapids_stages_file = FSUtil.build_path(qual_output_dir, stages_report_file)
         self.stages_df = pd.read_csv(rapids_stages_file)
+
+        rapids_execs_file = self.ctxt.get_value('toolOutput', 'csv', 'execsInformation',
+                                                'fileName')
+        self.execs_df = pd.read_csv(FSUtil.build_path(qual_output_dir, rapids_execs_file))
         self.logger.info('Reading CSV files completed.')
 
     def _convert_durations(self) -> None:
         # Convert durations from milliseconds to seconds
         self.unsupported_operators_df[['Stage Duration', 'App Duration']] /= 1000
         self.stages_df[['Stage Task Duration', 'Unsupported Task Duration']] /= 1000
 
+    def _preprocess_dataframes(self) -> None:
+        self.logger.info('Preprocessing dataframes...')
+
+        # Filter out 'WholeStageCodegen' operators as the child operators are already included
+        # in the other rows
+        self.execs_df = self.execs_df[
+            ~self.execs_df['Exec Name'].str.startswith('WholeStageCodegen')]
+
+        # Split 'Exec Stages' and explode the list into separate rows so that the stageID
+        # from this dataframe can be matched with the stageID of stages dataframe
+        self.execs_df['Exec Stages'] = self.execs_df['Exec Stages'].str.split(':')
+        self.execs_df = self.execs_df.explode('Exec Stages').dropna(subset=['Exec Stages'])
+        self.execs_df['Exec Stages'] = self.execs_df['Exec Stages'].astype(int)
+
+        # Remove duplicate 'Stage ID' rows and rename some columns so that join on dataframes
+        # can be done easily
+        self.stages_df = self.stages_df.drop_duplicates(subset=['App ID', 'Stage ID'])
+        self.stages_df.rename(columns={'Stage Task Duration': 'StageTaskDuration'}, inplace=True)
+        self.execs_df.rename(columns={'Exec Name': 'Operator'}, inplace=True)
+        self.unsupported_operators_df.rename(columns={'Unsupported Operator': 'Operator'},
+                                             inplace=True)
+        self.logger.info('Preprocessing dataframes completed.')
+
     def _merge_dataframes(self) -> None:
         self.logger.info('Merging dataframes to get stats...')
-        # Merge unsupported_operators_df with stages_df on App ID and Stage ID
-        merged_df = pd.merge(self.unsupported_operators_df, self.stages_df,
-                             on=['App ID', 'Stage ID'])
-
-        agg_unsupported_df = (merged_df.groupby(['App ID', 'SQL ID', 'Unsupported Operator']).agg(
-            Count=('Unsupported Operator', 'size'),
-            Impacted_Stage_Duration=('Stage Duration', 'sum'),
-            App_Duration=('App Duration', 'first'),
-            Stage_Task_Duration=('Stage Task Duration', 'sum')
-        ).reset_index())
-
-        agg_unsupported_df['% of Stage Duration'] = (
-                (agg_unsupported_df['Impacted_Stage_Duration'] /
-                 agg_unsupported_df['App_Duration']) * 100).round(3)
-
-        agg_unsupported_df['Supported'] = False
-        final_df = agg_unsupported_df.rename(columns={
-            'Unsupported Operator': 'Operator',
-            'Impacted_Stage_Duration': 'Impacted Stage duration(seconds)',
-            'Stage_Task_Duration': 'Stage Task Exec duration(seconds)'
-        })
+        self._preprocess_dataframes()
+
+        # Merge execs_df with stages_df
+        merged_df = self.execs_df.merge(self.stages_df, left_on=['App ID', 'Exec Stages'],
+                                        right_on=['App ID', 'Stage ID'], how='left')
+
+        # Merge with unsupported_operators_df to find unsupported operations
+        merged_df = merged_df.merge(self.unsupported_operators_df,
+                                    on=['App ID', 'SQL ID', 'Stage ID', 'Operator'],
+                                    how='left', indicator=True)
+        merged_df['Supported'] = merged_df['_merge'] == 'left_only'
+        merged_df.drop(columns=['_merge', 'Exec Stages'], inplace=True)
+
+        # Calculate total duration by summing unique stages per SQLID
+        total_duration_df = merged_df.drop_duplicates(subset=['App ID', 'SQL ID', 'Stage ID']) \
+            .groupby(['App ID', 'SQL ID'])['StageTaskDuration'] \
+            .sum().reset_index().rename(columns={'StageTaskDuration': 'TotalSQLDuration'})
+
+        merged_df = merged_df.merge(total_duration_df, on=['App ID', 'SQL ID'], how='left')
+
+        # Mark unique stage task durations
+        merged_df['Unique StageTaskDuration'] = ~merged_df.duplicated(
+            ['App ID', 'SQL ID', 'Operator', 'Stage ID', 'Supported'])
+        merged_df['Adjusted StageTaskDuration'] = (merged_df['StageTaskDuration'] *
+                                                   merged_df['Unique StageTaskDuration'])
+
+        # Aggregate data
+        final_df = merged_df.groupby(['App ID', 'SQL ID', 'Operator', 'Supported']).agg({
+            'Adjusted StageTaskDuration': 'sum',
+            'Stage ID': 'count'
+        }).reset_index().rename(columns={'Stage ID': 'Count',
+                                         'Adjusted StageTaskDuration': 'StageTaskDuration'})
+
+        # Merge total duration and calculate percentage
+        final_df = final_df.merge(total_duration_df, on=['App ID', 'SQL ID'], how='left')
+        final_df['% of Total SQL Duration'] = (
+                final_df['StageTaskDuration'] / final_df['TotalSQLDuration'] * 100)
+
+        # Rename columns
+        final_df.rename(columns={
+            'StageTaskDuration': 'Stage Task Exec Duration(s)',
+            'TotalSQLDuration': 'Total SQL Duration(s)'
+        }, inplace=True)
         self.result_df = final_df[self.output_columns.get('columns')].copy()
         self.logger.info('Merging stats dataframes completed.')