eigenric
diff --git a/‎memoria/main.pdf
-543 KB b/‎memoria/main.pdf
-543 KB
diff --git a/‎notebooks/.ipynb_checkpoints/Notebook_Imputation-checkpoint.ipynb
Lines changed: 653 additions & 225 deletions b/‎notebooks/.ipynb_checkpoints/Notebook_Imputation-checkpoint.ipynb
Lines changed: 653 additions & 225 deletions
diff --git a/‎notebooks/.ipynb_checkpoints/Pipeline3-checkpoint.ipynb
Lines changed: 8249 additions & 0 deletions b/‎notebooks/.ipynb_checkpoints/Pipeline3-checkpoint.ipynb
Lines changed: 8249 additions & 0 deletions
diff --git a/‎notebooks/Notebook_Imputation.ipynb
Lines changed: 321 additions & 416 deletions b/‎notebooks/Notebook_Imputation.ipynb
Lines changed: 321 additions & 416 deletions
diff --git a/‎notebooks/models/20250408_T122935/tensorboard/events.out.tfevents.1744108175.macbook-2.local.94718.0.pypots
88 Bytes b/‎notebooks/models/20250408_T122935/tensorboard/events.out.tfevents.1744108175.macbook-2.local.94718.0.pypots
88 Bytes
diff --git a/‎pampaneira_imputation/.ipynb_checkpoints/config-checkpoint.py
Lines changed: 8 additions & 8 deletions b/‎pampaneira_imputation/.ipynb_checkpoints/config-checkpoint.py
Lines changed: 8 additions & 8 deletions
diff --git a/‎pampaneira_imputation/.ipynb_checkpoints/data_loader-checkpoint.py
Lines changed: 112 additions & 0 deletions b/‎pampaneira_imputation/.ipynb_checkpoints/data_loader-checkpoint.py
Lines changed: 112 additions & 0 deletions
diff --git a/‎pampaneira_imputation/.ipynb_checkpoints/data_preprocessor-checkpoint.py
Lines changed: 8 additions & 25 deletions b/‎pampaneira_imputation/.ipynb_checkpoints/data_preprocessor-checkpoint.py
Lines changed: 8 additions & 25 deletions
diff --git a/‎pampaneira_imputation/.ipynb_checkpoints/evaluation-checkpoint.py
Lines changed: 111 additions & 0 deletions b/‎pampaneira_imputation/.ipynb_checkpoints/evaluation-checkpoint.py
Lines changed: 111 additions & 0 deletions
@@ -67,8 +67,8 @@
 TIMEZONE = "UTC"
 
 # Fechas del Periodo 1 para los datos de camiones
-PERIOD_1_START = pd.to_datetime("2023-01-17 17:00:00+00:00", utc=True)
-PERIOD_1_END = pd.to_datetime("2023-03-14 11:00:00+00:00", utc=True)
+PERIOD_1_START = pd.to_datetime("2023-01-17 00:00:00+00:00", utc=True)
+PERIOD_1_END = pd.to_datetime("2023-03-14 23:00:00+00:00", utc=True)
 PERIOD_1_PADDING_START = pd.to_datetime("2023-01-17 00:00:00", utc=True)
 PERIOD_1_PADDING_END = pd.to_datetime("2023-03-14 23:00:00", utc=True)
 
@@ -106,19 +106,19 @@
 SAITS_PARAMS = {
     "n_steps": N_STEPS,
     # n_features se establecerá dinámicamente
-    "n_layers": 3,
-    "d_model": 128,
+    "n_layers": 4,
+    "d_model": 192,
     "d_ffn": 256,
     "n_heads": 4,
     "d_k": 32,
     "d_v": 32,
     "dropout": 0.3,
     "attn_dropout": 0.2,
     "diagonal_attention_mask": True,
-    "ORT_weight": 1,
-    "MIT_weight": 1,
+    "ORT_weight": 0.8,
+    "MIT_weight": 1.2,
     "batch_size": 64,
-    "epochs": 10,  # Considera reducir para pruebas/depuración más rápidas
+    "epochs": 50,  # Considera reducir para pruebas/depuración más rápidas
     "patience": 5,
     "num_workers": 0,
     "device": None,  # Autodetecta (CPU o GPU si disponible)
@@ -149,7 +149,7 @@
     'ORT_weight': 1.0,           # Weight for ORT (Observed Reconstruction Term)
     'MIT_weight': 1.0,           # Weight for MIT (Missing Imputation Term)
     'batch_size': 64,            # Batch size for training
-    'epochs': 10,               # Maximum epochs for training
+    'epochs': 50,               # Maximum epochs for training
     'patience': 5,              # Early stopping patience
     'num_workers': 0,            # Number of workers for data loading
     'device': None,              # Device to use (None for auto-detection)
 
@@ -0,0 +1,112 @@
+# pampaneira_imputation/data_loader.py
+import pandas as pd
+from typing import List
+from . import config
+
+pd.options.mode.chained_assignment = None
+
+def load_traffic_data(filepath: str = config.TRAFFIC_FILE,
+                      columns_to_use: List[str] = config.PAM_BUB_TRAFFIC_COLS,
+                      date_col: str = config.DATE_COL,
+                      timezone: str = config.TIMEZONE) -> pd.DataFrame:
+    """
+    Carga datos de tráfico generales, selecciona columnas relevantes, convierte la fecha.
+
+    Args:
+        filepath (str, optional): Ruta al archivo CSV de tráfico (por defecto: config.TRAFFIC_FILE).
+        columns_to_use (List[str], optional): Lista de columnas de tráfico a usar (por defecto: config.PAM_BUB_TRAFFIC_COLS).
+        date_col (str, optional): Nombre de la columna de fecha (por defecto: config.DATE_COL).
+        timezone (str, optional): Zona horaria para las fechas (por defecto: config.TIMEZONE).
+
+    Returns:
+        pd.DataFrame: DataFrame con datos de tráfico cargados y preprocesados.
+
+    Raises:
+        FileNotFoundError: Si el archivo especificado no se encuentra.
+        KeyError: Si una columna especificada no se encuentra en el archivo.
+    """
+    try:
+        df = pd.read_csv(filepath)
+        df[date_col] = pd.to_datetime(df[date_col])
+        # Asegura que la zona horaria UTC sea consciente si aún no lo es
+        if df[date_col].dt.tz is None:
+             df[date_col] = df[date_col].dt.tz_localize(timezone)
+        elif df[date_col].dt.tz.zone != timezone:
+             df[date_col] = df[date_col].dt.tz_convert(timezone)
+
+        # Selecciona solo las columnas requeridas más la columna de fecha
+        df_filtered = df[[date_col] + columns_to_use]
+
+        # Convierte columnas enteras a float64 como en el script original
+        int_cols = df_filtered.select_dtypes(include='int64').columns
+        df_filtered[int_cols] = df_filtered[int_cols].astype('float64')
+
+        return df_filtered
+
+    except FileNotFoundError:
+        print(f"Error: No se encontró el archivo en {filepath}")
+        raise
+    except KeyError as e:
+        print(f"Error: No se encontró la columna {e} en {filepath}.")
+        raise
+
+
+def load_intersection_data(filepath: str = config.INTERSECTION_FILE,
+                           date_col_original: str = "Date",  # Nombre original en CSV
+                           date_col_target: str = config.DATE_COL,
+                           truck_pos_col: str = config.TRUCK_POS_COL,
+                           target_truck_pos: str = config.TARGET_TRUCK_POS,
+                           timezone: str = config.TIMEZONE) -> pd.DataFrame:
+    """
+    Carga datos de intersección, filtra por posición de camión, convierte la fecha.
+
+    Args:
+        filepath (str, optional): Ruta al archivo CSV de intersección (por defecto: config.INTERSECTION_FILE).
+        date_col_original (str, optional): Nombre original de la columna de fecha en el CSV (por defecto: "Date").
+        date_col_target (str, optional): Nombre objetivo de la columna de fecha (por defecto: config.DATE_COL).
+        truck_pos_col (str, optional): Nombre de la columna de posición del camión (por defecto: config.TRUCK_POS_COL).
+        target_truck_pos (str, optional): Posición objetivo del camión para filtrar (por defecto: config.TARGET_TRUCK_POS).
+        timezone (str, optional): Zona horaria para las fechas (por defecto: config.TIMEZONE).
+
+    Returns:
+        pd.DataFrame: DataFrame con datos de intersección cargados, filtrados y preprocesados.
+
+    Raises:
+        FileNotFoundError: Si el archivo especificado no se encuentra.
+        KeyError: Si una columna especificada no se encuentra o falla el cambio de nombre en el archivo.
+    """
+    try:
+        df = pd.read_csv(filepath)
+        df.rename(columns={date_col_original: date_col_target}, inplace=True)
+        df[date_col_target] = pd.to_datetime(df[date_col_target])
+
+        # Asegura que la zona horaria UTC sea consciente si aún no lo es
+        if df[date_col_target].dt.tz is None:
+             df[date_col_target] = df[date_col_target].dt.tz_localize(timezone)
+        elif df[date_col_target].dt.tz.zone != timezone:
+             df[date_col_target] = df[date_col_target].dt.tz_convert(timezone)
+
+        # Filtra por posición de camión
+        df_filtered = df[df[truck_pos_col] == target_truck_pos].copy()  # Usa .copy()
+
+        # Convierte columnas enteras a float64
+        int_cols = df_filtered.select_dtypes(include='int64').columns
+        df_filtered[int_cols] = df_filtered[int_cols].astype('float64')
+
+        # Selecciona solo las columnas de características finales + fecha (definidas en config)
+        # Esto asume que el archivo de intersección contiene todas las FEATURE_COLUMNS
+        # Si no, ajusta config.FEATURE_COLUMNS o esta lógica de selección
+        cols_to_keep = [date_col_target] + config.FEATURE_COLUMNS
+        # Asegura que solo mantenemos las columnas presentes en el dataframe
+        cols_present = [col for col in cols_to_keep if col in df_filtered.columns]
+        df_final = df_filtered[cols_present]
+
+
+        return df_final
+
+    except FileNotFoundError:
+        print(f"Error: No se encontró el archivo en {filepath}")
+        raise
+    except KeyError as e:
+        print(f"Error: No se encontró la columna {e} o falló el renombrado en {filepath}.")
+        raise
@@ -16,39 +16,22 @@ def fill_missing_timestamps(
 ) -> pd.DataFrame:
     """
     Rellena las marcas de tiempo horarias faltantes en un DataFrame con NaNs.
-
-    Args:
-        df (pd.DataFrame): DataFrame de entrada con una columna de fecha.
-        start_date (pd.Timestamp): Fecha de inicio del rango completo.
-        end_date (pd.Timestamp): Fecha de fin del rango completo.
-        freq (str, optional): Frecuencia para el rango de fechas (por defecto: 'h').
-        date_col (str, optional): Nombre de la columna de fecha (por defecto: config.DATE_COL).
-
-    Returns:
-        pd.DataFrame: DataFrame con marcas de tiempo horarias completas y NaNs
-                      para los datos faltantes.
     """
-    if not pd.api.types.is_datetime64_any_dtype(df[date_col]):
-        df[date_col] = pd.to_datetime(df[date_col])
-    if df[date_col].dt.tz is None:
-        df[date_col] = df[date_col].dt.tz_localize(
-            config.TIMEZONE
-        )  # Asegura la zona horaria
-    df = df.set_index(date_col)
+    
     full_date_range = pd.date_range(
         start=start_date, end=end_date, freq=freq, tz=config.TIMEZONE
     )
-    df_reindexed = df.reindex(full_date_range)
-    # No reinicies el índice si quieres preservar el DatetimeIndex
-    return df_reindexed
+    df_reindexed = df.set_index(date_col).reindex(full_date_range) # Removed reset_index()
+    df_reindexed.index.name = None  # Set index name to None
 
+    return df_reindexed
 
 def split_by_period(
     df: pd.DataFrame,
-    period_1_start: pd.Timestamp = config.PERIOD_1_START,
-    period_1_end: pd.Timestamp = config.PERIOD_1_END,
-    period_2_start: pd.Timestamp = config.PERIOD_2_START,
-    period_2_end: pd.Timestamp = config.PERIOD_2_END,
+    period_1_start: pd.Timestamp = config.PERIOD_1_PADDING_START,
+    period_1_end: pd.Timestamp = config.PERIOD_1_PADDING_END,
+    period_2_start: pd.Timestamp = config.PERIOD_2_PADDING_START,
+    period_2_end: pd.Timestamp = config.PERIOD_2_PADDING_END,
     date_col: str = config.DATE_COL,
 ) -> Tuple[pd.DataFrame, pd.DataFrame]:
     """
 
@@ -0,0 +1,111 @@
+# pampaneira_imputation/evaluation.py
+import numpy as np
+import pandas as pd
+from pypots.nn.functional import calc_mae, calc_mse, calc_rmse, calc_mre
+from typing import Dict, Tuple, List
+from . import config
+
+def calculate_imputation_metrics(y_true: np.ndarray,
+                                 y_pred: np.ndarray,
+                                 indicating_mask: np.ndarray) -> Dict[str, float]:
+    """
+    Calcula MAE, MSE, RMSE, MRE para valores imputados donde la máscara es 1.
+
+    Args:
+        y_true (np.ndarray): Datos verdaderos (potencialmente con NaNs donde faltaban originalmente).
+        y_pred (np.ndarray): Datos imputados.
+        indicating_mask (np.ndarray): Máscara donde 1 indica un valor faltante que fue imputado,
+                                     0 indica un valor observado.
+
+    Returns:
+        Dict[str, float]: Diccionario que contiene 'mae', 'mse', 'rmse', 'mre'.
+    """
+    # Asegura que las entradas sean arrays numpy
+    y_true = np.asarray(y_true)
+    y_pred = np.asarray(y_pred)
+    indicating_mask = np.asarray(indicating_mask)
+
+    # Reemplaza NaNs en la verdad fundamental con 0 para el cálculo donde la máscara es 1
+    # Esto es necesario porque las funciones pypots esperan una verdad fundamental sin NaN
+    # Solo evaluamos donde indicating_mask es 1, por lo que este reemplazo es seguro.
+    y_true_filled = np.nan_to_num(y_true, nan=0.0)
+
+    if y_true.shape != y_pred.shape or y_true.shape != indicating_mask.shape:
+        raise ValueError(f"Desajuste de forma: y_true={y_true.shape}, "
+                         f"y_pred={y_pred.shape}, mask={indicating_mask.shape}")
+
+    # Verifica si la suma de la máscara es cero (no hay valores para evaluar)
+    if indicating_mask.sum() == 0:
+        print("Advertencia: La suma de la máscara indicadora es 0. No hay valores imputados para evaluar.")
+        return {'mae': np.nan, 'mse': np.nan, 'rmse': np.nan, 'mre': np.nan}
+
+    try:
+        mae = calc_mae(y_pred, y_true_filled, indicating_mask)
+        mse = calc_mse(y_pred, y_true_filled, indicating_mask)
+        rmse = calc_rmse(y_pred, y_true_filled, indicating_mask)
+        mre = calc_mre(y_pred, y_true_filled, indicating_mask)  # Precaución con MRE si los valores verdaderos están cerca de cero
+
+        return {'mae': mae, 'mse': mse, 'rmse': rmse, 'mre': mre}
+    except Exception as e:
+         print(f"Error durante el cálculo de métricas: {e}")
+         # Añade más información de depuración si es necesario
+         print(f"Formas: y_pred={y_pred.shape}, y_true_filled={y_true_filled.shape}, mask={indicating_mask.shape}")
+         print(f"Suma de máscara: {indicating_mask.sum()}")
+         print(f"Conteo de NaN: pred={np.isnan(y_pred).sum()}, true_filled={np.isnan(y_true_filled).sum()}, mask={np.isnan(indicating_mask).sum()}")
+         # Considera verificar también por infinitos
+         return {'mae': np.nan, 'mse': np.nan, 'rmse': np.nan, 'mre': np.nan}
+
+
+def evaluate_all_methods(preprocessed_data: Dict,
+                         imputed_results: Dict[str, np.ndarray],
+                         methods_to_evaluate: list = ['median', 'mean', 'linear', 'ffill_bfill', 'bfill_ffill', 'saits']) -> pd.DataFrame:
+    """
+    Evalúa múltiples métodos de imputación usando los resultados del conjunto de prueba.
+
+    Args:
+        preprocessed_data (Dict): Diccionario de preprocess_for_imputation.
+        imputed_results (Dict[str, np.ndarray]): Diccionario que mapea nombres de métodos a arrays NumPy imputados (conjunto de prueba).
+        methods_to_evaluate (list, optional): Lista de claves en imputed_results para evaluar.
+                                              (por defecto: ['median', 'mean', 'linear', 'ffill_bfill', 'bfill_ffill', 'saits'])
+
+    Returns:
+        pd.DataFrame: DataFrame de Pandas que resume MAE, MSE, RMSE, MRE para cada método.
+    """
+    results = []
+    y_true = preprocessed_data['test_X_ori']
+    indicating_mask = preprocessed_data['test_indicating_mask']
+
+    # Maneja la posible eliminación de columnas para ffill/bfill si es necesario
+    # Esta lógica asume que WS/WD se eliminaron *antes* de la imputación para ffill/bfill
+    cols_to_drop_indices = [config.FEATURE_COLUMNS.index(col) for col in config.COLS_TO_DROP_FOR_BASELINE if col in config.FEATURE_COLUMNS]
+
+    for method_name in methods_to_evaluate:
+        if method_name not in imputed_results:
+            print(f"Advertencia: No se encontraron resultados imputados para el método '{method_name}'. Saltando.")
+            continue
+
+        y_pred = imputed_results[method_name]
+        current_y_true = y_true
+        current_mask = indicating_mask
+
+        # Manejo específico para métodos donde las columnas podrían haberse eliminado
+        if method_name in ['ffill_bfill', 'bfill_ffill'] and cols_to_drop_indices:
+             print(f"Ajustando datos verdaderos y máscara para {method_name} debido a columnas eliminadas.")
+             current_y_true = np.delete(y_true, cols_to_drop_indices, axis=2)
+             current_mask = np.delete(indicating_mask, cols_to_drop_indices, axis=2)
+             # y_pred para estos métodos ya debería tener las columnas eliminadas
+
+        print(f"\nCalculando métricas para: {method_name}")
+        metrics = calculate_imputation_metrics(current_y_true, y_pred, current_mask)
+
+        results.append({
+            "Method": method_name.replace('_', ' ').title(),  # Nombre más bonito
+            "RMSE": metrics.get('rmse', np.nan),
+            "MSE": metrics.get('mse', np.nan),
+            "MAE": metrics.get('mae', np.nan),
+            "MRE": metrics.get('mre', np.nan)
+        })
+
+    error_table = pd.DataFrame.from_records(results)
+    error_table = error_table.set_index("Method").round(4)
+    return error_table