From 227ba45532b102473f8014e384451f720f9035b5 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Wed, 19 Jun 2024 21:44:19 +0200
Subject: [PATCH 01/30] feat[wip]: add ml inference pipeline

---
 .../versions/bb3f9a1b3fa2_add_ml_bad_lumis.py |  42 +++++
 etl/python/env.py                             |   1 +
 etl/python/models/__init__.py                 |   2 +
 etl/python/models/ml_bad_lumis.py             |  21 +++
 .../pipelines/file_ingesting/pipeline.py      |  55 +++++++
 etl/python/pipelines/ml_inference/__init__.py |   0
 etl/python/pipelines/ml_inference/extract.py  |  27 ++++
 etl/python/pipelines/ml_inference/pipeline.py |  64 ++++++++
 etl/python/pipelines/ml_inference/predict.py  |  15 ++
 .../pipelines/ml_inference/preprocess.py      |  10 ++
 poetry.lock                                   | 148 +++++++++++++++++-
 pyproject.toml                                |   1 +
 12 files changed, 385 insertions(+), 1 deletion(-)
 create mode 100644 etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
 create mode 100644 etl/python/models/ml_bad_lumis.py
 create mode 100644 etl/python/pipelines/ml_inference/__init__.py
 create mode 100644 etl/python/pipelines/ml_inference/extract.py
 create mode 100644 etl/python/pipelines/ml_inference/pipeline.py
 create mode 100644 etl/python/pipelines/ml_inference/predict.py
 create mode 100644 etl/python/pipelines/ml_inference/preprocess.py

diff --git a/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py b/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
new file mode 100644
index 00000000..81d80a20
--- /dev/null
+++ b/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
@@ -0,0 +1,42 @@
+# noqa: INP001
+
+"""add ml bad lumis
+
+Revision ID: bb3f9a1b3fa2
+Revises: 86e3beee4a68
+Create Date: 2024-03-26 16:09:50.366283
+
+"""
+
+from collections.abc import Sequence
+
+from alembic import op
+
+
+# revision identifiers, used by Alembic.
+revision: str = "bb3f9a1b3fa2"
+down_revision: str = "86e3beee4a68"
+branch_labels: str | Sequence[str] | None = None
+depends_on: str | Sequence[str] | None = None
+
+
+def fact_ml_bad_lumis() -> list:
+    op.execute("""
+    CREATE TABLE IF NOT EXISTS fact_ml_bad_lumis (
+        model_name VARCHAR(255),
+        dataset_id BIGINT,
+        file_id BIGINT,
+        run_number INT,
+        ls_number INT,
+        me_id INT,
+        CONSTRAINT fact_ml_bad_lumis_pk PRIMARY KEY (model_name, dataset_id, run_number, ls_number, me_id)
+    );
+    """)
+
+
+def upgrade(engine_name: str) -> None:
+    fact_ml_bad_lumis()
+
+
+def downgrade(engine_name: str) -> None:
+    op.drop_table("fact_ml_bad_lumis")
diff --git a/etl/python/env.py b/etl/python/env.py
index 24e80b9c..d7f9bee6 100644
--- a/etl/python/env.py
+++ b/etl/python/env.py
@@ -4,6 +4,7 @@
 app_env = config("ENV")
 eos_landing_zone = config("EOS_LANDING_ZONE")
 mounted_eos_path = config("MOUNTED_EOS_PATH", default=None)
+model_registry_path = config("MODEL_REGISTRY_PATH")
 conn_str = config("DATABASE_URI")
 lxplus_user = config("KEYTAB_USER")
 lxplus_pwd = config("KEYTAB_PWD")
diff --git a/etl/python/models/__init__.py b/etl/python/models/__init__.py
index a94704df..b28777f7 100644
--- a/etl/python/models/__init__.py
+++ b/etl/python/models/__init__.py
@@ -2,6 +2,7 @@
 from .dim_mes import DimMonitoringElements
 from .file_index import FactFileIndex
 from .lumisection import FactLumisection
+from .ml_bad_lumis import FactMLBadLumis
 from .run import FactRun
 from .th1 import FactTH1
 from .th2 import FactTH2
@@ -15,4 +16,5 @@
     "FactLumisection",
     "FactTH1",
     "FactTH2",
+    "FactMLBadLumis",
 ]
diff --git a/etl/python/models/ml_bad_lumis.py b/etl/python/models/ml_bad_lumis.py
new file mode 100644
index 00000000..26fb7371
--- /dev/null
+++ b/etl/python/models/ml_bad_lumis.py
@@ -0,0 +1,21 @@
+import sqlalchemy as sa
+from sqlalchemy.orm import declarative_base
+
+
+Base = declarative_base()
+
+
+class FactMLBadLumis(Base):
+    __tablename__ = "fact_ml_bad_lumis"
+
+    model_name = sa.Column("model_name", sa.String(length=255))
+    dataset_id = sa.Column("dataset_id", sa.BigInteger)
+    file_id = sa.Column("file_id", sa.BigInteger)
+    run_number = sa.Column("run_number", sa.Integer)
+    ls_number = sa.Column("ls_number", sa.Integer)
+    me_id = sa.Column("me_id", sa.Integer)
+
+    __table_args__ = (
+        sa.PrimaryKeyConstraint("model_name", "dataset_id", "run_number", "ls_number", "me_id"),
+        sa.Index("idx_fmbl_model_name_run_number", "model_name", "run_number"),
+    )
diff --git a/etl/python/pipelines/file_ingesting/pipeline.py b/etl/python/pipelines/file_ingesting/pipeline.py
index 745f18ac..0d73efcf 100644
--- a/etl/python/pipelines/file_ingesting/pipeline.py
+++ b/etl/python/pipelines/file_ingesting/pipeline.py
@@ -4,6 +4,7 @@
 
 from ...env import conn_str
 from ...models.file_index import StatusCollection
+from ..ml_inference.pipeline import pipeline as ml_pipeline
 from ..utils import clean_file, error_handler
 from .exceptions import PipelineCopyError, PipelineRootfileError
 from .extract import extract
@@ -13,6 +14,46 @@
 from .utils import validate_root_file
 
 
+WORKSPACES_WITH_ML = {
+    "jetmet": [
+        {
+            "file": "model_CHFrac_highPt_Barrel_checkpoint_20240517.onnx",
+            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_highPt_Barrel",
+            "thr": 0.05,
+        },
+        {
+            "file": "model_CHFrac_highPt_EndCap_checkpoint_20240517.onnx",
+            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_highPt_EndCap",
+            "thr": 0.05,
+        },
+        {
+            "file": "model_CHFrac_lowPt_Barrel_checkpoint_20240517.onnx",
+            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_lowPt_Barrel",
+            "thr": 0.05,
+        },
+        {
+            "file": "model_CHFrac_lowPt_EndCap_checkpoint_20240517.onnx",
+            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_lowPt_EndCap",
+            "thr": 0.05,
+        },
+        {
+            "file": "model_CHFrac_mediumPt_Barrel_checkpoint_20240517.onnx",
+            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_mediumPt_Barrel",
+            "thr": 0.05,
+        },
+        {
+            "file": "model_CHFrac_mediumPt_EndCap_checkpoint_20240517.onnx",
+            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_mediumPt_EndCap",
+            "thr": 0.05,
+        },
+        {"file": "model_MET_2_checkpoint_20240517.onnx", "me": "JetMET/MET/pfMETT1/Cleaned/MET_2", "thr": 0.05},
+        {"file": "model_METPhi_checkpoint_20240517.onnx", "me": "JetMET/MET/pfMETT1/Cleaned/METPhi", "thr": 0.05},
+        {"file": "model_METSig_checkpoint_20240517.onnx", "me": "JetMET/MET/pfMETT1/Cleaned/METSig", "thr": 0.05},
+        {"file": "model_SumET_checkpoint_20240517.onnx", "me": "JetMET/MET/pfMETT1/Cleaned/SumET", "thr": 0.05},
+    ]
+}
+
+
 def pipeline(workspace_name: str, workspace_mes: str, file_id: int, dataset_id: int):
     """
     Note: always re-raise exceptions to mark the task as failed in celery broker
@@ -47,4 +88,18 @@ def pipeline(workspace_name: str, workspace_mes: str, file_id: int, dataset_id:
 
     # If everything goes well, we can clean the file
     clean_file(fpath)
+
+    # Run ML pipeline for each model if workspace has any models registered
+    if workspace_name in WORKSPACES_WITH_ML:
+        for model in WORKSPACES_WITH_ML[workspace_name]:
+            ml_pipeline(
+                workspace_name=workspace_name,
+                model_file=model["file"],
+                model_thr=model["thr"],
+                model_me=model["me"],
+                dataset_id=dataset_id,
+                file_id=file_id,
+            )
+
+    # Finally finishes
     post_load(engine, file_id)
diff --git a/etl/python/pipelines/ml_inference/__init__.py b/etl/python/pipelines/ml_inference/__init__.py
new file mode 100644
index 00000000..e69de29b
diff --git a/etl/python/pipelines/ml_inference/extract.py b/etl/python/pipelines/ml_inference/extract.py
new file mode 100644
index 00000000..bb752cf7
--- /dev/null
+++ b/etl/python/pipelines/ml_inference/extract.py
@@ -0,0 +1,27 @@
+from sqlalchemy.engine.base import Engine
+from sqlalchemy.exc import NoResultFound
+from sqlalchemy.orm import sessionmaker
+
+from ...models import DimMonitoringElements, FactTH1, FactTH2
+
+
+def extract_me(engine: Engine, me: str):
+    sess = sessionmaker(bind=engine)
+    with sess() as session:
+        query = session.query(DimMonitoringElements).filter(DimMonitoringElements.me == me)
+        try:
+            result = query.one()
+        except NoResultFound:
+            result = None
+        return result
+
+
+def extract(engine: Engine, th_class: FactTH1 | FactTH2, dataset_id: int, file_id: int, me_id: int):
+    sess = sessionmaker(bind=engine)
+    with sess() as session:
+        query = session.query(th_class).filter(
+            th_class.dataset_id == dataset_id,
+            th_class.file_id == file_id,
+            th_class.me_id == me_id,
+        )
+        return query.all()
diff --git a/etl/python/pipelines/ml_inference/pipeline.py b/etl/python/pipelines/ml_inference/pipeline.py
new file mode 100644
index 00000000..9c53455e
--- /dev/null
+++ b/etl/python/pipelines/ml_inference/pipeline.py
@@ -0,0 +1,64 @@
+import os.path
+
+import pandas as pd
+from sqlalchemy import create_engine
+
+from ...common.pgsql import copy_expert
+from ...env import conn_str
+from ...models import FactMLBadLumis, FactTH1, FactTH2
+from .extract import extract, extract_me
+from .predict import predict
+from .preprocess import preprocess
+
+
+def pipeline(
+    workspace_name: str,
+    model_file: str,
+    model_thr: float,
+    model_me: str,
+    dataset_id: int,
+    file_id: int,
+):
+    engine = create_engine(f"{conn_str}/{workspace_name}")
+
+    # Extrac me_id and TH dimension if me exists in database
+    me = extract_me(engine, model_me)
+    if me is None:
+        return
+
+    # Extract data
+    th_class = FactTH1 if me.dim == 1 else FactTH2
+    hists = extract(engine, th_class, dataset_id, file_id, me.me_id)
+    if len(hists) == 0:
+        return
+
+    # Preprocess data
+    lss_, input_data = preprocess(hists)
+
+    # Predictions
+    preds = predict(workspace_name, model_file, input_data)
+
+    # Select bad lumis
+    model_name = os.path.splitext(model_file)[0]
+    bad_lumis = []
+    for idx, ls_number in enumerate(lss_.flatten()):
+        mse = preds[1][idx]
+        if mse >= model_thr:
+            bad_lumis.append(
+                {
+                    "model_name": model_name,
+                    "dataset_id": dataset_id,
+                    "file_id": file_id,
+                    "run_number": hists[idx].run_number,
+                    "ls_number": ls_number,
+                    "me_id": me.me_id,
+                }
+            )
+
+    if len(bad_lumis) == 0:
+        return
+
+    # Dump bad lumis if there is any
+    bad_lumis = pd.DataFrame(bad_lumis)
+    bad_lumis.to_sql(name=FactMLBadLumis.__tablename__, con=engine, if_exists="append", index=False, method=copy_expert)
+    engine.dispose()
diff --git a/etl/python/pipelines/ml_inference/predict.py b/etl/python/pipelines/ml_inference/predict.py
new file mode 100644
index 00000000..cdb3c99c
--- /dev/null
+++ b/etl/python/pipelines/ml_inference/predict.py
@@ -0,0 +1,15 @@
+import numpy as np
+from onnxruntime import InferenceSession
+
+from ...env import model_registry_path
+
+
+def predict(workspace_name: str, model_file: str, input_data: np.array) -> list[dict]:
+    model_path = f"{model_registry_path}/{workspace_name}/{model_file}"
+    sess = InferenceSession(model_path)
+
+    # Predict
+    input_name = sess.get_inputs()[0].name
+    result = sess.run(None, {input_name: input_data})
+
+    return result
diff --git a/etl/python/pipelines/ml_inference/preprocess.py b/etl/python/pipelines/ml_inference/preprocess.py
new file mode 100644
index 00000000..70a2664d
--- /dev/null
+++ b/etl/python/pipelines/ml_inference/preprocess.py
@@ -0,0 +1,10 @@
+import numpy as np
+
+
+def preprocess(data: list[dict]) -> tuple:
+    results_ = [{"ls_number": result.ls_number, "data": result.data} for result in data]
+    sorted_ = sorted(results_, key=lambda x: x["ls_number"])
+    test_array = np.vstack([histogram["data"] for histogram in sorted_])
+    test_array = test_array.astype(np.float32)
+    lss_ = np.vstack([histogram["ls_number"] for histogram in sorted_])
+    return lss_, test_array
diff --git a/poetry.lock b/poetry.lock
index 50044af1..c0b4236e 100644
--- a/poetry.lock
+++ b/poetry.lock
@@ -442,6 +442,23 @@ files = [
     {file = "colorama-0.4.6.tar.gz", hash = "sha256:08695f5cb7ed6e0531a20572697297273c47b8cae5a63ffc6d6ed5c201be6e44"},
 ]
 
+[[package]]
+name = "coloredlogs"
+version = "15.0.1"
+description = "Colored terminal output for Python's logging module"
+optional = false
+python-versions = ">=2.7, !=3.0.*, !=3.1.*, !=3.2.*, !=3.3.*, !=3.4.*"
+files = [
+    {file = "coloredlogs-15.0.1-py2.py3-none-any.whl", hash = "sha256:612ee75c546f53e92e70049c9dbfcc18c935a2b9a53b66085ce9ef6a6e5c0934"},
+    {file = "coloredlogs-15.0.1.tar.gz", hash = "sha256:7c991aa71a4577af2f82600d8f8f3a89f936baeaf9b50a9c197da014e5bf16b0"},
+]
+
+[package.dependencies]
+humanfriendly = ">=9.1"
+
+[package.extras]
+cron = ["capturer (>=2.4)"]
+
 [[package]]
 name = "contourpy"
 version = "1.2.0"
@@ -756,6 +773,17 @@ docs = ["furo (>=2023.9.10)", "sphinx (>=7.2.6)", "sphinx-autodoc-typehints (>=1
 testing = ["covdefaults (>=2.3)", "coverage (>=7.3.2)", "diff-cover (>=8)", "pytest (>=7.4.3)", "pytest-cov (>=4.1)", "pytest-mock (>=3.12)", "pytest-timeout (>=2.2)"]
 typing = ["typing-extensions (>=4.8)"]
 
+[[package]]
+name = "flatbuffers"
+version = "24.3.25"
+description = "The FlatBuffers serialization format for Python"
+optional = false
+python-versions = "*"
+files = [
+    {file = "flatbuffers-24.3.25-py2.py3-none-any.whl", hash = "sha256:8dbdec58f935f3765e4f7f3cf635ac3a77f83568138d6a2311f524ec96364812"},
+    {file = "flatbuffers-24.3.25.tar.gz", hash = "sha256:de2ec5b203f21441716617f38443e0a8ebf3d25bf0d9c0bb0ce68fa00ad546a4"},
+]
+
 [[package]]
 name = "flower"
 version = "2.0.1"
@@ -931,6 +959,20 @@ setproctitle = ["setproctitle"]
 testing = ["coverage", "eventlet", "gevent", "pytest", "pytest-cov"]
 tornado = ["tornado (>=0.2)"]
 
+[[package]]
+name = "humanfriendly"
+version = "10.0"
+description = "Human friendly output for text interfaces using Python"
+optional = false
+python-versions = ">=2.7, !=3.0.*, !=3.1.*, !=3.2.*, !=3.3.*, !=3.4.*"
+files = [
+    {file = "humanfriendly-10.0-py2.py3-none-any.whl", hash = "sha256:1697e1a8a8f550fd43c2865cd84542fc175a61dcb779b6fee18cf6b6ccba1477"},
+    {file = "humanfriendly-10.0.tar.gz", hash = "sha256:6b0b831ce8f15f7300721aa49829fc4e83921a9a301cc7f606be6686a2288ddc"},
+]
+
+[package.dependencies]
+pyreadline3 = {version = "*", markers = "sys_platform == \"win32\" and python_version >= \"3.8\""}
+
 [[package]]
 name = "humanize"
 version = "4.9.0"
@@ -1277,6 +1319,23 @@ pillow = ">=8"
 pyparsing = ">=2.3.1"
 python-dateutil = ">=2.7"
 
+[[package]]
+name = "mpmath"
+version = "1.3.0"
+description = "Python library for arbitrary-precision floating-point arithmetic"
+optional = false
+python-versions = "*"
+files = [
+    {file = "mpmath-1.3.0-py3-none-any.whl", hash = "sha256:a0b2b9fe80bbcd81a6647ff13108738cfb482d481d826cc0e02f5b35e5c88d2c"},
+    {file = "mpmath-1.3.0.tar.gz", hash = "sha256:7a28eb2a9774d00c7bc92411c19a89209d5da7c4c9a9e227be8330a23a25b91f"},
+]
+
+[package.extras]
+develop = ["codecov", "pycodestyle", "pytest (>=4.6)", "pytest-cov", "wheel"]
+docs = ["sphinx"]
+gmpy = ["gmpy2 (>=2.1.0a4)"]
+tests = ["pytest (>=4.6)"]
+
 [[package]]
 name = "nodeenv"
 version = "1.8.0"
@@ -1336,6 +1395,48 @@ files = [
     {file = "numpy-1.26.4.tar.gz", hash = "sha256:2a02aba9ed12e4ac4eb3ea9421c420301a0c6460d9830d74a9df87efa4912010"},
 ]
 
+[[package]]
+name = "onnxruntime"
+version = "1.18.0"
+description = "ONNX Runtime is a runtime accelerator for Machine Learning models"
+optional = false
+python-versions = "*"
+files = [
+    {file = "onnxruntime-1.18.0-cp310-cp310-macosx_11_0_universal2.whl", hash = "sha256:5a3b7993a5ecf4a90f35542a4757e29b2d653da3efe06cdd3164b91167bbe10d"},
+    {file = "onnxruntime-1.18.0-cp310-cp310-manylinux_2_27_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:15b944623b2cdfe7f7945690bfb71c10a4531b51997c8320b84e7b0bb59af902"},
+    {file = "onnxruntime-1.18.0-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl", hash = "sha256:2e61ce5005118064b1a0ed73ebe936bc773a102f067db34108ea6c64dd62a179"},
+    {file = "onnxruntime-1.18.0-cp310-cp310-win32.whl", hash = "sha256:a4fc8a2a526eb442317d280610936a9f73deece06c7d5a91e51570860802b93f"},
+    {file = "onnxruntime-1.18.0-cp310-cp310-win_amd64.whl", hash = "sha256:71ed219b768cab004e5cd83e702590734f968679bf93aa488c1a7ffbe6e220c3"},
+    {file = "onnxruntime-1.18.0-cp311-cp311-macosx_11_0_universal2.whl", hash = "sha256:3d24bd623872a72a7fe2f51c103e20fcca2acfa35d48f2accd6be1ec8633d960"},
+    {file = "onnxruntime-1.18.0-cp311-cp311-manylinux_2_27_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:f15e41ca9b307a12550bfd2ec93f88905d9fba12bab7e578f05138ad0ae10d7b"},
+    {file = "onnxruntime-1.18.0-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl", hash = "sha256:1f45ca2887f62a7b847d526965686b2923efa72538c89b7703c7b3fe970afd59"},
+    {file = "onnxruntime-1.18.0-cp311-cp311-win32.whl", hash = "sha256:9e24d9ecc8781323d9e2eeda019b4b24babc4d624e7d53f61b1fe1a929b0511a"},
+    {file = "onnxruntime-1.18.0-cp311-cp311-win_amd64.whl", hash = "sha256:f8608398976ed18aef450d83777ff6f77d0b64eced1ed07a985e1a7db8ea3771"},
+    {file = "onnxruntime-1.18.0-cp312-cp312-macosx_11_0_universal2.whl", hash = "sha256:f1d79941f15fc40b1ee67738b2ca26b23e0181bf0070b5fb2984f0988734698f"},
+    {file = "onnxruntime-1.18.0-cp312-cp312-manylinux_2_27_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:99e8caf3a8565c853a22d323a3eebc2a81e3de7591981f085a4f74f7a60aab2d"},
+    {file = "onnxruntime-1.18.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl", hash = "sha256:498d2b8380635f5e6ebc50ec1b45f181588927280f32390fb910301d234f97b8"},
+    {file = "onnxruntime-1.18.0-cp312-cp312-win32.whl", hash = "sha256:ba7cc0ce2798a386c082aaa6289ff7e9bedc3dee622eef10e74830cff200a72e"},
+    {file = "onnxruntime-1.18.0-cp312-cp312-win_amd64.whl", hash = "sha256:1fa175bd43f610465d5787ae06050c81f7ce09da2bf3e914eb282cb8eab363ef"},
+    {file = "onnxruntime-1.18.0-cp38-cp38-macosx_11_0_universal2.whl", hash = "sha256:0284c579c20ec8b1b472dd190290a040cc68b6caec790edb960f065d15cf164a"},
+    {file = "onnxruntime-1.18.0-cp38-cp38-manylinux_2_27_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:d47353d036d8c380558a5643ea5f7964d9d259d31c86865bad9162c3e916d1f6"},
+    {file = "onnxruntime-1.18.0-cp38-cp38-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl", hash = "sha256:885509d2b9ba4b01f08f7fa28d31ee54b6477953451c7ccf124a84625f07c803"},
+    {file = "onnxruntime-1.18.0-cp38-cp38-win32.whl", hash = "sha256:8614733de3695656411d71fc2f39333170df5da6c7efd6072a59962c0bc7055c"},
+    {file = "onnxruntime-1.18.0-cp38-cp38-win_amd64.whl", hash = "sha256:47af3f803752fce23ea790fd8d130a47b2b940629f03193f780818622e856e7a"},
+    {file = "onnxruntime-1.18.0-cp39-cp39-macosx_11_0_universal2.whl", hash = "sha256:9153eb2b4d5bbab764d0aea17adadffcfc18d89b957ad191b1c3650b9930c59f"},
+    {file = "onnxruntime-1.18.0-cp39-cp39-manylinux_2_27_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:2c7fd86eca727c989bb8d9c5104f3c45f7ee45f445cc75579ebe55d6b99dfd7c"},
+    {file = "onnxruntime-1.18.0-cp39-cp39-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl", hash = "sha256:ac67a4de9c1326c4d87bcbfb652c923039b8a2446bb28516219236bec3b494f5"},
+    {file = "onnxruntime-1.18.0-cp39-cp39-win32.whl", hash = "sha256:6ffb445816d06497df7a6dd424b20e0b2c39639e01e7fe210e247b82d15a23b9"},
+    {file = "onnxruntime-1.18.0-cp39-cp39-win_amd64.whl", hash = "sha256:46de6031cb6745f33f7eca9e51ab73e8c66037fb7a3b6b4560887c5b55ab5d5d"},
+]
+
+[package.dependencies]
+coloredlogs = "*"
+flatbuffers = "*"
+numpy = ">=1.21.6"
+packaging = "*"
+protobuf = "*"
+sympy = "*"
+
 [[package]]
 name = "packaging"
 version = "23.2"
@@ -1617,6 +1718,26 @@ files = [
 [package.dependencies]
 wcwidth = "*"
 
+[[package]]
+name = "protobuf"
+version = "5.27.0"
+description = ""
+optional = false
+python-versions = ">=3.8"
+files = [
+    {file = "protobuf-5.27.0-cp310-abi3-win32.whl", hash = "sha256:2f83bf341d925650d550b8932b71763321d782529ac0eaf278f5242f513cc04e"},
+    {file = "protobuf-5.27.0-cp310-abi3-win_amd64.whl", hash = "sha256:b276e3f477ea1eebff3c2e1515136cfcff5ac14519c45f9b4aa2f6a87ea627c4"},
+    {file = "protobuf-5.27.0-cp38-abi3-macosx_10_9_universal2.whl", hash = "sha256:744489f77c29174328d32f8921566fb0f7080a2f064c5137b9d6f4b790f9e0c1"},
+    {file = "protobuf-5.27.0-cp38-abi3-manylinux2014_aarch64.whl", hash = "sha256:f51f33d305e18646f03acfdb343aac15b8115235af98bc9f844bf9446573827b"},
+    {file = "protobuf-5.27.0-cp38-abi3-manylinux2014_x86_64.whl", hash = "sha256:56937f97ae0dcf4e220ff2abb1456c51a334144c9960b23597f044ce99c29c89"},
+    {file = "protobuf-5.27.0-cp38-cp38-win32.whl", hash = "sha256:a17f4d664ea868102feaa30a674542255f9f4bf835d943d588440d1f49a3ed15"},
+    {file = "protobuf-5.27.0-cp38-cp38-win_amd64.whl", hash = "sha256:aabbbcf794fbb4c692ff14ce06780a66d04758435717107c387f12fb477bf0d8"},
+    {file = "protobuf-5.27.0-cp39-cp39-win32.whl", hash = "sha256:587be23f1212da7a14a6c65fd61995f8ef35779d4aea9e36aad81f5f3b80aec5"},
+    {file = "protobuf-5.27.0-cp39-cp39-win_amd64.whl", hash = "sha256:7cb65fc8fba680b27cf7a07678084c6e68ee13cab7cace734954c25a43da6d0f"},
+    {file = "protobuf-5.27.0-py3-none-any.whl", hash = "sha256:673ad60f1536b394b4fa0bcd3146a4130fcad85bfe3b60eaa86d6a0ace0fa374"},
+    {file = "protobuf-5.27.0.tar.gz", hash = "sha256:07f2b9a15255e3cf3f137d884af7972407b556a7a220912b252f26dc3121e6bf"},
+]
+
 [[package]]
 name = "psutil"
 version = "5.9.8"
@@ -1777,6 +1898,17 @@ files = [
 [package.extras]
 diagrams = ["jinja2", "railroad-diagrams"]
 
+[[package]]
+name = "pyreadline3"
+version = "3.4.1"
+description = "A python implementation of GNU readline."
+optional = false
+python-versions = "*"
+files = [
+    {file = "pyreadline3-3.4.1-py3-none-any.whl", hash = "sha256:b0efb6516fd4fb07b45949053826a62fa4cb353db5be2bbb4a7aa1fdd1e345fb"},
+    {file = "pyreadline3-3.4.1.tar.gz", hash = "sha256:6f3d1f7b8a31ba32b73917cefc1f28cc660562f39aea8646d30bd6eff21f7bae"},
+]
+
 [[package]]
 name = "python-dateutil"
 version = "2.8.2"
@@ -2115,6 +2247,20 @@ files = [
 dev = ["build", "hatch"]
 doc = ["sphinx"]
 
+[[package]]
+name = "sympy"
+version = "1.12.1"
+description = "Computer algebra system (CAS) in Python"
+optional = false
+python-versions = ">=3.8"
+files = [
+    {file = "sympy-1.12.1-py3-none-any.whl", hash = "sha256:9b2cbc7f1a640289430e13d2a56f02f867a1da0190f2f99d8968c2f74da0e515"},
+    {file = "sympy-1.12.1.tar.gz", hash = "sha256:2877b03f998cd8c08f07cd0de5b767119cd3ef40d09f41c30d722f6686b0fb88"},
+]
+
+[package.dependencies]
+mpmath = ">=1.1.0,<1.4.0"
+
 [[package]]
 name = "tenacity"
 version = "8.2.3"
@@ -2255,4 +2401,4 @@ files = [
 [metadata]
 lock-version = "2.0"
 python-versions = "^3.10"
-content-hash = "a07cc44374dc8182ab8f53ef5f76326c569399a14e0755098f0899ec7cf96228"
+content-hash = "c4d333e64e26e285b9013e490e47f653b969f076b4e7c33be4662b2ef322b104"
diff --git a/pyproject.toml b/pyproject.toml
index fc52e4ef..4299b28f 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -35,6 +35,7 @@ pandas = "^2.2.1"
 paramiko = "^3.4.0"
 scp = "^0.14.5"
 flower = "^2.0.1"
+onnxruntime = "^1.18.0"
 
 [tool.poetry.group.dev.dependencies]
 pre-commit = "^3.6.0"

From 82a2e62c2176bac58278c580168ad242b92a563c Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Tue, 25 Jun 2024 15:08:58 +0200
Subject: [PATCH 02/30] feat: create ml models index table in alembic
 migrations and add sqlalchemy model

---
 .../versions/bb3f9a1b3fa2_add_ml_bad_lumis.py | 16 +++++++++++++++
 etl/python/models/__init__.py                 |  2 ++
 etl/python/models/dim_ml_index.py             | 20 +++++++++++++++++++
 3 files changed, 38 insertions(+)
 create mode 100644 etl/python/models/dim_ml_index.py

diff --git a/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py b/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
index 81d80a20..e88d747b 100644
--- a/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
+++ b/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
@@ -34,9 +34,25 @@ def fact_ml_bad_lumis() -> list:
     """)
 
 
+def dim_ml_models_index() -> list:
+    op.execute("""
+    CREATE TABLE IF NOT EXISTS dim_ml_models_index (
+        model_id SERIAL,
+        filename VARCHAR(255),
+        target_me VARCHAR(255),
+        thr DOUBLE PRECISION,
+        active BOOLEAN,
+        CONSTRAINT dim_ml_models_index_pk PRIMARY KEY (model_id)
+    );
+    """)
+    op.execute("CREATE INDEX idx_active ON dim_ml_models_index (active);")
+
+
 def upgrade(engine_name: str) -> None:
+    dim_ml_models_index()
     fact_ml_bad_lumis()
 
 
 def downgrade(engine_name: str) -> None:
+    op.drop_table("dim_ml_models_index")
     op.drop_table("fact_ml_bad_lumis")
diff --git a/etl/python/models/__init__.py b/etl/python/models/__init__.py
index b28777f7..31ba9a3f 100644
--- a/etl/python/models/__init__.py
+++ b/etl/python/models/__init__.py
@@ -1,5 +1,6 @@
 from .dataset_index import FactDatasetIndex
 from .dim_mes import DimMonitoringElements
+from .dim_ml_index import DimMLModelsIndex
 from .file_index import FactFileIndex
 from .lumisection import FactLumisection
 from .ml_bad_lumis import FactMLBadLumis
@@ -9,6 +10,7 @@
 
 
 __all__ = [
+    "DimMLModelsIndex",
     "DimMonitoringElements",
     "FactDatasetIndex",
     "FactFileIndex",
diff --git a/etl/python/models/dim_ml_index.py b/etl/python/models/dim_ml_index.py
new file mode 100644
index 00000000..441b0610
--- /dev/null
+++ b/etl/python/models/dim_ml_index.py
@@ -0,0 +1,20 @@
+import sqlalchemy as sa
+from sqlalchemy.orm import declarative_base
+
+
+Base = declarative_base()
+
+
+class DimMLModelsIndex(Base):
+    __tablename__ = "dim_ml_models_index"
+
+    model_id = sa.Column("model_id", sa.BigInteger, autoincrement=True)
+    filename = sa.Column("filename", sa.String(255))
+    target_me = sa.Column("target_me", sa.String(255))
+    thr = sa.Column("thr", sa.Float)
+    active = sa.Column("active", sa.Boolean)
+
+    __table_args__ = (
+        sa.PrimaryKeyConstraint("model_id"),
+        sa.Index("idx_active", "active"),
+    )

From e741d67f76c99b65fdf678d0875b91fc8c34e682 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Tue, 25 Jun 2024 15:10:17 +0200
Subject: [PATCH 03/30] refactor: replace model_name with model_id in
 fact_ml_bad_lumis table

---
 etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py | 5 +++--
 etl/python/models/ml_bad_lumis.py                     | 2 +-
 2 files changed, 4 insertions(+), 3 deletions(-)

diff --git a/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py b/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
index e88d747b..2d3c3af8 100644
--- a/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
+++ b/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
@@ -21,15 +21,16 @@
 
 
 def fact_ml_bad_lumis() -> list:
+    # We don't need extra indexes
     op.execute("""
     CREATE TABLE IF NOT EXISTS fact_ml_bad_lumis (
-        model_name VARCHAR(255),
+        model_id BIGINT,
         dataset_id BIGINT,
         file_id BIGINT,
         run_number INT,
         ls_number INT,
         me_id INT,
-        CONSTRAINT fact_ml_bad_lumis_pk PRIMARY KEY (model_name, dataset_id, run_number, ls_number, me_id)
+        CONSTRAINT fact_ml_bad_lumis_pk PRIMARY KEY (model_id, dataset_id, run_number, ls_number, me_id)
     );
     """)
 
diff --git a/etl/python/models/ml_bad_lumis.py b/etl/python/models/ml_bad_lumis.py
index 26fb7371..de41c374 100644
--- a/etl/python/models/ml_bad_lumis.py
+++ b/etl/python/models/ml_bad_lumis.py
@@ -8,7 +8,7 @@
 class FactMLBadLumis(Base):
     __tablename__ = "fact_ml_bad_lumis"
 
-    model_name = sa.Column("model_name", sa.String(length=255))
+    model_id = sa.Column("model_id", sa.String(length=255))
     dataset_id = sa.Column("dataset_id", sa.BigInteger)
     file_id = sa.Column("file_id", sa.BigInteger)
     run_number = sa.Column("run_number", sa.Integer)

From ad977c15c20dcab83892c55624cba12144ece6be Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Tue, 25 Jun 2024 15:12:10 +0200
Subject: [PATCH 04/30] refactor: read active models and metadata from
 dim_ml_models_index table in workspace's database

---
 .../pipelines/file_ingesting/pipeline.py      | 63 ++++---------------
 etl/python/pipelines/file_ingesting/utils.py  | 10 +++
 etl/python/pipelines/ml_inference/pipeline.py | 14 ++---
 3 files changed, 28 insertions(+), 59 deletions(-)

diff --git a/etl/python/pipelines/file_ingesting/pipeline.py b/etl/python/pipelines/file_ingesting/pipeline.py
index 0d73efcf..da18b0f0 100644
--- a/etl/python/pipelines/file_ingesting/pipeline.py
+++ b/etl/python/pipelines/file_ingesting/pipeline.py
@@ -11,47 +11,7 @@
 from .post_load import post_load
 from .pre_extract import pre_extract
 from .transform_load import transform_load
-from .utils import validate_root_file
-
-
-WORKSPACES_WITH_ML = {
-    "jetmet": [
-        {
-            "file": "model_CHFrac_highPt_Barrel_checkpoint_20240517.onnx",
-            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_highPt_Barrel",
-            "thr": 0.05,
-        },
-        {
-            "file": "model_CHFrac_highPt_EndCap_checkpoint_20240517.onnx",
-            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_highPt_EndCap",
-            "thr": 0.05,
-        },
-        {
-            "file": "model_CHFrac_lowPt_Barrel_checkpoint_20240517.onnx",
-            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_lowPt_Barrel",
-            "thr": 0.05,
-        },
-        {
-            "file": "model_CHFrac_lowPt_EndCap_checkpoint_20240517.onnx",
-            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_lowPt_EndCap",
-            "thr": 0.05,
-        },
-        {
-            "file": "model_CHFrac_mediumPt_Barrel_checkpoint_20240517.onnx",
-            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_mediumPt_Barrel",
-            "thr": 0.05,
-        },
-        {
-            "file": "model_CHFrac_mediumPt_EndCap_checkpoint_20240517.onnx",
-            "me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_mediumPt_EndCap",
-            "thr": 0.05,
-        },
-        {"file": "model_MET_2_checkpoint_20240517.onnx", "me": "JetMET/MET/pfMETT1/Cleaned/MET_2", "thr": 0.05},
-        {"file": "model_METPhi_checkpoint_20240517.onnx", "me": "JetMET/MET/pfMETT1/Cleaned/METPhi", "thr": 0.05},
-        {"file": "model_METSig_checkpoint_20240517.onnx", "me": "JetMET/MET/pfMETT1/Cleaned/METSig", "thr": 0.05},
-        {"file": "model_SumET_checkpoint_20240517.onnx", "me": "JetMET/MET/pfMETT1/Cleaned/SumET", "thr": 0.05},
-    ]
-}
+from .utils import fetch_active_models, validate_root_file
 
 
 def pipeline(workspace_name: str, workspace_mes: str, file_id: int, dataset_id: int):
@@ -90,16 +50,17 @@ def pipeline(workspace_name: str, workspace_mes: str, file_id: int, dataset_id:
     clean_file(fpath)
 
     # Run ML pipeline for each model if workspace has any models registered
-    if workspace_name in WORKSPACES_WITH_ML:
-        for model in WORKSPACES_WITH_ML[workspace_name]:
-            ml_pipeline(
-                workspace_name=workspace_name,
-                model_file=model["file"],
-                model_thr=model["thr"],
-                model_me=model["me"],
-                dataset_id=dataset_id,
-                file_id=file_id,
-            )
+    active_models = fetch_active_models(engine)
+    for model in active_models:
+        ml_pipeline(
+            workspace_name=workspace_name,
+            model_id=model.model_id,
+            model_file=model.filename,
+            thr=model.thr,
+            target_me=model.target_me,
+            dataset_id=dataset_id,
+            file_id=file_id,
+        )
 
     # Finally finishes
     post_load(engine, file_id)
diff --git a/etl/python/pipelines/file_ingesting/utils.py b/etl/python/pipelines/file_ingesting/utils.py
index 31ea1502..000fcd71 100644
--- a/etl/python/pipelines/file_ingesting/utils.py
+++ b/etl/python/pipelines/file_ingesting/utils.py
@@ -1,4 +1,8 @@
 import ROOT
+from sqlalchemy.engine.base import Engine
+from sqlalchemy.orm import sessionmaker
+
+from ...models import DimMLModelsIndex
 
 
 def validate_root_file(fpath: str) -> None:
@@ -8,3 +12,9 @@ def validate_root_file(fpath: str) -> None:
     """
     with ROOT.TFile(fpath) as root_file:
         root_file.GetUUID().AsString()
+
+
+def fetch_active_models(engine: Engine) -> list[DimMLModelsIndex]:
+    Session = sessionmaker(bind=engine)  # noqa: N806
+    with Session() as session:
+        return session.query(DimMLModelsIndex).filter(DimMLModelsIndex.active).all()
diff --git a/etl/python/pipelines/ml_inference/pipeline.py b/etl/python/pipelines/ml_inference/pipeline.py
index 9c53455e..126135fb 100644
--- a/etl/python/pipelines/ml_inference/pipeline.py
+++ b/etl/python/pipelines/ml_inference/pipeline.py
@@ -1,5 +1,3 @@
-import os.path
-
 import pandas as pd
 from sqlalchemy import create_engine
 
@@ -13,16 +11,17 @@
 
 def pipeline(
     workspace_name: str,
+    model_id: int,
     model_file: str,
-    model_thr: float,
-    model_me: str,
+    thr: float,
+    target_me: str,
     dataset_id: int,
     file_id: int,
 ):
     engine = create_engine(f"{conn_str}/{workspace_name}")
 
     # Extrac me_id and TH dimension if me exists in database
-    me = extract_me(engine, model_me)
+    me = extract_me(engine, target_me)
     if me is None:
         return
 
@@ -39,14 +38,13 @@ def pipeline(
     preds = predict(workspace_name, model_file, input_data)
 
     # Select bad lumis
-    model_name = os.path.splitext(model_file)[0]
     bad_lumis = []
     for idx, ls_number in enumerate(lss_.flatten()):
         mse = preds[1][idx]
-        if mse >= model_thr:
+        if mse >= thr:
             bad_lumis.append(
                 {
-                    "model_name": model_name,
+                    "model_id": model_id,
                     "dataset_id": dataset_id,
                     "file_id": file_id,
                     "run_number": hists[idx].run_number,

From 2f1aabe174191d1ad0c771fe3faacfb1f8842638 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Tue, 25 Jun 2024 15:13:06 +0200
Subject: [PATCH 05/30] chore: add `add_ml_model_to_index_handler` to `cli.py`

---
 etl/cli.py | 24 +++++++++++++++++++++++-
 1 file changed, 23 insertions(+), 1 deletion(-)

diff --git a/etl/cli.py b/etl/cli.py
index a0688187..c0a97bd8 100755
--- a/etl/cli.py
+++ b/etl/cli.py
@@ -4,7 +4,7 @@
 
 from python.config import common_indexer_queue, pds_queues, primary_datasets, priority_era, workspaces
 from python.env import conn_str
-from python.models import FactFileIndex, FactTH1, FactTH2
+from python.models import DimMLModelsIndex, FactFileIndex, FactTH1, FactTH2
 from python.models.file_index import StatusCollection
 from python.pipelines.dataset_indexer.tasks import dataset_indexer_pipeline_task
 from python.pipelines.file_downloader.tasks import file_downloader_pipeline_task
@@ -143,6 +143,15 @@ def indexing_handler(args):
         )
 
 
+def add_ml_model_to_index_hanlder(args):
+    engine = get_engine(args.workspace)
+    Session = sessionmaker(bind=engine)  # noqa: N806
+    with Session() as session:
+        model = DimMLModelsIndex(filename=args.filename, target_me=args.target_me, thr=args.thr, active=args.active)
+        session.add(model)
+        session.commit()
+
+
 def main():
     parser = argparse.ArgumentParser(description="DIALS etl command line interface")
     subparsers = parser.add_subparsers(dest="command", title="Commands")
@@ -191,6 +200,19 @@ def main():
     )
     clean_table_parser.set_defaults(handler=clean_parsing_error_handler)
 
+    # Register ml model command
+    add_ml_model_parser = subparsers.add_parser("add-ml-model-to-index", help="Register ML molde into DB")
+    add_ml_model_parser.add_argument("-w", "--workspace", help="Workspace name.", required=True)
+    add_ml_model_parser.add_argument("-f", "--filename", help="Model binary filename", required=True)
+    add_ml_model_parser.add_argument(
+        "-m", "--target-me", help="Monitoring element predicted by the model", required=True
+    )
+    add_ml_model_parser.add_argument(
+        "-t", "--thr", help="Model threshold for anomaly detection", required=True, type=float
+    )
+    add_ml_model_parser.add_argument("-a", "--active", help="Is the model active?", required=True, type=bool)
+    add_ml_model_parser.set_defaults(handler=add_ml_model_to_index_hanlder)
+
     args = parser.parse_args()
 
     if hasattr(args, "handler"):

From cfa8b746980516dc6f5aac409ae19693324ce0e7 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Tue, 25 Jun 2024 15:13:17 +0200
Subject: [PATCH 06/30] chore: add ML_models directory to gitignore

---
 .gitignore | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.gitignore b/.gitignore
index 09893315..3a32c2af 100644
--- a/.gitignore
+++ b/.gitignore
@@ -335,3 +335,4 @@ docker-compose.yaml
 DQMIO/
 usercert.pem
 userkey.pem
+ML_models/

From 3320f90decd52d9599430a1c98dec507fab1441f Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Thu, 27 Jun 2024 10:50:18 +0200
Subject: [PATCH 07/30] feat: add index on fact_ml_bad_lumis for dataset_id and
 run_number

---
 etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py b/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
index 2d3c3af8..8140c964 100644
--- a/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
+++ b/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
@@ -33,6 +33,7 @@ def fact_ml_bad_lumis() -> list:
         CONSTRAINT fact_ml_bad_lumis_pk PRIMARY KEY (model_id, dataset_id, run_number, ls_number, me_id)
     );
     """)
+    op.execute("CREATE INDEX idx_mlbl_dataset_id_run_number ON fact_ml_bad_lumis (dataset_id, run_number);")
 
 
 def dim_ml_models_index() -> list:

From bf7eca8e9330df289aef318784e382415e55ed2b Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Thu, 27 Jun 2024 10:50:46 +0200
Subject: [PATCH 08/30] fix: FactMLBadLumis sqlalchemy model with incorrect PK
 and Index

---
 etl/python/models/ml_bad_lumis.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/etl/python/models/ml_bad_lumis.py b/etl/python/models/ml_bad_lumis.py
index de41c374..d715ecc0 100644
--- a/etl/python/models/ml_bad_lumis.py
+++ b/etl/python/models/ml_bad_lumis.py
@@ -16,6 +16,6 @@ class FactMLBadLumis(Base):
     me_id = sa.Column("me_id", sa.Integer)
 
     __table_args__ = (
-        sa.PrimaryKeyConstraint("model_name", "dataset_id", "run_number", "ls_number", "me_id"),
-        sa.Index("idx_fmbl_model_name_run_number", "model_name", "run_number"),
+        sa.PrimaryKeyConstraint("model_id", "dataset_id", "run_number", "ls_number", "me_id"),
+        sa.Index("idx_mlbl_dataset_id_run_number", "dataset_id", "run_number"),
     )

From 7043d4d294ecc132fb56c92678dd1a893befbbf1 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Thu, 27 Jun 2024 10:53:49 +0200
Subject: [PATCH 09/30] feat: add ml-models-index endpoint

---
 backend/dials/settings.py              |  1 +
 backend/dials/urls.py                  |  2 ++
 backend/ml_models_index/__init__.py    |  0
 backend/ml_models_index/apps.py        |  6 ++++
 backend/ml_models_index/filters.py     | 15 ++++++++++
 backend/ml_models_index/models.py      | 21 ++++++++++++++
 backend/ml_models_index/routers.py     |  7 +++++
 backend/ml_models_index/serializers.py |  9 ++++++
 backend/ml_models_index/viewsets.py    | 39 ++++++++++++++++++++++++++
 9 files changed, 100 insertions(+)
 create mode 100644 backend/ml_models_index/__init__.py
 create mode 100644 backend/ml_models_index/apps.py
 create mode 100644 backend/ml_models_index/filters.py
 create mode 100644 backend/ml_models_index/models.py
 create mode 100644 backend/ml_models_index/routers.py
 create mode 100644 backend/ml_models_index/serializers.py
 create mode 100644 backend/ml_models_index/viewsets.py

diff --git a/backend/dials/settings.py b/backend/dials/settings.py
index 013c81c0..9da000df 100644
--- a/backend/dials/settings.py
+++ b/backend/dials/settings.py
@@ -62,6 +62,7 @@
     "lumisection.apps.LumisectionConfig",
     "th1.apps.TH1Config",
     "th2.apps.TH2Config",
+    "ml_models_index.apps.MLModelsIndexConfig",
     "cern_auth.apps.CERNAuthConfig",
 ]
 
diff --git a/backend/dials/urls.py b/backend/dials/urls.py
index 9a334ead..29b848ba 100644
--- a/backend/dials/urls.py
+++ b/backend/dials/urls.py
@@ -5,6 +5,7 @@
 from django.views.generic import TemplateView
 from file_index.routers import router as file_index_router
 from lumisection.routers import router as lumisection_router
+from ml_models_index.routers import router as ml_models_index_router
 from rest_framework import routers
 from run.routers import router as run_router
 from th1.routers import router as th1_router
@@ -19,6 +20,7 @@
 router.registry.extend(lumisection_router.registry)
 router.registry.extend(th1_router.registry)
 router.registry.extend(th2_router.registry)
+router.registry.extend(ml_models_index_router.registry)
 router.registry.extend(cern_auth_router.registry)
 
 swagger_view = TemplateView.as_view(template_name="swagger-ui.html", extra_context={"schema_url": "openapi-schema"})
diff --git a/backend/ml_models_index/__init__.py b/backend/ml_models_index/__init__.py
new file mode 100644
index 00000000..e69de29b
diff --git a/backend/ml_models_index/apps.py b/backend/ml_models_index/apps.py
new file mode 100644
index 00000000..601654af
--- /dev/null
+++ b/backend/ml_models_index/apps.py
@@ -0,0 +1,6 @@
+from django.apps import AppConfig
+
+
+class MLModelsIndexConfig(AppConfig):
+    default_auto_field = "django.db.models.BigAutoField"
+    name = "ml_models_index"
diff --git a/backend/ml_models_index/filters.py b/backend/ml_models_index/filters.py
new file mode 100644
index 00000000..1a7866a6
--- /dev/null
+++ b/backend/ml_models_index/filters.py
@@ -0,0 +1,15 @@
+from typing import ClassVar
+
+from django_filters import rest_framework as filters
+
+from .models import MLModelsIndex
+
+
+class MLModelsIndexFilter(filters.FilterSet):
+    class Meta:
+        model = MLModelsIndex
+        fields: ClassVar[dict[str, list[str]]] = {
+            "model_id": ["exact", "in"],
+            "target_me": ["exact", "regex"],
+            "active": ["exact"],
+        }
diff --git a/backend/ml_models_index/models.py b/backend/ml_models_index/models.py
new file mode 100644
index 00000000..25c5b000
--- /dev/null
+++ b/backend/ml_models_index/models.py
@@ -0,0 +1,21 @@
+from typing import ClassVar
+
+from django.db import models
+
+
+class MLModelsIndex(models.Model):
+    model_id = models.IntegerField(primary_key=True)
+    filename = models.CharField(max_length=255)
+    target_me = models.CharField(max_length=255)
+    thr = models.FloatField()
+    active = models.BooleanField()
+
+    class Meta:
+        managed = False
+        db_table = "dim_ml_models_index"
+        indexes: ClassVar[list[models.Index]] = [
+            models.Index(name="idx_active", fields=["active"]),
+        ]
+
+    def __str__(self) -> str:
+        return f"Model <{self.model_id}>"
diff --git a/backend/ml_models_index/routers.py b/backend/ml_models_index/routers.py
new file mode 100644
index 00000000..791bc711
--- /dev/null
+++ b/backend/ml_models_index/routers.py
@@ -0,0 +1,7 @@
+from rest_framework import routers
+
+from .viewsets import MLModelsIndexViewSet
+
+
+router = routers.SimpleRouter()
+router.register(r"ml-models-index", MLModelsIndexViewSet, basename="ml-models-index")
diff --git a/backend/ml_models_index/serializers.py b/backend/ml_models_index/serializers.py
new file mode 100644
index 00000000..15797d04
--- /dev/null
+++ b/backend/ml_models_index/serializers.py
@@ -0,0 +1,9 @@
+from rest_framework import serializers
+
+from .models import MLModelsIndex
+
+
+class MLModelsIndexSerializer(serializers.ModelSerializer):
+    class Meta:
+        model = MLModelsIndex
+        fields = "__all__"
diff --git a/backend/ml_models_index/viewsets.py b/backend/ml_models_index/viewsets.py
new file mode 100644
index 00000000..72536563
--- /dev/null
+++ b/backend/ml_models_index/viewsets.py
@@ -0,0 +1,39 @@
+import logging
+from typing import ClassVar
+
+from django.conf import settings
+from django.utils.decorators import method_decorator
+from django.views.decorators.cache import cache_page
+from django.views.decorators.vary import vary_on_headers
+from django_filters.rest_framework import DjangoFilterBackend
+from rest_framework import mixins, viewsets
+from rest_framework.authentication import BaseAuthentication
+from utils.db_router import GenericViewSetRouter
+from utils.rest_framework_cern_sso.authentication import (
+    CERNKeycloakClientSecretAuthentication,
+    CERNKeycloakConfidentialAuthentication,
+)
+
+from .filters import MLModelsIndexFilter
+from .models import MLModelsIndex
+from .serializers import MLModelsIndexSerializer
+
+
+logger = logging.getLogger(__name__)
+
+
+@method_decorator(cache_page(settings.CACHE_TTL), name="retrieve")
+@method_decorator(cache_page(settings.CACHE_TTL), name="list")
+@method_decorator(vary_on_headers(settings.WORKSPACE_HEADER), name="retrieve")
+@method_decorator(vary_on_headers(settings.WORKSPACE_HEADER), name="list")
+class MLModelsIndexViewSet(
+    GenericViewSetRouter, mixins.RetrieveModelMixin, mixins.ListModelMixin, viewsets.GenericViewSet
+):
+    queryset = MLModelsIndex.objects.all().order_by(MLModelsIndex._meta.pk.name)
+    serializer_class = MLModelsIndexSerializer
+    filterset_class = MLModelsIndexFilter
+    filter_backends: ClassVar[list[DjangoFilterBackend]] = [DjangoFilterBackend]
+    authentication_classes: ClassVar[list[BaseAuthentication]] = [
+        CERNKeycloakClientSecretAuthentication,
+        CERNKeycloakConfidentialAuthentication,
+    ]

From d617a076e3ae9f5915471ddbf2f2e3215deb91fa Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Thu, 27 Jun 2024 10:55:18 +0200
Subject: [PATCH 10/30] feat: add ml-bad-lumisection endpoint

---
 backend/dials/settings.py                 |   1 +
 backend/dials/urls.py                     |   2 +
 backend/ml_bad_lumisection/__init__.py    |   0
 backend/ml_bad_lumisection/apps.py        |   6 ++
 backend/ml_bad_lumisection/filters.py     |  18 ++++
 backend/ml_bad_lumisection/models.py      |  31 ++++++
 backend/ml_bad_lumisection/routers.py     |   7 ++
 backend/ml_bad_lumisection/serializers.py |   9 ++
 backend/ml_bad_lumisection/viewsets.py    | 118 ++++++++++++++++++++++
 9 files changed, 192 insertions(+)
 create mode 100644 backend/ml_bad_lumisection/__init__.py
 create mode 100644 backend/ml_bad_lumisection/apps.py
 create mode 100644 backend/ml_bad_lumisection/filters.py
 create mode 100644 backend/ml_bad_lumisection/models.py
 create mode 100644 backend/ml_bad_lumisection/routers.py
 create mode 100644 backend/ml_bad_lumisection/serializers.py
 create mode 100644 backend/ml_bad_lumisection/viewsets.py

diff --git a/backend/dials/settings.py b/backend/dials/settings.py
index 9da000df..c5840eb6 100644
--- a/backend/dials/settings.py
+++ b/backend/dials/settings.py
@@ -63,6 +63,7 @@
     "th1.apps.TH1Config",
     "th2.apps.TH2Config",
     "ml_models_index.apps.MLModelsIndexConfig",
+    "ml_bad_lumisection.apps.MLBadLumisectionConfig",
     "cern_auth.apps.CERNAuthConfig",
 ]
 
diff --git a/backend/dials/urls.py b/backend/dials/urls.py
index 29b848ba..409cddf1 100644
--- a/backend/dials/urls.py
+++ b/backend/dials/urls.py
@@ -5,6 +5,7 @@
 from django.views.generic import TemplateView
 from file_index.routers import router as file_index_router
 from lumisection.routers import router as lumisection_router
+from ml_bad_lumisection.routers import router as ml_bad_lumisection_router
 from ml_models_index.routers import router as ml_models_index_router
 from rest_framework import routers
 from run.routers import router as run_router
@@ -21,6 +22,7 @@
 router.registry.extend(th1_router.registry)
 router.registry.extend(th2_router.registry)
 router.registry.extend(ml_models_index_router.registry)
+router.registry.extend(ml_bad_lumisection_router.registry)
 router.registry.extend(cern_auth_router.registry)
 
 swagger_view = TemplateView.as_view(template_name="swagger-ui.html", extra_context={"schema_url": "openapi-schema"})
diff --git a/backend/ml_bad_lumisection/__init__.py b/backend/ml_bad_lumisection/__init__.py
new file mode 100644
index 00000000..e69de29b
diff --git a/backend/ml_bad_lumisection/apps.py b/backend/ml_bad_lumisection/apps.py
new file mode 100644
index 00000000..acdbea37
--- /dev/null
+++ b/backend/ml_bad_lumisection/apps.py
@@ -0,0 +1,6 @@
+from django.apps import AppConfig
+
+
+class MLBadLumisectionConfig(AppConfig):
+    default_auto_field = "django.db.models.BigAutoField"
+    name = "ml_bad_lumisection"
diff --git a/backend/ml_bad_lumisection/filters.py b/backend/ml_bad_lumisection/filters.py
new file mode 100644
index 00000000..65857b44
--- /dev/null
+++ b/backend/ml_bad_lumisection/filters.py
@@ -0,0 +1,18 @@
+from typing import ClassVar
+
+from django_filters import rest_framework as filters
+from utils import filters_mixins
+
+from .models import MLBadLumisection
+
+
+class MLBadLumisectionFilter(filters_mixins.DatasetFilterMethods, filters_mixins.MEsMethods, filters.FilterSet):
+    class Meta:
+        model = MLBadLumisection
+        fields: ClassVar[dict[str, list[str]]] = {
+            "model_id": ["exact", "in"],
+            "dataset_id": ["exact"],
+            "me_id": ["exact"],
+            "run_number": ["exact"],
+            "ls_number": ["exact"],
+        }
diff --git a/backend/ml_bad_lumisection/models.py b/backend/ml_bad_lumisection/models.py
new file mode 100644
index 00000000..ed81abd6
--- /dev/null
+++ b/backend/ml_bad_lumisection/models.py
@@ -0,0 +1,31 @@
+from typing import ClassVar
+
+from django.db import models
+
+
+class MLBadLumisection(models.Model):
+    """
+    - Django doesn't support composite primary key
+    - The unique constraint set in this class do not exist in the database,
+    it is used here to select the composite primary key in the viewset and as a documentation
+    """
+
+    model_id = models.BigIntegerField(primary_key=True)
+    dataset_id = models.BigIntegerField()
+    file_id = models.BigIntegerField()
+    run_number = models.IntegerField()
+    ls_number = models.IntegerField()
+    me_id = models.IntegerField()
+
+    class Meta:
+        managed = False
+        db_table = "fact_ml_bad_lumis"
+        constraints: ClassVar[list[models.Index]] = [
+            models.UniqueConstraint(
+                name="fact_ml_bad_lumis_primary_key",
+                fields=["model_id", "dataset_id", "run_number", "ls_number", "me_id"],
+            ),
+        ]
+
+    def __str__(self) -> str:
+        return f"MLBadLumisection <{self.me_id}@{self.ls_number}@{self.run_number}@{self.dataset_id}@{self.model_id}>"
diff --git a/backend/ml_bad_lumisection/routers.py b/backend/ml_bad_lumisection/routers.py
new file mode 100644
index 00000000..72287997
--- /dev/null
+++ b/backend/ml_bad_lumisection/routers.py
@@ -0,0 +1,7 @@
+from rest_framework import routers
+
+from .viewsets import MLBadLumisectionViewSet
+
+
+router = routers.SimpleRouter()
+router.register(r"ml-bad-lumisection", MLBadLumisectionViewSet, basename="ml-bad-lumisection")
diff --git a/backend/ml_bad_lumisection/serializers.py b/backend/ml_bad_lumisection/serializers.py
new file mode 100644
index 00000000..49387be1
--- /dev/null
+++ b/backend/ml_bad_lumisection/serializers.py
@@ -0,0 +1,9 @@
+from rest_framework import serializers
+
+from .models import MLBadLumisection
+
+
+class MLBadLumisectionSerializer(serializers.ModelSerializer):
+    class Meta:
+        model = MLBadLumisection
+        fields = "__all__"
diff --git a/backend/ml_bad_lumisection/viewsets.py b/backend/ml_bad_lumisection/viewsets.py
new file mode 100644
index 00000000..861c1a2c
--- /dev/null
+++ b/backend/ml_bad_lumisection/viewsets.py
@@ -0,0 +1,118 @@
+import logging
+from typing import ClassVar
+
+from django.conf import settings
+from django.shortcuts import get_object_or_404
+from django.utils.decorators import method_decorator
+from django.views.decorators.cache import cache_page
+from django.views.decorators.vary import vary_on_headers
+from django_filters.rest_framework import DjangoFilterBackend
+from ml_models_index.models import MLModelsIndex
+from rest_framework import mixins, viewsets
+from rest_framework.authentication import BaseAuthentication
+from rest_framework.decorators import action
+from rest_framework.exceptions import ValidationError
+from rest_framework.response import Response
+from utils.db_router import GenericViewSetRouter
+from utils.rest_framework_cern_sso.authentication import (
+    CERNKeycloakClientSecretAuthentication,
+    CERNKeycloakConfidentialAuthentication,
+)
+
+from .filters import MLBadLumisectionFilter
+from .models import MLBadLumisection
+from .serializers import MLBadLumisectionSerializer
+
+
+logger = logging.getLogger(__name__)
+composite_pks = next(filter(lambda x: "primary_key" in x.name, MLBadLumisection._meta.constraints), None)
+
+
+@method_decorator(cache_page(settings.CACHE_TTL), name="list")
+@method_decorator(cache_page(settings.CACHE_TTL), name="get_object")
+@method_decorator(vary_on_headers(settings.WORKSPACE_HEADER), name="list")
+@method_decorator(vary_on_headers(settings.WORKSPACE_HEADER), name="get_object")
+class MLBadLumisectionViewSet(GenericViewSetRouter, mixins.ListModelMixin, viewsets.GenericViewSet):
+    queryset = MLBadLumisection.objects.all().order_by(*composite_pks.fields)
+    serializer_class = MLBadLumisectionSerializer
+    filterset_class = MLBadLumisectionFilter
+    filter_backends: ClassVar[list[DjangoFilterBackend]] = [DjangoFilterBackend]
+    authentication_classes: ClassVar[list[BaseAuthentication]] = [
+        CERNKeycloakClientSecretAuthentication,
+        CERNKeycloakConfidentialAuthentication,
+    ]
+
+    @action(
+        detail=False,
+        methods=["GET"],
+        url_path=r"(?P<model_id>\d+)/(?P<dataset_id>\d+)/(?P<run_number>\d+)/(?P<ls_number>\d+)/(?P<me_id>\d+)",
+    )
+    def get_object(self, request, model_id=None, dataset_id=None, run_number=None, ls_number=None, me_id=None):
+        # Since the MLBadLumisection table in the database has a composite primary key
+        # that Django doesn't support, we are defining this method
+        # as a custom retrieve method to query this table by the composite primary key
+        try:
+            model_id = int(model_id)
+            dataset_id = int(dataset_id)
+            run_number = int(run_number)
+            ls_number = int(ls_number)
+            me_id = int(me_id)
+        except ValueError as err:
+            raise ValidationError(
+                "model_id, dataset_id, run_number, ls_number and me_id must be valid integers."
+            ) from err
+
+        queryset = self.get_queryset()
+        queryset = get_object_or_404(
+            queryset, model_id=model_id, dataset_id=dataset_id, run_number=run_number, ls_number=ls_number, me_id=me_id
+        )
+        serializer = self.serializer_class(queryset)
+        return Response(serializer.data)
+
+    @action(detail=False, methods=["GET"], url_path=r"cert-json")
+    def generate_certificate_json(self, request):
+        try:
+            dataset_id = int(request.query_params.get("dataset_id"))
+            run_number = list(map(int, request.query_params.get("run_number").split(",")))
+            model_ids = list(map(int, request.query_params.get("model_ids").split(",")))
+        except ValueError as err:
+            raise ValidationError(
+                "dataset_id and run_number must be valid integers and model_ids a valid list of integers"
+            ) from err
+
+        # Select user's workspace
+        workspace = self.get_workspace()
+
+        # Fetch models' metadata in the given workspace
+        models = MLModelsIndex.objects.using(workspace).filter(model_id__in=model_ids).all().values()
+        models = {qs.get("model_id"): qs for qs in models}
+
+        # Fetch predictions for a given dataset, multiple runs from multiple models
+        queryset = self.get_queryset()
+        result = (
+            queryset.filter(dataset_id=dataset_id, run_number__in=run_number, model_id__in=model_ids)
+            .all()
+            .order_by("run_number", "ls_number")
+            .values()
+        )
+        result = [qs for qs in result]
+
+        # Format certification json
+        response = {}
+        for run in run_number:
+            response[run] = {}
+            predictions_in_run = [res for res in result if res.get("run_number") == run]
+            unique_ls = [res.get("ls_number") for res in predictions_in_run]
+            for ls in unique_ls:
+                response[run][ls] = []
+                predictions_in_ls = [res for res in predictions_in_run if res.get("ls_number") == ls]
+                for preds in predictions_in_ls:
+                    model_id = preds.get("model_id")
+                    me_id = preds.get("me_id")
+                    filename = models[model_id].get("filename")
+                    target_me = models[model_id].get("target_me")
+                    response[run][ls].append(
+                        {"model_id": model_id, "me_id": me_id, "filename": filename, "me": target_me}
+                    )
+
+        return Response(response)

From aae6c09c7ac4783f9f69e6d3cd3aa349fa96b2c1 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Thu, 27 Jun 2024 10:55:58 +0200
Subject: [PATCH 11/30] refactor: move workspace selector logic to
 `get_workspace` function in db_router

---
 backend/utils/db_router.py | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/backend/utils/db_router.py b/backend/utils/db_router.py
index 93d20e59..31b3e969 100644
--- a/backend/utils/db_router.py
+++ b/backend/utils/db_router.py
@@ -16,16 +16,17 @@ def get_queryset(self):
         queryset = super().get_queryset()
         order_by = queryset.query.order_by
         queryset = queryset.model.objects
-        workspace = self.request.headers.get(settings.WORKSPACE_HEADER.capitalize())
+        workspace = self.get_workspace()
+        queryset = queryset.using(workspace)
+        return queryset.all().order_by(*order_by)
 
+    def get_workspace(self):
+        workspace = self.request.headers.get(settings.WORKSPACE_HEADER.capitalize())
         if workspace:
             if workspace not in settings.WORKSPACES.keys():
                 raise NotFound(detail=f"Workspace '{workspace}' not found", code=404)
-            queryset = queryset.using(workspace)
         else:
             user_roles = self.request.user.cern_roles
             workspace = get_workspace_from_role(user_roles)
             workspace = workspace or settings.DEFAULT_WORKSPACE
-            queryset = queryset.using(workspace)
-
-        return queryset.all().order_by(*order_by)
+        return workspace

From 68aea9a242953a4a755ba7737d1fdfa45da22378 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Thu, 27 Jun 2024 11:06:21 +0200
Subject: [PATCH 12/30] refactor: change run_number and model_ids to
 run_number__in and model_id__in to keep consistent with other endpoints
 filters

---
 backend/ml_bad_lumisection/viewsets.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/backend/ml_bad_lumisection/viewsets.py b/backend/ml_bad_lumisection/viewsets.py
index 861c1a2c..f7c8f991 100644
--- a/backend/ml_bad_lumisection/viewsets.py
+++ b/backend/ml_bad_lumisection/viewsets.py
@@ -73,8 +73,8 @@ def get_object(self, request, model_id=None, dataset_id=None, run_number=None, l
     def generate_certificate_json(self, request):
         try:
             dataset_id = int(request.query_params.get("dataset_id"))
-            run_number = list(map(int, request.query_params.get("run_number").split(",")))
-            model_ids = list(map(int, request.query_params.get("model_ids").split(",")))
+            run_number = list(map(int, request.query_params.get("run_number__in").split(",")))
+            model_id = list(map(int, request.query_params.get("model_id__in").split(",")))
         except ValueError as err:
             raise ValidationError(
                 "dataset_id and run_number must be valid integers and model_ids a valid list of integers"
@@ -84,13 +84,13 @@ def generate_certificate_json(self, request):
         workspace = self.get_workspace()
 
         # Fetch models' metadata in the given workspace
-        models = MLModelsIndex.objects.using(workspace).filter(model_id__in=model_ids).all().values()
+        models = MLModelsIndex.objects.using(workspace).filter(model_id__in=model_id).all().values()
         models = {qs.get("model_id"): qs for qs in models}
 
         # Fetch predictions for a given dataset, multiple runs from multiple models
         queryset = self.get_queryset()
         result = (
-            queryset.filter(dataset_id=dataset_id, run_number__in=run_number, model_id__in=model_ids)
+            queryset.filter(dataset_id=dataset_id, run_number__in=run_number, model_id__in=model_id)
             .all()
             .order_by("run_number", "ls_number")
             .values()

From 4ba00336f69b3eecadc6426507b17078ec1a55f5 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Thu, 27 Jun 2024 13:30:17 +0200
Subject: [PATCH 13/30] refactor: add new endpoints to swagger config

---
 backend/static/swagger.json | 623 +++++++++++++++++++++++++++++++++++-
 1 file changed, 621 insertions(+), 2 deletions(-)

diff --git a/backend/static/swagger.json b/backend/static/swagger.json
index 8ad9cdeb..5fb120d3 100644
--- a/backend/static/swagger.json
+++ b/backend/static/swagger.json
@@ -1931,7 +1931,506 @@
           {}
         ]
       }
-    }
+    },
+    "/api/v1/ml-models-index/": {
+      "get": {
+        "operationId": "listMLModelsIndex",
+        "description": "",
+        "parameters": [
+          {
+            "name": "next_token",
+            "required": false,
+            "in": "query",
+            "description": "next_token",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "model_id",
+            "required": false,
+            "in": "query",
+            "description": "model_id",
+            "schema": {
+              "type": "integer"
+            }
+          },
+          {
+            "name": "model_id__in",
+            "required": false,
+            "in": "query",
+            "description": "model_id__in",
+            "schema": {
+              "type": "array",
+              "items": {
+                "type": "integer"
+              }
+            },
+            "style": "form",
+            "explode": false
+          },
+          {
+            "name": "filename",
+            "required": false,
+            "in": "query",
+            "description": "filename",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "filename__regex",
+            "required": false,
+            "in": "query",
+            "description": "filename__regex",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "target_me",
+            "required": false,
+            "in": "query",
+            "description": "target_me",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "target_me__regex",
+            "required": false,
+            "in": "query",
+            "description": "target_me__regex",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "active",
+            "required": false,
+            "in": "query",
+            "description": "active",
+            "schema": {
+              "type": "boolean"
+            }
+          },
+          {
+            "name": "workspace",
+            "required": false,
+            "in": "header",
+            "description": "workspace",
+            "schema": {
+              "type": "string"
+            }
+          }
+        ],
+        "responses": {
+          "200": {
+            "content": {
+              "application/json": {
+                "schema": {
+                  "type": "object",
+                  "properties": {
+                    "next": {
+                      "type": "string",
+                      "nullable": true,
+                      "format": "uri",
+                      "example": "http://api.example.org/accounts/?next_token=cD0zMz"
+                    },
+                    "previous": {
+                      "type": "string",
+                      "nullable": true,
+                      "format": "uri",
+                      "example": "http://api.example.org/accounts/?next_token=cj0xJnA"
+                    },
+                    "results": {
+                      "type": "array",
+                      "items": {
+                        "$ref": "#/components/schemas/MLModelsIndex"
+                      }
+                    }
+                  }
+                }
+              }
+            },
+            "description": ""
+          }
+        },
+        "tags": [
+          "ML Models Index"
+        ],
+        "security": [
+          {
+            "Client Secret Key": []
+          },
+          {
+            "Confidential JWT Token": []
+          },
+          {}
+        ]
+      }
+    },
+    "/api/v1/ml-models-index/{model_id}/": {
+      "get": {
+        "operationId": "retrieveMLModelsIndex",
+        "description": "",
+        "parameters": [
+          {
+            "name": "model_id",
+            "in": "path",
+            "required": true,
+            "description": "A unique value identifying this ml model in the index.",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "workspace",
+            "required": false,
+            "in": "header",
+            "description": "workspace",
+            "schema": {
+              "type": "string"
+            }
+          }
+        ],
+        "responses": {
+          "200": {
+            "content": {
+              "application/json": {
+                "schema": {
+                  "$ref": "#/components/schemas/MLModelsIndex"
+                }
+              }
+            },
+            "description": ""
+          }
+        },
+        "tags": [
+          "ML Models Index"
+        ],
+        "security": [
+          {
+            "Client Secret Key": []
+          },
+          {
+            "Confidential JWT Token": []
+          },
+          {}
+        ]
+      }
+    },
+    "/api/v1/ml-bad-lumisection/": {
+      "get": {
+        "operationId": "listMLBadLumisection",
+        "description": "",
+        "parameters": [
+          {
+            "name": "next_token",
+            "required": false,
+            "in": "query",
+            "description": "next_token",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "model_id",
+            "required": false,
+            "in": "query",
+            "description": "model_id",
+            "schema": {
+              "type": "integer"
+            }
+          },
+          {
+            "name": "model_id__in",
+            "required": false,
+            "in": "query",
+            "description": "model_id__in",
+            "schema": {
+              "type": "array",
+              "items": {
+                "type": "integer"
+              }
+            },
+            "style": "form",
+            "explode": false
+          },
+          {
+            "name": "dataset",
+            "required": false,
+            "in": "query",
+            "description": "dataset",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "dataset__regex",
+            "required": false,
+            "in": "query",
+            "description": "dataset__regex",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "me",
+            "required": false,
+            "in": "query",
+            "description": "me",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "me__regex",
+            "required": false,
+            "in": "query",
+            "description": "me__regex",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "run_number",
+            "required": false,
+            "in": "query",
+            "description": "run_number",
+            "schema": {
+              "type": "integer"
+            }
+          },
+          {
+            "name": "ls_number",
+            "required": false,
+            "in": "query",
+            "description": "ls_number",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "workspace",
+            "required": false,
+            "in": "header",
+            "description": "workspace",
+            "schema": {
+              "type": "string"
+            }
+          }
+        ],
+        "responses": {
+          "200": {
+            "content": {
+              "application/json": {
+                "schema": {
+                  "type": "object",
+                  "properties": {
+                    "next": {
+                      "type": "string",
+                      "nullable": true,
+                      "format": "uri",
+                      "example": "http://api.example.org/accounts/?next_token=cD0zMz"
+                    },
+                    "previous": {
+                      "type": "string",
+                      "nullable": true,
+                      "format": "uri",
+                      "example": "http://api.example.org/accounts/?next_token=cj0xJnA"
+                    },
+                    "results": {
+                      "type": "array",
+                      "items": {
+                        "$ref": "#/components/schemas/MLBadLumisection"
+                      }
+                    }
+                  }
+                }
+              }
+            },
+            "description": ""
+          }
+        },
+        "tags": [
+          "ML Bad Lumisection"
+        ],
+        "security": [
+          {
+            "Client Secret Key": []
+          },
+          {
+            "Confidential JWT Token": []
+          },
+          {}
+        ]
+      }
+    },
+    "/api/v1/ml-bad-lumisection/{model_id}/{dataset_id}/{run_number}/{ls_number}/{me_id}/": {
+      "get": {
+        "operationId": "retrieveMLBadLumisection",
+        "description": "",
+        "parameters": [
+          {
+            "name": "model_id",
+            "in": "path",
+            "required": true,
+            "description": "A unique value identifying this ml model.",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "dataset_id",
+            "in": "path",
+            "required": true,
+            "description": "A unique value identifying the dataset.",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "run_number",
+            "in": "path",
+            "required": true,
+            "description": "A unique value identifying the run.",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "ls_number",
+            "in": "path",
+            "required": true,
+            "description": "A unique value identifying the lumisection.",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "me_id",
+            "in": "path",
+            "required": true,
+            "description": "A unique value identifying the monitoring element.",
+            "schema": {
+              "type": "string"
+            }
+          },
+          {
+            "name": "workspace",
+            "required": false,
+            "in": "header",
+            "description": "workspace",
+            "schema": {
+              "type": "string"
+            }
+          }
+        ],
+        "responses": {
+          "200": {
+            "content": {
+              "application/json": {
+                "schema": {
+                  "$ref": "#/components/schemas/MLBadLumisection"
+                }
+              }
+            },
+            "description": ""
+          }
+        },
+        "tags": [
+          "ML Bad Lumisection"
+        ],
+        "security": [
+          {
+            "Client Secret Key": []
+          },
+          {
+            "Confidential JWT Token": []
+          },
+          {}
+        ]
+      }
+    },
+    "/api/v1/ml-bad-lumisection/cert-json": {
+      "get": {
+        "operationId": "certJsonMLBadLumisection",
+        "description": "",
+        "parameters": [
+          {
+            "name": "model_id__in",
+            "required": false,
+            "in": "query",
+            "description": "model_id__in",
+            "schema": {
+              "type": "array",
+              "items": {
+                "type": "integer"
+              }
+            },
+            "style": "form",
+            "explode": false
+          },
+          {
+            "name": "dataset_id",
+            "required": false,
+            "in": "query",
+            "description": "dataset_id",
+            "schema": {
+              "type": "integer"
+            }
+          },
+          {
+            "name": "run_number__in",
+            "required": false,
+            "in": "query",
+            "description": "run_number__in",
+            "schema": {
+              "type": "array",
+              "items": {
+                "type": "integer"
+              }
+            },
+            "style": "form",
+            "explode": false
+          },
+          {
+            "name": "workspace",
+            "required": false,
+            "in": "header",
+            "description": "workspace",
+            "schema": {
+              "type": "string"
+            }
+          }
+        ],
+        "responses": {
+          "200": {
+            "content": {
+              "application/json": {
+                "schema": {
+                  "$ref": "#/components/schemas/MLBadLumisectionCertJson"
+                }
+              }
+            },
+            "description": ""
+          }
+        },
+        "tags": [
+          "ML Bad Lumisection"
+        ],
+        "security": [
+          {
+            "Client Secret Key": []
+          },
+          {
+            "Confidential JWT Token": []
+          },
+          {}
+        ]
+      }
+    },
   },
   "components": {
     "schemas": {
@@ -2415,7 +2914,127 @@
           "entries",
           "data"
         ]
-      }
+      },
+      "MLModelsIndex": {
+        "type": "object",
+        "properties": {
+          "model_id": {
+            "type": "integer",
+            "maximum": 9223372036854776000,
+            "minimum": -9223372036854776000,
+            "format": "int64"
+          },
+          "filename": {
+            "type": "string",
+            "maxLength": 255
+          },
+          "target_me": {
+            "type": "string",
+            "maxLength": 255
+          },
+          "thr": {
+            "type": "number",
+          },
+          "active": {
+            "type": "boolean",
+          }
+        },
+        "required": [
+          "model_id",
+          "filename",
+          "target_me",
+          "thr",
+          "active"
+        ]
+      },
+      "MLBadLumisection": {
+        "type": "object",
+        "properties": {
+          "model_id": {
+            "type": "integer",
+            "maximum": 9223372036854776000,
+            "minimum": -9223372036854776000,
+            "format": "int64"
+          },
+          "dataset_id": {
+            "type": "integer",
+            "maximum": 9223372036854776000,
+            "minimum": -9223372036854776000,
+            "format": "int64"
+          },
+          "file_id": {
+            "type": "integer",
+            "maximum": 9223372036854776000,
+            "minimum": -9223372036854776000,
+            "format": "int64"
+          },
+          "run_number": {
+            "type": "integer",
+            "maximum": 2147483647,
+            "minimum": -2147483648
+          },
+          "ls_number": {
+            "type": "integer",
+            "maximum": 2147483647,
+            "minimum": -2147483648
+          },
+          "me_id": {
+            "type": "integer",
+            "maximum": 2147483647,
+            "minimum": -2147483648
+          }
+        },
+        "required": [
+          "model_id",
+          "dataset_id",
+          "file_id",
+          "run_number",
+          "ls_number",
+          "me_id"
+        ]
+      },
+      "MLBadLumisectionCertJson": {
+        "type": "object",
+        "properties": {
+          "run_number": {
+            "type": "object",
+            "properties": {
+              "ls_number": {
+                "type": "array",
+                "items": {
+                  "type": "object",
+                  "properties": {
+                    "model_id": {
+                      "type": "integer",
+                      "maximum": 2147483647,
+                      "minimum": -2147483648,
+                    },
+                    "me_id": {
+                      "type": "integer",
+                      "maximum": 2147483647,
+                      "minimum": -2147483648,
+                    },
+                    "filename": {
+                      "type": "string"
+                    },
+                    "me": {
+                      "type": "string"
+                    },
+                  }
+                }
+              }
+            }
+          }
+        },
+        "required": [
+          "run_number",
+          "ls_number",
+          "model_id",
+          "me_id",
+          "filename",
+          "me"
+        ]
+      },
     },
     "securitySchemes": {
       "Client Secret Key": {

From c29de9a397f7f8c89122b987630d8f8dde2b1b9b Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Mon, 1 Jul 2024 16:03:36 +0200
Subject: [PATCH 14/30] chore: add common lib

---
 backend/utils/common.py | 7 +++++++
 1 file changed, 7 insertions(+)
 create mode 100644 backend/utils/common.py

diff --git a/backend/utils/common.py b/backend/utils/common.py
new file mode 100644
index 00000000..48815ba7
--- /dev/null
+++ b/backend/utils/common.py
@@ -0,0 +1,7 @@
+import itertools
+
+
+def list_to_range(i):
+    for _, b in itertools.groupby(enumerate(i), lambda pair: pair[1] - pair[0]):
+        b = list(b)
+        yield b[0][1], b[-1][1]

From dfc33f6d2ea7acf02585971b3be4dbde6974f9c6 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Mon, 1 Jul 2024 16:04:09 +0200
Subject: [PATCH 15/30] feat: generate golden-json like response by filtering
 bad lumisection from all ingested lumisections

---
 backend/ml_bad_lumisection/viewsets.py | 51 +++++++++++++++++++++++++-
 1 file changed, 50 insertions(+), 1 deletion(-)

diff --git a/backend/ml_bad_lumisection/viewsets.py b/backend/ml_bad_lumisection/viewsets.py
index f7c8f991..3532dcf4 100644
--- a/backend/ml_bad_lumisection/viewsets.py
+++ b/backend/ml_bad_lumisection/viewsets.py
@@ -7,12 +7,14 @@
 from django.views.decorators.cache import cache_page
 from django.views.decorators.vary import vary_on_headers
 from django_filters.rest_framework import DjangoFilterBackend
+from lumisection.models import Lumisection
 from ml_models_index.models import MLModelsIndex
 from rest_framework import mixins, viewsets
 from rest_framework.authentication import BaseAuthentication
 from rest_framework.decorators import action
 from rest_framework.exceptions import ValidationError
 from rest_framework.response import Response
+from utils.common import list_to_range
 from utils.db_router import GenericViewSetRouter
 from utils.rest_framework_cern_sso.authentication import (
     CERNKeycloakClientSecretAuthentication,
@@ -97,7 +99,7 @@ def generate_certificate_json(self, request):
         )
         result = [qs for qs in result]
 
-        # Format certification json
+        # Format bad lumi certification json
         response = {}
         for run in run_number:
             response[run] = {}
@@ -116,3 +118,50 @@ def generate_certificate_json(self, request):
                     )
 
         return Response(response)
+
+    @action(detail=False, methods=["GET"], url_path=r"golden-json")
+    def generate_golden_json(self, request):
+        try:
+            dataset_id = int(request.query_params.get("dataset_id"))
+            run_number = list(map(int, request.query_params.get("run_number__in").split(",")))
+            model_id = list(map(int, request.query_params.get("model_id__in").split(",")))
+        except ValueError as err:
+            raise ValidationError(
+                "dataset_id and run_number must be valid integers and model_ids a valid list of integers"
+            ) from err
+
+        # Select user's workspace
+        workspace = self.get_workspace()
+
+        # Fetch predictions for a given dataset, multiple runs from multiple models
+        queryset = self.get_queryset()
+        result = (
+            queryset.filter(dataset_id=dataset_id, run_number__in=run_number, model_id__in=model_id)
+            .all()
+            .order_by("run_number", "ls_number")
+            .values()
+        )
+        result = [qs for qs in result]
+
+        # Generate ML golden json
+        response = {}
+        for run in run_number:
+            queryset = self.get_queryset()
+            bad_lumis = (
+                queryset.filter(dataset_id=dataset_id, run_number=run, model_id__in=model_id)
+                .all()
+                .order_by("ls_number")
+                .values_list("ls_number", flat=True)
+                .distinct()
+            )
+            bad_lumis = [qs for qs in bad_lumis]
+            all_lumis = (
+                Lumisection.objects.using(workspace)
+                .filter(dataset_id=dataset_id, run_number=run)
+                .all()
+                .values_list("ls_number", flat=True)
+            )
+            good_lumis = [ls for ls in all_lumis if ls not in bad_lumis]
+            response[run] = list_to_range(good_lumis)
+
+        return Response(response)

From 4d4a8ecbd32caa6cbeb70f9dce13fb956fad32e4 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Mon, 1 Jul 2024 17:59:09 +0200
Subject: [PATCH 16/30] chore: add ml-bad-lumisection golden-json endpoint to
 swagger conf

---
 backend/static/swagger.json | 101 ++++++++++++++++++++++++++++++++++++
 1 file changed, 101 insertions(+)

diff --git a/backend/static/swagger.json b/backend/static/swagger.json
index 5fb120d3..3daa42c8 100644
--- a/backend/static/swagger.json
+++ b/backend/static/swagger.json
@@ -2431,6 +2431,84 @@
         ]
       }
     },
+    "/api/v1/ml-bad-lumisection/golden-json": {
+      "get": {
+        "operationId": "goldenJsonMLBadLumisection",
+        "description": "",
+        "parameters": [
+          {
+            "name": "model_id__in",
+            "required": false,
+            "in": "query",
+            "description": "model_id__in",
+            "schema": {
+              "type": "array",
+              "items": {
+                "type": "integer"
+              }
+            },
+            "style": "form",
+            "explode": false
+          },
+          {
+            "name": "dataset_id",
+            "required": false,
+            "in": "query",
+            "description": "dataset_id",
+            "schema": {
+              "type": "integer"
+            }
+          },
+          {
+            "name": "run_number__in",
+            "required": false,
+            "in": "query",
+            "description": "run_number__in",
+            "schema": {
+              "type": "array",
+              "items": {
+                "type": "integer"
+              }
+            },
+            "style": "form",
+            "explode": false
+          },
+          {
+            "name": "workspace",
+            "required": false,
+            "in": "header",
+            "description": "workspace",
+            "schema": {
+              "type": "string"
+            }
+          }
+        ],
+        "responses": {
+          "200": {
+            "content": {
+              "application/json": {
+                "schema": {
+                  "$ref": "#/components/schemas/MLBadLumisectionGoldenJson"
+                }
+              }
+            },
+            "description": ""
+          }
+        },
+        "tags": [
+          "ML Bad Lumisection"
+        ],
+        "security": [
+          {
+            "Client Secret Key": []
+          },
+          {
+            "Confidential JWT Token": []
+          },
+          {}
+        ]
+      }
+    },
   },
   "components": {
     "schemas": {
@@ -3035,6 +3113,29 @@
           "me"
         ]
       },
+      "MLBadLumisectionGoldenJson": {
+        "type": "object",
+        "properties": {
+          "run_number": {
+            "type": "array",
+            "items": {
+              "type": "array",
+              "items": {
+                "type": "integer"
+              },
+              "example": [128, 145]
+            }
+          }
+        },
+        "required": [
+          "run_number",
+          "ls_number",
+          "model_id",
+          "me_id",
+          "filename",
+          "me"
+        ]
+      },
     },
     "securitySchemes": {
       "Client Secret Key": {

From 59e8528f90ceb5f4578c6af1ffb3adbae49ef48b Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Tue, 2 Jul 2024 22:41:14 +0200
Subject: [PATCH 17/30] feat[wip]: add predictions route to display bad
 lumisections from selected models on a given dataset and multiple runs

---
 frontend/src/components/navbar.jsx            |   5 +
 frontend/src/components/routes.jsx            |   4 +
 frontend/src/views/index.jsx                  |   4 +
 frontend/src/views/machineLearning/index.js   |   3 +
 .../src/views/machineLearning/predictions.jsx | 150 ++++++++
 package.json                                  |   1 +
 yarn.lock                                     | 325 +++++++++++++++++-
 7 files changed, 485 insertions(+), 7 deletions(-)
 create mode 100644 frontend/src/views/machineLearning/index.js
 create mode 100644 frontend/src/views/machineLearning/predictions.jsx

diff --git a/frontend/src/components/navbar.jsx b/frontend/src/components/navbar.jsx
index 3be18359..e69a868e 100644
--- a/frontend/src/components/navbar.jsx
+++ b/frontend/src/components/navbar.jsx
@@ -69,6 +69,11 @@ const AppNavbar = ({
                   Lumisections
                 </NavDropdown.Item>
               </NavDropdown>
+              <NavDropdown title='Machine Learning'>
+                <NavDropdown.Item as={NavLink} to='/predictions'>
+                  Predictions
+                </NavDropdown.Item>
+              </NavDropdown>
             </Nav>
             <Nav>
               <NavDropdown title={`Using workspace: ${selectedWorkspace}`}>
diff --git a/frontend/src/components/routes.jsx b/frontend/src/components/routes.jsx
index 438d00a2..1745a592 100644
--- a/frontend/src/components/routes.jsx
+++ b/frontend/src/components/routes.jsx
@@ -71,6 +71,10 @@ const AppRoutes = () => {
           }
         />
       </Route>
+      <Route
+        path='/predictions'
+        element={<PrivateRoute component={Views.MachineLearning.Predictions} />}
+      />
     </Routes>
   )
 }
diff --git a/frontend/src/views/index.jsx b/frontend/src/views/index.jsx
index fc125262..ec25bafb 100644
--- a/frontend/src/views/index.jsx
+++ b/frontend/src/views/index.jsx
@@ -10,6 +10,7 @@ import {
   Histograms2D,
   Histogram,
 } from './dataExplorer'
+import { Predictions } from './machineLearning'
 
 const Views = {
   Home: {
@@ -28,6 +29,9 @@ const Views = {
     Histograms2D,
     Histogram,
   },
+  MachineLearning: {
+    Predictions,
+  },
 }
 
 export default Views
diff --git a/frontend/src/views/machineLearning/index.js b/frontend/src/views/machineLearning/index.js
new file mode 100644
index 00000000..5927cb03
--- /dev/null
+++ b/frontend/src/views/machineLearning/index.js
@@ -0,0 +1,3 @@
+import Predictions from './predictions'
+
+export { Predictions }
diff --git a/frontend/src/views/machineLearning/predictions.jsx b/frontend/src/views/machineLearning/predictions.jsx
new file mode 100644
index 00000000..0ed875f0
--- /dev/null
+++ b/frontend/src/views/machineLearning/predictions.jsx
@@ -0,0 +1,150 @@
+import React, { useState, useEffect } from 'react'
+
+import Col from 'react-bootstrap/Col'
+import Row from 'react-bootstrap/Row'
+import Card from 'react-bootstrap/Card'
+import Form from 'react-bootstrap/Form'
+import Select from 'react-select'
+import { toast } from 'react-toastify'
+
+import API from '../../services/api'
+import { getNextToken } from '../../utils/sanitizer'
+
+const Predictions = () => {
+  const [isLoadingDatasets, setIsLoadingDatasets] = useState(false)
+  const [datasets, setDatasets] = useState()
+  const [selectedDataset, setSelectedDataset] = useState()
+
+  const [isLoadingRuns, setIsLoadingRuns] = useState(false)
+  const [runs, setRuns] = useState()
+  const [selectedRuns, setSelectedRuns] = useState([])
+
+  const genericFetchAllPages = async ({ apiMethod, params = {} }) => {
+    const allData = []
+    let nextPageExists = true
+    let nextToken = null
+    let errorCount = 0
+    let totalPages = 0
+    while (nextPageExists) {
+      totalPages++
+      try {
+        const { results, next } = await apiMethod({
+          nextToken,
+          ...params,
+        })
+        results.forEach((e) => allData.unshift(e))
+        nextPageExists = !(next === null)
+        nextToken = getNextToken({ next }, 'next')
+      } catch (err) {
+        errorCount++
+      }
+    }
+
+    return {
+      results: allData,
+      count: allData.length,
+      error: errorCount,
+      totalPages,
+    }
+  }
+
+  useEffect(() => {
+    const fetchDatasets = () => {
+      setIsLoadingDatasets(true)
+      genericFetchAllPages({ apiMethod: API.dataset.list })
+        .then((response) => {
+          const datasets = response.results
+            .sort((a, b) =>
+              a.dataset > b.dataset ? 1 : b.dataset > a.dataset ? -1 : 0
+            )
+            .map((item) => ({ value: item.dataset_id, label: item.dataset }))
+          setDatasets(datasets)
+        })
+        .catch((error) => {
+          console.error(error)
+          toast.error('Failure to communicate with the API!')
+        })
+        .finally(() => {
+          setIsLoadingDatasets(false)
+        })
+    }
+
+    fetchDatasets()
+  }, [])
+
+  useEffect(() => {
+    const fetchRuns = () => {
+      setIsLoadingRuns(true)
+      genericFetchAllPages({
+        apiMethod: API.run.list,
+        params: { datasetId: selectedDataset.value },
+      })
+        .then((response) => {
+          const runs = response.results.map((item) => ({
+            value: item.run_number,
+            label: item.run_number,
+          }))
+          setRuns(runs)
+        })
+        .catch((error) => {
+          console.error(error)
+          toast.error('Failure to communicate with the API!')
+        })
+        .finally(() => {
+          setIsLoadingRuns(false)
+        })
+    }
+
+    if (selectedDataset !== undefined) {
+      fetchRuns()
+    }
+  }, [selectedDataset])
+
+  return (
+    <Row className='mt-5 mb-3 m-3'>
+      <Col sm={3}>
+        <Card>
+          <Card.Header className='text-center' as='h4'>
+            Filters
+          </Card.Header>
+          <Card.Body>
+            <Form.Group className='mb-3' controlId='formDatasetSelector'>
+              <Form.Label>Dataset</Form.Label>
+              <Select
+                value={selectedDataset}
+                onChange={(selectedOptions) => {
+                  setSelectedDataset(selectedOptions)
+                }}
+                options={datasets}
+                isDisabled={isLoadingDatasets}
+              />
+            </Form.Group>
+
+            {selectedDataset && (
+              <Form.Group className='mb-3' controlId='formRunSelector'>
+                <Form.Label>Run numbers</Form.Label>
+                <Select
+                  isMulti
+                  value={selectedRuns}
+                  onChange={(selectedOptions) => {
+                    setSelectedRuns(selectedOptions)
+                  }}
+                  options={runs}
+                  isDisabled={isLoadingRuns}
+                />
+              </Form.Group>
+            )}
+          </Card.Body>
+        </Card>
+      </Col>
+      <Col sm={9}>
+        <Card className='text-center'>
+          <Card.Header as='h4'>Predictions</Card.Header>
+          <Card.Body>Hello World</Card.Body>
+        </Card>
+      </Col>
+    </Row>
+  )
+}
+
+export default Predictions
diff --git a/package.json b/package.json
index 6a706b82..9e2db2be 100644
--- a/package.json
+++ b/package.json
@@ -26,6 +26,7 @@
     "react-oidc-context": "^3.0.0",
     "react-plotly.js": "^2.6.0",
     "react-router-dom": "^6.21.3",
+    "react-select": "^5.8.0",
     "react-toastify": "^10.0.4"
   },
   "devDependencies": {
diff --git a/yarn.lock b/yarn.lock
index b094163c..0922eac9 100644
--- a/yarn.lock
+++ b/yarn.lock
@@ -23,6 +23,14 @@
     "@babel/highlight" "^7.23.4"
     chalk "^2.4.2"
 
+"@babel/code-frame@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/code-frame/-/code-frame-7.24.7.tgz#882fd9e09e8ee324e496bd040401c6f046ef4465"
+  integrity sha512-BcYH1CVJBO9tvyIZ2jVeXgSIMvGZ2FDRvDdOIVQyuklNKSsx+eppDEBq/g47Ayw+RqNFE+URvOShmf+f/qwAlA==
+  dependencies:
+    "@babel/highlight" "^7.24.7"
+    picocolors "^1.0.0"
+
 "@babel/compat-data@^7.23.5":
   version "7.23.5"
   resolved "https://registry.yarnpkg.com/@babel/compat-data/-/compat-data-7.23.5.tgz#ffb878728bb6bdcb6f4510aa51b1be9afb8cfd98"
@@ -59,6 +67,16 @@
     "@jridgewell/trace-mapping" "^0.3.17"
     jsesc "^2.5.1"
 
+"@babel/generator@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/generator/-/generator-7.24.7.tgz#1654d01de20ad66b4b4d99c135471bc654c55e6d"
+  integrity sha512-oipXieGC3i45Y1A41t4tAqpnEZWgB/lC6Ehh6+rOviR5XWpTtMmLN+fGjz9vOiNRt0p6RtO6DtD0pdU3vpqdSA==
+  dependencies:
+    "@babel/types" "^7.24.7"
+    "@jridgewell/gen-mapping" "^0.3.5"
+    "@jridgewell/trace-mapping" "^0.3.25"
+    jsesc "^2.5.1"
+
 "@babel/helper-compilation-targets@^7.23.6":
   version "7.23.6"
   resolved "https://registry.yarnpkg.com/@babel/helper-compilation-targets/-/helper-compilation-targets-7.23.6.tgz#4d79069b16cbcf1461289eccfbbd81501ae39991"
@@ -75,6 +93,13 @@
   resolved "https://registry.yarnpkg.com/@babel/helper-environment-visitor/-/helper-environment-visitor-7.22.20.tgz#96159db61d34a29dba454c959f5ae4a649ba9167"
   integrity sha512-zfedSIzFhat/gFhWfHtgWvlec0nqB9YEIVrpuwjruLlXfUSnA8cJB0miHKwqDnQ7d32aKo2xt88/xZptwxbfhA==
 
+"@babel/helper-environment-visitor@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/helper-environment-visitor/-/helper-environment-visitor-7.24.7.tgz#4b31ba9551d1f90781ba83491dd59cf9b269f7d9"
+  integrity sha512-DoiN84+4Gnd0ncbBOM9AZENV4a5ZiL39HYMyZJGZ/AZEykHYdJw0wW3kdcsh9/Kn+BRXHLkkklZ51ecPKmI1CQ==
+  dependencies:
+    "@babel/types" "^7.24.7"
+
 "@babel/helper-function-name@^7.23.0":
   version "7.23.0"
   resolved "https://registry.yarnpkg.com/@babel/helper-function-name/-/helper-function-name-7.23.0.tgz#1f9a3cdbd5b2698a670c30d2735f9af95ed52759"
@@ -83,6 +108,14 @@
     "@babel/template" "^7.22.15"
     "@babel/types" "^7.23.0"
 
+"@babel/helper-function-name@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/helper-function-name/-/helper-function-name-7.24.7.tgz#75f1e1725742f39ac6584ee0b16d94513da38dd2"
+  integrity sha512-FyoJTsj/PEUWu1/TYRiXTIHc8lbw+TDYkZuoE43opPS5TrI7MyONBE1oNvfguEXAD9yhQRrVBnXdXzSLQl9XnA==
+  dependencies:
+    "@babel/template" "^7.24.7"
+    "@babel/types" "^7.24.7"
+
 "@babel/helper-hoist-variables@^7.22.5":
   version "7.22.5"
   resolved "https://registry.yarnpkg.com/@babel/helper-hoist-variables/-/helper-hoist-variables-7.22.5.tgz#c01a007dac05c085914e8fb652b339db50d823bb"
@@ -90,6 +123,21 @@
   dependencies:
     "@babel/types" "^7.22.5"
 
+"@babel/helper-hoist-variables@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/helper-hoist-variables/-/helper-hoist-variables-7.24.7.tgz#b4ede1cde2fd89436397f30dc9376ee06b0f25ee"
+  integrity sha512-MJJwhkoGy5c4ehfoRyrJ/owKeMl19U54h27YYftT0o2teQ3FJ3nQUf/I3LlJsX4l3qlw7WRXUmiyajvHXoTubQ==
+  dependencies:
+    "@babel/types" "^7.24.7"
+
+"@babel/helper-module-imports@^7.16.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/helper-module-imports/-/helper-module-imports-7.24.7.tgz#f2f980392de5b84c3328fc71d38bd81bbb83042b"
+  integrity sha512-8AyH3C+74cgCVVXow/myrynrAGv+nTVg5vKu2nZph9x7RcRwzmh0VFallJuFTZ9mx6u4eSdXZfcOzSqTUm0HCA==
+  dependencies:
+    "@babel/traverse" "^7.24.7"
+    "@babel/types" "^7.24.7"
+
 "@babel/helper-module-imports@^7.22.15":
   version "7.22.15"
   resolved "https://registry.yarnpkg.com/@babel/helper-module-imports/-/helper-module-imports-7.22.15.tgz#16146307acdc40cc00c3b2c647713076464bdbf0"
@@ -127,16 +175,33 @@
   dependencies:
     "@babel/types" "^7.22.5"
 
+"@babel/helper-split-export-declaration@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/helper-split-export-declaration/-/helper-split-export-declaration-7.24.7.tgz#83949436890e07fa3d6873c61a96e3bbf692d856"
+  integrity sha512-oy5V7pD+UvfkEATUKvIjvIAH/xCzfsFVw7ygW2SI6NClZzquT+mwdTfgfdbUiceh6iQO0CHtCPsyze/MZ2YbAA==
+  dependencies:
+    "@babel/types" "^7.24.7"
+
 "@babel/helper-string-parser@^7.23.4":
   version "7.23.4"
   resolved "https://registry.yarnpkg.com/@babel/helper-string-parser/-/helper-string-parser-7.23.4.tgz#9478c707febcbbe1ddb38a3d91a2e054ae622d83"
   integrity sha512-803gmbQdqwdf4olxrX4AJyFBV/RTr3rSmOj0rKwesmzlfhYNDEs+/iOcznzpNWlJlIlTJC2QfPFcHB6DlzdVLQ==
 
+"@babel/helper-string-parser@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/helper-string-parser/-/helper-string-parser-7.24.7.tgz#4d2d0f14820ede3b9807ea5fc36dfc8cd7da07f2"
+  integrity sha512-7MbVt6xrwFQbunH2DNQsAP5sTGxfqQtErvBIvIMi6EQnbgUOuVYanvREcmFrOPhoXBrTtjhhP+lW+o5UfK+tDg==
+
 "@babel/helper-validator-identifier@^7.22.20":
   version "7.22.20"
   resolved "https://registry.yarnpkg.com/@babel/helper-validator-identifier/-/helper-validator-identifier-7.22.20.tgz#c4ae002c61d2879e724581d96665583dbc1dc0e0"
   integrity sha512-Y4OZ+ytlatR8AI+8KZfKuL5urKp7qey08ha31L8b3BwewJAoJamTzyvxPR/5D+KkdJCGPq/+8TukHBlY10FX9A==
 
+"@babel/helper-validator-identifier@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/helper-validator-identifier/-/helper-validator-identifier-7.24.7.tgz#75b889cfaf9e35c2aaf42cf0d72c8e91719251db"
+  integrity sha512-rR+PBcQ1SMQDDyF6X0wxtG8QyLCgUB0eRAGguqRLfkCA87l7yAP7ehq8SNj96OOGTO8OBV70KhuFYcIkHXOg0w==
+
 "@babel/helper-validator-option@^7.23.5":
   version "7.23.5"
   resolved "https://registry.yarnpkg.com/@babel/helper-validator-option/-/helper-validator-option-7.23.5.tgz#907a3fbd4523426285365d1206c423c4c5520307"
@@ -160,11 +225,26 @@
     chalk "^2.4.2"
     js-tokens "^4.0.0"
 
+"@babel/highlight@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/highlight/-/highlight-7.24.7.tgz#a05ab1df134b286558aae0ed41e6c5f731bf409d"
+  integrity sha512-EStJpq4OuY8xYfhGVXngigBJRWxftKX9ksiGDnmlY3o7B/V7KIAc9X4oiK87uPJSc/vs5L869bem5fhZa8caZw==
+  dependencies:
+    "@babel/helper-validator-identifier" "^7.24.7"
+    chalk "^2.4.2"
+    js-tokens "^4.0.0"
+    picocolors "^1.0.0"
+
 "@babel/parser@^7.1.0", "@babel/parser@^7.20.7", "@babel/parser@^7.24.0":
   version "7.24.0"
   resolved "https://registry.yarnpkg.com/@babel/parser/-/parser-7.24.0.tgz#26a3d1ff49031c53a97d03b604375f028746a9ac"
   integrity sha512-QuP/FxEAzMSjXygs8v4N9dvdXzEHN4W1oF3PxuWAtPo08UdM17u89RDMgjLn/mlc56iM0HlLmVkO/wgR+rDgHg==
 
+"@babel/parser@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/parser/-/parser-7.24.7.tgz#9a5226f92f0c5c8ead550b750f5608e766c8ce85"
+  integrity sha512-9uUYRm6OqQrCqQdG1iCBwBPZgN8ciDBro2nIOFaiRz1/BCxaI7CNvQbDHvsArAC7Tw9Hda/B3U+6ui9u4HWXPw==
+
 "@babel/plugin-transform-react-jsx-self@^7.23.3":
   version "7.23.3"
   resolved "https://registry.yarnpkg.com/@babel/plugin-transform-react-jsx-self/-/plugin-transform-react-jsx-self-7.23.3.tgz#ed3e7dadde046cce761a8e3cf003a13d1a7972d9"
@@ -179,6 +259,13 @@
   dependencies:
     "@babel/helper-plugin-utils" "^7.22.5"
 
+"@babel/runtime@^7.12.0", "@babel/runtime@^7.12.5", "@babel/runtime@^7.18.3":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/runtime/-/runtime-7.24.7.tgz#f4f0d5530e8dbdf59b3451b9b3e594b6ba082e12"
+  integrity sha512-UwgBRMjJP+xv857DCngvqXI3Iq6J4v0wXmwc6sapg+zyhbwmQX67LUEFrkK5tbyJ30jGuG3ZvWpBiB9LCy1kWw==
+  dependencies:
+    regenerator-runtime "^0.14.0"
+
 "@babel/runtime@^7.18.9", "@babel/runtime@^7.21.0", "@babel/runtime@^7.22.5", "@babel/runtime@^7.5.5", "@babel/runtime@^7.6.3", "@babel/runtime@^7.8.7":
   version "7.24.0"
   resolved "https://registry.yarnpkg.com/@babel/runtime/-/runtime-7.24.0.tgz#584c450063ffda59697021430cb47101b085951e"
@@ -195,6 +282,15 @@
     "@babel/parser" "^7.24.0"
     "@babel/types" "^7.24.0"
 
+"@babel/template@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/template/-/template-7.24.7.tgz#02efcee317d0609d2c07117cb70ef8fb17ab7315"
+  integrity sha512-jYqfPrU9JTF0PmPy1tLYHW4Mp4KlgxJD9l2nP9fD6yT/ICi554DmrWBAEYpIelzjHf1msDP3PxJIRt/nFNfBig==
+  dependencies:
+    "@babel/code-frame" "^7.24.7"
+    "@babel/parser" "^7.24.7"
+    "@babel/types" "^7.24.7"
+
 "@babel/traverse@^7.24.0":
   version "7.24.0"
   resolved "https://registry.yarnpkg.com/@babel/traverse/-/traverse-7.24.0.tgz#4a408fbf364ff73135c714a2ab46a5eab2831b1e"
@@ -211,6 +307,22 @@
     debug "^4.3.1"
     globals "^11.1.0"
 
+"@babel/traverse@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/traverse/-/traverse-7.24.7.tgz#de2b900163fa741721ba382163fe46a936c40cf5"
+  integrity sha512-yb65Ed5S/QAcewNPh0nZczy9JdYXkkAbIsEo+P7BE7yO3txAY30Y/oPa3QkQ5It3xVG2kpKMg9MsdxZaO31uKA==
+  dependencies:
+    "@babel/code-frame" "^7.24.7"
+    "@babel/generator" "^7.24.7"
+    "@babel/helper-environment-visitor" "^7.24.7"
+    "@babel/helper-function-name" "^7.24.7"
+    "@babel/helper-hoist-variables" "^7.24.7"
+    "@babel/helper-split-export-declaration" "^7.24.7"
+    "@babel/parser" "^7.24.7"
+    "@babel/types" "^7.24.7"
+    debug "^4.3.1"
+    globals "^11.1.0"
+
 "@babel/types@^7.0.0", "@babel/types@^7.20.7", "@babel/types@^7.21.3", "@babel/types@^7.22.15", "@babel/types@^7.22.5", "@babel/types@^7.23.0", "@babel/types@^7.23.6", "@babel/types@^7.24.0":
   version "7.24.0"
   resolved "https://registry.yarnpkg.com/@babel/types/-/types-7.24.0.tgz#3b951f435a92e7333eba05b7566fd297960ea1bf"
@@ -220,6 +332,15 @@
     "@babel/helper-validator-identifier" "^7.22.20"
     to-fast-properties "^2.0.0"
 
+"@babel/types@^7.24.7":
+  version "7.24.7"
+  resolved "https://registry.yarnpkg.com/@babel/types/-/types-7.24.7.tgz#6027fe12bc1aa724cd32ab113fb7f1988f1f66f2"
+  integrity sha512-XEFXSlxiG5td2EJRe8vOmRbaXVgfcBlszKujvVmWIK/UpywWljQCfzAv3RQCGujWQ1RD4YYWEAqDXfuJiy8f5Q==
+  dependencies:
+    "@babel/helper-string-parser" "^7.24.7"
+    "@babel/helper-validator-identifier" "^7.24.7"
+    to-fast-properties "^2.0.0"
+
 "@choojs/findup@^0.2.0":
   version "0.2.1"
   resolved "https://registry.yarnpkg.com/@choojs/findup/-/findup-0.2.1.tgz#ac13c59ae7be6e1da64de0779a0a7f03d75615a3"
@@ -227,6 +348,94 @@
   dependencies:
     commander "^2.15.1"
 
+"@emotion/babel-plugin@^11.11.0":
+  version "11.11.0"
+  resolved "https://registry.yarnpkg.com/@emotion/babel-plugin/-/babel-plugin-11.11.0.tgz#c2d872b6a7767a9d176d007f5b31f7d504bb5d6c"
+  integrity sha512-m4HEDZleaaCH+XgDDsPF15Ht6wTLsgDTeR3WYj9Q/k76JtWhrJjcP4+/XlG8LGT/Rol9qUfOIztXeA84ATpqPQ==
+  dependencies:
+    "@babel/helper-module-imports" "^7.16.7"
+    "@babel/runtime" "^7.18.3"
+    "@emotion/hash" "^0.9.1"
+    "@emotion/memoize" "^0.8.1"
+    "@emotion/serialize" "^1.1.2"
+    babel-plugin-macros "^3.1.0"
+    convert-source-map "^1.5.0"
+    escape-string-regexp "^4.0.0"
+    find-root "^1.1.0"
+    source-map "^0.5.7"
+    stylis "4.2.0"
+
+"@emotion/cache@^11.11.0", "@emotion/cache@^11.4.0":
+  version "11.11.0"
+  resolved "https://registry.yarnpkg.com/@emotion/cache/-/cache-11.11.0.tgz#809b33ee6b1cb1a625fef7a45bc568ccd9b8f3ff"
+  integrity sha512-P34z9ssTCBi3e9EI1ZsWpNHcfY1r09ZO0rZbRO2ob3ZQMnFI35jB536qoXbkdesr5EUhYi22anuEJuyxifaqAQ==
+  dependencies:
+    "@emotion/memoize" "^0.8.1"
+    "@emotion/sheet" "^1.2.2"
+    "@emotion/utils" "^1.2.1"
+    "@emotion/weak-memoize" "^0.3.1"
+    stylis "4.2.0"
+
+"@emotion/hash@^0.9.1":
+  version "0.9.1"
+  resolved "https://registry.yarnpkg.com/@emotion/hash/-/hash-0.9.1.tgz#4ffb0055f7ef676ebc3a5a91fb621393294e2f43"
+  integrity sha512-gJB6HLm5rYwSLI6PQa+X1t5CFGrv1J1TWG+sOyMCeKz2ojaj6Fnl/rZEspogG+cvqbt4AE/2eIyD2QfLKTBNlQ==
+
+"@emotion/memoize@^0.8.1":
+  version "0.8.1"
+  resolved "https://registry.yarnpkg.com/@emotion/memoize/-/memoize-0.8.1.tgz#c1ddb040429c6d21d38cc945fe75c818cfb68e17"
+  integrity sha512-W2P2c/VRW1/1tLox0mVUalvnWXxavmv/Oum2aPsRcoDJuob75FC3Y8FbpfLwUegRcxINtGUMPq0tFCvYNTBXNA==
+
+"@emotion/react@^11.8.1":
+  version "11.11.4"
+  resolved "https://registry.yarnpkg.com/@emotion/react/-/react-11.11.4.tgz#3a829cac25c1f00e126408fab7f891f00ecc3c1d"
+  integrity sha512-t8AjMlF0gHpvvxk5mAtCqR4vmxiGHCeJBaQO6gncUSdklELOgtwjerNY2yuJNfwnc6vi16U/+uMF+afIawJ9iw==
+  dependencies:
+    "@babel/runtime" "^7.18.3"
+    "@emotion/babel-plugin" "^11.11.0"
+    "@emotion/cache" "^11.11.0"
+    "@emotion/serialize" "^1.1.3"
+    "@emotion/use-insertion-effect-with-fallbacks" "^1.0.1"
+    "@emotion/utils" "^1.2.1"
+    "@emotion/weak-memoize" "^0.3.1"
+    hoist-non-react-statics "^3.3.1"
+
+"@emotion/serialize@^1.1.2", "@emotion/serialize@^1.1.3":
+  version "1.1.4"
+  resolved "https://registry.yarnpkg.com/@emotion/serialize/-/serialize-1.1.4.tgz#fc8f6d80c492cfa08801d544a05331d1cc7cd451"
+  integrity sha512-RIN04MBT8g+FnDwgvIUi8czvr1LU1alUMI05LekWB5DGyTm8cCBMCRpq3GqaiyEDRptEXOyXnvZ58GZYu4kBxQ==
+  dependencies:
+    "@emotion/hash" "^0.9.1"
+    "@emotion/memoize" "^0.8.1"
+    "@emotion/unitless" "^0.8.1"
+    "@emotion/utils" "^1.2.1"
+    csstype "^3.0.2"
+
+"@emotion/sheet@^1.2.2":
+  version "1.2.2"
+  resolved "https://registry.yarnpkg.com/@emotion/sheet/-/sheet-1.2.2.tgz#d58e788ee27267a14342303e1abb3d508b6d0fec"
+  integrity sha512-0QBtGvaqtWi+nx6doRwDdBIzhNdZrXUppvTM4dtZZWEGTXL/XE/yJxLMGlDT1Gt+UHH5IX1n+jkXyytE/av7OA==
+
+"@emotion/unitless@^0.8.1":
+  version "0.8.1"
+  resolved "https://registry.yarnpkg.com/@emotion/unitless/-/unitless-0.8.1.tgz#182b5a4704ef8ad91bde93f7a860a88fd92c79a3"
+  integrity sha512-KOEGMu6dmJZtpadb476IsZBclKvILjopjUii3V+7MnXIQCYh8W3NgNcgwo21n9LXZX6EDIKvqfjYxXebDwxKmQ==
+
+"@emotion/use-insertion-effect-with-fallbacks@^1.0.1":
+  version "1.0.1"
+  resolved "https://registry.yarnpkg.com/@emotion/use-insertion-effect-with-fallbacks/-/use-insertion-effect-with-fallbacks-1.0.1.tgz#08de79f54eb3406f9daaf77c76e35313da963963"
+  integrity sha512-jT/qyKZ9rzLErtrjGgdkMBn2OP8wl0G3sQlBb3YPryvKHsjvINUhVaPFfP+fpBcOkmrVOVEEHQFJ7nbj2TH2gw==
+
+"@emotion/utils@^1.2.1":
+  version "1.2.1"
+  resolved "https://registry.yarnpkg.com/@emotion/utils/-/utils-1.2.1.tgz#bbab58465738d31ae4cb3dbb6fc00a5991f755e4"
+  integrity sha512-Y2tGf3I+XVnajdItskUCn6LX+VUDmP6lTL4fcqsXAv43dnlbZiuW4MWQW38rW/BVWSE7Q/7+XQocmpnRYILUmg==
+
+"@emotion/weak-memoize@^0.3.1":
+  version "0.3.1"
+  resolved "https://registry.yarnpkg.com/@emotion/weak-memoize/-/weak-memoize-0.3.1.tgz#d0fce5d07b0620caa282b5131c297bb60f9d87e6"
+  integrity sha512-EsBwpc7hBUJWAsNPBmJy4hxWx12v6bshQsldrVmjxJoc3isbxhOrF2IcCpaXxfvq03NwkI7sbsOLXbYuqF/8Ww==
+
 "@esbuild/aix-ppc64@0.20.2":
   version "0.20.2"
   resolved "https://registry.yarnpkg.com/@esbuild/aix-ppc64/-/aix-ppc64-0.20.2.tgz#a70f4ac11c6a1dfc18b8bbb13284155d933b9537"
@@ -374,6 +583,26 @@
   resolved "https://registry.yarnpkg.com/@eslint/js/-/js-8.57.0.tgz#a5417ae8427873f1dd08b70b3574b453e67b5f7f"
   integrity sha512-Ys+3g2TaW7gADOJzPt83SJtCDhMjndcDMFVQ/Tj9iA1BfJzFKD9mAUXT3OenpuPHbI6P/myECxRJrofUsDx/5g==
 
+"@floating-ui/core@^1.6.0":
+  version "1.6.4"
+  resolved "https://registry.yarnpkg.com/@floating-ui/core/-/core-1.6.4.tgz#0140cf5091c8dee602bff9da5ab330840ff91df6"
+  integrity sha512-a4IowK4QkXl4SCWTGUR0INAfEOX3wtsYw3rKK5InQEHMGObkR8Xk44qYQD9P4r6HHw0iIfK6GUKECmY8sTkqRA==
+  dependencies:
+    "@floating-ui/utils" "^0.2.4"
+
+"@floating-ui/dom@^1.0.1":
+  version "1.6.7"
+  resolved "https://registry.yarnpkg.com/@floating-ui/dom/-/dom-1.6.7.tgz#85d22f731fcc5b209db504478fb1df5116a83015"
+  integrity sha512-wmVfPG5o2xnKDU4jx/m4w5qva9FWHcnZ8BvzEe90D/RpwsJaTAVYPEPdQ8sbr/N8zZTAHlZUTQdqg8ZUbzHmng==
+  dependencies:
+    "@floating-ui/core" "^1.6.0"
+    "@floating-ui/utils" "^0.2.4"
+
+"@floating-ui/utils@^0.2.4":
+  version "0.2.4"
+  resolved "https://registry.yarnpkg.com/@floating-ui/utils/-/utils-0.2.4.tgz#1d459cee5031893a08a0e064c406ad2130cced7c"
+  integrity sha512-dWO2pw8hhi+WrXq1YJy2yCuWoL20PddgGaqTgVe4cOS9Q6qklXCiA1tJEqX6BEwRNSCP84/afac9hd4MS+zEUA==
+
 "@humanwhocodes/config-array@^0.11.14":
   version "0.11.14"
   resolved "https://registry.yarnpkg.com/@humanwhocodes/config-array/-/config-array-0.11.14.tgz#d78e481a039f7566ecc9660b4ea7fe6b1fec442b"
@@ -417,7 +646,7 @@
   resolved "https://registry.yarnpkg.com/@jridgewell/sourcemap-codec/-/sourcemap-codec-1.4.15.tgz#d7c6e6755c78567a951e04ab52ef0fd26de59f32"
   integrity sha512-eF2rxCRulEKXHTRiDrDy6erMYWqNw4LPdQ8UQA4huuxaQsVeRPFl2oM8oDGxMFhJUWZf9McpLtJasDDZb/Bpeg==
 
-"@jridgewell/trace-mapping@^0.3.17", "@jridgewell/trace-mapping@^0.3.24":
+"@jridgewell/trace-mapping@^0.3.17", "@jridgewell/trace-mapping@^0.3.24", "@jridgewell/trace-mapping@^0.3.25":
   version "0.3.25"
   resolved "https://registry.yarnpkg.com/@jridgewell/trace-mapping/-/trace-mapping-0.3.25.tgz#15f190e98895f3fc23276ee14bc76b675c2e50f0"
   integrity sha512-vNk6aEwybGtawWmy/PzwnGDOjCkLWSD2wqvjGGAgOAwCGWySYXfYoxt00IJkTF+8Lb57DwOb3Aa0o9CApepiYQ==
@@ -902,12 +1131,17 @@
   dependencies:
     undici-types "~5.26.4"
 
+"@types/parse-json@^4.0.0":
+  version "4.0.2"
+  resolved "https://registry.yarnpkg.com/@types/parse-json/-/parse-json-4.0.2.tgz#5950e50960793055845e956c427fc2b0d70c5239"
+  integrity sha512-dISoDXWWQwUquiKsyZ4Ng+HX2KsPL7LyHKHQwgGFEA3IaKac4Obd+h2a/a6waisAoepJlBcx9paWqjA8/HVjCw==
+
 "@types/prop-types@*":
   version "15.7.11"
   resolved "https://registry.yarnpkg.com/@types/prop-types/-/prop-types-15.7.11.tgz#2596fb352ee96a1379c657734d4b913a613ad563"
   integrity sha512-ga8y9v9uyeiLdpKddhxYQkxNDrfvuPrlFb0N1qnZZByvcElJaXthF1UhvCh9TLWJBEHeNtdnbysW7Y6Uq8CVng==
 
-"@types/react-transition-group@^4.4.6":
+"@types/react-transition-group@^4.4.0", "@types/react-transition-group@^4.4.6":
   version "4.4.10"
   resolved "https://registry.yarnpkg.com/@types/react-transition-group/-/react-transition-group-4.4.10.tgz#6ee71127bdab1f18f11ad8fb3322c6da27c327ac"
   integrity sha512-hT/+s0VQs2ojCX823m60m5f0sL5idt9SO6Tj6Dg+rdphGPIeJbJ6CxvBYkgkGKrYeDjvIpKTR38UzmtHJOGW3Q==
@@ -1175,6 +1409,15 @@ axios@^1.6.8:
     form-data "^4.0.0"
     proxy-from-env "^1.1.0"
 
+babel-plugin-macros@^3.1.0:
+  version "3.1.0"
+  resolved "https://registry.yarnpkg.com/babel-plugin-macros/-/babel-plugin-macros-3.1.0.tgz#9ef6dc74deb934b4db344dc973ee851d148c50c1"
+  integrity sha512-Cg7TFGpIr01vOQNODXOOaGz2NpCU5gl8x1qJFbb6hbZxR7XrcE2vtbAsTAbJ7/xwJtUuJEw8K8Zr/AE0LHlesg==
+  dependencies:
+    "@babel/runtime" "^7.12.5"
+    cosmiconfig "^7.0.0"
+    resolve "^1.19.0"
+
 balanced-match@^1.0.0:
   version "1.0.2"
   resolved "https://registry.yarnpkg.com/balanced-match/-/balanced-match-1.0.2.tgz#e83e3a7e3f300b34cb9d87f615fa0cbf357690ee"
@@ -1460,6 +1703,11 @@ concat-stream@^1.5.2:
     readable-stream "^2.2.2"
     typedarray "^0.0.6"
 
+convert-source-map@^1.5.0:
+  version "1.9.0"
+  resolved "https://registry.yarnpkg.com/convert-source-map/-/convert-source-map-1.9.0.tgz#7faae62353fb4213366d0ca98358d22e8368b05f"
+  integrity sha512-ASFBup0Mz1uyiIjANan1jzLQami9z1PoYSZCiiYW2FczPbenXc45FZdBZLzOT+r6+iciuEModtmCti+hjaAk0A==
+
 convert-source-map@^2.0.0:
   version "2.0.0"
   resolved "https://registry.yarnpkg.com/convert-source-map/-/convert-source-map-2.0.0.tgz#4b560f649fc4e918dd0ab75cf4961e8bc882d82a"
@@ -1470,6 +1718,17 @@ core-util-is@~1.0.0:
   resolved "https://registry.yarnpkg.com/core-util-is/-/core-util-is-1.0.3.tgz#a6042d3634c2b27e9328f837b965fac83808db85"
   integrity sha512-ZQBvi1DcpJ4GDqanjucZ2Hj3wEO5pZDS89BWbkcrvdxksJorwUDDZamX9ldFkp9aw2lmBDLgkObEA4DWNJ9FYQ==
 
+cosmiconfig@^7.0.0:
+  version "7.1.0"
+  resolved "https://registry.yarnpkg.com/cosmiconfig/-/cosmiconfig-7.1.0.tgz#1443b9afa596b670082ea46cbd8f6a62b84635f6"
+  integrity sha512-AdmX6xUzdNASswsFtmwSt7Vj8po9IuqXm0UXz7QKPuEUmPB4XyjGfaAr2PSuELMwkRMVH1EpIkX5bTZGRB3eCA==
+  dependencies:
+    "@types/parse-json" "^4.0.0"
+    import-fresh "^3.2.1"
+    parse-json "^5.0.0"
+    path-type "^4.0.0"
+    yaml "^1.10.0"
+
 cosmiconfig@^8.1.3:
   version "8.3.6"
   resolved "https://registry.yarnpkg.com/cosmiconfig/-/cosmiconfig-8.3.6.tgz#060a2b871d66dba6c8538ea1118ba1ac16f5fae3"
@@ -2367,6 +2626,11 @@ fill-range@^7.0.1:
   dependencies:
     to-regex-range "^5.0.1"
 
+find-root@^1.1.0:
+  version "1.1.0"
+  resolved "https://registry.yarnpkg.com/find-root/-/find-root-1.1.0.tgz#abcfc8ba76f708c42a97b3d685b7e9450bfb9ce4"
+  integrity sha512-NKfW6bec6GfKc0SGx1e07QZY9PE99u0Bft/0rzSD5k3sO/vwkVUpDUKVm5Gpp5Ue3YfShPFTX2070tDs5kB9Ng==
+
 find-up@^5.0.0:
   version "5.0.0"
   resolved "https://registry.yarnpkg.com/find-up/-/find-up-5.0.0.tgz#4c92819ecb7083561e4f4a240a86be5198f536fc"
@@ -2835,6 +3099,13 @@ hasown@^2.0.0, hasown@^2.0.1:
   dependencies:
     function-bind "^1.1.2"
 
+hoist-non-react-statics@^3.3.1:
+  version "3.3.2"
+  resolved "https://registry.yarnpkg.com/hoist-non-react-statics/-/hoist-non-react-statics-3.3.2.tgz#ece0acaf71d62c2969c2ec59feff42a4b1a85b45"
+  integrity sha512-/gGivxi8JPKWNm/W0jSmzcMPpfpPLc3dY/6GxhX2hQ9iGj3aDfklV4ET7NjKpSinLpJ5vafa9iiGIEZg10SfBw==
+  dependencies:
+    react-is "^16.7.0"
+
 hsluv@^0.0.3:
   version "0.0.3"
   resolved "https://registry.yarnpkg.com/hsluv/-/hsluv-0.0.3.tgz#829107dafb4a9f8b52a1809ed02e091eade6754c"
@@ -3325,6 +3596,11 @@ math-log2@^1.0.1:
   resolved "https://registry.yarnpkg.com/math-log2/-/math-log2-1.0.1.tgz#fb8941be5f5ebe8979e718e6273b178e58694565"
   integrity sha512-9W0yGtkaMAkf74XGYVy4Dqw3YUMnTNB2eeiw9aQbUl4A3KmuCEHTt2DgAB07ENzOYAjsYSAYufkAq0Zd+jU7zA==
 
+memoize-one@^6.0.0:
+  version "6.0.0"
+  resolved "https://registry.yarnpkg.com/memoize-one/-/memoize-one-6.0.0.tgz#b2591b871ed82948aee4727dc6abceeeac8c1045"
+  integrity sha512-rkpe71W0N0c0Xz6QD0eJETuWAJGnJ9afsl1srmwPrI+yBCkge5EycXXbYRyvL29zZVUWQCY7InPRCv3GDXuZNw==
+
 merge2@^1.2.3, merge2@^1.3.0:
   version "1.4.1"
   resolved "https://registry.yarnpkg.com/merge2/-/merge2-1.4.1.tgz#4368892f885e907455a6fd7dc55c0c9d404990ae"
@@ -3606,7 +3882,7 @@ parenthesis@^3.1.5:
   resolved "https://registry.yarnpkg.com/parenthesis/-/parenthesis-3.1.8.tgz#3457fccb8f05db27572b841dad9d2630b912f125"
   integrity sha512-KF/U8tk54BgQewkJPvB4s/US3VQY68BRDpH638+7O/n58TpnwiwnOtGIOsT2/i+M78s61BBpeC83STB88d8sqw==
 
-parse-json@^5.2.0:
+parse-json@^5.0.0, parse-json@^5.2.0:
   version "5.2.0"
   resolved "https://registry.yarnpkg.com/parse-json/-/parse-json-5.2.0.tgz#c76fc66dee54231c962b22bcc8a72cf2f99753cd"
   integrity sha512-ayCKvm/phCGxOkYRSCM82iDwct8/EonSEgCSxWxD7ve6jHggsFl4fZVQBPRNgQoKiuV/odhFrGzQXZwbifC8Rg==
@@ -3807,7 +4083,7 @@ prop-types-extra@^1.1.0:
     react-is "^16.3.2"
     warning "^4.0.0"
 
-prop-types@^15.6.2, prop-types@^15.7.2, prop-types@^15.8.1:
+prop-types@^15.6.0, prop-types@^15.6.2, prop-types@^15.7.2, prop-types@^15.8.1:
   version "15.8.1"
   resolved "https://registry.yarnpkg.com/prop-types/-/prop-types-15.8.1.tgz#67d87bf1a694f48435cf332c24af10214a3140b5"
   integrity sha512-oj87CgZICdulUohogVAR7AjlC0327U4el4L6eAvOqCeudMDVU0NThNaV+b9Df4dXgSP1gXMTnPdhfe/2qDH5cg==
@@ -3896,7 +4172,7 @@ react-dom@^18.2.0:
     loose-envify "^1.1.0"
     scheduler "^0.23.0"
 
-react-is@^16.13.1, react-is@^16.3.2:
+react-is@^16.13.1, react-is@^16.3.2, react-is@^16.7.0:
   version "16.13.1"
   resolved "https://registry.yarnpkg.com/react-is/-/react-is-16.13.1.tgz#789729a4dc36de2999dc156dd6c1d9c18cea56a4"
   integrity sha512-24e6ynE2H+OKt4kqsOvNd8kBpV65zoxbA4BVsEOB3ARVWQki/DHzaUoC5KuON/BiccDaCCTZBuOcfZs70kR8bQ==
@@ -3938,6 +4214,21 @@ react-router@6.22.3:
   dependencies:
     "@remix-run/router" "1.15.3"
 
+react-select@^5.8.0:
+  version "5.8.0"
+  resolved "https://registry.yarnpkg.com/react-select/-/react-select-5.8.0.tgz#bd5c467a4df223f079dd720be9498076a3f085b5"
+  integrity sha512-TfjLDo58XrhP6VG5M/Mi56Us0Yt8X7xD6cDybC7yoRMUNm7BGO7qk8J0TLQOua/prb8vUOtsfnXZwfm30HGsAA==
+  dependencies:
+    "@babel/runtime" "^7.12.0"
+    "@emotion/cache" "^11.4.0"
+    "@emotion/react" "^11.8.1"
+    "@floating-ui/dom" "^1.0.1"
+    "@types/react-transition-group" "^4.4.0"
+    memoize-one "^6.0.0"
+    prop-types "^15.6.0"
+    react-transition-group "^4.3.0"
+    use-isomorphic-layout-effect "^1.1.2"
+
 react-toastify@^10.0.4:
   version "10.0.4"
   resolved "https://registry.yarnpkg.com/react-toastify/-/react-toastify-10.0.4.tgz#6ecdbbf923a07fc45850e69b0566efc7bf733283"
@@ -3945,7 +4236,7 @@ react-toastify@^10.0.4:
   dependencies:
     clsx "^2.1.0"
 
-react-transition-group@^4.2.0, react-transition-group@^4.4.5:
+react-transition-group@^4.2.0, react-transition-group@^4.3.0, react-transition-group@^4.4.5:
   version "4.4.5"
   resolved "https://registry.yarnpkg.com/react-transition-group/-/react-transition-group-4.4.5.tgz#e53d4e3f3344da8521489fbef8f2581d42becdd1"
   integrity sha512-pZcd1MCJoiKiBR2NRxeCRg13uCXbydPnmB4EOeRrY7480qNWO8IIgQG6zlDkm6uRMsURXPuKq0GWtiM59a5Q6g==
@@ -4110,7 +4401,7 @@ resolve@^0.6.1:
   resolved "https://registry.yarnpkg.com/resolve/-/resolve-0.6.3.tgz#dd957982e7e736debdf53b58a4dd91754575dd46"
   integrity sha512-UHBY3viPlJKf85YijDUcikKX6tmF4SokIDp518ZDVT92JNDcG5uKIthaT/owt3Sar0lwtOafsQuwrg22/v2Dwg==
 
-resolve@^1.0.0, resolve@^1.1.10, resolve@^1.1.5, resolve@^1.22.2, resolve@^1.22.4:
+resolve@^1.0.0, resolve@^1.1.10, resolve@^1.1.5, resolve@^1.19.0, resolve@^1.22.2, resolve@^1.22.4:
   version "1.22.8"
   resolved "https://registry.yarnpkg.com/resolve/-/resolve-1.22.8.tgz#b6c87a9f2aa06dfab52e3d70ac8cde321fa5a48d"
   integrity sha512-oKWePCxqpd6FlLvGV1VU0x7bkPmmCNolxzjMf4NczoDnQcIWrAF+cPtZn5i6n+RfD2d9i0tzpKnG6Yk168yIyw==
@@ -4336,6 +4627,11 @@ source-map-js@^1.2.0:
   resolved "https://registry.yarnpkg.com/source-map-js/-/source-map-js-1.2.0.tgz#16b809c162517b5b8c3e7dcd315a2a5c2612b2af"
   integrity sha512-itJW8lvSA0TXEphiRoawsCksnlf8SyvmFzIhltqAHluXd88pkCd+cXJVHTDwdCr0IzwptSm035IHQktUu1QUMg==
 
+source-map@^0.5.7:
+  version "0.5.7"
+  resolved "https://registry.yarnpkg.com/source-map/-/source-map-0.5.7.tgz#8a039d2d1021d22d1ea14c80d8ea468ba2ef3fcc"
+  integrity sha512-LbrmJOMUSdEVxIKvdcJzQC+nQhe8FUZQTXQy6+I75skNgn3OoQ0DZA8YnFa7gp8tqtL3KPf1kmo0R5DoApeSGQ==
+
 source-map@~0.6.1:
   version "0.6.1"
   resolved "https://registry.yarnpkg.com/source-map/-/source-map-0.6.1.tgz#74722af32e9614e9c287a8d0bbde48b5e2f1a263"
@@ -4448,6 +4744,11 @@ strongly-connected-components@^1.0.1:
   resolved "https://registry.yarnpkg.com/strongly-connected-components/-/strongly-connected-components-1.0.1.tgz#0920e2b4df67c8eaee96c6b6234fe29e873dba99"
   integrity sha512-i0TFx4wPcO0FwX+4RkLJi1MxmcTv90jNZgxMu9XRnMXMeFUY1VJlIoXpZunPUvUUqbCT1pg5PEkFqqpcaElNaA==
 
+stylis@4.2.0:
+  version "4.2.0"
+  resolved "https://registry.yarnpkg.com/stylis/-/stylis-4.2.0.tgz#79daee0208964c8fe695a42fcffcac633a211a51"
+  integrity sha512-Orov6g6BB1sDfYgzWfTHDOxamtX1bE/zo104Dh9e6fqJ3PooipYyfJ0pUmrZO2wAvO8YbEyeFrkV91XTsGMSrw==
+
 supercluster@^7.1.0:
   version "7.1.5"
   resolved "https://registry.yarnpkg.com/supercluster/-/supercluster-7.1.5.tgz#65a6ce4a037a972767740614c19051b64b8be5a3"
@@ -4728,6 +5029,11 @@ uri-js@^4.2.2:
   dependencies:
     punycode "^2.1.0"
 
+use-isomorphic-layout-effect@^1.1.2:
+  version "1.1.2"
+  resolved "https://registry.yarnpkg.com/use-isomorphic-layout-effect/-/use-isomorphic-layout-effect-1.1.2.tgz#497cefb13d863d687b08477d9e5a164ad8c1a6fb"
+  integrity sha512-49L8yCO3iGT/ZF9QttjwLF/ZD9Iwto5LnH5LmEdk/6cFmXddqi2ulF0edxTwjj+7mqvpVVGQWvbXZdn32wRSHA==
+
 util-deprecate@~1.0.1:
   version "1.0.2"
   resolved "https://registry.yarnpkg.com/util-deprecate/-/util-deprecate-1.0.2.tgz#450d4dc9fa70de732762fbd2d4a28981419a0ccf"
@@ -4879,6 +5185,11 @@ yallist@^4.0.0:
   resolved "https://registry.yarnpkg.com/yallist/-/yallist-4.0.0.tgz#9bb92790d9c0effec63be73519e11a35019a3a72"
   integrity sha512-3wdGidZyq5PB084XLES5TpOSRA3wjXAlIWMhum2kRcv/41Sn2emQ0dycQW4uZXLejwKvg6EsvbdlVL+FYEct7A==
 
+yaml@^1.10.0:
+  version "1.10.2"
+  resolved "https://registry.yarnpkg.com/yaml/-/yaml-1.10.2.tgz#2301c5ffbf12b467de8da2333a459e29e7920e4b"
+  integrity sha512-r3vXyErRCYJ7wg28yvBY5VSoAF8ZvlcW9/BwUzEtUsjvX/DKs24dIkuwjtuprwJJHsbyUbLApepYTR1BN4uHrg==
+
 yocto-queue@^0.1.0:
   version "0.1.0"
   resolved "https://registry.yarnpkg.com/yocto-queue/-/yocto-queue-0.1.0.tgz#0294eb3dee05028d31ee1a5fa2c556a6aaf10a1b"

From 6dc91ea85281080562517be63560a93844560c2e Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Wed, 3 Jul 2024 20:42:19 +0200
Subject: [PATCH 18/30] feat: add `in` filter to ml_bad_lumisection filter

---
 backend/ml_bad_lumisection/filters.py |  2 +-
 backend/static/swagger.json           | 14 ++++++++++++++
 2 files changed, 15 insertions(+), 1 deletion(-)

diff --git a/backend/ml_bad_lumisection/filters.py b/backend/ml_bad_lumisection/filters.py
index 65857b44..aee01180 100644
--- a/backend/ml_bad_lumisection/filters.py
+++ b/backend/ml_bad_lumisection/filters.py
@@ -13,6 +13,6 @@ class Meta:
             "model_id": ["exact", "in"],
             "dataset_id": ["exact"],
             "me_id": ["exact"],
-            "run_number": ["exact"],
+            "run_number": ["exact", "in"],
             "ls_number": ["exact"],
         }
diff --git a/backend/static/swagger.json b/backend/static/swagger.json
index 3daa42c8..d6c69d5f 100644
--- a/backend/static/swagger.json
+++ b/backend/static/swagger.json
@@ -2202,6 +2202,20 @@
               "type": "integer"
             }
           },
+          {
+            "name": "run_number__in",
+            "required": false,
+            "in": "query",
+            "description": "run_number__in",
+            "schema": {
+              "type": "array",
+              "items": {
+                "type": "integer"
+              }
+            },
+            "style": "form",
+            "explode": false
+          },
           {
             "name": "ls_number",
             "required": false,

From 565c837ff28bad758b294f48df300fb8ce52d194 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Wed, 3 Jul 2024 20:43:02 +0200
Subject: [PATCH 19/30] feat: add api methods for ml based endpoints

---
 frontend/src/services/api/index.js | 108 +++++++++++++++++++++++++++++
 1 file changed, 108 insertions(+)

diff --git a/frontend/src/services/api/index.js b/frontend/src/services/api/index.js
index 1f52eea9..51ee528d 100644
--- a/frontend/src/services/api/index.js
+++ b/frontend/src/services/api/index.js
@@ -338,6 +338,106 @@ const listMEs = async ({ me, meRegex, dim }) => {
   return response.data
 }
 
+const listMLModelsIndex = async ({
+  nextToken,
+  modelId,
+  modelIdIn,
+  filename,
+  filenameRegex,
+  targetMe,
+  targetMeRegex,
+  active,
+}) => {
+  const endpoint = `${API_URL}/ml-models-index/`
+  const params = sanitizedURLSearchParams(
+    {
+      next_token: nextToken,
+      model_id: modelId,
+      model_id__in: modelIdIn,
+      filename,
+      filename__regex: filenameRegex,
+      targetMe,
+      target_me__regex: targetMeRegex,
+      active,
+    },
+    { repeatMode: false }
+  )
+  const response = await axiosApiInstance.get(endpoint, {
+    params,
+  })
+  return response.data
+}
+
+const listMLBadLumisections = async ({
+  nextToken,
+  modelId,
+  modelIdIn,
+  dataset,
+  datasetRegex,
+  me,
+  meRegex,
+  runNumber,
+  runNumberIn,
+  lsNumber,
+}) => {
+  const endpoint = `${API_URL}/ml-bad-lumisection/`
+  const params = sanitizedURLSearchParams(
+    {
+      next_token: nextToken,
+      model_id: modelId,
+      model_id__in: modelIdIn,
+      dataset,
+      dataset__regex: datasetRegex,
+      me,
+      me__regex: meRegex,
+      run_number: runNumber,
+      run_number__in: runNumberIn,
+      ls_number: lsNumber,
+    },
+    { repeatMode: false }
+  )
+  const response = await axiosApiInstance.get(endpoint, {
+    params,
+  })
+  return response.data
+}
+
+const getMLCertificationJson = async ({
+  modelIdIn,
+  datasetId,
+  runNumberIn,
+}) => {
+  const endpoint = `${API_URL}/ml-bad-lumisection/cert-json`
+  const params = sanitizedURLSearchParams(
+    {
+      model_id__in: modelIdIn,
+      dataset_id: datasetId,
+      run_number__in: runNumberIn,
+    },
+    { repeatMode: false }
+  )
+  const response = await axiosApiInstance.get(endpoint, {
+    params,
+  })
+  return response.data
+}
+
+const getMLGoldenJson = async ({ modelIdIn, datasetId, runNumberIn }) => {
+  const endpoint = `${API_URL}/ml-bad-lumisection/golden-json`
+  const params = sanitizedURLSearchParams(
+    {
+      model_id__in: modelIdIn,
+      dataset_id: datasetId,
+      run_number__in: runNumberIn,
+    },
+    { repeatMode: false }
+  )
+  const response = await axiosApiInstance.get(endpoint, {
+    params,
+  })
+  return response.data
+}
+
 const API = {
   auth: {
     exchange: exchangeToken,
@@ -371,6 +471,14 @@ const API = {
     get: getHistogram,
     list: listHistograms,
   },
+  mlModelsIndex: {
+    list: listMLModelsIndex,
+  },
+  mlBadLumis: {
+    list: listMLBadLumisections,
+    certJson: getMLCertificationJson,
+    goldenJson: getMLGoldenJson,
+  },
 }
 
 export default API

From 941996b5425b37fd1f072a6f31c9bf4047bab61c Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Wed, 3 Jul 2024 20:44:44 +0200
Subject: [PATCH 20/30] feat: finish predictions view

- User selectes a dataset, multiple or a single run, multiple or a
single model and the pages renders all bad lumisections, a download
button for the ml-based certification json and a download button for the
ml-golden-like json
---
 .../src/views/machineLearning/predictions.jsx | 236 +++++++++++++++++-
 1 file changed, 234 insertions(+), 2 deletions(-)

diff --git a/frontend/src/views/machineLearning/predictions.jsx b/frontend/src/views/machineLearning/predictions.jsx
index 0ed875f0..79161e05 100644
--- a/frontend/src/views/machineLearning/predictions.jsx
+++ b/frontend/src/views/machineLearning/predictions.jsx
@@ -4,10 +4,13 @@ import Col from 'react-bootstrap/Col'
 import Row from 'react-bootstrap/Row'
 import Card from 'react-bootstrap/Card'
 import Form from 'react-bootstrap/Form'
+import Button from 'react-bootstrap/Button'
 import Select from 'react-select'
+import { Link } from 'react-router-dom'
 import { toast } from 'react-toastify'
 
 import API from '../../services/api'
+import { Table } from '../../components'
 import { getNextToken } from '../../utils/sanitizer'
 
 const Predictions = () => {
@@ -19,6 +22,47 @@ const Predictions = () => {
   const [runs, setRuns] = useState()
   const [selectedRuns, setSelectedRuns] = useState([])
 
+  const [isLoadingModels, setIsLoadingModels] = useState(false)
+  const [models, setModels] = useState()
+  const [selectedModels, setSelectedModels] = useState([])
+
+  const [isLoadingData, setIsLoadingData] = useState(false)
+  const [flaggedBadLumis, setFlaggedBadLumis] = useState()
+  const [nextToken, setNextToken] = useState(null)
+  const [previousToken, setPreviousToken] = useState(null)
+
+  const columns = [
+    { dataField: 'filename', text: 'Model', type: 'string' },
+    {
+      dataField: 'run_number',
+      text: 'Run',
+      type: 'number',
+      formatter: (cell, row) => {
+        const linkTo = `/runs/${row.dataset_id}/${row.run_number}`
+        return <Link to={linkTo}>{row.run_number}</Link>
+      },
+    },
+    {
+      dataField: 'ls_number',
+      text: 'Lumisection',
+      type: 'number',
+      formatter: (cell, row) => {
+        const linkTo = `/lumisections/${row.dataset_id}/${row.run_number}/${row.ls_number}`
+        return <Link to={linkTo}>{row.ls_number}</Link>
+      },
+    },
+    {
+      dataField: 'me',
+      text: 'ME',
+      type: 'string',
+      headerStyle: { 'min-width': '300px', 'word-break': 'break-all' },
+      formatter: (cell, row) => {
+        const linkTo = `/histograms-${row.dim}d/${row.dataset_id}/${row.run_number}/${row.ls_number}/${row.me_id}`
+        return <Link to={linkTo}>{row.me}</Link>
+      },
+    },
+  ]
+
   const genericFetchAllPages = async ({ apiMethod, params = {} }) => {
     const allData = []
     let nextPageExists = true
@@ -100,6 +144,100 @@ const Predictions = () => {
     }
   }, [selectedDataset])
 
+  useEffect(() => {
+    const fetchModels = () => {
+      setIsLoadingModels(true)
+      genericFetchAllPages({
+        apiMethod: API.mlModelsIndex.list,
+      })
+        .then((response) => {
+          const models = response.results.map((item) => ({
+            value: item.model_id,
+            label: item.filename,
+            targetMe: item.target_me,
+          }))
+          setModels(models)
+        })
+        .catch((error) => {
+          console.error(error)
+          toast.error('Failure to communicate with the API!')
+        })
+        .finally(() => {
+          setIsLoadingModels(false)
+        })
+    }
+
+    if (selectedDataset !== undefined) {
+      fetchModels()
+    }
+  }, [selectedDataset])
+
+  const fetchFlaggedBadLumis = ({ nextToken, datasetId, runNumberIn, modelIdIn }) => {
+    setIsLoadingData(true)
+    API.mlBadLumis.list({ nextToken, datasetId, runNumberIn, modelIdIn })
+      .then((response) => {
+        API.mes.list({})
+          .then((mesResponse) => {
+            const results = response.results.map((item) => {
+              const model = models.find(regModel => regModel.value === item.model_id)
+              const me = mesResponse.find(regMe => regMe.me_id === item.me_id)
+              return {
+                ...item,
+                filename: model.label,
+                me: model.targetMe,
+                dim: me.dim,
+                keyField: `${item.model_id}_${item.dataset_id}_${item.file_id}_${item.run_number}_${item.ls_number}_${item.me_id}`,
+              }
+            })
+            const nextToken = getNextToken(response, 'next')
+            const previousToken = getNextToken(response, 'previous')
+            setNextToken(nextToken)
+            setPreviousToken(previousToken)
+            setFlaggedBadLumis(results)
+          })
+        .catch((error) => {
+          console.error(error)
+          toast.error('Failure to communicate with the API!')
+        })
+      })
+      .catch((error) => {
+        console.error(error)
+        toast.error('Failure to communicate with the API!')
+      })
+      .finally(() => {
+        setIsLoadingData(false)
+      })
+  }
+
+  const handleJsonDownload = async ({ apiMethod, fileName, datasetId, runNumberIn, modelIdIn }) => {
+    try {
+      const response = await apiMethod({
+        datasetId,
+        runNumberIn,
+        modelIdIn,
+      });
+
+      // Create a Blob from the JSON data
+      const blob = new Blob([JSON.stringify(response)], { type: 'application/json' });
+
+      // Create a URL for the Blob
+      const url = URL.createObjectURL(blob);
+
+      // Create a link element and simulate a click to download the file
+      const link = document.createElement('a');
+      link.href = url;
+      link.download = fileName;
+      document.body.appendChild(link);
+      link.click();
+
+      // Clean up by revoking the object URL and removing the link
+      URL.revokeObjectURL(url);
+      document.body.removeChild(link);
+    } catch (error) {
+      console.error('Error downloading JSON:', error);
+    }
+  }
+
   return (
     <Row className='mt-5 mb-3 m-3'>
       <Col sm={3}>
@@ -121,7 +259,7 @@ const Predictions = () => {
             </Form.Group>
 
             {selectedDataset && (
-              <Form.Group className='mb-3' controlId='formRunSelector'>
+              <Form.Group className='mb-3' controlId='formRunsSelector'>
                 <Form.Label>Run numbers</Form.Label>
                 <Select
                   isMulti
@@ -134,13 +272,107 @@ const Predictions = () => {
                 />
               </Form.Group>
             )}
+
+            {selectedDataset && (
+              <Form.Group className='mb-3' controlId='formModelsSelector'>
+                <Form.Label>Registered models</Form.Label>
+                <Select
+                  isMulti
+                  value={selectedModels}
+                  onChange={(selectedOptions) => {
+                    setSelectedModels(selectedOptions)
+                  }}
+                  options={models}
+                  isDisabled={isLoadingModels}
+                />
+              </Form.Group>
+            )}
+
+            <Button
+              variant='primary'
+              type='submit'
+              onClick={() => {
+                fetchFlaggedBadLumis({
+                  datasetId: selectedDataset.value,
+                  runNumberIn: selectedRuns.map(item => item.value),
+                  modelIdIn: selectedModels.map(item => item.value)
+                })
+              }}
+            >
+              Submit
+            </Button>
           </Card.Body>
         </Card>
       </Col>
       <Col sm={9}>
         <Card className='text-center'>
           <Card.Header as='h4'>Predictions</Card.Header>
-          <Card.Body>Hello World</Card.Body>
+          <Card.Body>
+            { flaggedBadLumis ? (
+              <>
+                <Button
+                  variant='primary'
+                  type='submit'
+                  onClick={() => {
+                    handleJsonDownload({
+                      apiMethod: API.mlBadLumis.certJson,
+                      fileName: 'mlCertJson.json',
+                      datasetId: selectedDataset.value,
+                      runNumberIn: selectedRuns.map(item => item.value),
+                      modelIdIn: selectedModels.map(item => item.value)
+                    })
+                  }}
+                >
+                  Download certification json
+                </Button>
+                <Button
+                  variant='primary'
+                  type='submit'
+                  onClick={() => {
+                    handleJsonDownload({
+                      apiMethod: API.mlBadLumis.goldenJson,
+                      fileName: 'mlGoldenJson.json',
+                      datasetId: selectedDataset.value,
+                      runNumberIn: selectedRuns.map(item => item.value),
+                      modelIdIn: selectedModels.map(item => item.value)
+                    })
+                  }}
+                >
+                  Download golden json
+                </Button>
+                <Table
+                  keyField='keyField'
+                  isLoading={isLoadingData}
+                  data={flaggedBadLumis}
+                  columns={columns}
+                  bordered={false}
+                  hover={true}
+                  remote
+                  cursorPagination={true}
+                  previousToken={previousToken}
+                  nextToken={nextToken}
+                  previousOnClick={() => {
+                    fetchFlaggedBadLumis({
+                      nextToken: previousToken,
+                      datasetId: selectedDataset.value,
+                      runNumberIn: selectedRuns.map(item => item.value),
+                      modelIdIn: selectedModels.map(item => item.value)
+                    })
+                  }}
+                  nextOnClick={() => {
+                    fetchFlaggedBadLumis({
+                      nextToken,
+                      datasetId: selectedDataset.value,
+                      runNumberIn: selectedRuns.map(item => item.value),
+                      modelIdIn: selectedModels.map(item => item.value)
+                    })
+                  }}
+                />
+              </>
+            ) : (
+              <p>Waiting for inputs...</p>
+            )}
+          </Card.Body>
         </Card>
       </Col>
     </Row>

From f0f38945e456cfc4b2cc924f1773885ba74badc3 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Thu, 4 Jul 2024 15:34:18 +0200
Subject: [PATCH 21/30] chore: add helper `fill_ml_index` script to add mocked
 model metadata to the database

---
 etl/fill_ml_index.py | 92 ++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 92 insertions(+)
 create mode 100644 etl/fill_ml_index.py

diff --git a/etl/fill_ml_index.py b/etl/fill_ml_index.py
new file mode 100644
index 00000000..283334d8
--- /dev/null
+++ b/etl/fill_ml_index.py
@@ -0,0 +1,92 @@
+#!/usr/bin/env python
+
+from python.env import conn_str
+from python.models import DimMLModelsIndex
+from sqlalchemy import create_engine
+from sqlalchemy.engine.base import Engine
+from sqlalchemy.orm import sessionmaker
+
+
+def get_engine(workspace: str) -> Engine:
+    return create_engine(f"{conn_str}/{workspace}")
+
+
+def register_model(ws, model_metadata):
+    engine = get_engine(ws)
+    Session = sessionmaker(bind=engine)  # noqa: N806
+    with Session() as session:
+        model = DimMLModelsIndex(
+            filename=model_metadata["filename"],
+            target_me=model_metadata["target_me"],
+            thr=model_metadata["thr"],
+            active=model_metadata["active"],
+        )
+        session.add(model)
+        session.commit()
+
+
+if __name__ == "__main__":
+    models = [
+        {
+            "filename": "model_CHFrac_highPt_Barrel_checkpoint_20240517.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_highPt_Barrel",
+            "thr": 0.05,
+            "active": True,
+        },
+        {
+            "filename": "model_CHFrac_highPt_EndCap_checkpoint_20240517.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_highPt_EndCap",
+            "thr": 0.05,
+            "active": True,
+        },
+        {
+            "filename": "model_CHFrac_lowPt_Barrel_checkpoint_20240517.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_lowPt_Barrel",
+            "thr": 0.05,
+            "active": True,
+        },
+        {
+            "filename": "model_CHFrac_lowPt_EndCap_checkpoint_20240517.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_lowPt_EndCap",
+            "thr": 0.05,
+            "active": True,
+        },
+        {
+            "filename": "model_CHFrac_mediumPt_Barrel_checkpoint_20240517.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_mediumPt_Barrel",
+            "thr": 0.05,
+            "active": True,
+        },
+        {
+            "filename": "model_CHFrac_mediumPt_EndCap_checkpoint_20240517.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_mediumPt_EndCap",
+            "thr": 0.05,
+            "active": True,
+        },
+        {
+            "filename": "model_MET_2_checkpoint_20240517.onnx",
+            "target_me": "JetMET/MET/pfMETT1/Cleaned/MET_2",
+            "thr": 0.05,
+            "active": True,
+        },
+        {
+            "filename": "model_METPhi_checkpoint_20240517.onnx",
+            "target_me": "JetMET/MET/pfMETT1/Cleaned/METPhi",
+            "thr": 0.05,
+            "active": True,
+        },
+        {
+            "filename": "model_METSig_checkpoint_20240517.onnx",
+            "target_me": "JetMET/MET/pfMETT1/Cleaned/METSig",
+            "thr": 0.05,
+            "active": True,
+        },
+        {
+            "filename": "model_SumET_checkpoint_20240517.onnx",
+            "target_me": "JetMET/MET/pfMETT1/Cleaned/SumET",
+            "thr": 0.05,
+            "active": True,
+        },
+    ]
+    for model_metadata in models:
+        register_model("jetmet", model_metadata)

From 22cf97ef888918b706113a084a53155b9d04ccab Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Fri, 2 Aug 2024 14:52:56 +0200
Subject: [PATCH 22/30] refactor: remove thr from ml_models_index table and
 check anomalous lumisections directly on the model output

- Add mse column to bad lumisections table
---
 etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py | 2 +-
 etl/python/models/dim_ml_index.py                     | 1 -
 etl/python/models/ml_bad_lumis.py                     | 1 +
 etl/python/pipelines/file_ingesting/pipeline.py       | 1 -
 etl/python/pipelines/ml_inference/pipeline.py         | 5 +++--
 5 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py b/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
index 8140c964..1d51396e 100644
--- a/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
+++ b/etl/alembic/versions/bb3f9a1b3fa2_add_ml_bad_lumis.py
@@ -30,6 +30,7 @@ def fact_ml_bad_lumis() -> list:
         run_number INT,
         ls_number INT,
         me_id INT,
+        mse DOUBLE PRECISION,
         CONSTRAINT fact_ml_bad_lumis_pk PRIMARY KEY (model_id, dataset_id, run_number, ls_number, me_id)
     );
     """)
@@ -42,7 +43,6 @@ def dim_ml_models_index() -> list:
         model_id SERIAL,
         filename VARCHAR(255),
         target_me VARCHAR(255),
-        thr DOUBLE PRECISION,
         active BOOLEAN,
         CONSTRAINT dim_ml_models_index_pk PRIMARY KEY (model_id)
     );
diff --git a/etl/python/models/dim_ml_index.py b/etl/python/models/dim_ml_index.py
index 441b0610..84a64d54 100644
--- a/etl/python/models/dim_ml_index.py
+++ b/etl/python/models/dim_ml_index.py
@@ -11,7 +11,6 @@ class DimMLModelsIndex(Base):
     model_id = sa.Column("model_id", sa.BigInteger, autoincrement=True)
     filename = sa.Column("filename", sa.String(255))
     target_me = sa.Column("target_me", sa.String(255))
-    thr = sa.Column("thr", sa.Float)
     active = sa.Column("active", sa.Boolean)
 
     __table_args__ = (
diff --git a/etl/python/models/ml_bad_lumis.py b/etl/python/models/ml_bad_lumis.py
index d715ecc0..370b9d14 100644
--- a/etl/python/models/ml_bad_lumis.py
+++ b/etl/python/models/ml_bad_lumis.py
@@ -14,6 +14,7 @@ class FactMLBadLumis(Base):
     run_number = sa.Column("run_number", sa.Integer)
     ls_number = sa.Column("ls_number", sa.Integer)
     me_id = sa.Column("me_id", sa.Integer)
+    mse = sa.Column("mse", sa.Float)
 
     __table_args__ = (
         sa.PrimaryKeyConstraint("model_id", "dataset_id", "run_number", "ls_number", "me_id"),
diff --git a/etl/python/pipelines/file_ingesting/pipeline.py b/etl/python/pipelines/file_ingesting/pipeline.py
index da18b0f0..b21b0b0b 100644
--- a/etl/python/pipelines/file_ingesting/pipeline.py
+++ b/etl/python/pipelines/file_ingesting/pipeline.py
@@ -56,7 +56,6 @@ def pipeline(workspace_name: str, workspace_mes: str, file_id: int, dataset_id:
             workspace_name=workspace_name,
             model_id=model.model_id,
             model_file=model.filename,
-            thr=model.thr,
             target_me=model.target_me,
             dataset_id=dataset_id,
             file_id=file_id,
diff --git a/etl/python/pipelines/ml_inference/pipeline.py b/etl/python/pipelines/ml_inference/pipeline.py
index 126135fb..b253f395 100644
--- a/etl/python/pipelines/ml_inference/pipeline.py
+++ b/etl/python/pipelines/ml_inference/pipeline.py
@@ -13,7 +13,6 @@ def pipeline(
     workspace_name: str,
     model_id: int,
     model_file: str,
-    thr: float,
     target_me: str,
     dataset_id: int,
     file_id: int,
@@ -41,7 +40,8 @@ def pipeline(
     bad_lumis = []
     for idx, ls_number in enumerate(lss_.flatten()):
         mse = preds[1][idx]
-        if mse >= thr:
+        is_anomaly = bool(preds[2][idx])
+        if is_anomaly:
             bad_lumis.append(
                 {
                     "model_id": model_id,
@@ -50,6 +50,7 @@ def pipeline(
                     "run_number": hists[idx].run_number,
                     "ls_number": ls_number,
                     "me_id": me.me_id,
+                    "mse": mse,
                 }
             )
 

From 9e8826c0623537bcb0b582435bc76264281b56c2 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Fri, 2 Aug 2024 14:53:40 +0200
Subject: [PATCH 23/30] chore: update fill ml index script with newer models
 and remove thr entry

---
 etl/fill_ml_index.py | 79 +++++++++++++++++++++++++++++++++-----------
 1 file changed, 59 insertions(+), 20 deletions(-)

diff --git a/etl/fill_ml_index.py b/etl/fill_ml_index.py
index 283334d8..5b246fe1 100644
--- a/etl/fill_ml_index.py
+++ b/etl/fill_ml_index.py
@@ -18,7 +18,6 @@ def register_model(ws, model_metadata):
         model = DimMLModelsIndex(
             filename=model_metadata["filename"],
             target_me=model_metadata["target_me"],
-            thr=model_metadata["thr"],
             active=model_metadata["active"],
         )
         session.add(model)
@@ -30,61 +29,101 @@ def register_model(ws, model_metadata):
         {
             "filename": "model_CHFrac_highPt_Barrel_checkpoint_20240517.onnx",
             "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_highPt_Barrel",
-            "thr": 0.05,
-            "active": True,
+            "active": False,
         },
         {
             "filename": "model_CHFrac_highPt_EndCap_checkpoint_20240517.onnx",
             "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_highPt_EndCap",
-            "thr": 0.05,
-            "active": True,
+            "active": False,
         },
         {
             "filename": "model_CHFrac_lowPt_Barrel_checkpoint_20240517.onnx",
             "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_lowPt_Barrel",
-            "thr": 0.05,
-            "active": True,
+            "active": False,
         },
         {
             "filename": "model_CHFrac_lowPt_EndCap_checkpoint_20240517.onnx",
             "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_lowPt_EndCap",
-            "thr": 0.05,
-            "active": True,
+            "active": False,
         },
         {
             "filename": "model_CHFrac_mediumPt_Barrel_checkpoint_20240517.onnx",
             "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_mediumPt_Barrel",
-            "thr": 0.05,
-            "active": True,
+            "active": False,
         },
         {
             "filename": "model_CHFrac_mediumPt_EndCap_checkpoint_20240517.onnx",
             "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_mediumPt_EndCap",
-            "thr": 0.05,
-            "active": True,
+            "active": False,
         },
         {
             "filename": "model_MET_2_checkpoint_20240517.onnx",
             "target_me": "JetMET/MET/pfMETT1/Cleaned/MET_2",
-            "thr": 0.05,
-            "active": True,
+            "active": False,
         },
         {
             "filename": "model_METPhi_checkpoint_20240517.onnx",
             "target_me": "JetMET/MET/pfMETT1/Cleaned/METPhi",
-            "thr": 0.05,
-            "active": True,
+            "active": False,
         },
         {
             "filename": "model_METSig_checkpoint_20240517.onnx",
             "target_me": "JetMET/MET/pfMETT1/Cleaned/METSig",
-            "thr": 0.05,
-            "active": True,
+            "active": False,
         },
         {
             "filename": "model_SumET_checkpoint_20240517.onnx",
             "target_me": "JetMET/MET/pfMETT1/Cleaned/SumET",
-            "thr": 0.05,
+            "active": False,
+        },
+        {
+            "filename": "model_CHFrac_highPt_Barrel_checkpoint_20240720.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_highPt_Barrel",
+            "active": True,
+        },
+        {
+            "filename": "model_CHFrac_highPt_EndCap_checkpoint_20240720.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_highPt_EndCap",
+            "active": True,
+        },
+        {
+            "filename": "model_CHFrac_lowPt_Barrel_checkpoint_20240720.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_lowPt_Barrel",
+            "active": True,
+        },
+        {
+            "filename": "model_CHFrac_lowPt_EndCap_checkpoint_20240720.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_lowPt_EndCap",
+            "active": True,
+        },
+        {
+            "filename": "model_CHFrac_mediumPt_Barrel_checkpoint_20240720.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_mediumPt_Barrel",
+            "active": True,
+        },
+        {
+            "filename": "model_CHFrac_mediumPt_EndCap_checkpoint_20240720.onnx",
+            "target_me": "JetMET/Jet/Cleanedak4PFJetsCHS/CHFrac_mediumPt_EndCap",
+            "active": True,
+        },
+        {
+            "filename": "model_MET_2_checkpoint_20240720.onnx",
+            "target_me": "JetMET/MET/pfMETT1/Cleaned/MET_2",
+            "active": True,
+        },
+        {
+            "filename": "model_METPhi_checkpoint_20240720.onnx",
+            "target_me": "JetMET/MET/pfMETT1/Cleaned/METPhi",
+            "active": True,
+        },
+        {
+            "filename": "model_METSig_checkpoint_20240720.onnx",
+            "target_me": "JetMET/MET/pfMETT1/Cleaned/METSig",
+            "active": True,
+        },
+        {
+            "filename": "model_SumET_checkpoint_20240720.onnx",
+            "target_me": "JetMET/MET/pfMETT1/Cleaned/SumET",
             "active": True,
         },
     ]

From 17c302a2598362fe9454eee9033e67dd25383f17 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Fri, 2 Aug 2024 14:54:07 +0200
Subject: [PATCH 24/30] refactor: remove ml models thr from backend and add bad
 lumisection mse

---
 backend/ml_bad_lumisection/models.py   |  1 +
 backend/ml_bad_lumisection/viewsets.py |  3 ++-
 backend/ml_models_index/models.py      |  1 -
 backend/static/swagger.json            | 12 ++++++------
 4 files changed, 9 insertions(+), 8 deletions(-)

diff --git a/backend/ml_bad_lumisection/models.py b/backend/ml_bad_lumisection/models.py
index ed81abd6..5c0cd5d5 100644
--- a/backend/ml_bad_lumisection/models.py
+++ b/backend/ml_bad_lumisection/models.py
@@ -16,6 +16,7 @@ class MLBadLumisection(models.Model):
     run_number = models.IntegerField()
     ls_number = models.IntegerField()
     me_id = models.IntegerField()
+    mse = models.FloatField()
 
     class Meta:
         managed = False
diff --git a/backend/ml_bad_lumisection/viewsets.py b/backend/ml_bad_lumisection/viewsets.py
index 3532dcf4..785ba7de 100644
--- a/backend/ml_bad_lumisection/viewsets.py
+++ b/backend/ml_bad_lumisection/viewsets.py
@@ -109,12 +109,13 @@ def generate_certificate_json(self, request):
                 response[run][ls] = []
                 predictions_in_ls = [res for res in predictions_in_run if res.get("ls_number") == ls]
                 for preds in predictions_in_ls:
+                    mse = preds.get("mse")
                     model_id = preds.get("model_id")
                     me_id = preds.get("me_id")
                     filename = models[model_id].get("filename")
                     target_me = models[model_id].get("target_me")
                     response[run][ls].append(
-                        {"model_id": model_id, "me_id": me_id, "filename": filename, "me": target_me}
+                        {"model_id": model_id, "me_id": me_id, "filename": filename, "me": target_me, "mse": mse}
                     )
 
         return Response(response)
diff --git a/backend/ml_models_index/models.py b/backend/ml_models_index/models.py
index 25c5b000..ccf78522 100644
--- a/backend/ml_models_index/models.py
+++ b/backend/ml_models_index/models.py
@@ -7,7 +7,6 @@ class MLModelsIndex(models.Model):
     model_id = models.IntegerField(primary_key=True)
     filename = models.CharField(max_length=255)
     target_me = models.CharField(max_length=255)
-    thr = models.FloatField()
     active = models.BooleanField()
 
     class Meta:
diff --git a/backend/static/swagger.json b/backend/static/swagger.json
index d0d104e9..601d2717 100644
--- a/backend/static/swagger.json
+++ b/backend/static/swagger.json
@@ -3084,9 +3084,6 @@
             "type": "string",
             "maxLength": 255
           },
-          "thr": {
-            "type": "number"
-          },
           "active": {
             "type": "boolean"
           }
@@ -3095,7 +3092,6 @@
           "model_id",
           "filename",
           "target_me",
-          "thr",
           "active"
         ]
       },
@@ -3134,7 +3130,10 @@
             "type": "integer",
             "maximum": 2147483647,
             "minimum": -2147483648
-          }
+          },
+          "mse": {
+            "type": "number"
+          },
         },
         "required": [
           "model_id",
@@ -3142,7 +3141,8 @@
           "file_id",
           "run_number",
           "ls_number",
-          "me_id"
+          "me_id",
+          "mse"
         ]
       },
       "MLBadLumisectionCertJson": {

From 37348bfccdb8430a57242b4f666bb91199812ae6 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Fri, 2 Aug 2024 14:54:33 +0200
Subject: [PATCH 25/30] refactor: display bad luimisection mse in frontend

---
 frontend/src/views/machineLearning/predictions.jsx | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/frontend/src/views/machineLearning/predictions.jsx b/frontend/src/views/machineLearning/predictions.jsx
index 79161e05..b01c7639 100644
--- a/frontend/src/views/machineLearning/predictions.jsx
+++ b/frontend/src/views/machineLearning/predictions.jsx
@@ -61,6 +61,11 @@ const Predictions = () => {
         return <Link to={linkTo}>{row.me}</Link>
       },
     },
+    {
+      dataField: 'mse',
+      text: 'MSE',
+      type: 'number',
+    },
   ]
 
   const genericFetchAllPages = async ({ apiMethod, params = {} }) => {

From fd2c19e05f7664c9cad3e76b1622c9a953b724d7 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Fri, 2 Aug 2024 14:55:05 +0200
Subject: [PATCH 26/30] fix: add missing MODEL_REGISTRY_PATH env to etl secrets
 template

---
 oc/prod/secrets/etl.yaml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/oc/prod/secrets/etl.yaml b/oc/prod/secrets/etl.yaml
index bba64dfe..fee6de48 100644
--- a/oc/prod/secrets/etl.yaml
+++ b/oc/prod/secrets/etl.yaml
@@ -15,3 +15,4 @@ data:
   MOUNTED_EOS_PATH:
   FLOWER_BASIC_AUTH:
   ETL_CONFIG_FPATH:
+  MODEL_REGISTRY_PATH:

From b0f61cb57ee3ab62f80ee338b4d7427920c7570f Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Fri, 2 Aug 2024 17:35:05 +0200
Subject: [PATCH 27/30] feat: add ml_inference_pipeine_task

---
 etl/python/celery/celeryconfig.py          | 1 +
 etl/python/pipelines/ml_inference/tasks.py | 9 +++++++++
 2 files changed, 10 insertions(+)
 create mode 100644 etl/python/pipelines/ml_inference/tasks.py

diff --git a/etl/python/celery/celeryconfig.py b/etl/python/celery/celeryconfig.py
index ff34c21e..8250d465 100644
--- a/etl/python/celery/celeryconfig.py
+++ b/etl/python/celery/celeryconfig.py
@@ -17,4 +17,5 @@
     "python.pipelines.dataset_indexer.tasks",
     "python.pipelines.file_indexer.tasks",
     "python.pipelines.file_ingesting.tasks",
+    "python.pipelines.ml_inference.tasks",
 )
diff --git a/etl/python/pipelines/ml_inference/tasks.py b/etl/python/pipelines/ml_inference/tasks.py
new file mode 100644
index 00000000..73a26239
--- /dev/null
+++ b/etl/python/pipelines/ml_inference/tasks.py
@@ -0,0 +1,9 @@
+from ...celery import app
+from .pipeline import pipeline
+
+
+@app.task(
+    name="ml_inference_pipeline",
+)
+def ml_inference_pipeline_task(**kwargs):
+    pipeline(**kwargs)

From e9716999a0f5c79528a36bd037be6611802864ff Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Fri, 2 Aug 2024 20:59:43 +0200
Subject: [PATCH 28/30] chore: add helper script to trigger active ml models
 evalution on all files of a dataset

---
 etl/run_ml_on_old_files.py | 80 ++++++++++++++++++++++++++++++++++++++
 1 file changed, 80 insertions(+)
 create mode 100644 etl/run_ml_on_old_files.py

diff --git a/etl/run_ml_on_old_files.py b/etl/run_ml_on_old_files.py
new file mode 100644
index 00000000..f0144946
--- /dev/null
+++ b/etl/run_ml_on_old_files.py
@@ -0,0 +1,80 @@
+#!/usr/bin/env python
+
+import argparse
+
+from python.config import workspaces
+from python.env import conn_str
+from python.models import FactDatasetIndex, FactFileIndex, FactMLBadLumis
+from python.models.file_index import StatusCollection
+from python.pipelines.file_ingesting.utils import fetch_active_models
+from python.pipelines.ml_inference.pipeline import pipeline as ml_pipeline
+from python.pipelines.ml_inference.tasks import ml_inference_pipeline_task
+from sqlalchemy import create_engine
+from sqlalchemy.engine.base import Engine
+from sqlalchemy.orm import sessionmaker
+
+
+def get_ws_bulk_queue_name():
+    ws = next(filter(lambda x: x["name"] == args.workspace_name, workspaces), None)
+    return ws["bulk_ingesting_queue"]
+
+
+def get_dataset(engine: Engine, dataset_name: str):
+    sess = sessionmaker(bind=engine)
+    with sess() as session:
+        return session.query(FactDatasetIndex).filter(FactDatasetIndex.dataset == dataset_name).one()
+
+
+def get_finished_files(engine: Engine, dataset_id: int):
+    sess = sessionmaker(bind=engine)
+    with sess() as session:
+        query = session.query(FactFileIndex).filter(
+            FactFileIndex.dataset_id == dataset_id, FactFileIndex.status == StatusCollection.FINISHED
+        )
+        return query.all()
+
+
+def get_existing_preds(engine: Engine, models_ids: list[int], dataset_id: int, files_ids: list[int]):
+    sess = sessionmaker(bind=engine)
+    with sess() as session:
+        query = session.query(FactMLBadLumis).filter(
+            FactMLBadLumis.model_id.in_(models_ids),
+            FactMLBadLumis.dataset_id == dataset_id,
+            FactMLBadLumis.file_id.in_(files_ids),
+        )
+        return [(res.model_id, res.dataset_id, res.file_id) for res in query.all()]
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Simple script to trigger ML jobs in old files")
+    parser.add_argument("-w", "--workspace-name", type=str, required=True)
+    parser.add_argument("-d", "--dataset-name", type=str, required=True)
+    parser.add_argument("-n", "--no-queue", action="store_true")
+    args = parser.parse_args()
+
+    queue = get_ws_bulk_queue_name()
+    engine = create_engine(f"{conn_str}/{args.workspace_name}")
+    dataset = get_dataset(engine, args.dataset_name)
+    files = get_finished_files(engine, dataset.dataset_id)
+    active_models = fetch_active_models(engine)
+    existing_preds = get_existing_preds(
+        engine, [model.model_id for model in active_models], dataset.dataset_id, [file.file_id for file in files]
+    )
+    for file in files:
+        for model in active_models:
+            pred_tuple = (model.model_id, dataset.dataset_id, file.file_id)
+            if pred_tuple in existing_preds:
+                print("IGNORING", pred_tuple)
+                continue
+            kwargs = {
+                "workspace_name": args.workspace_name,
+                "model_id": model.model_id,
+                "model_file": model.filename,
+                "target_me": model.target_me,
+                "dataset_id": file.dataset_id,
+                "file_id": file.file_id,
+            }
+            if args.no_queue:
+                ml_pipeline(**kwargs)
+            else:
+                ml_inference_pipeline_task.apply_async(kwargs=kwargs, queue=queue)

From bf39b972097273ce07048d79c9d87807b9b1e569 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Mon, 5 Aug 2024 14:54:07 +0200
Subject: [PATCH 29/30] refactor: optimize backend image and fix  JSON args
 warning

---
 backend/Dockerfile | 17 +++++++++--------
 1 file changed, 9 insertions(+), 8 deletions(-)

diff --git a/backend/Dockerfile b/backend/Dockerfile
index ab040f52..b3c9bd2b 100644
--- a/backend/Dockerfile
+++ b/backend/Dockerfile
@@ -44,16 +44,17 @@ ENV USERNAME=app
 ENV HOME=/home/$USERNAME
 ENV APP_HOME=$HOME/backend
 
-RUN mkdir -p $HOME
-RUN mkdir $APP_HOME
-RUN addgroup --system --gid $GID $USERNAME && adduser --system --ingroup $USERNAME --uid $UID $USERNAME
+RUN mkdir -p $HOME \
+    && mkdir $APP_HOME \
+    && addgroup --system --gid $GID $USERNAME \
+    && adduser --system --ingroup $USERNAME --uid $UID $USERNAME
 
 WORKDIR $APP_HOME
 
 COPY --from=builder /usr/src/build/wheels /wheels
 COPY --from=builder /usr/src/build/requirements.txt .
-RUN pip3 install --upgrade pip
-RUN pip3 install --no-cache /wheels/*
+RUN pip3 install --upgrade pip \
+    && pip3 install --no-cache /wheels/*
 
 COPY backend $APP_HOME
 
@@ -61,9 +62,9 @@ RUN chown -R $USERNAME:$USERNAME $APP_HOME
 
 USER $USERNAME
 
-RUN python -m compileall dials
-RUN $APP_HOME/scripts/setup-django-production.sh
+RUN python -m compileall dials \
+    && $APP_HOME/scripts/setup-django-production.sh
 
 EXPOSE 8000
 
-CMD ${APP_HOME}/scripts/run-django-production.sh
+CMD ["./scripts/run-django-production.sh"]

From 256fa5777964beede9ab892752fc7bc709ac3696 Mon Sep 17 00:00:00 2001
From: Gabriel Moreira <gabrielmscampos@gmail.com>
Date: Mon, 5 Aug 2024 14:54:20 +0200
Subject: [PATCH 30/30] chore: add helper scripts to manage etl pods

---
 scripts/scale-down-etl.sh | 39 +++++++++++++++++++++++++++++++++++++++
 scripts/scale-up-etl.sh   | 39 +++++++++++++++++++++++++++++++++++++++
 2 files changed, 78 insertions(+)
 create mode 100755 scripts/scale-down-etl.sh
 create mode 100755 scripts/scale-up-etl.sh

diff --git a/scripts/scale-down-etl.sh b/scripts/scale-down-etl.sh
new file mode 100755
index 00000000..0d2dc328
--- /dev/null
+++ b/scripts/scale-down-etl.sh
@@ -0,0 +1,39 @@
+#!/bin/bash
+
+oc scale --replicas=0 deployment/common-indexer
+oc scale --replicas=0 deployment/common-redbeat
+oc scale --replicas=0 deployment/flower
+oc scale --replicas=0 deployment/csc-bulk
+oc scale --replicas=0 deployment/csc-priority
+oc scale --replicas=0 deployment/ecal-bulk
+oc scale --replicas=0 deployment/ecal-priority
+oc scale --replicas=0 deployment/hcal-bulk
+oc scale --replicas=0 deployment/hcal-priority
+oc scale --replicas=0 deployment/hi-forward0-downloader-bulk
+oc scale --replicas=0 deployment/hi-forward0-downloader-priority
+oc scale --replicas=0 deployment/hi-physics-raw-prime0-downloader-bulk
+oc scale --replicas=0 deployment/hi-physics-raw-prime0-downloader-priority
+oc scale --replicas=0 deployment/jetmet-bulk
+oc scale --replicas=0 deployment/jetmet-downloader-bulk
+oc scale --replicas=0 deployment/jetmet-downloader-priority
+oc scale --replicas=0 deployment/jetmet-priority
+oc scale --replicas=0 deployment/jetmet0-downloader-bulk
+oc scale --replicas=0 deployment/jetmet0-downloader-priority
+oc scale --replicas=0 deployment/muon-downloader-bulk
+oc scale --replicas=0 deployment/muon-downloader-priority
+oc scale --replicas=0 deployment/muon0-downloader-bulk
+oc scale --replicas=0 deployment/muon0-downloader-priority
+oc scale --replicas=0 deployment/stream-express-downloader-bulk
+oc scale --replicas=0 deployment/stream-express-downloader-priority
+oc scale --replicas=0 deployment/stream-hi-express-raw-prime-downloader-bulk
+oc scale --replicas=0 deployment/stream-hi-express-raw-prime-downloader-priority
+oc scale --replicas=0 deployment/tracker-bulk
+oc scale --replicas=0 deployment/tracker-priority
+oc scale --replicas=0 deployment/zerobias-downloader-bulk
+oc scale --replicas=0 deployment/zerobias-downloader-priority
+oc scale --replicas=0 deployment/egamma0-downloader-bulk
+oc scale --replicas=0 deployment/egamma0-downloader-priority
+oc scale --replicas=0 deployment/private-bulk
+oc scale --replicas=0 deployment/private-downloader-bulk
+oc scale --replicas=0 deployment/egamma-bulk
+oc scale --replicas=0 deployment/egamma-priority
diff --git a/scripts/scale-up-etl.sh b/scripts/scale-up-etl.sh
new file mode 100755
index 00000000..790de2cc
--- /dev/null
+++ b/scripts/scale-up-etl.sh
@@ -0,0 +1,39 @@
+#!/bin/bash
+
+oc scale --replicas=1 deployment/common-indexer
+oc scale --replicas=1 deployment/common-redbeat
+oc scale --replicas=1 deployment/flower
+oc scale --replicas=1 deployment/csc-bulk
+oc scale --replicas=1 deployment/csc-priority
+oc scale --replicas=1 deployment/ecal-bulk
+oc scale --replicas=1 deployment/ecal-priority
+oc scale --replicas=1 deployment/hcal-bulk
+oc scale --replicas=1 deployment/hcal-priority
+oc scale --replicas=1 deployment/hi-forward0-downloader-bulk
+oc scale --replicas=1 deployment/hi-forward0-downloader-priority
+oc scale --replicas=1 deployment/hi-physics-raw-prime0-downloader-bulk
+oc scale --replicas=1 deployment/hi-physics-raw-prime0-downloader-priority
+oc scale --replicas=1 deployment/jetmet-bulk
+oc scale --replicas=1 deployment/jetmet-downloader-bulk
+oc scale --replicas=1 deployment/jetmet-downloader-priority
+oc scale --replicas=1 deployment/jetmet-priority
+oc scale --replicas=1 deployment/jetmet0-downloader-bulk
+oc scale --replicas=1 deployment/jetmet0-downloader-priority
+oc scale --replicas=1 deployment/muon-downloader-bulk
+oc scale --replicas=1 deployment/muon-downloader-priority
+oc scale --replicas=1 deployment/muon0-downloader-bulk
+oc scale --replicas=1 deployment/muon0-downloader-priority
+oc scale --replicas=1 deployment/stream-express-downloader-bulk
+oc scale --replicas=1 deployment/stream-express-downloader-priority
+oc scale --replicas=1 deployment/stream-hi-express-raw-prime-downloader-bulk
+oc scale --replicas=1 deployment/stream-hi-express-raw-prime-downloader-priority
+oc scale --replicas=1 deployment/tracker-bulk
+oc scale --replicas=1 deployment/tracker-priority
+oc scale --replicas=1 deployment/zerobias-downloader-bulk
+oc scale --replicas=1 deployment/zerobias-downloader-priority
+oc scale --replicas=1 deployment/egamma0-downloader-bulk
+oc scale --replicas=1 deployment/egamma0-downloader-priority
+oc scale --replicas=1 deployment/private-bulk
+oc scale --replicas=1 deployment/private-downloader-bulk
+oc scale --replicas=1 deployment/egamma-bulk
+oc scale --replicas=1 deployment/egamma-priority