new info added from smt

nataliarodriguez-uc · nataliarodriguez-uc · commit c5daf347df52 · 2025-08-23T13:03:56.000-07:00
diff --git a/src/hiopbbpy/opt/bnb/BODemoNLP.ipynb b/src/hiopbbpy/opt/bnb/BODemoNLP.ipynb
@@ -878,6 +878,7 @@
    "source": [
     "import numpy as np\n",
     "import cvxpy as cp\n",
+    "from scipy import linalg\n",
     "\n",
     "class BnBAlgorithmBase:\n",
     "    def __init__(self, x=None, y=None):\n",
@@ -917,56 +918,49 @@
     "        self.x = x\n",
     "        self.y = y\n",
     "\n",
-    "    def sync_kernel_from_smt(self):\n",
-    "        corr_map = {\n",
-    "            \"pow_exp\": \"pow_exp\",     # treat as Gaussian if power=2\n",
-    "            \"squar_exp\": \"pow_exp\",   # SMT sometimes uses this name for Gaussian\n",
-    "            \"abs_exp\": \"matern12\",    # ν = 1/2\n",
-    "            \"matern32\": \"matern32\",\n",
-    "            \"matern52\": \"matern52\",\n",
-    "        }\n",
+    "    def sync_from_smt(self):\n",
     "        \n",
-    "        corr_type = self.gpsurrogate.surrogatesmt.options[\"corr\"]\n",
-    "        self.kernel_spec = corr_map[corr_type]\n",
-    "        self.set_kernel(self.kernel_spec)\n",
-    "        self.theta = np.asarray(self.gpsurrogate.surrogatesmt.corr.theta, dtype=float)\n",
-    "\n",
-    "        # If pow_exp, ensure it's actually Gaussian (power=2); otherwise raise.\n",
-    "        if corr_type == \"pow_exp\":\n",
-    "            power = getattr(self.gpsurrogate.surrogatesmt.options, \"pow_exp_power\", 2)\n",
-    "            if power != 2:\n",
-    "                raise ValueError(f\"pow_exp_power={power} not supported in isotropic form; need power=2 for SE.\")\n",
-    "\n",
-    "        # Map θ (SMT) -> ℓ for ARD scaling used in d\n",
-    "        if self.kernel_spec == \"pow_exp\":       # Gaussian\n",
-    "            self.ell = 1.0 / np.sqrt(self.theta)\n",
-    "        else:                                    # Matérn family\n",
-    "            self.ell = 1.0 / self.theta\n",
-    "    \n",
-    "    def sync_smt_parameterts(self):\n",
-    "\n",
     "        sm = self.gpsurrogate.surrogatesmt\n",
+    "        par = sm.optimal_par\n",
     "\n",
-    "        # --- map SMT corr name to the 5 supported kernels ---\n",
-    "        corr_map = {\n",
-    "            \"pow_exp\":  \"pow_exp\",    # power-exponential (Gaussian if power=2)\n",
-    "            \"squar_exp\":\"pow_exp\",    # SMT alias for Gaussian\n",
-    "            \"abs_exp\":  \"matern12\",   # exp(-sum θ|dx|)  == Matérn ν=1/2 product\n",
-    "            \"matern32\": \"matern32\",\n",
-    "            \"matern52\": \"matern52\",\n",
-    "        }\n",
-    "\n",
-    "        corr_type = sm.options[\"corr\"]\n",
-    "        if corr_type not in corr_map:\n",
-    "            raise ValueError(f\"Unsupported SMT corr '{corr_type}' for kernel bounds.\")\n",
-    "        self.kernel_spec = corr_map[corr_type]\n",
+    "        corr = sm.options[\"corr\"]\n",
+    "        if corr in (\"squar_exp\", \"pow_exp\"):\n",
+    "            p = float(sm.options.get(\"pow_exp_power\", 2.0))\n",
+    "            if abs(p - 2.0) > 1e-12:\n",
+    "                raise ValueError(\"Single-d bounds support pow_exp only for p=1 or p=2\")\n",
+    "            self.kernel_spec = \"pow_exp\"\n",
+    "            self.p = p  # 1 (abs-exp) or 2 (SE)\n",
+    "        elif corr == \"abs_exp\":\n",
+    "            self.kernel_spec = \"pow_exp\"\n",
+    "            self.p = 1.0\n",
+    "        elif corr == \"matern32\":\n",
+    "            self.kernel_spec = \"matern32\"\n",
+    "        elif corr == \"matern52\":\n",
+    "            self.kernel_spec = \"matern52\"\n",
+    "        else:\n",
+    "            raise ValueError(f\"Unsupported SMT corr '{corr}'\")\n",
     "\n",
-    "        # --- pull trained hyperparams (prefer optimal_theta) ---\n",
     "        theta = getattr(sm, \"optimal_theta\", None)\n",
-    "        if theta is None:\n",
-    "            theta = sm.corr.theta\n",
-    "        self.theta = np.asarray(theta, dtype=float).ravel()\n",
+    "        if theta is None: theta = sm.corr.theta\n",
+    "        self.theta = np.asarray(theta, float).ravel()\n",
+    "\n",
+    "        self.X_offset, self.X_scale = sm.X_offset, sm.X_scale\n",
+    "        self.Xc = (sm.X - self.X_offset) / self.X_scale  # normalized training inputs\n",
+    "        self._normalize = lambda x: (np.asarray(x, float) - self.X_offset) / self.X_scale\n",
+    "       \n",
+    "        if sm.options[\"poly\"] != \"constant\":\n",
+    "            raise NotImplementedError(\"μ-bounds assume poly='constant'\")\n",
+    "        self.beta0 = float(np.asarray(par[\"beta\"]).ravel()[0])\n",
+    "        self.gamma = np.asarray(par[\"gamma\"], float).ravel()\n",
     "\n",
+    "       \n",
+    "        # --- Correlation factor and process variance ---\n",
+    "        self.C      = par[\"C\"]                                               # Cholesky of R (lower)\n",
+    "        self.sigma2 = float(par.get(\"sigma2\", 1.0))\n",
+    "        self.sigma2_ri = float(par.get(\"sigma2_ri\", self.sigma2))            # usually same unless RI\n",
+    "\n",
+    "        # Fast primitive: triangular solve with C (prefer this over forming R^{-1})\n",
+    "        self._solve_C = lambda v: linalg.solve_triangular(self.C, v, lower=True)          \n",
     "\n",
     "    def set_kernel(self, kernel_spec):\n",
     "\n",
@@ -990,109 +984,148 @@
     "                (1 + np.sqrt(5) * np.sqrt(d) + (5/3) * d) *\n",
     "                np.exp(-np.sqrt(5) * np.sqrt(d))\n",
     "            )\n",
-    "\n",
-    "\n",
-    "    def set_covmatrix(self, x):\n",
-    "\n",
-    "        n = x.shape[0]\n",
-    "        ell = np.asarray(self.ell, dtype=float)\n",
-    "        nugget = float(self.gpsurrogate.surrogatesmt.options['nugget'])\n",
-    "        self.K = np.zeros((n, n))\n",
+    "    \n",
+    "    def ker_bounds(self, l, u):\n",
     "        \n",
-    "        # Compute symmetric kernel matrix\n",
-    "        for i in range(n):\n",
-    "            for j in range(i, n):\n",
-    "\n",
-    "                d = np.sum(((x[i] - x[j]) / ell)**2) \n",
-    "                \n",
-    "                self.K[i, j] = self.kernel_func(d)\n",
-    "                self.K[j, i] = self.K[i, j]\n",
-    "\n",
-    "        # Add nugget for stability\n",
-    "        self.K += nugget * np.eye(n)\n",
-    "\n",
-    "        # --- Compute inverse ---\n",
-    "        try:\n",
-    "            self.K_inv = np.linalg.inv(self.K)\n",
-    "            #print(\"K_inv:\\n\", self.K_inv)\n",
-    "        except np.linalg.LinAlgError:\n",
-    "            print(\"ERROR: Singular K detected, cannot invert.\")\n",
+    "        \"\"\"\n",
+    "        Tight monotone bounds for k(x, X_i) over box [l,u] (original units).\n",
+    "        Returns kL, kU of shape (nt,), consistent with SMT’s kernels.\n",
+    "        \"\"\"\n",
+    "        \n",
+    "        # normalize the box\n",
+    "        l_c = self._normalize(l).ravel()\n",
+    "        u_c = self._normalize(u).ravel()\n",
     "\n",
-    "    def ker_bounds(self, x, l, u):\n",
+    "        Xc  = self.Xc                # (nt, d)\n",
+    "        th  = self.theta.ravel()     # (d,)\n",
+    "        spec = self.kernel_spec\n",
     "\n",
-    "        ell = np.asarray(self.ell)\n",
-    "        kL, kU = [], []\n",
+    "        # per-point, per-dimension distance extremes (normalized space)\n",
+    "        dmin = np.maximum(0.0, np.maximum(l_c - Xc, Xc - u_c))        # (nt,d)\n",
+    "        dmax = np.maximum(np.abs(l_c - Xc), np.abs(u_c - Xc))         # (nt,d)\n",
     "\n",
-    "        for xi in x:\n",
+    "        if spec == \"pow_exp\":\n",
+    "            # power-exponential: k = exp(-sum_j θ_j |dx_j|^p)\n",
+    "            p = getattr(self, \"p\", 2.0)\n",
+    "            s_min = (th * (dmin ** p)).sum(axis=1)\n",
+    "            s_max = (th * (dmax ** p)).sum(axis=1)\n",
+    "            kU = np.exp(-s_min)                                       # max on box\n",
+    "            kL = np.exp(-s_max)                                       # min on box\n",
     "\n",
-    "            # per-dim nearest/farthest distances to the box\n",
-    "            dmin = np.maximum(0.0, np.maximum(l - xi, xi - u))     # (d,)\n",
-    "            dmax = np.maximum(np.abs(l - xi), np.abs(u - xi))      # (d,)\n",
+    "        elif spec == \"matern12\":\n",
+    "            # Matérn ν=1/2 (a.k.a. abs-exp): k = exp(-sum_j θ_j |dx_j|)\n",
+    "            s_min = (th * dmin).sum(axis=1)\n",
+    "            s_max = (th * dmax).sum(axis=1)\n",
+    "            kU = np.exp(-s_min)\n",
+    "            kL = np.exp(-s_max)\n",
     "\n",
-    "            d_L = np.sum((dmax / ell)**2)   # largest distance -> lower kernel\n",
-    "            d_U = np.sum((dmin / ell)**2)   # smallest distance -> upper kernel\n",
+    "        elif spec == \"matern32\":\n",
+    "            # SMT separable form: ∏_j (1 + √3 θ_j |dx_j|) exp(-√3 θ_j |dx_j|)\n",
+    "            a = np.sqrt(3.0) * th\n",
+    "            gmin = (1 + a * dmin) * np.exp(-a * dmin)\n",
+    "            gmax = (1 + a * dmax) * np.exp(-a * dmax)\n",
+    "            kU = np.prod(gmin, axis=1)\n",
+    "            kL = np.prod(gmax, axis=1)\n",
     "\n",
-    "            kL.append(self.kernel_func(d_L))\n",
-    "            kU.append(self.kernel_func(d_U))\n",
+    "        elif spec == \"matern52\":\n",
+    "            # SMT separable form: ∏_j (1 + √5 θ_j |dx_j| + (5/3) θ_j^2 dx_j^2) exp(-√5 θ_j |dx_j|)\n",
+    "            b = np.sqrt(5.0) * th\n",
+    "            btmin, btmax = b * dmin, b * dmax\n",
+    "            gmin = (1 + btmin + (btmin**2)/3.0) * np.exp(-btmin)\n",
+    "            gmax = (1 + btmax + (btmax**2)/3.0) * np.exp(-btmax)\n",
+    "            kU = np.prod(gmin, axis=1)\n",
+    "            kL = np.prod(gmax, axis=1)\n",
     "\n",
-    "        return np.array(kL), np.array(kU)\n",
+    "        else:\n",
+    "            raise ValueError(f\"Unsupported kernel_spec: {spec}\")\n",
     "\n",
+    "        return kL, kU\n",
     "\n",
-    "    def mu_bounds(self, y, kL, kU):\n",
+    "    def mu_bounds(self, kL, kU):\n",
     "\n",
-    "        alpha = self.K_inv @ y\n",
-    "        mu_U = np.sum(alpha * np.where(alpha >= 0, kU, kL))\n",
-    "        mu_L = np.sum(alpha * np.where(alpha >= 0, kL, kU))\n",
+    "        lo = np.where(self.gamma >= 0.0, kL, kU)\n",
+    "        hi = np.where(self.gamma >= 0.0, kU, kL)\n",
     "\n",
+    "        mu_L = self.beta0 + float(np.dot(self.gamma, lo))\n",
+    "        mu_U = self.beta0 + float(np.dot(self.gamma, hi))\n",
     "        return mu_L, mu_U\n",
     "\n",
-    "    def sigma2_U(self, kL, kU):\n",
+    "    def sigma2_bounds(self, kL, kU, lb_passes=2, clip_nonneg=True):\n",
+    "        \n",
+    "        \"\"\"\n",
+    "        Variance bounds over r ∈ [kL,kU] for SMT KRG (poly='constant').\n",
     "\n",
-    "        # Set up QP to solve for upper variance bound\n",
-    "        var = cp.Variable(len(kU))\n",
-    "        #Add constant values here constants = \n",
-    "        obj = cp.Maximize(1 - cp.quad_form(var, self.K_inv))\n",
-    "        constraints = [var >= kL, var <= kU]\n",
-    "        prob = cp.Problem(obj, constraints)\n",
-    "        prob.solve(solver=cp.OSQP)\n",
+    "        Upper bound: exact convex QP (includes GLS + σ²).\n",
+    "        Lower bound: small coordinate-descent heuristic on the full bracket.\n",
     "\n",
-    "        sigma2_U = prob.value\n",
-    "        return max(sigma2_U, 0)\n",
+    "        Returns\n",
+    "        -------\n",
+    "        sigma2_U : float\n",
+    "        sigma2_L : float\n",
+    "        \"\"\"\n",
+    "        \n",
+    "        # ---------- sanitize / prerequisites ----------\n",
+    "        kL = np.asarray(kL, float).ravel()\n",
+    "        kU = np.asarray(kU, float).ravel()\n",
+    "        n  = kL.size\n",
+    "        assert hasattr(self, \"C\") and hasattr(self, \"sigma2\"), \"Call sync_from_smt() first\"\n",
+    "        assert kL.shape == kU.shape == (n,) and np.all(kL <= kU), \"bad kL/kU\"\n",
     "\n",
-    "    def sigma2_L(self,kL, kU, epsilon = 1e-6, random_seed= 42):\n",
+    "        C        = self.C\n",
+    "        sigma2   = float(self.sigma2)\n",
+    "        ones     = np.ones(n)\n",
     "\n",
-    "        # Randomly initialize a point in the bounds\n",
-    "        np.random.seed(random_seed)\n",
-    "        var = np.random.uniform(kL, kU)\n",
+    "        # a = R^{-1} 1 and S = 1^T R^{-1} 1 via two triangular solves (no explicit R^{-1})\n",
+    "        tmp   = linalg.solve_triangular(C, ones, lower=True)     # C tmp = 1\n",
+    "        a_vec = linalg.solve_triangular(C.T, tmp,  lower=False)  # C^T a = tmp\n",
+    "        S     = float(ones @ a_vec)                               # > 0\n",
     "\n",
-    "        # Initialize active coordinates\n",
-    "        active_coords = set(range(len(kL)))\n",
+    "        # Dimensionless SMT variance bracket f(r) = 1 - ||C^{-1}r||^2 + (1 - a^T r)^2 / S\n",
+    "        def bracket(r):\n",
+    "            r = np.asarray(r, float).ravel()\n",
+    "            rt = linalg.solve_triangular(C, r, lower=True)       # C^{-1} r\n",
+    "            tau = float(a_vec @ r)\n",
+    "            return 1.0 - float(rt @ rt) + (1.0 - tau)**2 / S\n",
     "\n",
-    "        # Define the function to minimize\n",
-    "        def f(k_vec): return 1 - k_vec @ self.K_inv @ k_vec\n",
-    "        f_curr = f(var)\n",
+    "        # ---------- UPPER bound: one convex QP in z with r = C z ----------\n",
+    "        A   = C.T @ a_vec                                        # shape (n,)\n",
+    "        Qz  = np.eye(n) - np.outer(A, A)/S                       # PSD (rank-1 update)\n",
+    "        bz  = (2.0 / S) * A\n",
     "\n",
-    "        # Iteratively improve the point by evaluating each coordinate direction.\n",
-    "        while active_coords:\n",
-    "            improvement = False\n",
-    "            for i in list(active_coords):\n",
-    "                for val in [kL[i], kU[i]]:\n",
-    "                    var_new = var.copy()\n",
-    "                    var_new[i] = val\n",
-    "                    f_val = f(var_new)\n",
-    "                    if f_val < f_curr - epsilon:\n",
-    "                        var = var_new\n",
-    "                        f_curr = f_val\n",
-    "                        improvement = True\n",
-    "                        break\n",
-    "                if not improvement:\n",
-    "                    active_coords.remove(i)\n",
-    "            if not improvement:\n",
-    "                break\n",
+    "        z   = cp.Variable(n)\n",
+    "        obj = 0.5 * cp.quad_form(z, Qz) + bz @ z\n",
+    "        cons = [C @ z >= kL, C @ z <= kU]\n",
+    "        cp.Problem(cp.Minimize(obj), cons).solve(solver=\"OSQP\")\n",
+    "\n",
+    "        r_ub   = (C @ z.value).reshape(-1)\n",
+    "        f_ub   = bracket(r_ub)\n",
+    "        if clip_nonneg: f_ub = max(f_ub, 0.0)\n",
+    "        sigma2_U = sigma2 * f_ub\n",
     "\n",
-    "        sigma2_L = f_curr\n",
-    "        return max(sigma2_L, 0)\n",
+    "        if self.BnB_LBmethod != \"IPOPT\":\n",
+    "                \n",
+    "            # ---------- LOWER bound: tiny corner-seeking pass on full bracket ----------\n",
+    "            r = r_ub.copy()\n",
+    "            f = bracket(r)\n",
+    "            for _ in range(max(0, int(lb_passes))):\n",
+    "                improved = False\n",
+    "                for i in range(n):\n",
+    "                    # try snapping coord i to each bound\n",
+    "                    r_lo = r.copy(); r_lo[i] = kL[i]; f_lo = bracket(r_lo)\n",
+    "                    r_hi = r.copy(); r_hi[i] = kU[i]; f_hi = bracket(r_hi)\n",
+    "                    # keep best (minimizing f)\n",
+    "                    if f_lo + 1e-6 < f: r, f, improved = r_lo, f_lo, True\n",
+    "                    if f_hi + 1e-6 < f: r, f, improved = r_hi, f_hi, True\n",
+    "                if not improved:\n",
+    "                    break\n",
+    "            if clip_nonneg: f = max(f, 0.0)\n",
+    "            sigma2_L = sigma2 * f\n",
     "\n",
+    "        else:\n",
+    "            sigma2_L = 0\n",
+    "        \n",
+    "        return sigma2_U, sigma2_L\n",
+    "        \n",
     "    def rs_ei(self, y, mu, sigma):\n",
     "        \n",
     "        y_min = np.min(y)\n",