derrickburns
diff --git a/‎.github/workflows/codeql.yml‎
Lines changed: 2 additions & 0 deletions b/‎.github/workflows/codeql.yml‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/test/scala/com/massivedatascience/clusterer/AssignmentPlanSuite.scala‎
Lines changed: 5 additions & 5 deletions b/‎src/test/scala/com/massivedatascience/clusterer/AssignmentPlanSuite.scala‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎src/test/scala/com/massivedatascience/clusterer/BisectingKMeansSuite.scala‎
Lines changed: 19 additions & 39 deletions b/‎src/test/scala/com/massivedatascience/clusterer/BisectingKMeansSuite.scala‎
Lines changed: 19 additions & 39 deletions
diff --git a/‎src/test/scala/com/massivedatascience/clusterer/BregmanDivergenceEdgeCasesSuite.scala‎
Lines changed: 4 additions & 3 deletions b/‎src/test/scala/com/massivedatascience/clusterer/BregmanDivergenceEdgeCasesSuite.scala‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎src/test/scala/com/massivedatascience/clusterer/BregmanMixtureModelTestSuite.scala‎
Lines changed: 2 additions & 2 deletions b/‎src/test/scala/com/massivedatascience/clusterer/BregmanMixtureModelTestSuite.scala‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/test/scala/com/massivedatascience/clusterer/BregmanSoftKMeansTestSuite.scala‎
Lines changed: 4 additions & 4 deletions b/‎src/test/scala/com/massivedatascience/clusterer/BregmanSoftKMeansTestSuite.scala‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎src/test/scala/com/massivedatascience/clusterer/BregmanTestSuite.scala‎
Lines changed: 1 addition & 1 deletion b/‎src/test/scala/com/massivedatascience/clusterer/BregmanTestSuite.scala‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/test/scala/com/massivedatascience/clusterer/CenterStoreSuite.scala‎
Lines changed: 7 additions & 7 deletions b/‎src/test/scala/com/massivedatascience/clusterer/CenterStoreSuite.scala‎
Lines changed: 7 additions & 7 deletions
diff --git a/‎src/test/scala/com/massivedatascience/clusterer/IntegrationTestSuite.scala‎
Lines changed: 7 additions & 6 deletions b/‎src/test/scala/com/massivedatascience/clusterer/IntegrationTestSuite.scala‎
Lines changed: 7 additions & 6 deletions
@@ -49,6 +49,8 @@ jobs:
         with:
           languages: java
           queries: security-and-quality
+          # Use none build-mode for Scala projects with manual build
+          build-mode: none
 
       # MANUAL BUILD: compile Scala so the extractor can see .class files
       - name: Compile (Scala -> JVM bytecode)
 
@@ -62,7 +62,7 @@ class AssignmentPlanSuite extends AnyFunSuite with Matchers {
 
   test("ConditionalAssignmentPlan should be created correctly") {
     val defaultPlan = RDDMapAssignmentPlan("squaredEuclidean")
-    val plan = ConditionalAssignmentPlan(
+    val plan        = ConditionalAssignmentPlan(
       defaultPlan = defaultPlan,
       featuresCol = "features",
       predictionCol = "prediction"
@@ -87,7 +87,7 @@ class AssignmentPlanSuite extends AnyFunSuite with Matchers {
 
   test("AssignmentPlan.crossJoin factory should accept custom parameters") {
     val customProvider = RowIdProvider.fromColumn("id")
-    val plan = AssignmentPlan.crossJoin(
+    val plan           = AssignmentPlan.crossJoin(
       featuresCol = "data",
       predictionCol = "cluster",
       rowIdProvider = customProvider
@@ -140,11 +140,11 @@ class AssignmentPlanSuite extends AnyFunSuite with Matchers {
     val result = plan match {
       case CrossJoinAssignmentPlan(div, _, feat, pred) =>
         s"CrossJoin: $div, $feat -> $pred"
-      case RDDMapAssignmentPlan(div, feat, pred) =>
+      case RDDMapAssignmentPlan(div, feat, pred)       =>
         s"RDDMap: $div, $feat -> $pred"
-      case UDFAssignmentPlan(div, feat, pred) =>
+      case UDFAssignmentPlan(div, feat, pred)          =>
         s"UDF: $div, $feat -> $pred"
-      case ConditionalAssignmentPlan(_, feat, pred) =>
+      case ConditionalAssignmentPlan(_, feat, pred)    =>
         s"Conditional: $feat -> $pred"
     }
 
 
@@ -1,13 +1,14 @@
 package com.massivedatascience.clusterer
 
-import org.apache.spark.ml.linalg.{Vector, Vectors}
+import org.apache.spark.ml.linalg.{ Vector, Vectors }
 import org.apache.spark.sql.SparkSession
 import org.scalatest.BeforeAndAfterAll
 import org.scalatest.funsuite.AnyFunSuite
 
 /** Test suite for Bisecting K-Means clustering.
   *
-  * Tests hierarchical divisive clustering with various configurations, comparing behavior with standard K-Means.
+  * Tests hierarchical divisive clustering with various configurations, comparing behavior with
+  * standard K-Means.
   */
 class BisectingKMeansSuite extends AnyFunSuite with BeforeAndAfterAll {
 
@@ -102,7 +103,7 @@ class BisectingKMeansSuite extends AnyFunSuite with BeforeAndAfterAll {
 
     // Set minDivisibleClusterSize to 5, so only the large cluster can be split
     val bisecting = new ml.BisectingKMeans()
-      .setK(4) // Request 4 clusters
+      .setK(4)                       // Request 4 clusters
       .setDivergence("squaredEuclidean")
       .setMaxIter(10)
       .setMinDivisibleClusterSize(5) // Minimum size to split
@@ -136,11 +137,8 @@ class BisectingKMeansSuite extends AnyFunSuite with BeforeAndAfterAll {
     assert(modelKL.numClusters === 2)
 
     // Test with L1 divergence
-    val bisectingL1 = new ml.BisectingKMeans()
-      .setK(2)
-      .setDivergence("l1")
-      .setMaxIter(10)
-      .setSeed(42)
+    val bisectingL1 =
+      new ml.BisectingKMeans().setK(2).setDivergence("l1").setMaxIter(10).setSeed(42)
 
     val modelL1 = bisectingL1.fit(df)
     assert(modelL1.numClusters === 2)
@@ -161,11 +159,8 @@ class BisectingKMeansSuite extends AnyFunSuite with BeforeAndAfterAll {
 
     // Run bisecting K-Means multiple times with different seeds
     val runs = Range.inclusive(1, 5).map { i =>
-      val bisecting = new ml.BisectingKMeans()
-        .setK(2)
-        .setDivergence("squaredEuclidean")
-        .setMaxIter(10)
-        .setSeed(i)
+      val bisecting =
+        new ml.BisectingKMeans().setK(2).setDivergence("squaredEuclidean").setMaxIter(10).setSeed(i)
 
       val model       = bisecting.fit(df)
       val predictions = model.transform(df)
@@ -193,11 +188,8 @@ class BisectingKMeansSuite extends AnyFunSuite with BeforeAndAfterAll {
 
     val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")
 
-    val bisecting = new ml.BisectingKMeans()
-      .setK(2)
-      .setDivergence("squaredEuclidean")
-      .setMaxIter(10)
-      .setSeed(42)
+    val bisecting =
+      new ml.BisectingKMeans().setK(2).setDivergence("squaredEuclidean").setMaxIter(10).setSeed(42)
 
     val model = bisecting.fit(df)
 
@@ -233,7 +225,7 @@ class BisectingKMeansSuite extends AnyFunSuite with BeforeAndAfterAll {
     assert(model.numClusters === 2)
 
     // The heavy point should influence the center of its cluster
-    val centers = model.clusterCentersAsVectors
+    val centers           = model.clusterCentersAsVectors
     val hasNearZeroCenter = centers.exists { center =>
       val arr = center.toArray
       math.sqrt(arr(0) * arr(0) + arr(1) * arr(1)) < 1.0
@@ -259,11 +251,8 @@ class BisectingKMeansSuite extends AnyFunSuite with BeforeAndAfterAll {
     val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")
 
     // First split into 2 clusters (should be A vs B)
-    val bisecting2 = new ml.BisectingKMeans()
-      .setK(2)
-      .setDivergence("squaredEuclidean")
-      .setMaxIter(10)
-      .setSeed(42)
+    val bisecting2 =
+      new ml.BisectingKMeans().setK(2).setDivergence("squaredEuclidean").setMaxIter(10).setSeed(42)
 
     val model2       = bisecting2.fit(df)
     val predictions2 = model2.transform(df).select("prediction").collect().map(_.getInt(0))
@@ -277,11 +266,8 @@ class BisectingKMeansSuite extends AnyFunSuite with BeforeAndAfterAll {
     )
 
     // Now split into 4 clusters (should be A1, A2, B1, B2)
-    val bisecting4 = new ml.BisectingKMeans()
-      .setK(4)
-      .setDivergence("squaredEuclidean")
-      .setMaxIter(10)
-      .setSeed(42)
+    val bisecting4 =
+      new ml.BisectingKMeans().setK(4).setDivergence("squaredEuclidean").setMaxIter(10).setSeed(42)
 
     val model4 = bisecting4.fit(df)
     assert(model4.numClusters === 4)
@@ -295,11 +281,8 @@ class BisectingKMeansSuite extends AnyFunSuite with BeforeAndAfterAll {
 
     val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")
 
-    val bisecting = new ml.BisectingKMeans()
-      .setK(2)
-      .setDivergence("squaredEuclidean")
-      .setMaxIter(10)
-      .setSeed(42)
+    val bisecting =
+      new ml.BisectingKMeans().setK(2).setDivergence("squaredEuclidean").setMaxIter(10).setSeed(42)
 
     val model = bisecting.fit(df)
     assert(model.numClusters === 2)
@@ -315,11 +298,8 @@ class BisectingKMeansSuite extends AnyFunSuite with BeforeAndAfterAll {
 
     val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")
 
-    val bisecting = new ml.BisectingKMeans()
-      .setK(2)
-      .setDivergence("squaredEuclidean")
-      .setMaxIter(10)
-      .setSeed(42)
+    val bisecting =
+      new ml.BisectingKMeans().setK(2).setDivergence("squaredEuclidean").setMaxIter(10).setSeed(42)
 
     val model = bisecting.fit(df)
     val cost  = model.computeCost(df)
 
@@ -280,8 +280,9 @@ class BregmanDivergenceEdgeCasesSuite extends AnyFunSuite {
     val expectedInhomogeneous = Vectors.dense(1.0, 2.0) // (2.0, 4.0) / 2.0
     val actualInhomogeneous   = point.inhomogeneous
 
-    assert(expectedInhomogeneous.toArray.zip(actualInhomogeneous.toArray).forall { case (expected, actual) =>
-      math.abs(expected - actual) < 1e-8
+    assert(expectedInhomogeneous.toArray.zip(actualInhomogeneous.toArray).forall {
+      case (expected, actual) =>
+        math.abs(expected - actual) < 1e-8
     })
   }
 
@@ -304,7 +305,7 @@ class BregmanDivergenceEdgeCasesSuite extends AnyFunSuite {
   test("sparse vector handling") {
     val ops          = BregmanPointOps(BregmanPointOps.EUCLIDEAN)
     val sparseVector = WeightedVector(Vectors.sparse(10, Seq((1, 2.0), (5, 3.0), (9, 1.0))), 1.0)
-    val denseVector =
+    val denseVector  =
       WeightedVector(Vectors.dense(0.0, 2.0, 0.0, 0.0, 0.0, 3.0, 0.0, 0.0, 0.0, 1.0), 1.0)
 
     val sparsePoint  = ops.toPoint(sparseVector)
 
@@ -142,7 +142,7 @@ class BregmanMixtureModelTestSuite extends AnyFunSuite with LocalClusterSparkCon
     }
 
     // Points that are close should likely have the same assignment
-    val assignmentMap = mapAssignments.toMap
+    val assignmentMap       = mapAssignments.toMap
     val expectedSameCluster = Set(
       (
         BregmanPoint(WeightedVector(Vectors.dense(0.0, 0.0)), 0.0),
@@ -292,7 +292,7 @@ class BregmanMixtureModelTestSuite extends AnyFunSuite with LocalClusterSparkCon
     val model  = BregmanMixtureModel()
     val result = model.fit(points, 2, pointOps)
 
-    val stats = result.getStats
+    val stats        = result.getStats
     val expectedKeys = Set(
       "logLikelihood",
       "numComponents",
 
@@ -84,12 +84,12 @@ class BregmanSoftKMeansTestSuite extends AnyFunSuite with LocalClusterSparkConte
     val initialCenters = selector.init(pointOps, points, 2, None, 1, 42L).head
 
     // Test with low beta (soft assignments)
-    val softResult =
+    val softResult      =
       BregmanSoftKMeans.verySoft(beta = 0.1).clusterSoft(30, pointOps, points, initialCenters)
     val softMemberships = softResult.memberships.collect()
 
     // Test with high beta (sharp assignments)
-    val sharpResult =
+    val sharpResult      =
       BregmanSoftKMeans.sharp(beta = 10.0).clusterSoft(30, pointOps, points, initialCenters)
     val sharpMemberships = sharpResult.memberships.collect()
 
@@ -210,7 +210,7 @@ class BregmanSoftKMeansTestSuite extends AnyFunSuite with LocalClusterSparkConte
     val effectiveNumClusters = result.effectiveNumberOfClusters
 
     // Debug: Check actual memberships
-    val sampleMemberships = result.memberships.take(5)
+    val sampleMemberships   = result.memberships.take(5)
     val hasMultipleClusters = sampleMemberships.exists { case (_, probs) =>
       probs.count(p => p > 0.01) > 1
     }
@@ -270,7 +270,7 @@ class BregmanSoftKMeansTestSuite extends AnyFunSuite with LocalClusterSparkConte
     points.cache()
 
     // Use very tight convergence threshold
-    val config = BregmanSoftKMeansConfig(
+    val config     = BregmanSoftKMeansConfig(
       beta = 5.0,
       convergenceThreshold = 1e-12,
       maxIterations = 5
 
@@ -19,7 +19,7 @@ class BregmanTestSuite extends AnyFunSuite {
     def g(d: Vector): Vector = {
       Vectors.dense(d.toArray.map { _ * 2.0 })
     }
-    val div = BregmanDivergence(f, g)
+    val div                  = BregmanDivergence(f, g)
 
     val input = Vectors.dense(1.0, 2.0, 4.0)
 
 
@@ -53,9 +53,9 @@ class CenterStoreSuite extends AnyFunSuite with Matchers with BeforeAndAfterAll
   // Helper to create centers - directly construct BregmanCenter
   // For testing purposes, we use simple Euclidean-like values
   def makeCenter(values: Array[Double], weight: Double = 1.0): BregmanCenter = {
-    val homogeneous = Vectors.dense(values.map(_ * weight))
-    val gradient = Vectors.dense(values)  // For Euclidean: gradient = inhomogeneous
-    val dotGradMinusF = 0.5 * values.map(x => x * x).sum  // For Euclidean: F(x) = 0.5 ||x||^2
+    val homogeneous   = Vectors.dense(values.map(_ * weight))
+    val gradient      = Vectors.dense(values)            // For Euclidean: gradient = inhomogeneous
+    val dotGradMinusF = 0.5 * values.map(x => x * x).sum // For Euclidean: F(x) = 0.5 ||x||^2
     BregmanCenter(homogeneous, weight, dotGradMinusF, gradient)
   }
 
@@ -103,9 +103,9 @@ class CenterStoreSuite extends AnyFunSuite with Matchers with BeforeAndAfterAll
       makeCenter(Array(3.0, 4.0))
     )
 
-    val store      = ArrayCenterStore(centers)
-    val newCenter  = makeCenter(Array(10.0, 20.0))
-    val newStore   = store.updated(0, newCenter)
+    val store     = ArrayCenterStore(centers)
+    val newCenter = makeCenter(Array(10.0, 20.0))
+    val newStore  = store.updated(0, newCenter)
 
     assert(newStore(0) == newCenter)
     assert(newStore(1) == centers(1))
@@ -173,7 +173,7 @@ class CenterStoreSuite extends AnyFunSuite with Matchers with BeforeAndAfterAll
       makeCenter(Array(3.0, 4.0), weight = 2.0)
     )
 
-    val store = ArrayCenterStore(centers)
+    val store  = ArrayCenterStore(centers)
     val mapped = store.map { c =>
       // Double the weight
       makeCenter(c.inhomogeneous.toArray, c.weight * 2.0)
 
@@ -101,7 +101,7 @@ class IntegrationTestSuite extends AnyFunSuite with LocalClusterSparkContext {
     val timeSeries = sc.parallelize((0 until 50).map { i =>
       // Create time series with different patterns
       val pattern = i % 3
-      val values = (0 until 16).map { t =>
+      val values  = (0 until 16).map { t =>
         pattern match {
           case 0 => math.sin(t * 0.5) + scala.util.Random.nextGaussian() * 0.1
           case 1 => math.cos(t * 0.3) + scala.util.Random.nextGaussian() * 0.1
@@ -175,13 +175,15 @@ class IntegrationTestSuite extends AnyFunSuite with LocalClusterSparkContext {
       val cost = model.computeCostWeighted(data)
       assert(cost >= 0.0 && java.lang.Double.isFinite(cost))
     } catch {
-      case e: IllegalArgumentException if e.getMessage.contains("requires at least one valid center") =>
+      case e: IllegalArgumentException
+          if e.getMessage.contains("requires at least one valid center") =>
         // Acceptable if extreme conditions cause invalid centers
         succeed
       case e: IllegalArgumentException if e.getMessage.contains("requirement failed") =>
         // Acceptable if RDD caching requirement fails during multi-stage training
         succeed
-      case e: org.apache.spark.SparkException if e.getMessage.contains("does not match requested numClusters") =>
+      case e: org.apache.spark.SparkException
+          if e.getMessage.contains("does not match requested numClusters") =>
         // Acceptable if fewer unique clusters are produced due to data characteristics
         succeed
     } finally {
@@ -280,8 +282,7 @@ class IntegrationTestSuite extends AnyFunSuite with LocalClusterSparkContext {
       .groupBy(_._1) // Group by predicted cluster
       .mapValues { pairs =>
         // Find the most common true label in this predicted cluster
-        pairs
-          .map { case (_, idx) => trueLabels(idx) }
+        pairs.map { case (_, idx) => trueLabels(idx) }
           .groupBy(identity)
           .mapValues(_.length)
           .maxBy(_._2)
@@ -292,7 +293,7 @@ class IntegrationTestSuite extends AnyFunSuite with LocalClusterSparkContext {
     val correctAssignments = predictions.zipWithIndex.count { case (prediction, index) =>
       clusterToTrueLabel.get(prediction).contains(trueLabels(index))
     }
-    val accuracy = correctAssignments.toDouble / numPoints
+    val accuracy           = correctAssignments.toDouble / numPoints
     assert(accuracy > 0.5, s"Poor clustering accuracy: $accuracy")
   }
Original file line number	Diff line number	Diff line change
`@@ -19,7 +19,7 @@ class BregmanTestSuite extends AnyFunSuite {`
`19`	`19`	`def g(d: Vector): Vector = {`
`20`	`20`	`Vectors.dense(d.toArray.map { _ * 2.0 })`
`21`	`21`	`}`
`22`		`- val div = BregmanDivergence(f, g)`
	`22`	`+ val div = BregmanDivergence(f, g)`
`23`	`23`
`24`	`24`	`val input = Vectors.dense(1.0, 2.0, 4.0)`
`25`	`25`