Merge pull request #257 from allenai/favyen/20251105-olmoearth-evals

favyen2 · web-flow · commit 3c34d6ac8ca8 · 2025-11-07T11:06:31.000-05:00
Add CROMA/Terramind/OlmoEarth Large eval + randomly initialized OlmoEarth Base
diff --git a/data/olmoearth_evals/models/croma_large.yaml b/data/olmoearth_evals/models/croma_large.yaml
@@ -0,0 +1,6 @@
+trainer:
+  callbacks+:
+    - class_path: rslearn.train.callbacks.freeze_unfreeze.FreezeUnfreeze
+      init_args:
+        module_selector: ["model", "model", "encoder", 0, "encoder"]
+        unfreeze_at_epoch: 20
diff --git a/data/olmoearth_evals/models/olmoearth_large.yaml b/data/olmoearth_evals/models/olmoearth_large.yaml
@@ -0,0 +1,6 @@
+trainer:
+  callbacks+:
+    - class_path: rslearn.train.callbacks.freeze_unfreeze.FreezeUnfreeze
+      init_args:
+        module_selector: ["model", "model", "encoder", 0]
+        unfreeze_at_epoch: 20
diff --git a/data/olmoearth_evals/models/olmoearth_random.yaml b/data/olmoearth_evals/models/olmoearth_random.yaml
@@ -0,0 +1,6 @@
+trainer:
+  callbacks+:
+    - class_path: rslearn.train.callbacks.freeze_unfreeze.FreezeUnfreeze
+      init_args:
+        module_selector: ["model", "model", "encoder", 0]
+        unfreeze_at_epoch: 20
diff --git a/data/olmoearth_evals/models/terramind_large.yaml b/data/olmoearth_evals/models/terramind_large.yaml
@@ -0,0 +1,6 @@
+trainer:
+  callbacks+:
+    - class_path: rslearn.train.callbacks.freeze_unfreeze.FreezeUnfreeze
+      init_args:
+        module_selector: ["model", "model", "encoder", 0, "encoder"]
+        unfreeze_at_epoch: 20
diff --git a/rslp/olmoearth_evals/croma.py b/rslp/olmoearth_evals/croma.py
@@ -1,5 +1,7 @@
 """Evaluation adapter for CROMA."""
 
+import os
+
 import torch
 from rslearn.models.croma import Croma, CromaModality, CromaNormalize, CromaSize
 from rslearn.models.faster_rcnn import FasterRCNN
@@ -27,11 +29,21 @@ def get_model(
     task_timesteps: int = 1,
 ) -> torch.nn.Module:
     """Get appropriate CROMA model."""
+    model_id = os.environ["EVAL_ADAPTER_MODEL_ID"]
+    if model_id == "croma":
+        croma_size = CromaSize.BASE
+        embedding_size = 768
+    elif model_id == "croma_large":
+        croma_size = CromaSize.LARGE
+        embedding_size = 1024
+    else:
+        raise ValueError(f"unknown croma model ID {model_id}")
+
     if task_type == "segment":
         decoders = dict(
             eval_task=[
                 UNetDecoder(
-                    in_channels=[[8, 768]],
+                    in_channels=[[8, embedding_size]],
                     out_channels=task_channels,
                     conv_layers_per_resolution=2,
                     num_channels={8: 512, 4: 512, 2: 256, 1: 128},
@@ -43,7 +55,7 @@ def get_model(
         decoders = dict(
             eval_task=[
                 SegmentationPoolingDecoder(
-                    in_channels=768,
+                    in_channels=embedding_size,
                     out_channels=task_channels,
                 ),
                 SegmentationHead(),
@@ -54,7 +66,7 @@ def get_model(
             eval_task=[
                 FasterRCNN(
                     downsample_factors=[8],
-                    num_channels=768,
+                    num_channels=embedding_size,
                     num_classes=task_channels,
                     anchor_sizes=[[32]],
                 )
@@ -64,7 +76,7 @@ def get_model(
         decoders = dict(
             eval_task=[
                 PoolingDecoder(
-                    in_channels=768,
+                    in_channels=embedding_size,
                     out_channels=task_channels,
                     num_conv_layers=1,
                     num_fc_layers=1,
@@ -76,7 +88,7 @@ def get_model(
         decoders = dict(
             eval_task=[
                 PoolingDecoder(
-                    in_channels=768,
+                    in_channels=embedding_size,
                     out_channels=task_channels,
                     num_conv_layers=1,
                     num_fc_layers=1,
@@ -108,7 +120,7 @@ def get_model(
                 SimpleTimeSeries(
                     encoder=SimpleTimeSeries(
                         encoder=Croma(
-                            size=CromaSize.BASE,
+                            size=croma_size,
                             modality=modality,
                             image_resolution=input_size,
                         ),
@@ -122,7 +134,7 @@ def get_model(
             decoders=dict(
                 eval_task=[
                     PoolingDecoder(
-                        in_channels=768 * 2,
+                        in_channels=embedding_size * 2,
                         out_channels=task_channels,
                         num_conv_layers=1,
                         num_fc_layers=1,
@@ -136,7 +148,7 @@ def get_model(
         encoder=[
             SimpleTimeSeries(
                 encoder=Croma(
-                    size=CromaSize.BASE,
+                    size=croma_size,
                     modality=modality,
                     image_resolution=input_size,
                 ),
diff --git a/rslp/olmoearth_evals/eval_adapter.py b/rslp/olmoearth_evals/eval_adapter.py
@@ -25,16 +25,20 @@
     "clay": clay,
     "copernicusfm": copernicusfm,
     "croma": croma,
+    "croma_large": croma,
     "dinov3": dinov3,
     "galileo": galileo,
     "olmoearth": olmoearth,
-    "olmoearth_tiny": olmoearth,
     "olmoearth_nano": olmoearth,
+    "olmoearth_tiny": olmoearth,
+    "olmoearth_large": olmoearth,
+    "olmoearth_random": olmoearth,
     "panopticon": panopticon,
     "presto": presto,
     "prithvi": prithvi,
     "satlaspretrain": satlaspretrain,
     "terramind": terramind,
+    "terramind_large": terramind,
     "aef": aef,
 }
 
diff --git a/rslp/olmoearth_evals/olmoearth.py b/rslp/olmoearth_evals/olmoearth.py
@@ -32,12 +32,14 @@ def get_model(
 ) -> torch.nn.Module:
     """Get appropriate OlmoEarth model."""
     model_id = os.environ["EVAL_ADAPTER_MODEL_ID"]
-    if model_id == "olmoearth":
+    if model_id in ["olmoearth", "olmoearth_random"]:
         olmoearth_model_id = ModelID.OLMOEARTH_V1_BASE
-    elif model_id == "olmoearth_tiny":
-        olmoearth_model_id = ModelID.OLMOEARTH_V1_TINY
     elif model_id == "olmoearth_nano":
         olmoearth_model_id = ModelID.OLMOEARTH_V1_NANO
+    elif model_id == "olmoearth_tiny":
+        olmoearth_model_id = ModelID.OLMOEARTH_V1_TINY
+    elif model_id == "olmoearth_large":
+        olmoearth_model_id = ModelID.OLMOEARTH_V1_LARGE
     else:
         raise ValueError(f"unknown olmoearth model ID {model_id}")
 
@@ -124,6 +126,7 @@ def get_model(
                     encoder=OlmoEarth(
                         model_id=olmoearth_model_id,
                         patch_size=4,
+                        random_initialization=model_id == "olmoearth_random",
                     ),
                     image_channels=12 * 4,
                     image_key="sentinel2_l2a",
@@ -148,6 +151,7 @@ def get_model(
             OlmoEarth(
                 model_id=olmoearth_model_id,
                 patch_size=4,
+                random_initialization=model_id == "olmoearth_random",
             ),
         ],
         decoders=decoders,
diff --git a/rslp/olmoearth_evals/terramind.py b/rslp/olmoearth_evals/terramind.py
@@ -1,5 +1,7 @@
 """Evaluation adapter for TerraMind."""
 
+import os
+
 import torch
 from rslearn.models.faster_rcnn import FasterRCNN
 from rslearn.models.multitask import MultiTaskModel
@@ -27,11 +29,21 @@ def get_model(
     task_timesteps: int = 1,
 ) -> torch.nn.Module:
     """Get appropriate TerraMind model."""
+    model_id = os.environ["EVAL_ADAPTER_MODEL_ID"]
+    if model_id == "terramind":
+        terramind_size = TerramindSize.BASE
+        embedding_size = 768
+    elif model_id == "terramind_large":
+        terramind_size = TerramindSize.LARGE
+        embedding_size = 1024
+    else:
+        raise ValueError(f"unknown terramind model ID {model_id}")
+
     if task_type == "segment":
         decoders = dict(
             eval_task=[
                 UNetDecoder(
-                    in_channels=[[16, 768]],
+                    in_channels=[[16, embedding_size]],
                     out_channels=task_channels,
                     conv_layers_per_resolution=2,
                     num_channels={16: 512, 8: 512, 4: 512, 2: 256, 1: 128},
@@ -43,7 +55,7 @@ def get_model(
         decoders = dict(
             eval_task=[
                 SegmentationPoolingDecoder(
-                    in_channels=768,
+                    in_channels=embedding_size,
                     out_channels=task_channels,
                 ),
                 SegmentationHead(),
@@ -54,7 +66,7 @@ def get_model(
             eval_task=[
                 FasterRCNN(
                     downsample_factors=[16],
-                    num_channels=768,
+                    num_channels=embedding_size,
                     num_classes=task_channels,
                     anchor_sizes=[[32]],
                 )
@@ -64,7 +76,7 @@ def get_model(
         decoders = dict(
             eval_task=[
                 PoolingDecoder(
-                    in_channels=768,
+                    in_channels=embedding_size,
                     out_channels=task_channels,
                     num_conv_layers=1,
                     num_fc_layers=1,
@@ -76,7 +88,7 @@ def get_model(
         decoders = dict(
             eval_task=[
                 PoolingDecoder(
-                    in_channels=768,
+                    in_channels=embedding_size,
                     out_channels=task_channels,
                     num_conv_layers=1,
                     num_fc_layers=1,
@@ -102,7 +114,7 @@ def get_model(
                 SimpleTimeSeries(
                     encoder=SimpleTimeSeries(
                         encoder=Terramind(
-                            model_size=TerramindSize.BASE,
+                            model_size=terramind_size,
                             modalities=modalities,
                         ),
                         image_keys=image_keys,
@@ -115,7 +127,7 @@ def get_model(
             decoders=dict(
                 eval_task=[
                     PoolingDecoder(
-                        in_channels=768 * 2,
+                        in_channels=embedding_size * 2,
                         out_channels=task_channels,
                         num_conv_layers=1,
                         num_fc_layers=1,
@@ -129,7 +141,7 @@ def get_model(
         encoder=[
             SimpleTimeSeries(
                 encoder=Terramind(
-                    model_size=TerramindSize.BASE,
+                    model_size=terramind_size,
                     modalities=modalities,
                 ),
                 image_keys=image_keys,