fix: Fix BrightRetrieval calculate stats (#1484)

* fix bright loader * lint * fix comment
embeddings-benchmark · KennethEnevoldsen · Nov 11, 2024 · Nov 13, 2024 · Nov 14, 2024 · Nov 14, 2024
commit 99247b29e6459db1363cdc1575a5582b67c0366d
diff --git a/mteb/abstasks/AbsTaskRetrieval.py b/mteb/abstasks/AbsTaskRetrieval.py
@@ -379,6 +379,13 @@ def _calculate_metrics_from_split(
         top_ranked = None
         instructions = None
         if hf_subset and hf_subset in self.queries:
+            # BrightRetrieval has different splits for different subsets of the corpus.
+            if (
+                self.corpus.get(hf_subset, None) is None
+                or self.corpus[hf_subset].get(split, None) is None
+            ):
+                return {}
+
             queries = self.queries[hf_subset][split]
             corpus = self.corpus[hf_subset][split]
             relevant_docs = self.relevant_docs[hf_subset][split]
@@ -393,6 +400,12 @@ def _calculate_metrics_from_split(
             instructions = {}
             top_ranked = {}
             for hf_subset in self.metadata.eval_langs:
+                # BrightRetrieval has different splits for different subsets of the corpus.
+                if (
+                    self.corpus.get(hf_subset, None) is None
+                    or self.corpus[hf_subset].get(split, None) is None
+                ):
+                    continue
                 queries.update(process_docs(self.queries, hf_subset, split))
                 corpus.update(process_docs(self.corpus, hf_subset, split))
                 relevant_docs.update(
@@ -506,7 +519,8 @@ def calculate_length(
             queries_lens.append(len(query))
         else:
             queries_lens.extend([len(turn) for turn in query])
-
+    if corpus is None:
+        return None, queries_lens
     for doc in corpus.values():
         if isinstance(doc, dict):
             doc_lens.append(len(doc["text"]))