sbintuitions · masaya-ohagi · Apr 1, 2024 · Mar 15, 2024 · Mar 15, 2024 · Mar 15, 2024
diff --git a/README.md b/README.md
@@ -16,7 +16,7 @@ poetry run pytest tests
 The following command evaluate the specified model on the all the tasks in JMTEB.
 
 ```bash
-poetry run python main.py \
+poetry run python -m jmteb \
   --embedder SentenceBertEmbedder \
   --embedder.model_name_or_path "<model_name_or_path>" \
   --save_dir "output/<model_name_or_path>"
@@ -26,7 +26,7 @@ By default, the evaluation tasks are read from `src/configs/jmteb.jsonnet`.
 If you want to evaluate the model on a specific task, you can specify the task via `--evaluators` option with the task config.
 
 ```bash
-poetry run python main.py \
+poetry run python -m jmteb \
   --evaluators "src/configs/tasks/jsts.jsonnet" \
   --embedder SentenceBertEmbedder \
   --embedder.model_name_or_path "<model_name_or_path>" \

diff --git a/pyproject.toml b/pyproject.toml
@@ -10,7 +10,7 @@ authors = [
 ]
 description = "The evaluation scripts for JMTEB (Japanese Massive Text Embedding Benchmark)"
 name = "JMTEB"
-packages = [{from = ".", include = "src"}]
+packages = [{from = "src", include = "jmteb"}]
 readme = "README.md"
 version = "1.0.0"
 

diff --git a/src/embedders/__init__.py b/src/embedders/__init__.py
diff --git a/src/__init__.py → src/jmteb/__init__.py b/src/__init__.py → src/jmteb/__init__.py
diff --git a/main.py → src/jmteb/__main__.py b/main.py → src/jmteb/__main__.py
@@ -6,9 +6,9 @@
 from jsonargparse import ActionConfigFile, ArgumentParser
 from loguru import logger
 
-from src.embedders import TextEmbedder
-from src.evaluators import EmbeddingEvaluator
-from src.utils.score_recorder import JsonScoreRecorder
+from jmteb.embedders import TextEmbedder
+from jmteb.evaluators import EmbeddingEvaluator
+from jmteb.utils.score_recorder import JsonScoreRecorder
 
 
 def main(
@@ -49,7 +49,10 @@ def main(
 
     parser.add_subclass_arguments(TextEmbedder, nested_key="embedder", required=True)
     parser.add_argument(
-        "--evaluators", type=dict[str, EmbeddingEvaluator], enable_path=True, default="src/configs/jmteb.jsonnet"
+        "--evaluators",
+        type=dict[str, EmbeddingEvaluator],
+        enable_path=True,
+        default=str(Path(__file__).parent / "configs" / "jmteb.jsonnet"),
     )
     parser.add_argument("--config", action=ActionConfigFile, help="Path to the config file.")
     parser.add_argument("--save_dir", type=str, default=None, help="Directory to save the outputs")
@@ -66,6 +69,13 @@ def main(
                 args.evaluators.pop(key)
 
     args = parser.instantiate_classes(args)
+    if isinstance(args.evaluators, str):
+        raise ValueError(
+            "Evaluators should be a dictionary, not a string.\n"
+            "Perhaps you provided a path to a config file, "
+            "but the path does not exist or the config format is broken.\n"
+            f"Please check {args.evaluators}"
+        )
 
     main(
         text_embedder=args.embedder,

diff --git a/src/configs/jmteb.jsonnet → src/jmteb/configs/jmteb.jsonnet b/src/configs/jmteb.jsonnet → src/jmteb/configs/jmteb.jsonnet
diff --git a/...zon_counterfactual_classification.jsonnet → ...zon_counterfactual_classification.jsonnet b/...zon_counterfactual_classification.jsonnet → ...zon_counterfactual_classification.jsonnet
diff --git a/...asks/amazon_review_classification.jsonnet → ...asks/amazon_review_classification.jsonnet b/...asks/amazon_review_classification.jsonnet → ...asks/amazon_review_classification.jsonnet
diff --git a/src/configs/tasks/jagovfaqs_22k.jsonnet → ...jmteb/configs/tasks/jagovfaqs_22k.jsonnet b/src/configs/tasks/jagovfaqs_22k.jsonnet → ...jmteb/configs/tasks/jagovfaqs_22k.jsonnet
diff --git a/src/configs/tasks/jaqket.jsonnet → src/jmteb/configs/tasks/jaqket.jsonnet b/src/configs/tasks/jaqket.jsonnet → src/jmteb/configs/tasks/jaqket.jsonnet
diff --git a/src/configs/tasks/jsick.jsonnet → src/jmteb/configs/tasks/jsick.jsonnet b/src/configs/tasks/jsick.jsonnet → src/jmteb/configs/tasks/jsick.jsonnet
diff --git a/src/configs/tasks/jsts.jsonnet → src/jmteb/configs/tasks/jsts.jsonnet b/src/configs/tasks/jsts.jsonnet → src/jmteb/configs/tasks/jsts.jsonnet
diff --git a/src/configs/tasks/livedoor_news.jsonnet → ...jmteb/configs/tasks/livedoor_news.jsonnet b/src/configs/tasks/livedoor_news.jsonnet → ...jmteb/configs/tasks/livedoor_news.jsonnet
diff --git a/...sks/massive_intent_classification.jsonnet → ...sks/massive_intent_classification.jsonnet b/...sks/massive_intent_classification.jsonnet → ...sks/massive_intent_classification.jsonnet
diff --git a/...s/massive_scenario_classification.jsonnet → ...s/massive_scenario_classification.jsonnet b/...s/massive_scenario_classification.jsonnet → ...s/massive_scenario_classification.jsonnet
diff --git a/src/configs/tasks/mewsc16.jsonnet → src/jmteb/configs/tasks/mewsc16.jsonnet b/src/configs/tasks/mewsc16.jsonnet → src/jmteb/configs/tasks/mewsc16.jsonnet
diff --git a/src/configs/tasks/mrtydi.jsonnet → src/jmteb/configs/tasks/mrtydi.jsonnet b/src/configs/tasks/mrtydi.jsonnet → src/jmteb/configs/tasks/mrtydi.jsonnet
diff --git a/...nfigs/tasks/nlp_journal_abs_intro.jsonnet → ...nfigs/tasks/nlp_journal_abs_intro.jsonnet b/...nfigs/tasks/nlp_journal_abs_intro.jsonnet → ...nfigs/tasks/nlp_journal_abs_intro.jsonnet
diff --git a/...nfigs/tasks/nlp_journal_title_abs.jsonnet → ...nfigs/tasks/nlp_journal_title_abs.jsonnet b/...nfigs/tasks/nlp_journal_title_abs.jsonnet → ...nfigs/tasks/nlp_journal_title_abs.jsonnet
diff --git a/...igs/tasks/nlp_journal_title_intro.jsonnet → ...igs/tasks/nlp_journal_title_intro.jsonnet b/...igs/tasks/nlp_journal_title_intro.jsonnet → ...igs/tasks/nlp_journal_title_intro.jsonnet
diff --git a/src/configs/tasks/paws_x_ja.jsonnet → src/jmteb/configs/tasks/paws_x_ja.jsonnet b/src/configs/tasks/paws_x_ja.jsonnet → src/jmteb/configs/tasks/paws_x_ja.jsonnet
diff --git a/src/jmteb/embedders/__init__.py b/src/jmteb/embedders/__init__.py
@@ -0,0 +1,2 @@
+from jmteb.embedders.base import TextEmbedder
+from jmteb.embedders.sbert_embedder import SentenceBertEmbedder
diff --git a/src/embedders/base.py → src/jmteb/embedders/base.py b/src/embedders/base.py → src/jmteb/embedders/base.py
diff --git a/src/embedders/sbert_embedder.py → src/jmteb/embedders/sbert_embedder.py b/src/embedders/sbert_embedder.py → src/jmteb/embedders/sbert_embedder.py
@@ -3,7 +3,7 @@
 import numpy as np
 from sentence_transformers import SentenceTransformer
 
-from src.embedders.base import TextEmbedder
+from jmteb.embedders.base import TextEmbedder
 
 
 class SentenceBertEmbedder(TextEmbedder):

diff --git a/src/evaluators/__init__.py → src/jmteb/evaluators/__init__.py b/src/evaluators/__init__.py → src/jmteb/evaluators/__init__.py
diff --git a/src/evaluators/base.py → src/jmteb/evaluators/base.py b/src/evaluators/base.py → src/jmteb/evaluators/base.py
@@ -6,7 +6,7 @@
 
 from pydantic.dataclasses import dataclass
 
-from src.embedders import TextEmbedder
+from jmteb.embedders import TextEmbedder
 
 
 @dataclass

diff --git a/src/evaluators/classification/__init__.py → ...teb/evaluators/classification/__init__.py b/src/evaluators/classification/__init__.py → ...teb/evaluators/classification/__init__.py
diff --git a/src/evaluators/classification/classifiers.py → .../evaluators/classification/classifiers.py b/src/evaluators/classification/classifiers.py → .../evaluators/classification/classifiers.py
diff --git a/src/evaluators/classification/data.py → src/jmteb/evaluators/classification/data.py b/src/evaluators/classification/data.py → src/jmteb/evaluators/classification/data.py
diff --git a/src/evaluators/classification/evaluator.py → ...eb/evaluators/classification/evaluator.py b/src/evaluators/classification/evaluator.py → ...eb/evaluators/classification/evaluator.py
@@ -6,8 +6,8 @@
 from loguru import logger
 from sklearn.metrics import accuracy_score, f1_score
 
-from src.embedders.base import TextEmbedder
-from src.evaluators.base import EmbeddingEvaluator, EvaluationResults
+from jmteb.embedders.base import TextEmbedder
+from jmteb.evaluators.base import EmbeddingEvaluator, EvaluationResults
 
 from .classifiers import Classifier, KnnClassifier, LogRegClassifier
 from .data import ClassificationDataset

diff --git a/src/evaluators/clustering/__init__.py → src/jmteb/evaluators/clustering/__init__.py b/src/evaluators/clustering/__init__.py → src/jmteb/evaluators/clustering/__init__.py
diff --git a/src/evaluators/clustering/data.py → src/jmteb/evaluators/clustering/data.py b/src/evaluators/clustering/data.py → src/jmteb/evaluators/clustering/data.py
diff --git a/src/evaluators/clustering/evaluator.py → src/jmteb/evaluators/clustering/evaluator.py b/src/evaluators/clustering/evaluator.py → src/jmteb/evaluators/clustering/evaluator.py
@@ -13,8 +13,8 @@
 )
 from sklearn.metrics import homogeneity_completeness_v_measure
 
-from src.embedders.base import TextEmbedder
-from src.evaluators.base import EmbeddingEvaluator, EvaluationResults
+from jmteb.embedders.base import TextEmbedder
+from jmteb.evaluators.base import EmbeddingEvaluator, EvaluationResults
 
 from .data import ClusteringDataset
 

diff --git a/...valuators/pair_classification/__init__.py → ...valuators/pair_classification/__init__.py b/...valuators/pair_classification/__init__.py → ...valuators/pair_classification/__init__.py
diff --git a/src/evaluators/pair_classification/data.py → ...eb/evaluators/pair_classification/data.py b/src/evaluators/pair_classification/data.py → ...eb/evaluators/pair_classification/data.py
diff --git a/...aluators/pair_classification/evaluator.py → ...aluators/pair_classification/evaluator.py b/...aluators/pair_classification/evaluator.py → ...aluators/pair_classification/evaluator.py
@@ -3,8 +3,8 @@
 from os import PathLike
 from pathlib import Path
 
-from src.embedders.base import TextEmbedder
-from src.evaluators.base import EmbeddingEvaluator, EvaluationResults
+from jmteb.embedders.base import TextEmbedder
+from jmteb.evaluators.base import EmbeddingEvaluator, EvaluationResults
 
 from .data import PairClassificationDataset
 from .threshold_accuracy import ThresholdAccuracyMetric

diff --git a/src/evaluators/pair_classification/helper.py → .../evaluators/pair_classification/helper.py b/src/evaluators/pair_classification/helper.py → .../evaluators/pair_classification/helper.py
diff --git a/...pair_classification/threshold_accuracy.py → ...pair_classification/threshold_accuracy.py b/...pair_classification/threshold_accuracy.py → ...pair_classification/threshold_accuracy.py
diff --git a/...ators/pair_classification/threshold_f1.py → ...ators/pair_classification/threshold_f1.py b/...ators/pair_classification/threshold_f1.py → ...ators/pair_classification/threshold_f1.py
diff --git a/src/evaluators/retrieval/__init__.py → src/jmteb/evaluators/retrieval/__init__.py b/src/evaluators/retrieval/__init__.py → src/jmteb/evaluators/retrieval/__init__.py
diff --git a/src/evaluators/retrieval/data.py → src/jmteb/evaluators/retrieval/data.py b/src/evaluators/retrieval/data.py → src/jmteb/evaluators/retrieval/data.py
diff --git a/src/evaluators/retrieval/evaluator.py → src/jmteb/evaluators/retrieval/evaluator.py b/src/evaluators/retrieval/evaluator.py → src/jmteb/evaluators/retrieval/evaluator.py
@@ -12,8 +12,8 @@
 from loguru import logger
 from torch import Tensor
 
-from src.embedders.base import TextEmbedder
-from src.evaluators.base import EmbeddingEvaluator, EvaluationResults
+from jmteb.embedders.base import TextEmbedder
+from jmteb.evaluators.base import EmbeddingEvaluator, EvaluationResults
 
 from .data import RetrievalDocDataset, RetrievalQueryDataset
 

diff --git a/src/evaluators/sts/__init__.py → src/jmteb/evaluators/sts/__init__.py b/src/evaluators/sts/__init__.py → src/jmteb/evaluators/sts/__init__.py
diff --git a/src/evaluators/sts/data.py → src/jmteb/evaluators/sts/data.py b/src/evaluators/sts/data.py → src/jmteb/evaluators/sts/data.py
diff --git a/src/evaluators/sts/evaluator.py → src/jmteb/evaluators/sts/evaluator.py b/src/evaluators/sts/evaluator.py → src/jmteb/evaluators/sts/evaluator.py
@@ -9,8 +9,8 @@
 from scipy.stats import pearsonr, spearmanr
 from torch import Tensor
 
-from src.embedders.base import TextEmbedder
-from src.evaluators.base import EmbeddingEvaluator, EvaluationResults
+from jmteb.embedders.base import TextEmbedder
+from jmteb.evaluators.base import EmbeddingEvaluator, EvaluationResults
 
 from .data import STSDataset
 

diff --git a/src/utils/__init__.py → src/jmteb/utils/__init__.py b/src/utils/__init__.py → src/jmteb/utils/__init__.py
diff --git a/src/utils/score_recorder.py → src/jmteb/utils/score_recorder.py b/src/utils/score_recorder.py → src/jmteb/utils/score_recorder.py
@@ -7,7 +7,7 @@
 from pathlib import Path
 from typing import Any
 
-from src.evaluators import EvaluationResults
+from jmteb.evaluators import EvaluationResults
 
 
 class AbstractScoreRecorder(ABC):

diff --git a/tests/conftest.py b/tests/conftest.py
@@ -1,5 +1,7 @@
 import pytest
 
+from jmteb.embedders.sbert_embedder import SentenceBertEmbedder
+
 
 def pytest_addoption(parser: pytest.Parser):
     parser.addoption("--runslow", action="store_true", default=False, help="run slow tests")
@@ -17,3 +19,8 @@ def pytest_collection_modifyitems(config: pytest.Config, items: pytest.Parser):
     for item in items:
         if "slow" in item.keywords:
             item.add_marker(skip_slow)
+
+
+@pytest.fixture(scope="module")
+def embedder(model_name_or_path: str = "prajjwal1/bert-tiny"):
+    return SentenceBertEmbedder(model_name_or_path=model_name_or_path)
diff --git a/tests/embedders/test_sbert.py b/tests/embedders/test_sbert.py
@@ -1,6 +1,6 @@
 import numpy as np
 
-from src.embedders.sbert_embedder import SentenceBertEmbedder
+from jmteb.embedders.sbert_embedder import SentenceBertEmbedder
 
 MODEL_NAME_OR_PATH = "prajjwal1/bert-tiny"
 OUTPUT_DIM = 128

diff --git a/tests/evaluator/conftest.py b/tests/evaluator/conftest.py
@@ -1,6 +1,6 @@
 import pytest
 
-from src.embedders.sbert_embedder import SentenceBertEmbedder
+from jmteb.embedders.sbert_embedder import SentenceBertEmbedder
 
 
 @pytest.fixture(scope="module")

diff --git a/tests/evaluator/test_classification_evaluator.py b/tests/evaluator/test_classification_evaluator.py
@@ -1,11 +1,11 @@
-from src.evaluators.classification import (
+from jmteb.evaluators.classification import (
     ClassificationDataset,
     ClassificationEvaluator,
     ClassificationInstance,
     KnnClassifier,
     LogRegClassifier,
 )
-from src.evaluators.classification.data import JsonlClassificationDataset
+from jmteb.evaluators.classification.data import JsonlClassificationDataset
 
 
 class DummyClassificationDataset(ClassificationDataset):

diff --git a/tests/evaluator/test_clustering_evaluator.py b/tests/evaluator/test_clustering_evaluator.py
@@ -1,9 +1,9 @@
-from src.evaluators.clustering import (
+from jmteb.evaluators.clustering import (
     ClusteringDataset,
     ClusteringEvaluator,
     ClusteringInstance,
 )
-from src.evaluators.clustering.data import JsonlClusteringDataset
+from jmteb.evaluators.clustering.data import JsonlClusteringDataset
 
 
 class DummyClusteringDataset(ClusteringDataset):

diff --git a/tests/evaluator/test_pair_classification_evaluator.py b/tests/evaluator/test_pair_classification_evaluator.py
@@ -1,9 +1,9 @@
-from src.evaluators.pair_classification import (
+from jmteb.evaluators.pair_classification import (
     PairClassificationDataset,
     PairClassificationEvaluator,
     PairClassificationInstance,
 )
-from src.evaluators.pair_classification.data import JsonlPairClassificationDataset
+from jmteb.evaluators.pair_classification.data import JsonlPairClassificationDataset
 
 
 class DummyBinaryDataset(PairClassificationDataset):

diff --git a/tests/evaluator/test_retrieval_evaluator.py b/tests/evaluator/test_retrieval_evaluator.py
@@ -1,11 +1,11 @@
-from src.evaluators.retrieval import (
+from jmteb.evaluators.retrieval import (
     RetrievalDoc,
     RetrievalDocDataset,
     RetrievalEvaluator,
     RetrievalQuery,
     RetrievalQueryDataset,
 )
-from src.evaluators.retrieval.data import (
+from jmteb.evaluators.retrieval.data import (
     JsonlRetrievalDocDataset,
     JsonlRetrievalQueryDataset,
 )

diff --git a/tests/evaluator/test_sts_evaluator.py b/tests/evaluator/test_sts_evaluator.py
@@ -1,5 +1,5 @@
-from src.evaluators.sts import STSDataset, STSEvaluator, STSInstance
-from src.evaluators.sts.data import JsonlSTSDataset
+from jmteb.evaluators.sts import STSDataset, STSEvaluator, STSInstance
+from jmteb.evaluators.sts.data import JsonlSTSDataset
 
 
 class DummySTSDataset(STSDataset):
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1,2 @@
		from jmteb.embedders.base import TextEmbedder
		from jmteb.embedders.sbert_embedder import SentenceBertEmbedder