Feat/logreg retrieval #81

Darinochka · 2024-12-12T21:16:33Z

No description provided.

Samoed · 2024-12-12T21:48:16Z

autointent/modules/embedding/_retrieval.py

+            self.k = model_data["k"]
+            self.classifier.coef_ = [model_data["coef"]]
+            self.classifier.intercept_ = model_data["intercept"]
+            self.label_encoder = LabelEncoder()


Может лучше сделать через get params/set params?

voorhs · 2024-12-18T13:51:26Z

autointent/modules/embedding/_retrieval.py

+    Module for managing classification operations using logistic regression.
+
+    LogRegEmbedding provides methods for indexing, training, and predicting based on embeddings
+    for classification tasks.


модуль для прокси подбора эмбедера

для предикта не используется

voorhs · 2024-12-18T13:53:21Z

autointent/modules/embedding/_retrieval.py

+    def db_dir(self) -> str:
+        """
+        Get the directory for storing data.
+
+        :return: Path to the database directory.
+        """
+        if self._db_dir is None:
+            self._db_dir = str(get_db_dir())
+        return self._db_dir
+
+    def fit(self, utterances: list[str], labels: list[LabelType]) -> None:
+        """
+        Train the logistic regression model using the provided utterances and labels.
+
+        :param utterances: List of text data to index.
+        :param labels: List of corresponding labels for the utterances.
+        """
+        vector_index_client = VectorIndexClient(
+            self.embedder_device,
+            self.db_dir,
+            embedder_batch_size=self.batch_size,
+            embedder_max_length=self.max_length,
+            embedder_use_cache=self.embedder_use_cache,
+        )
+        self.vector_index = vector_index_client.create_index(self.embedder_name, utterances, labels)


сейчас у нас по другому работает получение эмбедингов, достаточно просто инициализировать эмбедер и если включено кеширование и ранее эмбединги считались, то они подтянутся

для уточнения посмотри код для LinearScorer и/или спроси у Егора

а VectorIndexClient в итоге тоже нужно инициализировать? просто без него KNN Scorer не хочет работать

voorhs · 2024-12-18T13:54:50Z

autointent/modules/embedding/_retrieval.py

+        self.label_encoder.fit(labels)
+        encoded_labels = self.label_encoder.transform(labels)
+        self.classifier.fit(embeddings, encoded_labels)


кажется не обрабатывается случай мультилейбл, посмотри LinearScorer как там работает

voorhs · 2024-12-18T13:56:28Z

autointent/modules/embedding/_retrieval.py

+    def score(
+        self,
+        context: Context,
+        split: Literal["validation", "test"],
+        metric_fn: RetrievalMetricFn,
+    ) -> float:


нужна не RetrievalMetricFn, а ScoringMetricFn

voorhs · 2024-12-18T13:56:46Z

autointent/modules/embedding/_retrieval.py

+        predicted_encoded = self.classifier.predict(embeddings)
+        predicted_labels = self.label_encoder.inverse_transform(predicted_encoded)
+
+        return metric_fn(labels, [predicted_labels])


ну и тут скобки не нужны будут если скоринговые метрики использовать

voorhs · 2024-12-18T13:58:15Z

autointent/modules/embedding/_retrieval.py

+        self.metadata = VectorDBMetadata(
+            batch_size=self.batch_size,
+            max_length=self.max_length,
+            db_dir=str(self.db_dir),
+        )


стоит использовать свой один TypedDict для хранения метадаты, не надо разбивать на два, тем более брать один из них из соседнего модуля

voorhs · 2024-12-18T13:58:48Z

autointent/modules/embedding/_retrieval.py

+        self.classifier_metadata = ClassifierMetadata(
+            coef_=self.classifier.coef_.tolist(),
+            intercept_=self.classifier.intercept_.tolist(),
+            classes=self.label_encoder.classes_.tolist(),
+            params=self.classifier.get_params(),
+        )
+        with (dump_dir / "classifier.json").open("w") as file:
+            json.dump(self.classifier_metadata, file, indent=4)


а классификатор sklearn лучше сохранять с помощью библиотеки joblib

voorhs · 2024-12-18T13:59:21Z

autointent/modules/embedding/_retrieval.py

+    def predict(self, utterances: list[str]) -> list[int | list[int]]:
+        """
+        Predict labels for a list of utterances.
+
+        :param utterances: List of utterances for classification.
+        :return: A tuple containing:
+            - labels: List of predicted labels for each utterance.
+            - scores: List of dummy confidence scores.
+            - texts: List of the input utterances.
+        """
+        embeddings = self.vector_index.embedder.embed(utterances)
+        predicted_encoded = self.classifier.predict(embeddings)
+        predicted_labels = self.label_encoder.inverse_transform(predicted_encoded).tolist()
+        predicted_probabilities = self.classifier.predict_proba(embeddings).tolist()
+
+        labels = self.vector_index.get_all_labels()
+
+        texts = [self.vector_index.texts[labels == label][: self.k] for label in predicted_labels]
+
+        return predicted_labels, predicted_probabilities, texts


обсуждали что предикт не нужен

ABC модуль требует функцию predict, мне логику менять или как лучше сделать?

Наверное ошибку кидай или просто pass

да сделала pass, получается в RetrieverEmbedder аналогично сделать?

Да, можно так

voorhs · 2024-12-22T07:30:42Z

closes #44

Samoed · 2024-12-22T07:45:53Z

Closes надо в описании pr писать, чтобы автоматически все закрывалось.

Darinochka added 2 commits December 12, 2024 23:39

feat: added logregretrieval

3965efd

fix: predict for logregretrieval

37fc7c7

Samoed reviewed Dec 12, 2024

View reviewed changes

Darinochka added 5 commits December 13, 2024 16:14

fix: predict for logregretrieval

66d3942

Merge branch 'dev' into feat/logreg-retrieval

5a433df

fix: added kwargs

f8e7de7

fixed: dump & load modules and added tests

d402dba

fix: fixed dump for RetrieverEmbedding

ee343e8

voorhs requested changes Dec 18, 2024

View reviewed changes

Darinochka added 12 commits December 18, 2024 23:19

fix: fixed docstring

001e761

fix: change vector_index to embedder

6994f27

fix: change to the ScoringMetricFn

b9ff7c7

fix: multilabel and fix scorer metric

fe9a587

fix: load and dump

f3fe5cc

fix: lint

1faf7f2

fix: lint

1bbc0ba

fix: mypy

5a32f44

fix: docs

7e7a78a

fix: docs

03c3574

feat: change predict in RetrievalEmbedding

7c4a5e4

feat: change predict in RetrievalEmbedding

b94653a

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feat/logreg retrieval #81

Feat/logreg retrieval #81

Darinochka commented Dec 12, 2024

Samoed Dec 12, 2024

voorhs Dec 18, 2024

voorhs Dec 18, 2024

Darinochka Dec 19, 2024

voorhs Dec 18, 2024

voorhs Dec 18, 2024

voorhs Dec 18, 2024

voorhs Dec 18, 2024

voorhs Dec 18, 2024

voorhs Dec 18, 2024

Darinochka Dec 19, 2024

Samoed Dec 19, 2024

Darinochka Dec 19, 2024

Samoed Dec 19, 2024

voorhs commented Dec 22, 2024

Samoed commented Dec 22, 2024

Feat/logreg retrieval #81

Are you sure you want to change the base?

Feat/logreg retrieval #81

Conversation

Darinochka commented Dec 12, 2024

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

voorhs commented Dec 22, 2024

Samoed commented Dec 22, 2024