922 preprocessor acceleration #1004

IIaKyJIuH · 2022-12-12T13:06:54Z

Fixes to increase preprocessor speed.

Optimized preprocessing directory of the project as well as some core subdirectories with preprocessing utils.

IIaKyJIuH · 2022-12-12T13:09:59Z

fedot/core/data/data_preprocessing.py

valer1435 · 2022-12-12T14:01:18Z

fedot/preprocessing/categorical.py

-            nans_number = is_row_has_nan.sum()
-            if nans_number > 0 and column_id in categorical_ids:
+        for column_id in range(number_of_columns):
+            pd_column = pd.Series(input_data.features[:, column_id], copy=True)


Потенциально ненужное копирование?

А оно и раньше было - column = np.array(input_data.features[:, column_id])
Ну и потом, без этого копирования тесты падают, мб можно от этого копирования избавиться, но не придумал ещё, как.

fedot/preprocessing/categorical.py

IIaKyJIuH · 2022-12-12T16:49:36Z

Вот тут скрываются пруфы, почему буст результата не дал

gkirgizov · 2022-12-22T09:38:21Z

fedot/preprocessing/data_types.py

@@ -412,58 +412,42 @@ def _into_numeric_features_transformation_for_predict(self, data: InputData):
                features_types[column_id] = NAME_CLASS_FLOAT


-def define_column_types(table: np.array):
+def define_column_types(table: np.ndarray):


а есть в профалере измерения конкретно по этой функции?

Выглядит это так

А есть тут adult_medium.zip

gkirgizov · 2022-12-22T09:41:48Z

fedot/preprocessing/data_types.py

    for column_id in range(n_columns):
        current_column = table[:, column_id]

-        # Check every element in numpy array - it can take a long time!
-        column_types = list(map(type_ignoring_nans, current_column))
+        column_types = np.where(pd.isna(current_column), str(type(None)), vto_type(current_column))
+        unique_column_types = np.unique(column_types)



может, будет чуть быстрее, если сразу по всей таблице функцию один раз прогнать, а потом уже проитерироваться по колонкам?

Вот как это выглядит с такой правкой:

И вот результаты в pstats

Вот файл adult_medium_improved.zip
Получается, что теперь время на векторизацию вообще почти не тратится, с другой стороны, unique метод стал почему-то сразу больше времени занимать ни с того ни с сего.

я имел ввиду np.unique прогнать один раз: np.unique(... , axis=1), кроме того можно сразу один раз посчитать количество элементов всех типов np.unique(..., return_counts=True)

еще пара мыслей:

вместо строчек-имен типов может быть эффективнее хранить численные id типов или их int хэш

вместо сложной логики подмены nan и писаиваний в массив может быть имеет смысл просто вычесть из числа float-типов число nan значений

я имел ввиду np.unique прогнать один раз: np.unique(... , axis=1), кроме того можно сразу один раз посчитать количество элементов всех типов np.unique(..., return_counts=True)

Не получится axis задать для dtype=object, поэтому всё ещё внутри цикла это происходит.

еще пара мыслей:

вместо строчек-имен типов может быть эффективнее хранить численные id типов или их int хэш

вместо сложной логики подмены nan и писаиваний в массив может быть имеет смысл просто вычесть из числа float-типов число nan значений

С первым пунктом согласен, так и сделал, создав словарь TYPE_TO_ID.
А вот второй пункт вообще, если честно, не понял.

тогда, может, и комментарий выше насчет np.unique сработает для dtype=int ?

А вот второй пункт вообще, если честно, не понял.

Я имел ввиду следующее. количество не-nan-значений можно посчитать как (количество всех float-значений) - (количество nan). Это сработает так как nan-значение имеет тип float. А кол-во nan можно посчитать с помощью np.isna. Так можно обойтись без поиндексного присваивания в массив и сравниваний значений типа object -- а это все заметно дольше.

codecov · 2022-12-29T12:47:56Z

Codecov Report

Attention: 42 lines in your changes are missing coverage. Please review.

Comparison is base (c38c22f) 79.27% compared to head (304e29f) 79.08%.
Report is 3 commits behind head on master.

❗ Current head 304e29f differs from pull request most recent head 0c48f7f. Consider uploading reports for the commit 0c48f7f to get more accurate results

Files	Patch %	Lines
fedot/api/api_utils/api_data.py	57.50%	17 Missing ⚠️
fedot/preprocessing/data_types.py	92.97%	13 Missing ⚠️
...edot/core/repository/operation_types_repository.py	64.70%	6 Missing ⚠️
fedot/api/main.py	80.00%	1 Missing ⚠️
fedot/core/data/supplementary_data.py	75.00%	1 Missing ⚠️
...on_implementations/models/discriminant_analysis.py	50.00%	1 Missing ⚠️
fedot/core/pipelines/pipeline.py	83.33%	1 Missing ⚠️
fedot/core/repository/json_evaluation.py	93.33%	1 Missing ⚠️
fedot/preprocessing/preprocessing.py	97.43%	1 Missing ⚠️

Additional details and impacted files

@@            Coverage Diff             @@
##           master    #1004      +/-   ##
==========================================
- Coverage   79.27%   79.08%   -0.20%     
==========================================
  Files         145      145              
  Lines       10047     9957      -90     
==========================================
- Hits         7965     7874      -91     
- Misses       2082     2083       +1

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

aim-pep8-bot · 2023-03-30T13:00:07Z

Hello @IIaKyJIuH! Thanks for updating this PR. We checked the lines you've touched for PEP 8 issues, and found:

There are currently no PEP 8 issues detected in this Pull Request. Cheers! 🍻

Comment last updated at 2023-12-11 16:52:39 UTC

IIaKyJIuH · 2023-08-31T10:03:54Z

Новое соотношение по скорости на использование пайплайнов:

Это значения получаются усреднением по следующим датасетам на задачу классификации:
['adult', 'airlines', 'Amazon_employee_access', 'Australian', 'bank-marketing', 'blood-transfusion-service-center', 'car', 'christine', 'cnae-9', 'connect-4', 'credit-g', 'fabert', 'helena', 'jannis', 'jasmine', 'jungle_chess_2pcs_raw_endgame_complete', 'kc1', 'kr-vs-kp', 'mfeat-factors', 'nomao', 'numerai286', 'phoneme', 'segment', 'shuttle', 'sylvine', 'vehicle']

То есть моя модификация всё-таки чуть-чуть лучше.
Чёткая проблема виднеется в "среднем" пайплайне, создаю я его для FEDOT и sklearn следующим образом:

В ADDITIONAL_PARAMS просто задаётся отключение препроцессинга.

Эквивалентны ли эти пайплайны по логике обработки?

aPovidlo · 2023-08-31T11:22:36Z

@IIaKyJIuH
Не совсем понимаю, а зачем сравнивать препроцессинг через работу пайплайнов? Может быть лучше засекать время для препроцессинга каждого датасета по отдельности. Также время обработки препроца было бы полезно добавить в логирование. Еще полезно думаю знать объем занимаемой памяти до и после.

В ADDITIONAL_PARAMS просто задаётся отключение препроцессинга.

А FedotPipe это что?

kasyanovse · 2023-11-30T10:23:11Z

fedot/api/api_utils/input_analyser.py

-                need_label = True
-                break
-        return need_label
+        uniques = np.unique(input_data.features[:, categorical_ids].astype(str))


Зачем приводить к str?

В предыдущем варианте учитывалось, что в разных столбцах могут быть одинаковые значения. В новом варианте это не учитывается, хотя по логике должно.

Если отказаться от приведения к str, то надо будет добавить аргумент equal_nan, это должно быть быстрее, чем приводить к str.

Зачем приводить к str?

Так это же категориальные признаки. Думаю, что там могут быть и числа, например, 1, 2, 3 и тд. Наверное, в этом и была идея переводить к str

В предыдущем варианте учитывалось, что в разных столбцах могут быть одинаковые значения. В новом варианте это не учитывается, хотя по логике должно. Если отказаться от приведения к str, то надо будет добавить аргумент equal_nan, это должно быть быстрее, чем приводить к str.

Не понял. Можешь более детальнее?

Так это же категориальные признаки. Думаю, что там могут быть и числа, например, 1, 2, 3 и тд. Наверное, в этом и была идея переводить к str

Странно, потому что '1' и 1 в таком случае получатся одной категорией.

Не понял. Можешь более детальнее?

Для нового кода 1 в первом столбце и 1 в любом другом - это одна уникальная категория. В старом коде 1 в первом столбце - это уникальное значение для первого столбца, а 1 во втором - для второго.

kasyanovse · 2023-11-30T10:23:57Z

fedot/api/api_utils/input_analyser.py

@@ -118,11 +115,5 @@ def control_categorical(self, input_data: InputData) -> bool:
        """

        categorical_ids, _ = find_categorical_columns(input_data.features)


Поиск категориальных столбцов требует времени, поэтому лучше брать индексы категориальных столбцов из input_data либо сохранять их там после определения.

Соглашусь с тобой. Думаю, что можно было бы проследить вызовы этой функции. Сохранение сделано для извлечения незакодированных категориальных признаков, добавлял такой признак в InputData, который сохраняет на одном из этапов предобработки.

Однако думаю, что это мог бы быть оформлен в виде issue и выполнен последующим шагом, а не в этом PR.

kasyanovse · 2023-11-30T10:25:45Z

fedot/api/main.py

+        if isinstance(self.train_data, InputData) and self.params.get('use_auto_preprocessing'):
+            self.train_data = self.data_processor.fit_transform(self.train_data)


А почему только для InputData?

Сделал так, потому что в MultiModal данных отсутствует supplementary_data. Из-за этого падали тесты. Думаю, что для них нужно сделать как-то по другому, и авто предобработать только если в них содержатся табличные данные. Пока не знаю как это можно лучше всего это сделать.

kasyanovse · 2023-11-30T10:27:17Z

fedot/core/data/data.py

+        if not feature_ids:
+            return None


Может лучше ошибку кинуть?

Думаю, что None не просто так. Если посмотреть на использование функции, то от нее ожидается такое поведение. Если таких индексов нет, например, категориальных, то и данные должны быть пустыми, то есть None.

kasyanovse · 2023-11-30T10:29:09Z

fedot/core/data/data_preprocessing.py

+def data_type_is_suitable_for_preprocessing(data: InputData) -> bool:
+    return data_type_is_table(data) or data_type_is_ts(data) or data_type_is_multi_ts(data)


Зачем нужны эти функции если можно через data_type in List[DataTypesEnum]?

Не знаю, это уже было давно так сделано

fedot/core/pipelines/pipeline.py

fedot/preprocessing/base_preprocessing.py

fedot/preprocessing/categorical.py

fedot/preprocessing/preprocessing.py

fedot/core/data/data_preprocessing.py

kasyanovse · 2023-12-05T11:30:17Z

fedot/api/api_utils/input_analyser.py

-                need_label = True
-                break
-        return need_label
+        uniques = np.unique(input_data.features[:, categorical_ids].astype(str))


Так это же категориальные признаки. Думаю, что там могут быть и числа, например, 1, 2, 3 и тд. Наверное, в этом и была идея переводить к str

Странно, потому что '1' и 1 в таком случае получатся одной категорией.

Не понял. Можешь более детальнее?

Для нового кода 1 в первом столбце и 1 в любом другом - это одна уникальная категория. В старом коде 1 в первом столбце - это уникальное значение для первого столбца, а 1 во втором - для второго.

valer1435

Я бы сделал флаг true по умолчанию. Потому что иначе никто не станет им пользоваться и мы не узнаем насколько изменения хороши в бою

fedot/api/api_utils/api_data.py

fedot/api/main.py

aPovidlo · 2023-12-08T15:02:21Z

Я бы сделал флаг true по умолчанию. Потому что иначе никто не станет им пользоваться и мы не узнаем насколько изменения хороши в бою

@valer1435 Кажется нам нужно сначала самим также ее протестировать. Хоть я и постарался покрыть код тестами, но хотелось бы увидеть и на качественные изменения, если они есть. Вливаю в мастер, так как сейчас есть актуальные эксперименты с необходимостью такого функционала, на которых и посмотрим. Далее, если нужно будет доработать, внесем изменения и поставим по умолчанию.

andreygetmanov · 2023-12-11T14:59:21Z

fedot/core/utils.py

@@ -131,3 +132,13 @@ def df_to_html(df: pd.DataFrame, save_path: Union[str, os.PathLike], name: str =
    if table.parent.name != 'div':
        table = table.wrap(doc.new_tag('div', style='overflow: auto;'))
        file.write_text(doc.prettify())
+
+
+def convert_memory_size(size_bytes):


Здесь бы как-то поинформативнее назвать переменные

andreygetmanov · 2023-12-11T15:00:14Z

fedot/preprocessing/preprocessing.py

+            try:
+                return item.strip()
+            except AttributeError:
+                # not an str object


Поправь на "not a str object"

IIaKyJIuH linked an issue Dec 12, 2022 that may be closed by this pull request

Caching performance is worse than the one from the earlier versions #1000

Closed

IIaKyJIuH removed a link to an issue Dec 12, 2022

Caching performance is worse than the one from the earlier versions #1000

Closed

valer1435 requested changes Dec 12, 2022

View reviewed changes

nicl-nno requested a review from gkirgizov December 12, 2022 17:33

andreygetmanov approved these changes Dec 19, 2022

View reviewed changes

gkirgizov reviewed Dec 22, 2022

View reviewed changes

IIaKyJIuH force-pushed the 922-preproc-acceleration branch from 5aa9531 to cd5a712 Compare December 29, 2022 12:35

IIaKyJIuH force-pushed the 922-preproc-acceleration branch 3 times, most recently from 6da30b3 to f3befb2 Compare February 15, 2023 08:57

IIaKyJIuH force-pushed the 922-preproc-acceleration branch 4 times, most recently from bc38230 to 8f05890 Compare February 22, 2023 07:28

IIaKyJIuH force-pushed the 922-preproc-acceleration branch from bc38230 to 4a97956 Compare February 27, 2023 10:22

IIaKyJIuH force-pushed the 922-preproc-acceleration branch 2 times, most recently from 29d27a2 to a346643 Compare April 27, 2023 09:08

IIaKyJIuH force-pushed the 922-preproc-acceleration branch from 9e4cff2 to c48da70 Compare May 22, 2023 13:29

IIaKyJIuH force-pushed the 922-preproc-acceleration branch from c48da70 to 8e86b98 Compare June 9, 2023 08:56

IIaKyJIuH force-pushed the 922-preproc-acceleration branch 2 times, most recently from ada3c49 to 177cd28 Compare July 5, 2023 16:33

IIaKyJIuH force-pushed the 922-preproc-acceleration branch from 299bce9 to d75a7ab Compare July 31, 2023 10:41

IIaKyJIuH force-pushed the 922-preproc-acceleration branch from 9f39d7b to 4b17129 Compare August 30, 2023 07:36

typings

8c793bb

aPovidlo force-pushed the 922-preproc-acceleration branch from 3745685 to 8c793bb Compare November 22, 2023 13:09

aPovidlo added 6 commits November 27, 2023 17:19

Adding preprocessing data at once from API

ac1a577

Fixes in params, data preprocessor merging and fixes in tests

3084851

Fixes for MultiModalData

adaf590

Added new api param, fix in merge, fixes & editing tests

097c163

Fix param for test

94b6af5

Fix bug in API

be007cb

kasyanovse self-requested a review November 29, 2023 17:59

kasyanovse requested changes Nov 30, 2023

View reviewed changes

kasyanovse requested changes Dec 5, 2023

View reviewed changes

aPovidlo added 3 commits December 5, 2023 14:54

@kasyanovse requested improvements

8e046f5

Return fixes

cac26f6

Return fixes (1)

5f62ef4

aPovidlo requested review from valer1435, andreygetmanov and kasyanovse December 6, 2023 16:55

aPovidlo added 4 commits December 7, 2023 14:09

Remove transformations to str categories

b962148

Return transformations to str for categories

d5b0648

Fix control_categorical for label encoder

8be836e

Fix log message

a91c9ba

kasyanovse approved these changes Dec 7, 2023

View reviewed changes

aPovidlo mentioned this pull request Dec 8, 2023

Switch OneHotEncoder to LabelEncoder #1196

Closed

valer1435 approved these changes Dec 8, 2023

View reviewed changes

fedot/api/api_utils/api_data.py Show resolved Hide resolved

fedot/api/main.py Outdated Show resolved Hide resolved

Small fixes with merger

304e29f

andreygetmanov requested changes Dec 11, 2023

View reviewed changes

@andreygetmanov requested fixes

0c48f7f

andreygetmanov approved these changes Dec 11, 2023

View reviewed changes

aPovidlo merged commit da94b3e into master Dec 11, 2023
5 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

922 preprocessor acceleration #1004

922 preprocessor acceleration #1004

IIaKyJIuH commented Dec 12, 2022

IIaKyJIuH commented Dec 12, 2022

valer1435 Dec 12, 2022

IIaKyJIuH Dec 13, 2022

IIaKyJIuH commented Dec 12, 2022

gkirgizov Dec 22, 2022

IIaKyJIuH Dec 22, 2022

gkirgizov Dec 22, 2022

IIaKyJIuH Dec 22, 2022

gkirgizov Dec 26, 2022 •

edited

Loading

gkirgizov Dec 26, 2022

IIaKyJIuH Dec 29, 2022

IIaKyJIuH Dec 29, 2022

gkirgizov Jan 12, 2023

gkirgizov Jan 12, 2023 •

edited

Loading

codecov bot commented Dec 29, 2022 •

edited

Loading

aim-pep8-bot commented Mar 30, 2023 •

edited

Loading

IIaKyJIuH commented Aug 31, 2023

aPovidlo commented Aug 31, 2023 •

edited

Loading

kasyanovse Nov 30, 2023

aPovidlo Dec 5, 2023

kasyanovse Dec 5, 2023

kasyanovse Nov 30, 2023

aPovidlo Dec 5, 2023

kasyanovse Nov 30, 2023

aPovidlo Dec 5, 2023

kasyanovse Nov 30, 2023

aPovidlo Dec 5, 2023

kasyanovse Nov 30, 2023

aPovidlo Dec 5, 2023

kasyanovse Dec 5, 2023

valer1435 left a comment

aPovidlo commented Dec 8, 2023

andreygetmanov Dec 11, 2023

andreygetmanov Dec 11, 2023

		@@ -118,11 +115,5 @@ def control_categorical(self, input_data: InputData) -> bool:
		"""

		categorical_ids, _ = find_categorical_columns(input_data.features)

		if isinstance(self.train_data, InputData) and self.params.get('use_auto_preprocessing'):
		self.train_data = self.data_processor.fit_transform(self.train_data)

		def data_type_is_suitable_for_preprocessing(data: InputData) -> bool:
		return data_type_is_table(data) or data_type_is_ts(data) or data_type_is_multi_ts(data)

922 preprocessor acceleration #1004

922 preprocessor acceleration #1004

Conversation

IIaKyJIuH commented Dec 12, 2022

IIaKyJIuH commented Dec 12, 2022

Choose a reason for hiding this comment

Choose a reason for hiding this comment

IIaKyJIuH commented Dec 12, 2022

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

gkirgizov Dec 26, 2022 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

gkirgizov Jan 12, 2023 • edited Loading

Choose a reason for hiding this comment

codecov bot commented Dec 29, 2022 • edited Loading

Codecov Report

aim-pep8-bot commented Mar 30, 2023 • edited Loading

Comment last updated at 2023-12-11 16:52:39 UTC

IIaKyJIuH commented Aug 31, 2023

aPovidlo commented Aug 31, 2023 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

valer1435 left a comment

Choose a reason for hiding this comment

aPovidlo commented Dec 8, 2023

Choose a reason for hiding this comment

Choose a reason for hiding this comment

gkirgizov Dec 26, 2022 •

edited

Loading

gkirgizov Jan 12, 2023 •

edited

Loading

codecov bot commented Dec 29, 2022 •

edited

Loading

aim-pep8-bot commented Mar 30, 2023 •

edited

Loading

aPovidlo commented Aug 31, 2023 •

edited

Loading