Skip to content

Latest commit

 

History

History
37 lines (22 loc) · 1.67 KB

README.md

File metadata and controls

37 lines (22 loc) · 1.67 KB

Slack-open-data-science-search-system

Есть дамп сообщений из канала open data science (блог про data science) из Слака. Описание: Веб-приложение, позволяющее осуществлять поиск по этому блогу

Постановка задачи:

  1. Распарсить данные, предобработать их
  2. Построить поисковый индекс и сжать его для эффективного хранения информации
  3. Разработать веб-приложение, к которому пользователи могут слать поисковые вопросы/запросы, а на выходе получать топ N релевантных ответов
  4. Предусмотреть исправление опечаток в пользовательском запросе

Используемые инструменты:

  1. Для парсинга: библиотека re
  2. Для предобработки, токенизации - библиотека nltk
  3. Для построения системы исправления опечаток: возможно sklearn(для обучения моделей)

image

How to run app

  1. pybabel compile -D app -d src/locales/ -l ru

    pybabel compile -D app -d src/locales/ -l en

  2. export PYTHONPATH="${PYTHONPATH}:{pwd}/src"

  3. streamlit run src/app/MainPage.py

How to run ui tests

  1. pip install -r requirements.dev.txt

  2. playwright install

  3. pytest tests/