Skip to content

se4en/ods_dump_search

 
 

Repository files navigation

Slack-open-data-science-search-system

Есть дамп сообщений из канала open data science (блог про data science) из Слака. Описание: Веб-приложение, позволяющее осуществлять поиск по этому блогу

Постановка задачи:

  1. Распарсить данные, предобработать их
  2. Построить поисковый индекс и сжать его для эффективного хранения информации
  3. Разработать веб-приложение, к которому пользователи могут слать поисковые вопросы/запросы, а на выходе получать топ N релевантных ответов
  4. Предусмотреть исправление опечаток в пользовательском запросе

Используемые инструменты:

  1. Для парсинга: библиотека re
  2. Для предобработки, токенизации - библиотека nltk
  3. Для построения системы исправления опечаток: возможно sklearn(для обучения моделей)

image

How to run app

  1. pybabel compile -D app -d src/locales/ -l ru

    pybabel compile -D app -d src/locales/ -l en

  2. export PYTHONPATH="${PYTHONPATH}:{pwd}/src"

  3. streamlit run src/app/MainPage.py

How to run ui tests

  1. pip install -r requirements.dev.txt

  2. playwright install

  3. pytest tests/

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 99.3%
  • Makefile 0.7%