Scientific articles similarity demo

Demo for indexing scientific articles in PDF and search for similarity between them. I decided to use a Vector representation of each document, using Word2Vec average of each token inside document.

The notebooks folder contains scripts to load, parse and index articles, producing articles.json and faiss_index.out.

Config

1 - Create a conda env using pre-reqs.

conda env create -f environment.yml

conda activate articles_similarity

2 - If you want to run the pdf parse notebook, you must run the server:

bash serve_grobid.sh

3 - Run the Streamlit app

streamlit run streamlit_frontend.py

.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
notebooks		notebooks
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
articles.json		articles.json
environment.yml		environment.yml
faiss_index.out		faiss_index.out
streamlit_app.gif		streamlit_app.gif
streamlit_frontend.py		streamlit_frontend.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Scientific articles similarity demo

Config

About

Releases

Packages

Languages

License

vabatista/articles_similarity

Folders and files

Latest commit

History

Repository files navigation

Scientific articles similarity demo

Config

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages