Open-Source-Kazakh-Corpus

We have built corpus for Kazakh language from Wikipedia dump (https://dumps.wikimedia.org/kkwiki/). Using a tool from Jones Evans (http://www.evanjones.ca/software/wikipedia2text.html) to parse data, and nltk to build n-grams.

A total of 20 million words were collected. With almost 600 thousand words of different derivations.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
description		description
kazakh n-grams		kazakh n-grams
.DS_Store		.DS_Store
README.md		README.md

Provide feedback