Skip to content

தமிழில் உள்ள பொதுவெளி தரவுகள், நிரல் திரட்டுகள், மற்றும் மென்பொருள்கள்.

License

Notifications You must be signed in to change notification settings

msathia/awesome-tamil

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 

Repository files navigation

awesome-tamil - அருந்தமிழ்

தமிழில் உள்ள பொதுவெளித் தரவுகள், நிரல் திரட்டுகள், மற்றும் மென்பொருட்கள். கற்றது கைமண்ணளவு, எனவே எதுவும் விடுபட்டிருந்தால் பிழை திருத்தவும். மற்றதரவுகள் இருப்பினும், இவை தனிமனிதர் கணினியாளர்களுக்கு எட்டாக் கனியாகவே உள்ளது - காலம் மாறக்கூடும் - அப்போது யாரேனும் இந்தப் பட்டியலை புதுப்பித்து கிட்-இல் புதுப்பதிவு அனுப்புங்கள்.

NLP (இயல்மொழி ஆய்வுக்கான நிரல் திரட்டு)

  1. open-tamil - பைத்தான் - https://github.com/Ezhil-Language-Foundation/open-tamil
  2. TamilNLP - பைத்தான் - https://github.com/AshokR/TamilNLP
  3. PyTamil - https://github.com/srix/pytamil
  4. ஆமுதா -பைத்தான்- https://github.com/TamilClass/amuthaa
  5. தமிழ் parsing -Java- https://github.com/drajamanik/tamil
  6. தமிழ் parsing -Java- https://github.com/velsubra/Tamil
  7. Corpus creation tools - Ruby - https://github.com/mindaslab/tamil_corpus

Corpus, Dictionaries - சொல்வங்கி,

  1. Noun list from Kaniyam - https://github.com/KaniyamFoundation/all_tamil_nouns Word list - https://github.com/KaniyamFoundation/all_tamil_words
  2. Tirukkural - https://github.com/tshrinivasan/libkural
  3. Neechalkaran Tamil Corpus - https://github.com/neechalkaran/Tamil-corpus
  4. TamilNLP - https://github.com/AshokR/TamilNLP/tree/master/Resources
  5. Open-Tamil data sets - https://github.com/Ezhil-Language-Foundation/open-tamil/tree/5eb9fb1447fe021ca47e2cc4605f7111e6b1088f/solthiruthi/data
  6. Tamil VU dictionary - 65000+ words - https://github.com/rprabhu/TamilDictionary
  7. Palaniappa Bros. Dictionary - https://github.com/indic-dict/stardict-tamil
  8. Nigandiyam - Wiktionary - https://ta.wikisource.org/wiki/%E0%AE%B5%E0%AE%BF%E0%AE%95%E0%AF%8D%E0%AE%95%E0%AE%BF%E0%AE%AE%E0%AF%82%E0%AE%B2%E0%AE%AE%E0%AF%8D:%E0%AE%A8%E0%AE%BF%E0%AE%95%E0%AE%A3%E0%AF%8D%E0%AE%9F%E0%AE%BF%E0%AE%AF%E0%AE%AE%E0%AF%8D_%E0%AE%A4%E0%AE%BF%E0%AE%9F%E0%AF%8D%E0%AE%9F%E0%AE%AE%E0%AF%8D
  9. தமிழ்ப்புலவர் https://github.com/ramasamy-duraipandy/tamil-pulavar
  10. https://github.com/abuvanth/english-tamil-dictionary-api

Private Corpora - தனியார் சொல்வங்கி

  1. AU-KBC Chennai - Tamil research databases - http://www.au-kbc.org/nlp/lex_re.html, http://www.au-kbc.org/nlp/corpusrelease.html
  2. CRE-A இராகவ ஐய்யங்கார் வினைசொற்கள் / வினையடி - https://www.crea.in/verb-table
  3. EMILLE-CIIL இந்தியமொழிகளுக்கான சொல்வங்கியில் தமிழுக்கு மட்டும் 1கோடி சொற்கள் உள்ளன. http://catalog.elra.info/en-us/repository/browse/ELRA-W0037/

AI/ML Datasets

  1. Tamil New Corpus - 6500 articles - https://www.kaggle.com/disisbig/tamil-news-dataset
  2. Tamil Vowels Images - MNIST Compatible - https://github.com/Ezhil-Language-Foundation/acchu-tamilocr-dataset
  3. Tamil Loan Word Text dataset - https://www.kaggle.com/muthua/tamil-loan-words-classification
  4. Tamil Wikipedia Corpus - https://www.kaggle.com/disisbig/tamil-wikipedia-articles

Wiktionary, Wikipedia - விக்கிபீடியாவை ஆய்வுசெய்ய உத்திகள்

  1. Korkai Corpus builder - Go - https://github.com/psankar/korkai
  2. Tamil Wiktionary parser - Python/Qt - https://github.com/thamizha/tawiktionary-offline/
  3. Tamil Wiktionary parser - https://github.com/sathia27/e2t-dictionary/

Madurai - மதுரைத்திட்டம் ஆய்வுசெய்ய உத்திகள்

  1. "மின் மதுரை" செயலி - https://github.com/Ezhil-Language-Foundation/MinMadurai

Spell Checker

  1. Language Tool - https://github.com/languagetool-org/languagetool
  2. Affix file/dictionary for Tamil for Hunspell - https://github.com/thamizha/thamizha-solthiruthi
  3. GNU Aspell dictionary for Tamil - https://ftp.gnu.org/gnu/aspell/dict/0index.html
  4. Solthiruthi @ Open-Tamil

Sandhi Checker - சந்திப்பிழைதிருத்தி

  1. 40-சந்தி விதிகளை தமிழ் உரையில் திருத்தம் செய்ய -பைத்தான்- https://github.com/nithyadurai87/tamil-sandhi-checker

Stemmer - வேர்ச்சொல் பகுப்பாய்வு

  1. Primary Tamil Stemmer - https://github.com/rdamodharan/tamil-stemmer
  2. pystemmer/Snowball - தமிழுக்கும் தழுவப்பட்டது - https://github.com/snowballstem/pystemmer
  3. [1] இதன் சாரம் Open-Tamil-இலும் காணலாம்.

Parallel-Dictionaries

  1. Open-Tamil 40,000 words English-Tamil - https://github.com/Ezhil-Language-Foundation/open-tamil/tree/5eb9fb1447fe021ca47e2cc4605f7111e6b1088f/solthiruthi/data
  2. English -> Tamil - https://github.com/sathia27/dictionary

Tamil Word Net

  1. AU-KBC, Tamil University Thanjavur -Java- http://www.au-kbc.org/nlp/TamilWordnet.tgz

Morphological Analysis - சொல்வடிவ பகுப்பாய்வு

  1. FST/Tamizhi-Morph - - https://github.com/sarves/thamizhi-morph
  2. ML Morph - மலயாளம் சொல்வடிவ பகுப்பாய்வு - https://github.com/smc/mlmorph
  3. Polyglot - பைத்தான் - https://github.com/aboSamoor/polyglot

Dependency parser

  1. UDD - https://github.com/UniversalDependencies/UD_Tamil-TTB
  2. அவலோகிதம் - Venba parser - https://github.com/virtualvinodh/avalokitam

POS - இடம்சூட்டுபெயர் பகுப்பாய்வு செயலிகள்

  1. RDRPOSTagger - R - https://github.com/datquocnguyen/RDRPOSTagger
  2. RippleTagger - பைத்தான் - https://github.com/EmilStenstrom/rippletagger
  3. TamilNLP - பைத்தான் - https://github.com/AshokR/TamilNLP

Cloud Computing

  1. Bringup Tamil friendly Unix OS - https://github.com/Ezhil-Language-Foundation/padai

Keyboard Manager

  1. eKalappai - C++ - https://github.com/thamizha/ekalappai
  2. NHM Wirter - https://indiclabs.in/products/writer/

Fonts (எழுத்துருக்கள்)

  1. Open-Source Tamil Fonts - https://github.com/thamizha/tamil-fonts
  2. Meera Tamil - https://github.com/santhoshtr/meera-tamil
  3. Catamaran Tamil - https://github.com/VanillaandCream/Catamaran-Tamil
  4. Amma - https://github.com/mooniak/amma-font
  5. http://oss.neechalkaran.com/tamilfonts/

Encoding (எழுத்துரு மாற்றி)

  1. txt2ipa - பைத்தான் - https://github.com/arulalant/txt2ipa
  2. txt2unicode - பைத்தான் - https://github.com/arulalant/txt2unicode

Blogs/Tutorials - அறிமுக கட்டுரைகள்

  1. https://kaniyam.com
  2. https://nivedithakarmegam.wordpress.com/2019/03/31/text-preprocessing-tools-for-tamil-language/
  3. https://ezhillang.blog/category/tamil-nlp/
  4. https://goinggnu.wordpress.com
  5. https://indicnlp.org

OCR

  1. PDF2Text using Google OCR - https://github.com/KaniyamFoundation/Pdf2Text
  2. Tesseract for Tamil GUI - https://github.com/Parathantl/tesseract_gui
  3. Tesseract based OCR API - https://github.com/neechalkaran/OCR

TTS

  1. Concatennative Synthesis on Diphones - https://github.com/sunnyglow/ThamizhPesi
  2. Concatennative Synthesis on Syllables - https://github.com/vasurenganathan/tamil-tts
  3. Dhvani - https://github.com/tshrinivasan/dhvani-tts

ASR

  1. NA

Programming Languages

  1. Ezhil - http://github.com/Ezhil-Language-Foundation/ezhil-lang
  2. CLJ-Thamil - https://github.com/echeran/clj-thamil

இதர

https://github.com/seekshiva/tamil-paa-thedal https://github.com/julienmalard/ennikkai/

பட்டியல்கள்

  1. த.இ.க மென்பொருள் பட்டியல் http://www.tamilvu.org/coresite/html/cwsoftlist.htm
  2. கணியம் - https://github.com/KaniyamFoundation/awesome-tamil-nlp
  3. கொர்க்கை சங்கர் - https://github.com/psankar/TamilFOSS
  4. தங்கமணி அருண் - https://github.com/thangamani-arun/Tamil-NLP-Resources
  5. நீச்சல்காரன் http://oss.neechalkaran.com/tamilsoftwares
  6. பழந்தமிழ் இலக்கியங்களில் தேட http://sangam.tamilnlp.com/mp/json/

About

தமிழில் உள்ள பொதுவெளி தரவுகள், நிரல் திரட்டுகள், மற்றும் மென்பொருள்கள்.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published