Skip to content

தமிழில் உள்ள பொதுவெளி தரவுகள், நிரல் திரட்டுகள், மற்றும் மென்பொருள்கள்.

License

Notifications You must be signed in to change notification settings

INFITTOfficial/awesome-tamil

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

41 Commits
 
 
 
 
 
 

Repository files navigation

awesome-tamil - அருந்தமிழ்

தமிழில் உள்ள பொதுவெளித் தரவுகள், நிரல் திரட்டுகள், மற்றும் மென்பொருட்கள். கற்றது கைமண்ணளவு, எனவே எதுவும் விடுபட்டிருந்தால் பிழை திருத்தவும். மற்றதரவுகள் இருப்பினும், இவை தனிமனிதர் கணினியாளர்களுக்கு எட்டாக் கனியாகவே உள்ளது - காலம் மாறக்கூடும் - அப்போது யாரேனும் இந்தப் பட்டியலை புதுப்பித்து கிட்-இல் புதுப்பதிவு அனுப்புங்கள்.

NLP (இயல்மொழி ஆய்வுக்கான நிரல் திரட்டு)

  1. open-tamil - பைத்தான் - https://github.com/Ezhil-Language-Foundation/open-tamil
  2. TamilNLP - பைத்தான் - https://github.com/AshokR/TamilNLP
  3. PyTamil - https://github.com/srix/pytamil
  4. ThamizhiLIP: Thamizhi Linguistic Information Processing Library - https://sarves.github.io/thamizhilip/
  5. ஆமுதா -பைத்தான்- https://github.com/TamilClass/amuthaa
  6. தமிழ் parsing -Java- https://github.com/drajamanik/tamil
  7. தமிழ் parsing -Java- https://github.com/velsubra/Tamil
  8. Corpus creation tools - Ruby - https://github.com/mindaslab/tamil_corpus
  9. தமிழ் எண்கள்/எண் இலக்க வடிவங்களும், முறைமைகளும் - https://github.com/julienmalard/ennikkai
  10. Stanza - Stanford பல்கலைக்கழகத்தில் இருந்து வெளியிடப்பட்ட நிரல் தொகுப்பு - https://stanfordnlp.github.io/stanza/ (தமிழிலும் இயல்மொழி பகுப்பாய்வு வேலைகளைக்கையாள உதவுகிறது)
  11. அனிச்சம் Java - https://github.com/MannarAmuthan/Anicham
  12. அனிச்சம் பைத்தன் - https://github.com/MannarAmuthan/anicham.py
  13. நீச்சல்காரன் அவரது "vaaninlp" - https://pypi.org/project/VaaniNLP/ மற்றும் - https://github.com/neechalkaran/VaaniNLP

Corpus, Dictionaries - சொல்வங்கி,

  1. Noun list from Kaniyam - https://github.com/KaniyamFoundation/all_tamil_nouns Word list - https://github.com/KaniyamFoundation/all_tamil_words
  2. Tirukkural - https://github.com/tshrinivasan/libkural
  3. Neechalkaran Tamil Corpus - https://github.com/neechalkaran/Tamil-corpus
  4. TamilNLP - https://github.com/AshokR/TamilNLP/tree/master/Resources
  5. Open-Tamil data sets - https://github.com/Ezhil-Language-Foundation/open-tamil/tree/5eb9fb1447fe021ca47e2cc4605f7111e6b1088f/solthiruthi/data
  6. Tamil VU dictionary - 65000+ words - https://github.com/rprabhu/TamilDictionary
  7. Palaniappa Bros. Dictionary - https://github.com/indic-dict/stardict-tamil
  8. Nigandiyam - Wiktionary - https://ta.wikisource.org/wiki/%E0%AE%B5%E0%AE%BF%E0%AE%95%E0%AF%8D%E0%AE%95%E0%AE%BF%E0%AE%AE%E0%AF%82%E0%AE%B2%E0%AE%AE%E0%AF%8D:%E0%AE%A8%E0%AE%BF%E0%AE%95%E0%AE%A3%E0%AF%8D%E0%AE%9F%E0%AE%BF%E0%AE%AF%E0%AE%AE%E0%AF%8D_%E0%AE%A4%E0%AE%BF%E0%AE%9F%E0%AF%8D%E0%AE%9F%E0%AE%AE%E0%AF%8D
  9. தமிழ்ப்புலவர் https://github.com/ramasamy-duraipandy/tamil-pulavar
  10. https://github.com/abuvanth/english-tamil-dictionary-api
  11. தமிழ் சொற்பிழை தரவு - Annotated with Major Grammar & Spelling Errors generated by VaaniNLP (Neechalkaran) - https://www.kaggle.com/neechalkaran/error-annotated-tamil-corpus (CC-by-SA NC)
  12. வெண்முரசு ஜெயமோகன் அவரது புதினத்தின் சொல்லடைவு இங்கே நீச்சல்காரன் ராஜாராமன் அவரது முன்னெடுப்பால் வெளியிடப்பட்டுள்ளது - https://www.kaggle.com/datasets/neechalkaran/venmurasu -- கூடுதலாக வெண்முரசு நாவலில் மொத்தம் 1.3805 கோடி சொற்கள் உள்ளன. இயந்திரவழிக் கற்றல் முதல் மொழியியல் ஆய்வுகளுக்குப் பயன்படுத்திக் கொள்ளலாம். மேலும் விரிவான கட்டுரை https://tech.neechalkaran.com/2022/11/venmurasu-concordance.html
  13. An English-Tamil parallel corpus (2013) - Dr. Ramasamy Loganathan - EnTam - (They have collected English-Tamil bilingual data from some of the publicly available websites for NLP research involving Tamil.The parallel corpora cover texts from bible, cinema and news domains); Get data: http://ufal.mff.cuni.cz/~ramasamy/parallel/html/
  14. Tamil Dependency Treebank (TamilTB) is an attempt to develop a syntactically annotated corpora for Tamil. TamilTB contains 600 sentences enriched with manual annotation of morphology and dependency syntax in the style of Prague Dependency Treebank. Get data: http://ufal.mff.cuni.cz/~ramasamy/tamiltb/0.1/
  15. Amazon, Inc. Alexa MASSIVE dataset for 51 languages including Tamil - https://github.com/alexa/massive
  16. Aya Dataset for Tamil https://huggingface.co/datasets/CohereForAI/aya_collection (Cohere AI) with Tamil contributions by Nunnari Labs CTO Abhinaya Mahendiran

Private Corpora - தனியார் சொல்வங்கி

  1. Sketch Engine 2.6 கோடி சொற்கள் கொண்ட சொல்வங்கி https://www.sketchengine.eu/tawac-tamil-corpus/
  2. AU-KBC Chennai - Tamil research databases - http://www.au-kbc.org/nlp/lex_re.html, http://www.au-kbc.org/nlp/corpusrelease.html
  3. CRE-A இராகவ ஐய்யங்கார் வினைசொற்கள் / வினையடி - https://www.crea.in/verb-table
  4. EMILLE-CIIL இந்தியமொழிகளுக்கான சொல்வங்கியில் தமிழுக்கு மட்டும் 1கோடி சொற்கள் உள்ளன. http://catalog.elra.info/en-us/repository/browse/ELRA-W0037/

AI/ML Datasets - ஆழக்கற்றல் முறை பயிற்சிக்கு பயன்படும் உரை/பட/ஒலி தரவுகள்

  1. Tamil New Corpus - 6500 articles - https://www.kaggle.com/disisbig/tamil-news-dataset
  2. Tamil Vowels Images - MNIST Compatible - https://github.com/Ezhil-Language-Foundation/acchu-tamilocr-dataset
  3. Tamil Loan Word Text dataset - https://www.kaggle.com/muthua/tamil-loan-words-classification
  4. Tamil Wikipedia Corpus - https://www.kaggle.com/disisbig/tamil-wikipedia-articles
  5. Mozilla Voice - தமிழில் ஒலி->உரை மாற்றி - https://voice.mozilla.org/ta
  6. IARPA Babel Tamil Language Open KWS Dataset - 200hrs of voiced conversations + transcripts - https://catalog.ldc.upenn.edu/LDC2017S13
  7. தமிழ் சொற்பிழை தரவு - Annotated with Major Grammar & Spelling Errors generated by VaaniNLP (Neechalkaran) - https://www.kaggle.com/neechalkaran/error-annotated-tamil-corpus (CC-by-SA NC)
  8. UTSC Digital Tamil Scholarship archive - https://github.com/Digital-Tamil-Studies/open_tamil_texts
  9. Handwriting letter recognition AI for Tamil - using HP dataset - https://github.com/RanchMobile/Tamil-AI
  10. Dravidian Code Mix, additional task datasets by Barathiraja Ashoka Chakravathi - https://github.com/bharathichezhiyan?tab=repositories
  11. NLP for Tamil - https://github.com/goru001/nlp-for-tamil
  12. IISc-MILE Tamil ASR Corpus open-sourced by IISc (Prof. A. G. Ramakrishnan MILE lab) http://openslr.org/127/
  13. Crowdsourced high-quality Tamil multi-speaker speech data set - http://openslr.org/65/

AI Models

  1. Ponniyin Selvan novel - text prediction - https://github.com/malaikannan/PonniyinSelvan_Nextchapter
  2. Tamil Vowels Images classification - MNIST Compatible - https://github.com/Ezhil-Language-Foundation/acchu-tamilocr-dataset
  3. Tamil Word2Vec embedding model - (Gaurav Aurora) - https://github.com/goru001/nlp-for-tamil
  4. "Indic BERT" for Dravidian Languages including Tamil - https://github.com/AI4Bharat/indic-bert

Wiktionary, Wikipedia - விக்கிபீடியாவை ஆய்வுசெய்ய உத்திகள்

  1. Korkai Corpus builder - Go - https://github.com/psankar/korkai
  2. Tamil Wiktionary parser - Python/Qt - https://github.com/thamizha/tawiktionary-offline/
  3. Tamil Wiktionary parser - https://github.com/sathia27/e2t-dictionary/

Madurai - மதுரைத்திட்டம் ஆய்வுசெய்ய உத்திகள்

  1. "மின் மதுரை" செயலி - https://github.com/Ezhil-Language-Foundation/MinMadurai

Spell Checker - சொல்திருத்தி

  1. Language Tool - https://github.com/languagetool-org/languagetool
  2. Affix file/dictionary for Tamil for Hunspell - https://github.com/thamizha/thamizha-solthiruthi
  3. GNU Aspell dictionary for Tamil - https://ftp.gnu.org/gnu/aspell/dict/0index.html
  4. Solthiruthi @ Open-Tamil
  5. Hunspell - https://github.com/hunspell/hunspell
  6. Tamilinayavaani - github.com/tshrinivasan/Tamilinaiya-Spellchecker/

Sandhi Checker - சந்திப்பிழைதிருத்தி

  1. 40-சந்தி விதிகளை தமிழ் உரையில் திருத்தம் செய்ய -பைத்தான்- https://github.com/nithyadurai87/tamil-sandhi-checker

Stemmer - வேர்ச்சொல் பகுப்பாய்வு

  1. Primary Tamil Stemmer - https://github.com/rdamodharan/tamil-stemmer
  2. pystemmer/Snowball - தமிழுக்கும் தழுவப்பட்டது - https://github.com/snowballstem/pystemmer
  3. [1] இதன் சாரம் Open-Tamil-இலும் காணலாம்.

Parallel-Dictionaries - ஆங்கில-தமிழ் இணையான அகராதிகள்

  1. Open-Tamil 40,000 words English-Tamil - https://github.com/Ezhil-Language-Foundation/open-tamil/tree/5eb9fb1447fe021ca47e2cc4605f7111e6b1088f/solthiruthi/data
  2. English -> Tamil - https://github.com/sathia27/dictionary

Tamil Word Net - தமிழ் சொல்பின்னல்

  1. AU-KBC, Tamil University Thanjavur -Java- http://www.au-kbc.org/nlp/TamilWordnet.tgz
  2. IIT-Bombay/CIFLT, TDIL Indic/Tamil Wordnet - https://tdil-dc.in/indowordnet/ Python Package - https://github.com/riteshpanjwani/pyiwn

Morphological Analysis - சொல்வடிவ பகுப்பாய்வு

  1. TACOLA - Anna University - https://github.com/tacola-aucse/Morphological-Analyzer-For-Tamil
  2. FST/Tamizhi-Morph - - https://github.com/sarves/thamizhi-morph
  3. ML Morph - மலயாளம் சொல்வடிவ பகுப்பாய்வு - https://github.com/smc/mlmorph
  4. Polyglot - பைத்தான் - https://github.com/aboSamoor/polyglot

Dependency parser

  1. UDD - https://github.com/UniversalDependencies/UD_Tamil-TTB
  2. அவலோகிதம் - Venba parser - https://github.com/virtualvinodh/avalokitam

POS - இடம்சூட்டுபெயர் பகுப்பாய்வு செயலிகள்

  1. RDRPOSTagger - R - https://github.com/datquocnguyen/RDRPOSTagger
  2. RippleTagger - பைத்தான் - https://github.com/EmilStenstrom/rippletagger
  3. TamilNLP - பைத்தான் - https://github.com/AshokR/TamilNLP

Cloud Computing

  1. Bringup Tamil friendly Unix OS - https://github.com/Ezhil-Language-Foundation/padai

Keyboard Manager

  1. eKalappai - C++ - https://github.com/thamizha/ekalappai

Proprietary Keyboard Manager

  1. Murasu Anjal - http://anjal.net/murasu-anjal-muthal-edition/
  2. NHM Writer - https://indiclabs.in/products/writer/

Fonts (எழுத்துருக்கள்)

  1. Open-Source Tamil Fonts - https://github.com/thamizha/tamil-fonts
  2. Meera Tamil - https://github.com/santhoshtr/meera-tamil
  3. Catamaran Tamil - https://github.com/VanillaandCream/Catamaran-Tamil
  4. Amma - https://github.com/mooniak/amma-font
  5. நீச்சல்காரன் தமிழ் எழுத்துருக்கள் - http://oss.neechalkaran.com/tamilfonts/
  6. இராமசாமி துரைப்பாண்டி அவரது தமிழ் எழுத்துருக்கள் - https://github.com/ramasamy-duraipandy/tamil-unicode-fonts
  7. பேரா. இல. சுந்தரம் தமிழ் எழுத்துருக்கள் - கணியம் வழி - http://www.kaniyam.com/ila-sundaram-unicode-tamil-fonts/ http://www.kaniyam.com/download/ila-sundaram-unicode-tamil-fonts.zip
  8. வள்ளுவர் வள்ளலார் வட்டத்தின் புதிய தமிழ் எழுத்துருக்கள் இப்போது இணைக்கப்பட்டுள்ளன. https://oss.neechalkaran.com/tamilfonts/ காண்க : Neechalkaran/status/1769383443044220934/photo/1image

Encoding (எழுத்துரு மாற்றி)

  1. txt2ipa - பைத்தான் - https://github.com/arulalant/txt2ipa
  2. txt2unicode - பைத்தான் - https://github.com/arulalant/txt2unicode

Blogs/Tutorials - அறிமுக, ஆராய்ச்சி கட்டுரைகள்

  1. https://kaniyam.com
  2. https://nivedithakarmegam.wordpress.com/2019/03/31/text-preprocessing-tools-for-tamil-language/
  3. https://ezhillang.blog/category/tamil-nlp/
  4. https://goinggnu.wordpress.com
  5. https://indicnlp.org
  6. பேரா. சுபலலிதா - https://www.subalalitha.in/post/on-tamil-computing-research-experiences-part-1
  7. முனைவர். மதன் கார்கி - ஆராய்ச்சி அறக்கட்டளை - https://karky.in/karefo/
  8. முனைவர். வாசு இரங்கநாதன் - தளம் - http://learn.tamilnlp.com/
  9. Keras Tamil tutorial - iPython notebooks - https://github.com/Ezhil-Language-Foundation/open-tamil/tree/main/examples/keras-payil-putthagangal

OCR

  1. PDF2Text using Google OCR - https://github.com/KaniyamFoundation/Pdf2Text
  2. Tesseract for Tamil GUI - https://github.com/Parathantl/tesseract_gui
  3. Tesseract based OCR API - https://github.com/neechalkaran/OCR
  4. OCR Tamil - Deep learning based OCR library in Python - https://github.com/gnana70/tamil_ocr

TTS

  1. Concatennative Synthesis on Diphones - https://github.com/sunnyglow/ThamizhPesi
  2. Concatennative Synthesis on Syllables - https://github.com/vasurenganathan/tamil-tts
  3. Dhvani - https://github.com/tshrinivasan/dhvani-tts

ASR

  1. Kaldi ASR - https://github.com/kaldi-asr/kaldi using IARPA BABEL dataset.
  2. Mozilla Voice - தமிழில் ஒலி->உரை மாற்றி - https://voice.mozilla.org/ta

Programming Languages - தமிழில் கணினி மொழிகள்

  1. Ezhil - http://github.com/Ezhil-Language-Foundation/ezhil-lang
  2. CLJ-Thamil - https://github.com/echeran/clj-thamil

இதர

  1. தமிழ் இணைய கல்விக்கழகம் - த.இ.க. வலை - http://www.tamilvu.org/
  2. தமிழ் பா தேடல் - search on poetry- https://github.com/seekshiva/tamil-paa-thedal
  3. தமிழில் உள்ள எண்கள் எண்குறியீடுகள் பற்றிய - https://github.com/julienmalard/ennikkai/

பட்டியல்கள்

  1. த.இ.க மென்பொருள் பட்டியல் http://www.tamilvu.org/coresite/html/cwsoftlist.htm -- தமிழ் இணைய கல்விக்கழகம் - த.இ.க. TSDF மென்பொருள் பட்டியல் - http://www.tamilvu.org/en/tsdf-html-cwlitsdfen-341286
  2. கணியம் - https://github.com/KaniyamFoundation/awesome-tamil-nlp
  3. கொர்க்கை சங்கர் - https://github.com/psankar/TamilFOSS
  4. தங்கமணி அருண் - https://github.com/thangamani-arun/Tamil-NLP-Resources
  5. நீச்சல்காரன் http://oss.neechalkaran.com/tamilsoftwares
  6. பழந்தமிழ் இலக்கியங்களில் தேட http://sangam.tamilnlp.com/mp/json/

About

தமிழில் உள்ள பொதுவெளி தரவுகள், நிரல் திரட்டுகள், மற்றும் மென்பொருள்கள்.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •