-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Письмо от Александра Строганова #3
Comments
по картинкам: |
अनु च । च्यै |
Дорогой SergeA. |
Ещё раз пробежался по распознанному, заметил ещё несколько промахов OCR: Ещё заметил ошибку автора, который непоследовательно пишет नासिकाछेदः и कर्णच्छेदः, тогда как в обоих словах должно быть либо छ, либо च्छ. Но это уже из другой оперы. |
Помимо перепуток похожих букв (स>म, भ>म и пр.) обращают на себя внимание ошибки алгоритма с потерей элементов:
Ожидал увидеть ошибки там, где автор сделал пометки галочками, но похоже, что программа их вообще не заметила. Проигнорированы звёздочки и знак переноса, хотя эти значки нередко используются в санскритских книжках наряду с запятыми, скобками, вопросами, восклицаниями и кавычками. Схожий с апострофом знак половинной данды, к сожалению, в юникоде отсутствует. Так что даже при всём желании правильно распознать его не выйдет. Хотя почему бы его не определить как апостроф? В книгах этот значок практически не встречается. |
Пока точность распознавания 3-4 ошибки на строку. В основном это ошибки расстановки гласных и диакритических знаков. Для точного распознавания нужно написать функцию которая будет проверять местоположение каждого знака по отношению к основной лигатуре и собирать все составные элементы лигатуры. Отладка займет некоторое время, очень благодарен всем за помощь в распознавании согласных и проверку текста. |
|
во втором образце много случаев съедания текста (1-2-3-х слогов) |
Собрали таблицу лигатур которые встречаются в корпусе текстов GRETIL |
Я думаю, что работу базового алгоритма лучше отрабатывать не на каких попало сканах, а на специально генерируемых образцах. Можно брать любой текст с того же гретиля в латинице или прописать собственные списки образцов лигатур и т.п., конвертировать в дэванагари, сохранить в картинку с любым из доступных шрифтов, распознать, конвертируется обратно в транслит, сверить с исходником, проанализировать результат. Такой способ не требует постоянного присутствия знатоков языка для выявления ошибок. |
SergeA совершенно верно, это хорошее предложение. |
С тех пор https://ocr.sanskritdictionary.com/ сделал прорыв. 10 000 лиатур для деванагари нет, но эталонов разных может и 100 000 мало. Сравнивали с современным состоянием указанной тулзы ли @RimeOCRLIB? |
Положение дел на сегодня для OCRLib C++ |
Tesserakt, совершенно верно. Мартин не публиковал код, но всегда можно спросить. |
Необходимо решить проблему опознания графических символов для http://www.buddism.ru/ocr/.
За счет программы мы сможем распознать те символы которые будут в шрифтовой таблице.
Можете прислать шрифтовую таблицу в формате RTF или DOC для Word 97?
Однако некоторые буквы по-прежнему не удается найти в таблице и присвоить им значение Юникода.
Без этого мы сможем их распознать только как знак вопроса с порядковым номером.
Есть несколько решений этой проблемы.
Текст набран частично, с разными вкраплениями, кпд сомнительное.
Сперва все же давайте занесем 807 лигатур Штиля.
https://www.dropbox.com/s/on106ihxufim27o/Santipur-807-Ligaturen.doc?dl=0
https://www.dropbox.com/s/mbqpmqwghl78e2z/Santipur-807-Ligaturen.pdf?dl=0
https://www.dropbox.com/s/tn93mwdcownjnmh/Siddhanta-807-Ligaturen.doc?dl=0
https://www.dropbox.com/s/kgieaqyxv34abqs/Siddhanta-807-Ligaturen.pdf?dl=0
После попросим https://renuvate.livejournal.com взглянуть, но пока - рано.
А вот это, пожалуй, можно попробовать. Только для лигатур нет отдельных юникодных значений, это же конструктор?
Хуже вариант, но давайте начнем.
Не вижу смысла ждать.
Конвертеров море, не совсем пойму, чем это поможет. В частности http://samskrtam.ru/devanagari-translit-batch/
Образец распознанной страницы из хертелевской Панчатантры:
अनु च । च्यै
प्रसन्नवदनो हष्टः स्पष्टो वाचा सरोषदृक् ।
सभायां वक्ति मामर्षः माव?म्मो नरः शुचिः ।।९५४ ।।
तद् एष टुष्टचारिन्नो दृश्यते । स्त्रीधर्षणाद् वध्य इति ?ऌायाम्
आरोप्यताम् इति ।
अथ तं वध्यस्थानं नीयमानम् आऌोक्य देवशर्मा तान्
धर्माधिकृतान् गत्वा प्रोवाच । भोः अत्यायेनैष वराको नापितो
वध्यते माधुसमाचारः । तच् छ्रूयतां मम वाक्यम् ।
जम्बुको हुडयुइेन वयं चाषाढभूतिना ।
दूतिका परकार्येण न्नयो दोषाः स्वयंकृताः ।।९५५ ।।
अथ ते सभ्यम् तम् ?चुः । भो भगवन् कथम् एतत् । ततश्
च देवशर्मा तेषां वृ?न्तन्नतम् अयि सवि?रं न्यवेदत् । अथ
तच् छ्रूत्वा ते सर्वे विस्मितमनमो नापितं विमुच्यैवं प्रोचुः ।
अवध्यो ब्रा?णो बाऌः स्त्री तपस्वी च रोगभाक् ।
विहिता व्यङ्गता तेषाम् अपराधे गरीयसि ।।९५६ ।।
तद् अस्या स्वकर्मवशाद् एव नासिकछेदः संवृन्तः । ततो राज
निग्रहः कर्णच्छेदः कर्यः । तथानुष्ठते देवशर्मापि दृष्टन्त?येन
स्वहदयं सस्थाप्य स्वकोयमठायतनम् अगमत् ।।
The text was updated successfully, but these errors were encountered: