Natural Russian Language Processing by the Keys
- words.csv - все выражения из текста
- keys.csv - ключевые выражения текста
- garbage.csv - мусор, неидентифицированные слова
- words_desc.csv - статистические данные к выборке всех выражений из текста
- keys_desc.csv - статистические данные к ключевым выражениям текста
- lemm - лемма выражения (нет в garbage.csv)
- word - выражение из текста в исходной форме строчными буквами
- tword - выражение из текста в исходной форме как было в тексте
- partlang - обозначение часть речи (граммемы) (нет в garbage.csv)
- pos - последовательный номер позиции выражения в тексте
- idsent - последовательный номер предложения в тексте
- sentpos - последовательный номер позиции выражения в предложении
- tkey - обозначение маркера (нестандартных граммем) (нет в garbage.csv)
- numexpress - последовательный номер выражения, промаркированного по тексту (нет в garbage.csv)
- rdeco - слова из выражения после декомпозиции выражения (нет в garbage.csv)
- yotoe - слово, употребимое с "е" вместо "ё"
- case - падеж
- plural - число (единственное/множественное)
- gender - половая принадлежность
- animacy - категонрия одушевленности
- cattimes - время (настоящее, прошлое, будущее)
- transitiv - переходность
- sectransitiv - категория личности
- aspect - категория вида
- pers - лицо
- catcomp - категория совместимости
- catcollat - категория залога
- catmood - категория наклонения
- catplural - изменяеомсть
- refn - предметная принадлежность
- secrefn - дополнительные уточнения
- f_text - количество повторения выражения / ключей в тексте (нет в garbage.csv)
- f_sent - количество повторений выражения в предложении (нет в garbage.csv)
- allwordscount - число слов в тексте
- relwordscount - число релевантных слов в тексте
- badwordscount - число плохих (ненужных, отфильтрованных из выборки) слов в тексте
- garbagewordscount - число слов из текста, попавших в мусор
- punctuationcount - количество знаков препинания в тексте
- typesrelwords - список обозначений частей речи (граммем и нестандартных граммем), описывающих слова леммы в тексте
- sentscount - число предложений в тексте (может не совпадать с числом предложений обозначенных в сыром тексте)
- minwordssent - минимальное количество слов в предложении
- maxwordssent - максимальное количество слов в предложении
- meanwordssent - среднее число слов на одно предложение текста
- minrepeatword - минимальное число повторений выражения по тексту
- maxrepeatword - максимальное число повторений выражений по тексту
- meanrepeatword - среднее число повторений выражений по тексту
- allcolumnsstat - список имен столбцов выборки всех выражений текста
- garbage-% - процент мусора (неидентефиципрованных слов к общему числу слов) в тексте
- bad-% - процент плохих (ненужных, отфильтрованных из выборки) слов к общему числу слов текста
- punct-% - процент знаков препинания к общему числу слов текста
- quality-% - процент качества отбора по остатку в мусоре
- keyscount - количество ключевых выражений в тексте
- Ukeyscount - количество уникальных ключевых выражений в тексте
- Skeyscount - количество специальных ключей в тексте
- USkeyscount - количество уникальных специальных ключей в тексте
- Nkeyscount - количество ключей в тексте, признанных ключами по числу повторений в тексте
- UNkeyscount - количество уникальных ключей в тексте, признанных ключами по числу повторений в тексте
- partlangkeys - список обозначений частей речи (граммем и нестандартных граммем), описывающих леммы ключей в выборке ключей
- typeskeys - список обозначений маркеров (нестандартных граммем), описывающих ключевые выражения в выборке ключей
- inwhatsents - список номеров предложений, в которых встретились отобранные из текста ключи
- minkeyssent - минимальное число ключей встретившихся в одном предложении
- maxkeyssent - максимальное число ключей встретившихся в одном предложении
- meankeyssent - среднее число ключей на одно предложение текста
- minrepeatkey - минимальное число повторений ключа в тексте
- maxrepeatkeys - максимальное число повторений ключа в тексте
- meanrepeatkey - среднее число повторений ключей по тексту
- allcolumnskey - список столбцов в выборки ключей
- keys-% - процент ключевых выражений среди общего числа выражений текста
- Ukeys-% - процент уникальных ключевых выражений среди общего числа выражений текста
- KUkeys-% - процент уникальных ключевых выражений среди общего числа ключевых выражений
- Skeys-% - процент специальных ключевых выражений среди общего числа выражений текста
- Skeysofkeys-% - процент специальных ключевых выражений среди общего числа ключевых выражений
- USkeysofUkeys-% - процент уникальных специальных ключевых выражений среди уникальных ключевых выражений
- Nkeys-% - процент многократно повторяющихся по тексту ключевых выражений среди общего числа выражений текста
- Nkeysofkeys-% - процент многократно повторяющихся по тексту ключевых выражений среди общего числа ключевых выражений
- UNkeysofUkeys-% - процент уникальных многократно повторяющихся по тексту ключевых выражений среди уникальных ключевых выражений
- файл key.txt - простой список уникальных ключей к тексту
- файл text.htm - в формате (псевдо) html, содержит восстановленный размеченный исходный текст, где слова и выражения помещены в тэги
- файл text.json - в формате json, содержит структуру исходного текста с разметкой слов и выражений
- файл text.ml - в текстовом формате, содержит восстановленный исходный текст с разметкой в виде (оригинальное слово текста N, обозначение части речи этого слова).
- файл text.xml - файл в формате xml, содержит структуру исходного текста с разметкой слов и выражений