nrlpk

Natural Russian Language Processing by the Keys

Файлы в папках результатов тестов (начиная с папки 52):

Папка data

words.csv - все выражения из текста
keys.csv - ключевые выражения текста
garbage.csv - мусор, неидентифицированные слова
words_desc.csv - статистические данные к выборке всех выражений из текста
keys_desc.csv - статистические данные к ключевым выражениям текста

Столбцы файлов words.csv, keys.csv, garbage.csv

lemm - лемма выражения (нет в garbage.csv)
word - выражение из текста в исходной форме строчными буквами
tword - выражение из текста в исходной форме как было в тексте
partlang - обозначение часть речи (граммемы) (нет в garbage.csv)
pos - последовательный номер позиции выражения в тексте
idsent - последовательный номер предложения в тексте
sentpos - последовательный номер позиции выражения в предложении
tkey - обозначение маркера (нестандартных граммем) (нет в garbage.csv)
numexpress - последовательный номер выражения, промаркированного по тексту (нет в garbage.csv)
rdeco - слова из выражения после декомпозиции выражения (нет в garbage.csv)
yotoe - слово, употребимое с "е" вместо "ё"
case - падеж
plural - число (единственное/множественное)
gender - половая принадлежность
animacy - категонрия одушевленности
cattimes - время (настоящее, прошлое, будущее)
transitiv - переходность
sectransitiv - категория личности
aspect - категория вида
pers - лицо
catcomp - категория совместимости
catcollat - категория залога
catmood - категория наклонения
catplural - изменяеомсть
refn - предметная принадлежность
secrefn - дополнительные уточнения
f_text - количество повторения выражения / ключей в тексте (нет в garbage.csv)
f_sent - количество повторений выражения в предложении (нет в garbage.csv)

Строки файла words_desc.csv

allwordscount - число слов в тексте
relwordscount - число релевантных слов в тексте
badwordscount - число плохих (ненужных, отфильтрованных из выборки) слов в тексте
garbagewordscount - число слов из текста, попавших в мусор
punctuationcount - количество знаков препинания в тексте
typesrelwords - список обозначений частей речи (граммем и нестандартных граммем), описывающих слова леммы в тексте
sentscount - число предложений в тексте (может не совпадать с числом предложений обозначенных в сыром тексте)
minwordssent - минимальное количество слов в предложении
maxwordssent - максимальное количество слов в предложении
meanwordssent - среднее число слов на одно предложение текста
minrepeatword - минимальное число повторений выражения по тексту
maxrepeatword - максимальное число повторений выражений по тексту
meanrepeatword - среднее число повторений выражений по тексту
allcolumnsstat - список имен столбцов выборки всех выражений текста
garbage-% - процент мусора (неидентефиципрованных слов к общему числу слов) в тексте
bad-% - процент плохих (ненужных, отфильтрованных из выборки) слов к общему числу слов текста
punct-% - процент знаков препинания к общему числу слов текста
quality-% - процент качества отбора по остатку в мусоре

Строки файла keys_desc.csv

keyscount - количество ключевых выражений в тексте
Ukeyscount - количество уникальных ключевых выражений в тексте
Skeyscount - количество специальных ключей в тексте
USkeyscount - количество уникальных специальных ключей в тексте
Nkeyscount - количество ключей в тексте, признанных ключами по числу повторений в тексте
UNkeyscount - количество уникальных ключей в тексте, признанных ключами по числу повторений в тексте
partlangkeys - список обозначений частей речи (граммем и нестандартных граммем), описывающих леммы ключей в выборке ключей
typeskeys - список обозначений маркеров (нестандартных граммем), описывающих ключевые выражения в выборке ключей
inwhatsents - список номеров предложений, в которых встретились отобранные из текста ключи
minkeyssent - минимальное число ключей встретившихся в одном предложении
maxkeyssent - максимальное число ключей встретившихся в одном предложении
meankeyssent - среднее число ключей на одно предложение текста
minrepeatkey - минимальное число повторений ключа в тексте
maxrepeatkeys - максимальное число повторений ключа в тексте
meanrepeatkey - среднее число повторений ключей по тексту
allcolumnskey - список столбцов в выборки ключей
keys-% - процент ключевых выражений среди общего числа выражений текста
Ukeys-% - процент уникальных ключевых выражений среди общего числа выражений текста
KUkeys-% - процент уникальных ключевых выражений среди общего числа ключевых выражений
Skeys-% - процент специальных ключевых выражений среди общего числа выражений текста
Skeysofkeys-% - процент специальных ключевых выражений среди общего числа ключевых выражений
USkeysofUkeys-% - процент уникальных специальных ключевых выражений среди уникальных ключевых выражений
Nkeys-% - процент многократно повторяющихся по тексту ключевых выражений среди общего числа выражений текста
Nkeysofkeys-% - процент многократно повторяющихся по тексту ключевых выражений среди общего числа ключевых выражений
UNkeysofUkeys-% - процент уникальных многократно повторяющихся по тексту ключевых выражений среди уникальных ключевых выражений

Папка marked

файл key.txt - простой список уникальных ключей к тексту
файл text.htm - в формате (псевдо) html, содержит восстановленный размеченный исходный текст, где слова и выражения помещены в тэги
файл text.json - в формате json, содержит структуру исходного текста с разметкой слов и выражений
файл text.ml - в текстовом формате, содержит восстановленный исходный текст с разметкой в виде (оригинальное слово текста N, обозначение части речи этого слова).
файл text.xml - файл в формате xml, содержит структуру исходного текста с разметкой слов и выражений

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Legend.md

Legend.md

nrlpk

Файлы в папках результатов тестов (начиная с папки 52):

Папка data

Столбцы файлов words.csv, keys.csv, garbage.csv

Строки файла words_desc.csv

Строки файла keys_desc.csv

Папка marked

Files

Legend.md

Latest commit

History

Legend.md

File metadata and controls

nrlpk

Файлы в папках результатов тестов (начиная с папки 52):

Папка data

Столбцы файлов words.csv, keys.csv, garbage.csv

Строки файла words_desc.csv

Строки файла keys_desc.csv

Папка marked