Skip to content

Latest commit

 

History

History
104 lines (90 loc) · 6.08 KB

Legend.md

File metadata and controls

104 lines (90 loc) · 6.08 KB

nrlpk

Natural Russian Language Processing by the Keys


Файлы в папках результатов тестов (начиная с папки 52):

Папка data

  • words.csv - все выражения из текста
  • keys.csv - ключевые выражения текста
  • garbage.csv - мусор, неидентифицированные слова
  • words_desc.csv - статистические данные к выборке всех выражений из текста
  • keys_desc.csv - статистические данные к ключевым выражениям текста

Столбцы файлов words.csv, keys.csv, garbage.csv

  • lemm - лемма выражения (нет в garbage.csv)
  • word - выражение из текста в исходной форме строчными буквами
  • tword - выражение из текста в исходной форме как было в тексте
  • partlang - обозначение часть речи (граммемы) (нет в garbage.csv)
  • pos - последовательный номер позиции выражения в тексте
  • idsent - последовательный номер предложения в тексте
  • sentpos - последовательный номер позиции выражения в предложении
  • tkey - обозначение маркера (нестандартных граммем) (нет в garbage.csv)
  • numexpress - последовательный номер выражения, промаркированного по тексту (нет в garbage.csv)
  • rdeco - слова из выражения после декомпозиции выражения (нет в garbage.csv)
  • yotoe - слово, употребимое с "е" вместо "ё"
  • case - падеж
  • plural - число (единственное/множественное)
  • gender - половая принадлежность
  • animacy - категонрия одушевленности
  • cattimes - время (настоящее, прошлое, будущее)
  • transitiv - переходность
  • sectransitiv - категория личности
  • aspect - категория вида
  • pers - лицо
  • catcomp - категория совместимости
  • catcollat - категория залога
  • catmood - категория наклонения
  • catplural - изменяеомсть
  • refn - предметная принадлежность
  • secrefn - дополнительные уточнения
  • f_text - количество повторения выражения / ключей в тексте (нет в garbage.csv)
  • f_sent - количество повторений выражения в предложении (нет в garbage.csv)

Строки файла words_desc.csv

  • allwordscount - число слов в тексте
  • relwordscount - число релевантных слов в тексте
  • badwordscount - число плохих (ненужных, отфильтрованных из выборки) слов в тексте
  • garbagewordscount - число слов из текста, попавших в мусор
  • punctuationcount - количество знаков препинания в тексте
  • typesrelwords - список обозначений частей речи (граммем и нестандартных граммем), описывающих слова леммы в тексте
  • sentscount - число предложений в тексте (может не совпадать с числом предложений обозначенных в сыром тексте)
  • minwordssent - минимальное количество слов в предложении
  • maxwordssent - максимальное количество слов в предложении
  • meanwordssent - среднее число слов на одно предложение текста
  • minrepeatword - минимальное число повторений выражения по тексту
  • maxrepeatword - максимальное число повторений выражений по тексту
  • meanrepeatword - среднее число повторений выражений по тексту
  • allcolumnsstat - список имен столбцов выборки всех выражений текста
  • garbage-% - процент мусора (неидентефиципрованных слов к общему числу слов) в тексте
  • bad-% - процент плохих (ненужных, отфильтрованных из выборки) слов к общему числу слов текста
  • punct-% - процент знаков препинания к общему числу слов текста
  • quality-% - процент качества отбора по остатку в мусоре

Строки файла keys_desc.csv

  • keyscount - количество ключевых выражений в тексте
  • Ukeyscount - количество уникальных ключевых выражений в тексте
  • Skeyscount - количество специальных ключей в тексте
  • USkeyscount - количество уникальных специальных ключей в тексте
  • Nkeyscount - количество ключей в тексте, признанных ключами по числу повторений в тексте
  • UNkeyscount - количество уникальных ключей в тексте, признанных ключами по числу повторений в тексте
  • partlangkeys - список обозначений частей речи (граммем и нестандартных граммем), описывающих леммы ключей в выборке ключей
  • typeskeys - список обозначений маркеров (нестандартных граммем), описывающих ключевые выражения в выборке ключей
  • inwhatsents - список номеров предложений, в которых встретились отобранные из текста ключи
  • minkeyssent - минимальное число ключей встретившихся в одном предложении
  • maxkeyssent - максимальное число ключей встретившихся в одном предложении
  • meankeyssent - среднее число ключей на одно предложение текста
  • minrepeatkey - минимальное число повторений ключа в тексте
  • maxrepeatkeys - максимальное число повторений ключа в тексте
  • meanrepeatkey - среднее число повторений ключей по тексту
  • allcolumnskey - список столбцов в выборки ключей
  • keys-% - процент ключевых выражений среди общего числа выражений текста
  • Ukeys-% - процент уникальных ключевых выражений среди общего числа выражений текста
  • KUkeys-% - процент уникальных ключевых выражений среди общего числа ключевых выражений
  • Skeys-% - процент специальных ключевых выражений среди общего числа выражений текста
  • Skeysofkeys-% - процент специальных ключевых выражений среди общего числа ключевых выражений
  • USkeysofUkeys-% - процент уникальных специальных ключевых выражений среди уникальных ключевых выражений
  • Nkeys-% - процент многократно повторяющихся по тексту ключевых выражений среди общего числа выражений текста
  • Nkeysofkeys-% - процент многократно повторяющихся по тексту ключевых выражений среди общего числа ключевых выражений
  • UNkeysofUkeys-% - процент уникальных многократно повторяющихся по тексту ключевых выражений среди уникальных ключевых выражений

Папка marked

  • файл key.txt - простой список уникальных ключей к тексту
  • файл text.htm - в формате (псевдо) html, содержит восстановленный размеченный исходный текст, где слова и выражения помещены в тэги
  • файл text.json - в формате json, содержит структуру исходного текста с разметкой слов и выражений
  • файл text.ml - в текстовом формате, содержит восстановленный исходный текст с разметкой в виде (оригинальное слово текста N, обозначение части речи этого слова).
  • файл text.xml - файл в формате xml, содержит структуру исходного текста с разметкой слов и выражений