Этот репозиторий содержит данные «Грамматического словаря» А. А. Зализняка, основанные на гранках шестого издания (2010 года), в виде текстовых файлов.
«Грамматический словарь» (далее «Словарь», «ГС») описывает склонение и спряжение около 110 тысяч слов, включая имена собственные.
Данные предоставлены правообладателем словаря Анной Андреевной Зализняк и опубликованы с ее согласия под лицензией CC BY-NC.
Сайт gramdict.ru содержит эти же данные и предоставляет удобный интерфейс для поиска и фильтрации по знакам и пометам.
Основной массив статей поделен на несколько десятков текстовых файлов А.txt, Б.txt, ... Я.txt, названных по последней букве входящих в файл слов. Такое деление сделано для того, чтобы файлы можно было редактировать через веб-интерфейс Гитхаба, который накладывает ограничение в 1М на размер редактируемых файлов.
Глаголы вынесены в отдельную папку из тех же соображений (размер файла).
Слова на букву Ё находятся в файле Е.txt (по аналогии с оригинальным словарем).
Приложение 1 «Имена собственные» идет отдельным файлом Собственные.txt.
В целом формат текстовых файлов максимально приближен к оригиналу: порядок статей внутри каждого файла инверсионный, структура словарной статьи и значения специальных знаков и помет – как в оригинальном словаре.
Тестовые файлы используют знаки подчеркивания для передачи курсива и жирного шрифта, например:
па́почка ж 3*a (_уменьш. к_ 1/па́пка)
па́почка мо <жо 3*a> (_уменьш. к_ 2/па́пка)
засты́ть св нп 15a [//__засты́нуть__] ◑III
В оригинальном словаре жирным шрифтом выделены также леммы (заголовочные слова статей). В файлах это выделение опущено для простоты.
В оригинальном словаре каждая статья разделена на три колонки. Это разделение никак не отражено в текстовых файлах.
Словарь строго различает буквы Е и Ё в леммах.
Ошибки делятся на два вида:
- расхождения между оригинальным изданием 2010 года и веткой master (ошибки OCR, опечатки); такие ошибки исправляются коммитами в ветку
master
(история) - несоответствия издания 2010 года другим словарям, в том числе более ранним изданиям «Грамматического словаря»; например, в издании 2010 года в статье гнести есть лишняя помета ⑨, которой нет в издании 1987 года; такие ошибки исправляются коммитами в ветку
corrected
.
Все найденные в оригинальном издании 2010 года ошибки можно найти на этой странице.
Главная цель проекта – создать эталонную версию «Грамматического словаря» (ГС), которой удобно пользоваться как лингвистам, так и программистам.
Лингвистам (точнее, лексикографам) удобна система индексов, придуманная Зализняком, когда для полного и точного описания всех 120 форм глагола в большинстве случаев достаточно написать индекс вроде «1a». В более редких случаях используются знаки и пометы, сигнализирующие о регулярных отклонениях. В совсем редких случаях в статьях фигурируют словесные пометы, что делает задачу парсинга словаря довольно нетривиальной.
Программистам же удобнее работать с однородными структурами, в которых как можно меньше особых случаев. Поэтому одна из подцелей проекта – создание программных модулей для парсинга Словаря, необходимых для построения словоформ из статей (#6) и других задач, например, доказательства гипотезы комплементарности распределения схем ударения /c
и /c''
в глаголах (#22).
При этом не хочется повторять ошибку, которую допустили многие создатели «клонов» Словаря: как правило, использование словаря начинается с его преобразования в «более удобный» вид (список словоформ или в альтернативный набор парадигм). Ввиду сложности формата ГС, такие преобразования нередко вносят в результат некоторые погрешности, а то и сознательно опускают часть информации из оригинального словаря, например, информацию об ударении или о затрудненности тех или иных форм.
Это еще полбеды. Настоящая беда начинается тогда, когда авторы «клонов» начинают править в своих версиях ошибки преобразования, вместо того, чтобы исправить само преобразование, исходный код которого, как водится, уже давно утерян. Примеры:
- В словаре OpenCorpora восстанавливают информацию о затрудненности.
- В словаре АОТ пытаются исправить ударения – задача практически неразрешимая ввиду огромного объема словоформ.
Вся эта информация есть в исходном словаре. Если бы было «живо» преобразование, людям не пришлось бы заново выполнять эту работу, однажды проделанную автором словаря.
Поэтому ваш покорный слуга решил «вернуться к истокам» и «начать все с начала». Тем более, что есть опыт работы со Словарем, есть видение, как «сделать всё правильно» и как избежать ненужных ошибок. С вашей помощью.
Создание словаря – огромный ручной труд и без ошибок здесь не обойтись. Учитывая, какими путями были получены живущие в этом репозитории текстовые файлы (ручной набор в Ворде, OCR), они просто обязаны содержать ошибки.
Если вы нашли ошибку и хотите ее исправить, откройте нужный файл (например, dictionary/Глаголы/Й.txt) и нажмите значок «карандаш» (Edit this file / Редактировать этот файл) в правом-верхнем углу.
Закончив редактирование, нажмите на зеленую кнопку Propose changes внизу. Затем нажмите Create pull request. Введите описание предлагаемых изменений и нажмите еще одну кнопку Create pull request.
В этот момент модераторы получат уведомление о новом пул-реквесте и любой желающий сможет поучаствовать в обсуждении предлагаемых изменений. При достижении консенсуса PR будет влит в основной репозиторий.
Если у вас есть замечания или предложения общего характера, заведите issue.
Участвуя в проекте, вы соглашаетесь с тем, что ваш вклад в проект (вносимые изменения, предложения) автоматически передается в общественное достояние.
Шестое издание словаря вышло в 2010 году. Его гранки были подготовлены Еленой Александровной Гришиной.
В 2017 году Сергей Слепов приобрел неисключительную лицензию на использование словаря и получил гранки в виде файла MS Word. Файл был преобразован в текстовый вид, как в этом репозитории, с помощью этой программы. Приложение 1 «Имена собственные» было оцифровано при помощи ABBYY FineReader с последующей вычиткой.
15.03.2021 получено разрешение правообладателя на публикацию материалов шестого издания.
Исключительные права на Словарь, включая файлы в каталоге dictionary и любое другое, полное или частичное, воспроизведение Словаря, принадлежат Анне Андреевне Зализняк.
С ведома и при поддержке правообладателя словарь распространяется под лицензией CC BY-NC. Это означает, что вы можете использовать его бесплатно в некоммерческих целях. Если вам удалось заработать деньги на словаре, прекрасно; не забудьте получить коммерческую лицензию, написав на [email protected].
За более чем 40 лет, минувших с первого издания Словаря, он послужил основной многих полезных программ, таких как поиск «Яндекса», «ОРФО», встроенного в Microsoft Word, и многих других.
Мы считаем, что потенциал «Грамматического словаря» далеко не исчерпан и он может вдохновить еще много интересных проектов и идей.
Долгое время препятствием к использованию Словаря был его неясный правовой статус. С одной стороны, Словарь и его производные можно найти в открытом доступе на десятках, если не сотнях сайтов. С другой стороны, каждому понятно, что любое произведение охраняется законом и использовать его можно только с разрешения правообладателя.
Теперь все, кто использует словарь для некоммерческих целей, могут вздохнуть свободно: при любых притязаниях вы можете сослаться на данный текст и лицензию (LICENSE.txt).
Те, кто зарабатывает на Словаре, теперь получили официальный канал для лицензирования: напишите нам на [email protected] для получения коммерческой лицензии. Лицензия нужна, даже если вы используете производные Словаря, такие как словарь АОТ или словарь OpenCorpora, или программы на его основе, такие как pymorphy2 или mystem.