Skip to content

Named entity recognition (NER) in Russian texts / Определение именованных сущностей (NER) в тексте на русском языке

License

Notifications You must be signed in to change notification settings

zamgi/lingvo--Ner-ru

Folders and files

NameName
Last commit message
Last commit date

Latest commit

zamgizamgi
zamgi
and
zamgi
Mar 6, 2025
c2cbc18 · Mar 6, 2025

History

46 Commits
Oct 15, 2022
Oct 15, 2022
Mar 6, 2025
Mar 6, 2025
Mar 6, 2025
Mar 6, 2025
Mar 6, 2025
Mar 6, 2025
Mar 6, 2025
Jan 20, 2017
Nov 25, 2023
May 18, 2017
Feb 18, 2017
Dec 1, 2021
Oct 15, 2022

Repository files navigation

lingvo--Ner-ru

[ live demo ]

Под автоматическим определением именованных сущностей - (NER - Named-Entities Recognition) - понимается поиск и классификация имен собственных, названий событий, продуктов, топонимов и пр.
Например, это могут быть имена людей или названия компаний, названия географических объектов (города, реки, улицы и пр.).

В приведенной системе представлена классификация именованных сущностей на пять типов:
  • 1. физические лица (ФИО или любая составляющая ФИО, например, Владимир Петров)
  • 2. юридически лица (названия компаний, сообществ, союзов и т.п., например, ЗАО «МТС Северо-Запад»)
  • 3. географические названия, например, Париж
  • 4. продукты (названия продуктов, их марок, в том числе брендов, например, iPhone)
  • 5. события (именованные события: названия праздников, форумов, спортивных состязаний и т.п. мероприятий, например, Рождество)

Особенностью данной системы является то, что типы определяются не словарем, а на основе статистических алгоритмов. С одной стороны это может привести к ошибкам в определении типа сущности (например, "Красная Москва - когда-то это были самые замечательные духи" может определиться как география), но с другой стороны система способна корректно определить новый, ранее невстречавшийся тип.
Количество типов и описание их классов задается на этапе обучения (получения статистической модели).

Данная система работает с русскоязычными текстами и классифицирует слова, содержащие хотя бы одну заглавную букву. Точность определения типов сущностей (по мере F1):
  • 1. физические лица - около 95%
  • 2. юридически лица - около 87%
  • 3. географические названия - 92%
  • 4. продукты - 81%
  • 5. события - 79%
Скорость обработки текста данной системой состовляет порядка 400-450 кБайт/сек.

About

Named entity recognition (NER) in Russian texts / Определение именованных сущностей (NER) в тексте на русском языке

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published