Необходимо разработать информационную систему определения симптомов в медицинских эпикризах.
100 размеченных эпикризов, 140 неразмеченных эпикризов
1 эпикриз ~ 500 слов, 10 симптомов
Ранее туберкулезом не болел. Изменения в легких выявлены на КТ ОГК, на которое был направлен после ДСТ. После выявления округлого образования в левом легком был направлен к онкологу. По рекомендации онколога выполнил ПЭТ/КТ, после которой направлен на консультацию фтизиатра: рекомендовано оперативное вмешательство с целью морфологической верификации патологического процесса.: На основании данных анамнеза, клинико-рентгенологического и лабораторного обследования установлен диагноз: Основной: Объемное образование верхней доли левого легкого: Туберкулома? Гамартохондрома? Показана морфологическая верификация процесса в легких. Перевод в ЛХО после завершения обследования.
- Сделать доразметку
- Обучить языковую модель классифицировать токены (Named Entity Recognition)
- Сделать постобработку.
Был развернут сервис label-studio, 3 практикующих врача разметили 140 эпикризов. Данные выделены в обучающий и тестовый наборы.
В основу экспериментов положен туториал по NER, логирование осуществлялось в mlflow. Были проведены эксперименты по дообучению языковой модели RuBioRoBERTa.
-
Дообучение классификатора
-
Дообучение модели с помощью LoRA
-
Дообучение модели c помощью LoRA на задаче MLM, а затем на задаче классификации. Для MLM был надйен другой датасет с анамнезами заболеваний ~ 14 000 примеров.
Выход модели может содержать части слов, ненужные символы или явно неправильные примеры, поэтому постобработка содержит множество эвристик, которые были придуманы в конце конкурса.



