Skip to content

HackFlex/AIm-Finder-2023

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

81 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AIm-Finder-2023

Задача конкурса

Необходимо разработать информационную систему определения симптомов в медицинских эпикризах.

Данные

100 размеченных эпикризов, 140 неразмеченных эпикризов

1 эпикриз ~ 500 слов, 10 симптомов

Пример части эпикриза

Ранее туберкулезом не болел. Изменения в легких выявлены на КТ ОГК, на которое был направлен после ДСТ. После выявления округлого образования в левом легком был направлен к онкологу. По рекомендации онколога выполнил ПЭТ/КТ, после которой направлен на консультацию фтизиатра: рекомендовано оперативное вмешательство с целью морфологической верификации патологического процесса.: На основании данных анамнеза, клинико-рентгенологического и лабораторного обследования установлен диагноз: Основной: Объемное образование верхней доли левого легкого: Туберкулома? Гамартохондрома? Показана морфологическая верификация процесса в легких. Перевод в ЛХО после завершения обследования.

Подход к решению

  1. Сделать доразметку
  2. Обучить языковую модель классифицировать токены (Named Entity Recognition)
  3. Сделать постобработку.

1. Доразметка

Был развернут сервис label-studio, 3 практикующих врача разметили 140 эпикризов. Данные выделены в обучающий и тестовый наборы.

image image

2. Обучение нейросети

В основу экспериментов положен туториал по NER, логирование осуществлялось в mlflow. Были проведены эксперименты по дообучению языковой модели RuBioRoBERTa.

  1. Дообучение классификатора

  2. Дообучение модели с помощью LoRA

  3. Дообучение модели c помощью LoRA на задаче MLM, а затем на задаче классификации. Для MLM был надйен другой датасет с анамнезами заболеваний ~ 14 000 примеров.

Некоторые эксперименты

Некоторые эксперименты

3. Постобработка

Выход модели может содержать части слов, ненужные символы или явно неправильные примеры, поэтому постобработка содержит множество эвристик, которые были придуманы в конце конкурса.

Вывод

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •