Метод автоматического извлечения терминов из научных статей на основе слабо контролируемого обучения

Батура Татьяна Викторовна
1. Институт систем информатики им. А. П. Ершова СО РАН
2. Новосибирский государственный университет
tatiana.v.batura@gmail.com
Бручес Елена Павловна
1. Институт систем информатики им. А. П. Ершова СО РАН
2. Новосибирский государственный университет
bruches@bk.ru
Материал поступил в редколлегию 15.02.2021
Описывается метод извлечения научных терминов из текстов на русском языке, основанный на слабо контролируемом обучении (weakly supervised learning). Особенность данного метода заключается в том, что для него не нужны размеченные вручную данные, что является очень актуальным. Для реализации метода мы собрали в полуавтоматическом режиме словарь терминов, затем автоматически разметили тексты научных статей эти-ми терминами. Полученные тексты мы использовали для обучения модели. Затем этой моделью были автоматически размечены другие тексты. Вторая модель была обучена на объединении текстов, размеченных словарем и первой моделью. Результаты показали, что добавление данных, полученных даже автоматической разметкой, улучшает качество извлечения терминов из текстов. 
Выходные данные: Е. П. Бручес, Т. В. Батура Метод автоматического извлечения терминов из научных статей на основе слабо контролируемого обучения. Вестник НГУ. Серия: Информационные технологии. 2021 Т.19, №2. C. 5–16. DOI: 10.25205/1818-7900-2021-19-2-5-16