Извлечение семантических отношений из текстов научных статей

Тихобаева Ольга Юрьевна
1. Новосибирский государственный университет
otikhobaeva10@gmail.com
Бручес Елена Павловна
1. Институт систем информатики им. А. П. Ершова СО РАН
2. Новосибирский государственный университет
bruches@bk.ru
Батура Татьяна Викторовна
1. Институт систем информатики им. А. П. Ершова СО РАН
2. Новосибирский государственный университет
tatiana.v.batura@gmail.com
Материал поступил в редколлегию 05.09.2022
В современном мире количество научных публикаций, существующих в виде электронного текста, постоянно растет. В связи с этим задачи, связанные с обработкой текстов научных статей, становятся особо актуальными. Данная работа посвящена задаче извлечения семантических отношений между сушностями из текстов научных статей на русском языке, где в качестве сущностей выступают научные термины. Извлечение отношений может быть полезно в отдельных специализированных областях, таких как поисковые и вопросно-ответные системы, а также при составлении онтологий. В ходе работы нами был создан корпус научных текстов, состоящий из 136 аннотаций научных статей на русском языке, в которых выделены 353 отношения следующих типов: USAGE, ISA, TOOL, SYNONYMS, PART_OF, CAUSE. Данный корпус использовался нами для обучения моделей. Кроме того, мы реализовали алгоритм автоматического извлечения семантических отношений и протестировали его на уже существующем корпусе научных текстов RuSERRC. Для реализации алгоритма использовалась нейросетевая модель BERT. Мы провели ряд экспериментов, связанных с использованием векторов,
полученных из различных языковых моделей, а также с двумя нейросетевыми архитектурами. Разработанный инструмент и размеченный корпус выложены в открытый доступ и могут быть полезны для других исследователей.

Выходные данные: О.Ю. Тихобаева, Е.П. Бручес, Т.В. Батура Извлечение семантических отношений из текстов научных статей. Вестник НГУ. Серия: Информационные технологии. 2022 Т.20, №3. C. 65–76. DOI: 10.25205/1818-7900-2022-20-3-65-76