Автоматическое связывание терминов из научных текстов с сущностями базы знаний
Батура Татьяна Викторовна
1. Институт систем информатики им. А. П. Ершова СО РАН
2. Новосибирский государственный университет
tatiana.v.batura@gmail.com
Бручес Елена Павловна
1. Институт систем информатики им. А. П. Ершова СО РАН
2. Новосибирский государственный университет
bruches@bk.ru
Материал поступил в редколлегию 01.03.2021
В настоящее время в связи с ростом научных публикаций все большую актуальность приобретают задачи, связанные с обработкой текстов научных статей. Такие тексты имеют особую структуру, лексическое и семантическое наполнение, что нужно учитывать при автоматическом анализе. Использование информации из баз знаний способно улучшить качество систем обработки текстов. Данная работа посвящена задаче связывания сущностей в текстах научных статей на русском языке, где в качестве сущностей выступают научные термины. Нами был размечен корпус научных текстов, где каждый термин связывался с сущностью из базы знаний. Также мы реализовали алгоритм связывания сущностей и протестировали его на полученном корпусе. Алгоритм состоит из двух этапов: генерация сущностей-кандидатов для входного термина и ранжирование полученного множества кандидатов. На этапе генерации список кандидатов формируется на основе построчного совпадения термина и сущности. Для ранжирования и выбора наиболее релевантной сущности для входного термина используется информация о количестве отношений сущности в базе знаний с другими сущностями, а также о количестве ссылок у сущности на другие базы знаний. Проведен анализ результатов и предложены возможные пути улучшения алгоритма, в частности использование информации о контексте термина и структуры графа знаний. Размеченный корпус выложен в открытый доступ и может быть полезен для других исследователей. Выходные данные: А. А. Мезенцева, Е. П. Бручес, Т. В. Батура Автоматическое связывание терминов из научных текстов с сущностями базы знаний. Вестник НГУ. Серия: Информационные технологии. 2021 Т.19, №2. C. 65–75. DOI: 10.25205/1818-7900-2021-19-2-65-75