Метод извлечения многокомпонентных терминологических единиц с правыми определениями из научно-технических текстов
Бутенко Юлия Ивановна
1. Московский государственный технический университет им. Н. Э. Баумана
iubutenko@bmstu.ru
Материал поступил в редколлегию 14.08.2024
В статье предложен метод извлечения русскоязычных многокомпонентных терминов, в структуре которых естьправые определения. Проведен анализ современных методов и программных средств извлечения специальной
терминологии, а на его основе показано, что они охватывают термины только с левыми определениями. Ис-
следована формальная структура многокомпонентных терминологических единиц с правыми определениями,
где особое внимание уделено их грамматическим особенностям. Обоснована нецелесообразность применения
лемматизации ко всем компонентам термина. Проанализирована корректность работы морфологических ана-
лизаторов в аспекте их применимости к извлечению многокомпонентных терминов. Приведены модели пя-
тикомпонентных терминов, которые стали основой для разработки метода извлечения русскоязычных много-
компонентных терминов с правыми определениями. В моделях определены ядерный элемент, левое и правое
определения, а также грамматические признаки правого определения. Проиллюстрированы различия в списках
терминов-кандидатов при использовании традиционных подходов, использующих лемматизацию на первом
этапе, и предложенного метода извлечения многокомпонентных терминов с правыми определениями.
Выходные данные: Ю.И. Бутенко Метод извлечения многокомпонентных терминологических единиц с правыми определениями из научно-технических текстов. Вестник НГУ. Серия: Информационные технологии. 2024 Т.22, №3. C. 5–14. DOI: 0.25205/1818-7900-2024-22-3-5-14