Модель текста научно-технической статьи для разметки в корпусе научно-технических текстов

Бутенко Юлия Ивановна
1. Московский государственный технический университет им. Н. Э. Баумана
iubutenko@bmstu.ru
Материал поступил в редколлегию 07.11.2022
В статье предложена модель текста научно-технической статьи для автоматизации разметки в корпусе научно-технических текстов. Обосновано, что при создании корпуса научно-технических текстов необходимо учитывать структурные особенности текстов научно-технических статей. Показана необходимость добавления структурной разметки в корпус научно-технических текстов. Отмечено, что тексты научно-технических статей имеют одинаковую для всех текстов этого класса структуру изложения материала, а также содержат ограниченный набор структурных элементов. Проанализированы особенности композиционной организации текстов научно-технических статей. Описано примерное содержание каждого из элементов структуры статьи. Представлена композиционная структура текстов научно-технических статей в нотациях Бекуса-Наура. Предложена модель текста научно-технической статьи в виде графа, вершинами и ребрами которого являются полноценные структурные элементы научно-технической статьи. Обосновано, что представление текста научно-технической статьи в виде графа дает возможность в процессе компьютерного анализа текста определить тип структурного элемента, степень вложенности, за счет подачи научно-технической статьи в виде конечного множества ее составных частей. Обосновано, что наличие структурной разметки в корпусе научно-технических текстов значительно расширит его исследовательский потенциал и послужит базой для задач автоматической обработки научно-технических текстов.

Выходные данные: Ю.И. Бутенко Модель текста научно-технической статьи для разметки в корпусе научно-технических текстов. Вестник НГУ. Серия: Информационные технологии. 2022 Т.20, №3. C. 5–13. DOI: 10.25205/1818-7900-2022-20-3-5-13