Разработка системы классификации текстов по научным специальностям с применением методов машинного обучения
Материал поступил в редколлегию 15.01.2021
Описана разработка системы классификации тестов по научным специальностям. В качестве научных текстов использована выборка авторефератов по группе специальностей научных работников 05.13.00 «Информатика, вычислительная техника и управление». Приведены основные сведения по методике сбора и фильтрации исходных данных. Описаны способы подготовки исходных данных к моделированию. Для векторизации исходных текстов использована модель TF-IDF, которая позволила при ограниченных технических возможностях загрузить весь объем данных. Для разработки модели машинного обучения применена многоклассовая логистическая регрессия. В работе также описывается процесс и результат разработки веб-приложения для классификации текстов авторефератов. Приведены сведения о возможных путях развития системы классификации. Выходные данные: П. Ю. Гусев Разработка системы классификации текстов по научным специальностям с применением методов машинного обучения. Вестник НГУ. Серия: Информационные технологии. 2021 Т.19, №1. C. 39–47. DOI: 10.25205/1818-7900-2021-19-1-39-47