Автоматизированная классификация русских поэтических текстов по жанрам и стилям

Материал поступил в редколлегию 03.07.2017
Аннотация
Проанализированы принципы формирования обучающих выборок для алгоритмов автоматизированного определения жанров и стилей русских поэтических текстов. Проведены вычислительные эксперименты с использованием корпуса текстов лицейской лирики А. С. Пушкина по выбору наиболее точного алгоритма классификации, в том числе с использованием наиболее известных приемов ансамблирования базовых алгоритмов в композиции, таких как взвешенное голосование, бустинг и стекинг, причем в качестве характеристических признаков стихотворений использовались одиночные слова, биграммы и триграммы. Рассмотренные алгоритмы показали свою работоспособность и могут быть использованы для автоматизации комплексного анализа русских поэтических текстов, при этом было установлено, что даже с помощью простых классификаторов на основе лексических признаков или n-грамм можно получить хороший результат; исходя из критерия максимизации минимальной точности, следует использовать многослойный персептрон, а в качестве лексических характеристик стихотворений - триграммы. Разработанные алгоритмы способны существенно облегчить работу эксперта при определении стилей и жанров поэтических текстов путем предоставления соответствующих рекомендаций.

Ключевые слова: автоматический анализ поэтических текстов, определение жанров и стилей, алгоритмы классификации.

Выходные данные: Барахнин В. Б., Кожемякина О.Ю., Пастушков И.С., Рычкова Е.В. Автоматизированная классификация русских поэтических текстов по жанрам и стилям. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 15, 3. C. 13–23. DOI: 10.25205/1818-7935-2017-15-3-13-23