Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы

Материал поступил в редколлегию 16.09.2019
Аннотация Статья посвящена экспериментальной апробации методов автоматического определения половой принадлежности авторов на материале русской художественной прозы 1960–2000 гг. Цель данной работы – выявление оптимальных методов автоматического определения половой принадлежности авторов, подкрепленное экспериментом по определению наиболее результативного алгоритма классификации художественных текстов при помощи машинного обучения. Задачи данного исследования включают в себя выделение грамматических и лексико-стилистических особенностей женской художественной прозы 1960–2000 гг. на фоне мужской прозы того же периода, а также и текстов XVIII–XIX вв.; отслеживание изменений в распределении употребления частей речи и знаков пунктуации на протяжении обозначенного периода. В женских и мужских текстах анализировались наиболее частотные части речи. Произведен анализ употребления особо часто используемых знаков препинания из заданного списка: вопросительный знак, восклицательный знак, запятая, двоеточие, точка с запятой, точка, запятая. В статье показан анализ распределения частей речи и знаков пунктуации в художественных текстах мужчин и женщин XVIII–XIX вв. Также проведен эксперимент по выявлению наиболее действенного алгоритма определения половой принадлежности автора. В результате исследования установлено, что частотность употребления различных частей речи в женских и мужских текстах заданного периода выглядит следующим образом: существительные, глаголы, предлоги, местоименные существительные, союзы и прилагательные, что отражает специфику художественного стиля. Можно заключить, что в со- временной литературе женщины более активно используют возможности пунктуации как выразительного средства: доля употребления восклицательных, вопросительных знаков и запятых у писательниц значительно превышает значение, полученное посредством анализа мужских текстов. Выяснено, что наиболее эффективными классификаторами художественной литературы являются такие реализации алгоритмов, как BayesNet и SMO. Ключевые слова женская проза, пол, гендер, классификация, машинное обучение, кластеризация
Выходные данные: Хазова Анастасия Борисовна Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020, Том 18, Выпуск 1. C. 22–32. DOI: DOI 10.25205/1818-7935-2020-18-1-22-32