- Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация
- Архив
- 2020
- Том 18. Выпуск 1
- Прикладная и теоретическая лингвистика
Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы
Материал поступил в редколлегию 16.09.2019
Аннотация
Статья посвящена экспериментальной апробации методов автоматического определения половой принадлежности авторов на материале русской художественной прозы 1960–2000 гг. Цель данной работы – выявление
оптимальных методов автоматического определения половой принадлежности авторов, подкрепленное экспериментом по определению наиболее результативного алгоритма классификации художественных текстов при помощи машинного обучения. Задачи данного исследования включают в себя выделение грамматических и лексико-стилистических особенностей женской художественной прозы 1960–2000 гг. на фоне мужской прозы того же периода, а также и текстов XVIII–XIX вв.; отслеживание изменений в распределении употребления частей речи и знаков пунктуации на протяжении обозначенного периода. В женских и мужских текстах анализировались наиболее частотные части речи. Произведен анализ употребления особо часто используемых знаков препинания из заданного списка: вопросительный знак, восклицательный знак, запятая, двоеточие,
точка с запятой, точка, запятая. В статье показан анализ распределения частей речи и знаков пунктуации в художественных текстах мужчин и женщин XVIII–XIX вв. Также проведен эксперимент по выявлению наиболее действенного алгоритма определения половой принадлежности автора. В результате исследования установлено, что частотность употребления различных частей речи в женских и мужских текстах заданного
периода выглядит следующим образом: существительные, глаголы, предлоги, местоименные существительные, союзы и прилагательные, что отражает специфику художественного стиля. Можно заключить, что в со-
временной литературе женщины более активно используют возможности пунктуации как выразительного средства: доля употребления восклицательных, вопросительных знаков и запятых у писательниц значительно превышает значение, полученное посредством анализа мужских текстов. Выяснено, что наиболее эффективными классификаторами художественной литературы являются такие реализации алгоритмов, как BayesNet и SMO.
Ключевые слова
женская проза, пол, гендер, классификация, машинное обучение, кластеризация
Выходные данные: Хазова Анастасия Борисовна Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020, Том 18, Выпуск 1. C. 22–32. DOI: DOI 10.25205/1818-7935-2020-18-1-22-32